TWI831573B

TWI831573B - 音訊處理單元與音訊處理的方法

Info

Publication number: TWI831573B
Application number: TW112101558A
Authority: TW
Inventors: 傑佛瑞萊德米勒; 麥可沃德
Original assignee: 美商杜比實驗室特許公司
Priority date: 2013-06-19
Filing date: 2014-05-29
Publication date: 2024-02-01
Also published as: BR122020017897B1; TWI553632B; US20160322060A1; JP6046275B2; CN106297811A; JP3186472U; KR200478147Y1; TW201506911A; US10037763B2; AU2014281794B9; TW201735012A; EP2954515A1; CN110473559A; SG10201604617VA; JP2016507088A; TWI588817B; CN104240709A; FR3007564A3; MY171737A; US10147436B2

Abstract

一種音訊處理單元，包含緩衝記憶體，其儲存經編碼的音訊位元流的一部分，其中該經編碼的音訊位元流被分割成訊框，且至少一個訊框在該至少一個訊框的元資料區段中包含節目資訊元資料，而在該至少一個訊框的另一個區段中包含音訊資料，以及處理次系統，其耦接到該緩衝記憶體，其中該處理次系統係配置以將該經編碼的音訊位元流解碼，其中該元資料區段包含至少一個元資料酬載，該元資料酬載包含信頭，以及該節目資訊元資料中的至少一些，其在該信頭之後。

Description

音訊處理單元與音訊處理的方法

本發明屬於音訊信號處理，更明確地說，關於音訊資料位元流的編碼與解碼，以元資料表示有關於為位元流所表示的音訊內容的次流結構及/或節目資訊。本發明之一些實施例以被稱為杜比數位(AC-3)、杜比數位+(加強AC-3或E-AC-3)或杜比E的任一格式產生或解碼音訊資料。

杜比、杜比數位、杜比數位+及杜比E為杜比實驗室授權公司的商標。杜比實驗室分別提供稱為杜比數位及杜比數位+的AC-3及E-AC-3的專屬實施法。

音訊資料處理單元典型以盲目方式操作並且未注意到資料被接收前所發生的音訊資料的處理歷史。這也可以在處理框架中工作，其中，單一實體完成所有用於各種目標媒體演出裝置的音訊資料處理及編碼，同時，目標媒體演出裝置完成所有的編碼音訊資料的解碼與演出。然而，當有多數音訊處理單元被分散於不同網路上或串級(即鏈接)置放並將被期待以最佳化執行其個別類型的音訊處理時，此盲目處理並未良好(或完全不行)動作。例如，一些音訊資料可以被編碼用於高效能媒體系統並可能必須沿著媒體處理鏈被轉換為適用於行動裝置的縮減型式。因此，音訊處理單元可能不必然對該已經執行的音訊資料執行一類型處理。例如，音量位準單元可能對輸入音訊夾執行處理，而不管是否相同或類似音量位準已經被先前執行於該輸入音訊夾上。結果，音量位準單元即使在不必要時仍可能執行位準化。此不必要處理也可能造成於演出音訊資料的內容時，特定特性的劣化及/或移除。

在一群實施例中，本發明為能解碼一編碼位元流的音訊處理單元，該編碼位元流包含在該位元流的至少一訊框的至少一區段中的次流結構元資料及/或節目資訊元資料(並選用地其他元資料，例如，響度處理狀態元資料)及在該訊框的至少一其他區段中的音訊資料。於此，次流結構元資料(或SSM)表示編碼位元流(或編碼位元流組)的元資料，表示該編碼位元流的音訊內容的次流結構，及“節目資訊元資料(或PIM)”表示編碼音訊位元流的元資料，表示至少一音訊節目(例如，兩或更多音訊節目)，其中該節目資訊元資料表示至少一該節目的音訊內容的至少一特性或特徵(例如，表示執行在該節目的音訊資料上的處理的類型或參數的元資料或者表示哪頻道的節目為作動頻道的元資料)。

在典型情況下(例如，其中編碼位元流為AC-3或E-AC-3位元流時)，節目資訊元資料(PIM)表示不能被實際承載於位元流的其他部份中的節目資訊。例如，PIM可以表示在編碼(例如，AC-3或E-AC-3編碼)前施加至PCM音訊的處理及用以在位元流中建立動態範圍壓縮(DRC)資料的壓縮輪廓，其中，音訊節目的頻帶已經使用特定音訊編碼技術加以編碼。

在其他群的實施例中，一種方法包含在位元流的各個訊框(或各個至少一部份訊框)中，將編碼音訊資料以SSM及/或PIM多工。在典型解碼中，解碼器由位元流擷取SSM及/或PIM(包含剖析及解多工SSM及/或PIM及音訊資料)並處理音訊資料，以產生一解碼音訊資料流(及在一些情況下，也執行音訊資料的適應處理)。在一些實施例中，解碼音訊資料及SSM及/或PIM被由解碼器向後處理器傳送，該後處理器被組態以使用SSM及/或PIM對解碼音訊資料執行適應處理。

在一群實施例中，本發明編碼方法產生編碼音訊位元流(例如AC-3或E-AC-3位元流)，其包含音訊資料區段(例如，示於圖4的訊框的AB0-AB5區段或者示於圖7的訊框的所有或部份區段AB0-AB5)，其包含編碼音訊資料，及被以音訊資料區段分時多工的元資料區段(包含SSM及/或PIM，或選用也包含其他元資料)。在一些實施例中，各個元資料區段(有時也於此稱為“盒”)具有一格式，其包含元資料區段信頭(及選用地也包含其他強制或“核心”元件)，及跟隨在該元資料區段信頭後的一或更多元資料酬載。如果有的話，SIM被包含在一元資料酬載中(為酬載信頭所識別，並典型具有第一類型的格式)。如果有的話，PIM係被包含在另一元資料酬載中(為酬載信頭所識別，並典型具第二類型的格式)。同樣地，(如果有)其他類型的元資料被包含在再一元資料酬載中(為酬載信頭所識別，並典型具有為該類型元資料所特定之格式)。該例示格式允許(例如，解碼後的後處理器，或被組態以辨識該元資料的處理器，而不對編碼位元流執行整個解碼)對SSM、PIM及其他元資料作方便取用，及在解碼以外的時間對其他元資料的方便取用，並在位元流解碼時，允許方便及有效(例如次流識別的)錯誤檢測及校正。例如，不取用例示格式的SSM，解碼器可能不正確地識別有關於一節目的次流的正確數目。在元資料區段中的一元資料酬載可以包含SSM，在元資料區段中的另一元資料酬載可以包含PIM，並選用地在元資料區段中的至少另一元資料酬載可以包含其他元資料(例如響度處理狀態元資料或“LPSM”)。

100:編碼器

101:解碼器

102:音訊狀態驗證器

103:響度處理級

104:音訊流選擇級

105:編碼器

106:元資料產生器

107:填充器/格式化級

108:對話響度量測次系統

109:訊框緩衝器

110:訊框緩衝器

111:剖析器

150:輸送系統

152:解碼器

200:解碼器

201:訊框緩衝器

202:音訊解碼器

203:音訊狀態驗證器

204:控制位元產生器

205:剖析器

300:後處理器

301:訊框緩衝器

圖1為被組態以執行本發明方法實施例的系統的實施例的方塊圖。

圖2為本發明音訊處理單元的實施例的編碼器的方塊圖。

圖3為本發明音訊處理單元的實施例的解碼器的方塊圖，及耦接至其上的本發明音訊處理單元的另一實施例的後處理器。

圖4為AC-3訊框的示意圖，其包含所分割的區段。

圖5為AC-3訊框的同步化資訊(SI)區段示意圖，其包含所分割的區段。

圖6為AC-3訊框的位元流資訊(BSI)區段示意圖，其包含所分割的區段。

圖7為E-AC-3訊框的示意圖，其包含所分割的區段。

圖8為依據本發明實施例所產生的編碼位元流的元資料區段的方塊圖，其包含元資料區段信頭，其包含盒同步字元(在圖8被識別為“盒同步”)及版本及鑰ID值，其後有多數元資料酬載及保護位元。

標示及命名法

在整個說明書中，包含申請專利範圍，在信號或資料“上”執行操作的表示法(例如濾波、縮放、轉換或對信號或資料施加增益)係以廣義方式，以表示直接對該信號或資料執行操作，或在該信號或資料的已處理版本(例如，已經受到初步濾波或在其上執行操作前的預處理的信號版本)執行操作。

在整個說明書中，包含申請專利範圍，“系統”的表示法係以廣義方式表示裝置、系統或次系統。例如，實施解碼器的次系統也可以被稱為解碼器系統，及包含此一次系統的系統(例如，回應於多輸入，產生X輸出信號的系統，其中次系統產生M輸入及其他X-M輸入被由外部來源接收)也可以被稱為解碼器系統。

在整個說明書中，包含申請專利範圍，用語“處理器”係被廣義地表示系統或裝置，其可(例如，以軟體或韌體)被規劃或可組態以對資料(例如音訊，或視訊或其他影像資料)執行操作。處理器的例子包含場可規劃閘陣列(或其他可組態積體電路或晶片組)、被規劃及/或組態以對音訊或其他聲音資料執行管線處理的數位信號處理器、可規劃一般目的處理器或電腦、及可規劃微處理器晶片或晶片組。

在整個說明書中，包含申請專利範圍，表示法“音訊處理器”及“音訊處理單元”係被交互使用，以廣義來說，表示被組態以處理音訊資料的系統。音訊處理單元的例子包含但並不限於編碼器(例如轉碼器)、解碼器、編解碼器、預處理系統、後處理系統、及位元流處理系統(有時稱為位元流處理工具)。

在整個說明書中，包含申請專利範圍，(編碼音訊位元流的)“元資料”的表示法表示來自位元流的對應音訊資料的分開且不同資料。

在包含申請專利範圍的本案中，表示法“次流結構元資料(SSM)”表示編碼音訊位元流(或編碼音訊位元流組)的元資料，表示編碼位元流的音訊內容的次流結構。

在包含申請專利範圍的本案中，表示法“節目資訊元資料”(或“PIM”)表示至少一音訊節目(例如兩或更多音訊節目)的編碼音訊位元流的元資料，其中，元資料表示至少一該節目的音訊內容的至少一特性或特徵(例如，元資料表示執行在該節目的音訊資料的處理類型或參數或者，表示該節目的哪些頻道為作動頻道的元資料)。

在包含申請專利範圍的本案中，表示法“處理器狀態元資料”(例如，表示為“響度處理狀態元資料”)表示有關於位元流的音訊資料(編碼音訊位元流)的元資料，表示相對(相關)音訊資料的處理狀態(例如，已經對音訊資料執行什麼類型處理)，並典型地表示該音訊資料的至少一特性或特徵。處理狀態元資料與音訊資料的相關性係時間同步的。因此，現行(最新接收或更新)處理狀態元資料表示對應音訊資料同時包含音訊資料處理的表示類型的結果。在一些例子中，處理狀態元資料可以包含處理歷史及/或一些或所有用於所表示類型處理及/或由之所導出的參數。另外，處理狀態元資料可以包含對應音訊資料的至少一特性或特徵，其已經由音訊資料所計算出或擷取者。處理狀態元資料也可以包含無關或未由對應音訊資料的處理導出的其他元資料。例如，第三方資料、追蹤資訊、識別碼、專屬或標準資訊、使用者註解資料、使用者喜好資料等等可以被一特定音訊處理單元所加入以傳送至其他音訊處理單元。

在包含申請專利範圍的本案中，表示法“響度處理狀態元資料”(或“LPSM”)表示處理狀態元資料，其表示對應音訊資料的響度處理狀態(例如，什麼類型響度處理已經被執行於音訊資料上)並典型對應音訊資料的至少一特性或特徵(例如，響度)。響度處理狀態元資料可以包含資料(例如其他元資料)，(即當單獨考量時)不是響度處理狀態元資料。

在包含申請專利範圍的本案中，表示法“頻道”(或“音訊頻道”)表示一單音音訊信號。

在包含申請專利範圍的本案中，表示法“音訊節目”表示一組一或更多音訊頻道及選用地也有相關元資料(例如，描述想要空間音訊表示法的元資料、及/或PIM、及/或SSM、及/或LPSM、及/或節目邊界元資料)。

在包含申請專利範圍的本案中，表示法“節目邊界元資料”表示編碼音訊位元流的元資料，其中編碼音訊位元流表示至少一音訊節目(例如兩或更多音訊節目)，及節目邊界元資料表示至少一該音訊節目的至少一邊界(開始及/或結束)的位元流的位置。例如，(表示音訊節目的編碼音訊位元流的)節目邊界元資料可以包含表示該節目開始的(例如，位元流的第“N”個訊框的開始，或該位元流的第“N”個訊框的第“M”個取樣位置)位置的元資料，及其他元資料表示節目結束的位置(例如，位元流的第“J”個訊框的開始，或該位元流的第“J”個訊框的第“K”取樣位置)。

在包含申請專利範圍的本案中，用語“耦接”或“被耦接”被用以表示直接或間接連接。因此，如果第一裝置耦接至第二裝置，該連接可以是透過一直接連接，或者經由其他裝置及連接透過間接連接。

音訊資料的典型流包含音訊內容(例如，一或更多頻道的音訊內容)及表示該音訊內容的至少一特徵的元資料。例如，在AC-3位元流中，有幾個特別想要用以改變輸入至收聽環境的節目的聲音的音訊元資料參數。元資料參數之一為DIALNORM參數，其想要表示在音訊節目中的對話的平均位準，並用以決定音訊播放信號位準。

在播放包含一順序不同音訊節目區段(各個具有不同DIALNORM參數)的位元流時，AC-3解碼器使用各個區段的DIALNORM參數以執行一類型的響度處理，其中，其修改播放位準或響度，使得該順序的區段的對話的收聽響度在一致位準。在一順序編碼音訊項目中的各個編碼音訊區段(項目)將(通常)具有不同 DIALNORM參數，及該解碼器將縮放各個項目的位準，使得各個項目的播放位準或對話的響度相同或很類似，但這可能在播放時對不同項目需要應用不同數量的增益。

雖然DIALNORM典型為使用者所設定，並未自動產生，但如果沒有值為使用者所設定，但仍有預設DIALNORM值。例如，內容建立器可以以AC-3編碼器外的裝置完成響度量測，然後傳送結果(表示音訊節目的說話對話的響度)給編碼器，以設定DIALNORM值。因此，對於內容建立器有信賴度，以正確地設定DIALNORM參數。

有幾個在AC-3位元流中的DIALNORM參數可能不正確的不同原因。第一，如果DIALNORM值並未為內容建立器所設定，則各個AC-3編碼器具有預設DIALNORM值，其係在位元流的產生時所使用。此預設值可以與音訊的實際對話響度位準顯著不同。第二，即使內容建立器量測響度並設定DIALNORM值，不符合推薦AC-3響度量測法的響度量測演算法或錶可能已經使用，造成不正確DIALNORM值。第三，即使AC-3位元流已經以量測的DIALNORM值加以建立並為內容建立器所正確設定，其可能在位元流傳輸及/或儲存時改變為一不正確值。例如，電視廣播應用並非不常見，使用不正確DIALNORM元資料資訊，以解碼、修改及然後再編碼AC-3位元流。因此，包含在AC-3位元流中的DIALNORM值可以是不正確或不準確，因此，在收聽經驗的品質上，可能具有負面衝擊。

再者，DIALNORM參數並不表示對應音訊資料的響度處理狀態(例如，什麼類型響度處理已經被執行於音訊資料上)。響度處理狀態元資料(以本發明之一些實施例中所提供的格式)係有用於促成以很有效方式，適應地響度處理音訊位元流及/或驗證響度處理狀態的有效性及音訊內容的響度。

雖然本發明並不限於使用AC-3位元流、E-AC-3位元流、或杜比E位元流，然而，為了方便起見，將以產生、解碼或處理此位元流的實施例加以描述。

AC-3編碼位元流包含元資料及音訊內容的一至六頻道。音訊內容係為已經使用察覺音訊編碼法加以壓縮的音訊資料。元資料包含幾個音訊元資料參數，其已經想要被用以改變輸送至收聽環境的節目的聲音。

AC-3編碼音訊位元流的各個訊框包含音訊內容及用於1536取樣數位音訊的元資料。對於48kHz的取樣率，此代表32毫秒的數位音訊或每秒31.25訊框率的音訊。

取決於該訊框是分別包含一、二、三或六方塊的音訊資料，E-AC-3編碼音訊位元流的各個訊框包含音訊內容與用於256、512、768或1536取樣數位音訊的元資料。對於48kHz取樣率，此代表5.333、10.667、16或32毫秒的數位音訊，或分別代表每秒189.9、93.75、62.5或31.25訊框率的音訊。

如於圖4所表示，各個AC-3訊框係被分割成區域(區段)，包含：同步化資訊(SI)區域，其包括(如圖5所示)的同步化字元(SW)及兩錯誤校正字元之前一個(CRC1)；位元流資訊(BSI)區域，其包含多數的元資料；六個音訊方塊(AB0-AB5)，其包含有資料壓縮音訊內容(並也包含元資料)，其廢棄位元區段(W)(也稱為”跳脫欄”)，其包含在音訊內容被壓縮後剩下未使用位元的；可能包含更多元資料的輔助(AUX)資訊區段；及兩錯誤校正字元的第二個(CRC2)。

如於圖7所表示，各個E-AC-3訊框被分別成多數區域(區段)，包含：包括(如圖5所示)同步化字元(SW)的同步化資訊(SI)區域；包括多數的元資料的位元流資訊(BSI)區域；包含資料壓縮音訊內容(並也可能包含元資料)的一到六個音訊區塊(AB0至AB5)；包括在音訊內容被壓縮後的剩下未使用位元的廢棄位元區段(W)(也稱為“跳脫欄”)(雖然只顯示一廢棄位元區段，但不同廢棄位元或跳脫欄區段可能典型跟隨各個音訊區塊)；可能包括更多元資料的輔助(AUX)資訊區段；及錯誤校正字元(CRC)。

在AC-3(或E-AC-3)位元流中，有幾個音訊元資料參數，其被特別想要用於改變輸送至收聽環境的節目的聲音。元資料參數之一為DIALNORM參數，其係包括在BSI區段中。

如於圖6所示，AC-3訊框的BSI區段包括表示用於該節目的DIALNORM值的五位元參數(“DIALNORM”)。如果AC-3訊框的音訊編碼模式(acmod)為“0”，則包含有表示用於被載於相同AC-3訊框中的第二音訊節目的DIALNORM值的一個五位元參數(DIALNORM2)，表示“一雙-單或“1+1”頻道組態正被使用。

BSI區段也包含旗標(“addbsie”)，其表示在“addbsie”位元後的額外位元流資訊出現(或未出現)；參數(addbsil)，其表示跟隨該“addbsil”值的任一額外位元流資訊的長度，及在該“addbsil”值後的最多64位元的額外位元流資訊(addbsi)。

BSI區段包括未明確示於圖6的其他元資料值。

依據一群實施例，編碼音訊位元流表示多個次流的音訊內容。在一些情況下，次流表示多頻道節目的音訊內容，及各個次流表示一或更多節目頻道。在其他情況下，則編碼音訊位元流的多次流表示幾個音訊節目的音訊內容，典型地一“主”音訊節目(其可以為多頻道節目)及至少一其他音訊節目(例如在主音訊節目的註解節目)。

表示至少一音訊節目的編碼音訊位元流必然地包括至少一個“獨立”次流的音訊內容。獨立次流表示音訊節目的至少一頻道(例如，獨立次流可以表示五個全範圍頻道的傳統5.1頻道音訊節目)。於此，此音訊節目被稱為“主”節目。

在一些群實施例中，編碼音訊位元流表示兩或更多音訊節目(“主”節目及至少一其他音訊節目)。在此等情況下，位元流包含兩或更多獨立次流：第一獨立次流，表示主節目之至少一頻道；及至少一個其他獨立次流，表示另一音訊節目(與主節目不同的節目)的至少一頻道。各個獨立位元流可以獨立解碼，及一解碼器可以操作以只解碼編碼位元流的獨立次流的次組(並非全部)。

在表示兩個獨立次流的編碼音訊位元流的典型例子中，獨立次流之一係表示多頻道主節目的標準格式喇叭頻道(例如，5.1頻道主節目的左、右、中、左環繞、右環繞全範圍喇叭頻道)，及其他獨立次流表示在主節目上的註解單音音訊(例如，在電影上的導演註解，其中，主節目為電影的聲道)。在表示多獨立次流的編碼音訊位元流的另一例子中，獨立次流之一表示多頻道主節目的標準格式喇叭頻道(例如，5.1頻道主節目)，其包含第一語言的對話(例如主節目的喇叭頻道之一可以表示該對話)，及各個其他獨立次流表示該對話的單音翻譯(成不同語言)。

或者，表示主節目(及選用地至少另一音訊節目)的編碼音訊位元流包含音訊內容的至少一“相依”次流。各個相依次流係相關於該位元流的一個獨立次流，並表示該節目的至少一額外頻道(例如主節目)，其內容係為相關獨立次流所表示(即，相依次流表示節目中未為相關獨立次流所表示的至少一頻道，及相關獨立次流表示該節目的至少一頻道)。

在包括獨立次流(表示主節目的至少一頻道)的編碼位元流例子中，位元流也包含(相關於獨立位元流的)相依次流，其表示主節目的一或更多額外喇叭頻道。此等額外喇叭頻道為獨立次流所表示的主節目頻道的額外的。例如，如果獨立次流表示7.1頻道主節目的標準格式左、右、中、左環繞、右環繞全範圍喇叭頻道，則相依次流可以表示主節目的該另兩個全範圍喇叭頻道。

依據E-AC-3標準，E-AC-3位元流必須表示至少一獨立次流(例如，單一AC-3位元流)，並可以表示至多八個獨立次流。E-AC-3位元流的各個獨立次流可以相關至多八個相依次流。

E-AC-3位元流包括表示位元流的次流結構的元資料。例如，在E-AC-3位元流的位元流資訊(BSI)區域中的“chanmap”欄決定為該位元流的相依次流所表示的節目頻道的頻道映圖。然而，表示次流結構的元資料傳統上以一種格式包括在E-AC-3位元流中，此格式使得只方便為E-AC-3解碼器所存取及使用(在解碼該編碼E-AC-3位元流期間)；並在(例如為後處理器所)解碼後或在(例如為組態以辨識元資料的處理器所)解碼之前，不被存取及使用。同時，也有一風險，其中解碼器可以使用傳統包含的元資料而不正確地識別傳統E-AC-3編碼位元流的次流，並且其為未知的，直到本發明才知以一格式來在編碼位元流(例如，編碼E-AC-3位元流)中包含次流結構元資料，以允許在位元流的解碼期間，方便及有效地檢測及校正在次流識別中的錯誤。

E-AC-3位元流也可以包含有關於音訊節目的音訊內容的元資料。例如，表示音訊節目的E-AC-3位元流包含表示已經用以編碼節目的內容的頻譜擴充處理(及頻道耦合編碼)的最小及最大頻率的元資料。然而，此元資料通常被以只方便E-AC-3解碼器存取及使用(在解碼編碼E-AC-3位元流期間)的格式包含在E-AC-3位元流中；而在(例如以後處理器)解碼後或(例如，以組態以辨識元資料的處理器)解碼之前，則不方便存取與使用。同時，此元資料並未在解碼該位元流期間，以允許方便及有效對此元資料識別作錯誤檢測及錯誤校正的格式包含在E-AC-3位元流中。

依據本發明的典型實施例中，PIM及/或SSM(及選用地其他元資料，例如，響度處理狀態元資料或”LPSM”)係被內藏於音訊位元流的元資料區段的也包含其他區段中的音訊資料(音訊資料區段)的一或更多保留欄(或槽)中。典型地，位元流的各個訊框的至少一區段包含PIM或SSM，及該訊框的至少另一區段包含對應音訊資料(即，音訊資料，其次流結構係為SSM所表示及/或為PIM所表示的至少一特徵或特性)。

在一群實施例中，各個元資料區段為資料結構(有時在此稱為盒)，其可以包含一或更多元資料酬載。各個酬載包含具有特定酬載識別碼(及酬載組態資料)的信頭，以提供出現在酬載中的元資料類型的明確指示。在該盒內的酬載順序並未界定，使得酬載可以以任何順序儲存及剖析器必須能剖析整個盒，以擷取相關酬載並忽略無關或未支援的酬載。圖8(如下所述)例示此一盒及在該盒內的酬載的結構。

當兩或更多音訊處理單元需要在整個處理鏈(或內容生命周期)中彼此串接動作時，在音訊資料處理鏈中傳送元資料(例如，SSM及/或PIM及/或LPSM)係特別有用。在音訊位元流中沒有元資料，可能發生例如品質、位準及空間劣化的嚴重媒體處理問題，例如當兩或更多音訊編解碼器被用於該鏈中及在至媒體消費裝置的位元流路徑期間單端音量位準被施加超出一次(或位元流的音訊內容的演出點)時。

依據本發明一些實施例的內藏在音訊位元流內的響度處理狀態元資料(LPSM)可以被鑑別及驗證，例如，以使得響度管理機構，以驗證是否一特定節目的響度已經在指定範圍內以及該相關音訊資料本身已經被修改過否(藉以確保符合可應用法規)。包含在具有響度處理狀態元資料的資料區塊內的響度值可以被讀出，以驗證如此，而不是再次計算響度。回應於LPSM，(如LPSM所表示)管理機構可以決定相關音訊內容是否符合響度法規及/或管理要求(例如已稱為“CALM”法的商用廣告響度減輕法規定下的法規)，而不必計算音訊內容的響度。

圖1為例示音訊處理鏈(音訊資料處理系統)的方塊圖，其中該系統的一或更多元件可以依據本發明實施例加以組態。該系統包含以下元件，如所示地耦接在一起：預處理單元、編碼器、信號分析及元資料校正單元、轉碼器、解碼器、及後處理單元。在所示的系統的變化例中，一或更多元件被省略或者也包含其他音訊資料處理單元。

在一些實施法中，圖1的預處理單元被組態以接受包含音訊內容作為輸入的PCM(時域)取樣，並輸出已處理的PCM取樣。編碼器可以被組態以接受PCM取樣作為輸入並輸出表示該音訊內容的編碼(例如壓縮)的音訊位元流。表示該音訊內容的位元流的資料有時在此被稱為“音訊資料”。如果編碼器被依據本發明典型實施例加以組態，則自編碼器輸出的音訊位元流包含PIM及/或SSM(及最佳也包含響度處理狀態元資料及/或其他元資料)及音訊資料。

圖1的信號分析及元資料校正單元可以接受一或更多編碼音訊位元流作為輸入並藉由執行信號分析(例如使用在編碼音訊位元流中之節目邊界元資料)決定(例如驗證)在各個編碼音訊位元流中的元資料(例如處理狀態元資料)是否正確。如果信號分析及元資料校正單元找出所包含元資料為無效，則其典型以由信號分析取得之正確值替代不正確的值。因此，各個自信號分析及元資料校正單元輸出的編碼音訊位元流包含校正(或未校正)處理狀態元資料及編碼音訊資料。

圖1的轉碼器可以接受編碼音訊位元流作為輸入並回應(例如，藉由解碼輸入流並再以不同編碼格式再編碼該解碼流)以輸出修改(例如不同方式編碼的)音訊位元流。如果轉碼器係依據本發明典型實施例加以組態，則自轉碼器輸出的音訊位元流包含SSM及/或PIM(及典型地也包含其他元資料)及編碼音訊資料。元資料也可以包含在輸入位元流中。

圖1的解碼器可以接受編碼(例如壓縮)音訊位元流作為輸入，並(回應以)輸出解碼PCM音訊取樣的流。如果解碼器係依據本發明之典型實施例加以組態，則在典型操作中之解碼器的輸出係如下之任一或包含如下之任一：

音訊取樣流，及由輸入編碼位元流擷取的至少一對應流的SSM及/或PIM(及典型地也有其他元資料)；或

音訊取樣流，及由輸入編碼位元流擷取的SSM及/或PIM(及典型地也有其他元資料，例如LPSM)所決定的控制位元對應流；或

音訊取樣流，未有由元資料所決定的元資料或控制位元的對應流。在後者中，解碼器可以由輸入編碼位元流中所擷取元資料並對擷取之元資料執行至少一運算(例如驗證)，即使其並未輸出由該處決定的擷取元資料或控制位元。

藉由依據本發明典型實施例組態圖1的後處理單元，後處理單元被組態以接受解碼PCM音訊取樣流，並使用與取樣一起接收的SSM及/或PIM(及典型其他元資料，例如LPSM)，或者，為解碼器所決定之與取樣一起接收的元資料的控制位元，對之執行後處理(例如，音訊內容的音量位準)。後處理單元典型也被組態以一或更多喇叭演出供播放的該後處理音訊內容。

本發明的典型實施例提供加強音訊處理鏈，其中音訊處理單元(例如，編碼器、解碼器、轉碼器、及預及後處理單元)依據為音訊處理單元所個別接收的元資料所表示的媒體資料的同時狀態，來適應其個別處理被應用至音訊資料。

音訊資料輸入至圖1系統的任一音訊處理單元(例如圖1的編碼器或轉碼器)可以包含SSM及/或PIM(及選用地其他元資料)及音訊資料(例如，編碼音訊資料)。依據本發明實施例，此元資料可以為圖1系統的另一單元(或另一未示於圖1的來源)所包在輸入音訊中。接收輸入音訊(及元資料)的處理單元可以被組態以對元資料執行至少一運算(例如驗證)或回應該元資料(例如輸入音訊的適應處理)，並典型地在其輸出音訊中包含該元資料、元資料的已處理版本、或由該元資料所決定的控制位元。

本發明音訊處理單元(或音訊處理器)的典型實施例係被組態以根據相關於該音訊資料的元資料所表示的音訊資料的狀態，執行音訊資料的適應處理。在一些實施例中，適應處理係(或包含)響度處理(如果元資料表示響度處理或其類似處理並未對該音訊資料執行，但不是(及不包含)響度處理(如果元資料表示此響度處理，或其類似處理已經對音訊資料執行)。在一些實施例中，適應處理係或包含元資料驗證(例如，在元資料驗證次單元中執行)，以確保音訊處理單元，根據為該元資料所表示的音訊資料的狀態，對音訊資料執行其他適應處理。在一些實施例中，驗證決定音訊資料有關(例如包含在位元流中)的元資料的可靠度。例如，如果元資料被驗證為可靠，則來自先前執行的音訊處理的類型的結果可以再使用並可以避免相同類型的音訊處理的重新執行。另一方面，如果元資料被認為已經被竄改(或不可靠)，則該聲稱先前執行(為不可靠元資料所表示)的媒體處理類型可以為音訊處理單元所重覆，及/或可以為音訊處理單元對該元資料及/或音訊資料執行其他處理。音訊處理單元也可以被組態以發信至在加強媒體處理鏈下游的其他音訊處理單元，告知(例如出現在媒體位元流中的)該元資料有效，如果該單元決定元資料有效(例如，根據所擷取密碼值與參考密碼值的匹配)。

圖2為本發明音訊處理單元的實施例的編碼器(100)的方塊圖。編碼器100的任一元件或單元可以被實施為一或更多程序及/或一或更多電路(例如， ASIC、FPGA、或其他積體電路)、成為硬體、軟體、或硬體與軟體的組合。編碼器100包含訊框緩衝器110、剖析器111、解碼器101、音訊狀態驗證器102、響度處理級103、音訊流選擇級104、編碼器105、填充器/格式化級107、元資料產生器106、對話響度量測次系統108、及訊框緩衝器109，並連接如所示。典型地，編碼器100也包含其他處理元件(未示出)。

(為轉碼器的)編碼器100被組態以將(例如，可以為AC-3位元流、E-AC-3位元流、或杜比E位元流之一的)輸入音訊位元流轉換為編碼輸出音訊位元流(例如，可以為AC-3位元流、E-AC-3位元流、或杜比E位元流之另一)，其包含藉由使用包括在輸入位元流內的響度處理狀態元資料，執行適應及自動響度處理。例如，編碼器100可以被組態以轉換輸入杜比E位元流(典型用於生產及廣播設施中之格式，而不是用於消費者裝置的格式，其接收已經被廣播至其上的音訊節目)成為AC-3或E-AC-3格式的編碼輸出音訊位元流(適用於廣播至消費者裝置)。

圖2的系統也包含編碼音訊輸送次系統150(其儲存及/或輸送自編碼器100輸出的編碼位元流)及解碼器152。自編碼器100輸出的編碼音訊位元流可以為次系統150所儲存(例如為DVD或藍光碟的格式)、或被(可以實施傳輸鏈結或網路的)次系統150所傳送、或可以為次系統150所儲存及傳送。解碼器152被組態以解碼經由次系統150所接收的(為編碼器100所產生的)編碼音訊位元流，其包含：由位元流的各個訊框，擷取元資料(PIM及/或SSM，及選用地響度處理狀態元資料及/或其他元資料)(並選用地由位元流擷取節目邊界元資料)；及產生編碼音訊資料。典型地，解碼器152被組態以使用PIM及/或SSM、及/或LPSM(及選用地節目邊界元資料)，對解碼音訊資料執行適應處理，及/或傳送解碼音訊資料及元資料至被組態以對解碼音訊資料使用元資料執行適應處理的後處理器。典型地，解碼器152包括緩衝器，其(以非暫態方式)儲存自次系統150接收的編碼音訊位元流。

編碼器100及解碼器152的各種實施法被組態以執行本發明方法的不同實施例。

訊框緩衝器110係為耦接以接收編碼輸入音訊位元流的緩衝記憶體。在操作中，緩衝器110儲存(例如以非暫態方式)編碼音訊位元流的至少一訊框，及編碼音訊位元流的一順序訊框係由緩衝器110所提示至剖析器111。

剖析器111被耦接及組態以由其中包含有此元資料的編碼輸入音訊的各個訊框中擷取PIM及/或SSM，及響度處理狀態元資料(LPSM)、及選用節目邊界元資料(及/或其他元資料)，以提示至少該LPSM(及選用地節目邊界元資料及/或其他元資料)至音訊狀態驗證器102、響度處理級103、元資料產生器106與次系統 108，以由編碼輸入音訊擷取音訊資料、並對該解碼器101提示該音訊資料。編碼器100的解碼器101係被組態以解碼音訊資料，以產生解碼音訊資料，並對響度處理級103、音訊流選擇級104、次系統108、及典型地狀態驗證器102，提示解碼音訊資料。

狀態驗證器102被組態以鑑別及驗證對之提示的LPSM(及選用的其他元資料)。在一些實施例中，LPSM為(或包含在)已經包含在輸入位元流的資料方塊(例如，依據本發明實施例)。該方塊可以包含密碼雜湊(雜湊為主信息鑑別碼或“HMAC”)，用以處理LPSM(及選用地其他元資料)及/或(由解碼器101提供至驗證器102的)內藏音訊資料。在這些實施例中資料方塊可以被數位簽章，使得下游音訊處理單元可以相當容易地鑑別及驗證處理狀態元資料。

例如，HMAC被用以產生摘要，及包含在本發明位元流中之保護值可以包含該摘要。該摘要可以如下產生用於AC-3訊框：

1.在AC-3資料及LPSM被編碼後，訊框資料位元組(序連訊框_資料#1及訊框_資料#2)及LPSM資料位元組用以作為雜湊函數HMAC的輸入。可以出現在auxdata欄內的其他資料並未列入考量以計算該摘要。此其他資料可以為不是AC-3資料或LPSM資料的位元組。包含在LPSM中的保護位元可以不被考慮用以計算該HMAC摘要。

2.在摘要計算後，其被寫入於位元流的用於保留給保護位元的欄中。

3.產生完整AC-3訊框的最後步驟為計算CRC-檢查。此被寫入至該訊框的最後端及屬於此訊框的所有資料均被列入考量，包含LPSM位元。

包含但並不限於一或更多非HMAC密碼方法的任一的其他密碼方法可以被使用以驗證LPSM及/或其他元資料(例如，在驗證器102中)，以確保元資料及/或內藏音訊資料的安全傳輸與接收。例如，驗證(使用此一密碼方法)可以執行在各個音訊處理單元中，其接收本發明音訊位元流的實施例以決定是否包含在位元流中之元資料及相關音訊資料已經(如元資料所示)受到特定處理(及/或有結果)，並且，在執行此特定處理後未被修改。

狀態驗證器102提示控制資料給音訊流選擇級104、元資料產生器106、及對話響度量測次系統108，以表示該驗證操作的結果。回應於控制資料，級104可以選擇(並通過至編碼器105)：

響度處理級103的適應處理輸出(例如，當LPSM表示自解碼器101輸出的音訊資料未受到特定類型的響度處理，及來自驗證器102的控制位元表示LPSM有效)；或

自解碼器101輸出的音訊資料(例如，當LPSM表示自解碼器101輸出的音訊資料已經受特定類型響度處理，這將為響度處理級103所執行，及來自驗證器102的控制位元表示LPSM為有效)。

編碼器100的響度處理級103被組態以對自解碼器101輸出的解碼音訊資料，根據為解碼器101所擷取的LPSM所表示的一或更多音訊資料特徵，執行適應響度處理。響度處理級103可以為適應換域即時響度及動態範圍控制處理器。響度處理級103可以接收使用者輸入(例如，使用者目標響度/動態範圍值或dialnorm值)，或其他元資料輸入(例如，一或更多類型第三方資料、追蹤資訊、識別碼、專屬或標準資訊、使用者註解資料、使用者喜好資料等等)及/或其他輸入(例如，來自指紋處理)，並使用此輸入以處理自解碼器101輸出的解碼音訊資料。響度處理級103可以對表示(如剖析器111所擷取的節目邊界元資料所表示的)單一音訊節目的(自解碼器101輸出的)解碼音訊資料，執行適應響度處理；並可以回應於接收表示為剖析器111所擷取的節目邊界元資料所表示的不同音訊節目的(自解碼器101輸出的)解碼音訊資料，重設響度處理。

當來自驗證器102的控制位元表示LPSM為無效時，對話響度量測次系統108可以例如使用為解碼器101所擷取的LPSM(及/或其他元資料)，決定表示對話(或其他語音)的(來自解碼器)的解碼音訊的區段的響度。當來自驗證器102的控制位元表示該LPSM為有效時，對話響度量測次系統108的操作可以當LPSM表示 (來自解碼器101的)解碼音訊的先前決定對話(或其他語音)區段被去能。次系統108可以對表示單一音訊節目(如剖析器111所擷取的節目邊界元資料所表示)的解碼音訊資料執行響度量測，並可以回應於接收到表示為此節目邊界元資料所表示的不同音訊節目的解碼音訊資料而重設該量測。

現存有方便與容易量測在音訊內容中的對話的位準的有用工具(例如，杜比LM100響度表)。本發明APU(例如編碼器100的級108)的一些實施例係被實施以包括此工具(或執行此工具的功能)，以量測音訊位元流(例如，由編碼器100的解碼器101所提示至級108的解碼AC-3位元流)。

如果級108被實施以量測音訊資料的真實平均對話響度，則量測法可以包含隔離開主要包含語音的音訊內容的區段的步驟。主要為語音的音訊區段然後依據響度量測演算法加以處理。對於自AC-3位元流解碼的音訊資料，此演算法可以為標準K加權響度量測(例如依國際標準ITU-R BS.1770)。或者，也可以使用其他響度量測法(例如，根據響度的心理音響模型)。

語音區段的隔離對於量測音訊資料的平均對話響度並不是必要的。然而，此改良了量測法的準確度並典型地對收聽者的感受提供更滿意的結果。因為並非所有音訊內容均包含對話(語音)，所以整個音訊內容的響度量測可以提供足夠近似已經有語音出現的音訊對話位準。

元資料產生器106產生(及/或傳送經過級107)在編碼位元流中予以為級107所包含的元資料為由編碼器100輸出。元資料產生器106可以傳送為解碼器101及/或剖析器111所擷取的LPSM(及選用地LIM及/或PIM及/或節目邊界元資料及/或其他元資料)至級107(例如，當來自驗證器102的控制位元表示LPSM及/或其他元資料為有效)，或產生新的LIM及/或PIM及/或LPSM及/或節目邊界元資料及/或其他元資料並用以對級107提示該新的元資料(例如，當來自驗證器102的控制位元表示為解碼器101所擷取的元資料為無效)，或將為解碼器101及/或剖析器111所擷取的元資料與新產生元資料的組合提示給級107。元資料產生器106可以包含為次系統108所產生的響度資料，該至少一值，表示為次系統108所執行的響度處理的類型，其所向級107提示的LPSM用以包含於予以由編碼器100所輸出的編碼位元流中。

元資料產生器106可以產生有用於予以包含在編碼位元流中的LPSM(及選用地其他元資料)及/或予以包含在編碼位元流中的內藏音訊資料的解密、鑑別或驗證的至少之一項的保護位元(其可以包含由雜湊為主信息鑑別密碼或“HMAC”或由其所構成)。元資料產生器106可以提供此等保護位元給級107，用以包含於編碼位元流中。

在典型操作中，對話響度量測次系統108處理自解碼器101輸出的音訊資料，以對之回應產生響度值(如加閘或未加閘對話響度值)及動態範圍值。回應於這些值，元資料產生器106可以產生用以(為填充器/格式化級107)所包含入予以由編碼器100輸出的編碼位元流中的響度處理狀態元資料(LPSM)。

另外，選用或替代地，編碼器100的次系統106及/或108可以對音訊資料執行額外分析，以產生用以表示包含在由級107所輸出的編碼位元流中的音訊資料的至少一特徵的元資料。

編碼器105編碼(例如，藉由對之執行壓縮)自選擇級104輸出的音訊資料，並對級107提示編碼音訊，用以包含在予以由級107所輸出的編碼位元流中。

級107多工來自編碼器105的編碼音訊及來自元資料產生器106的元資料(包含PIM及/或SSM)，以產生予以由級107輸出的編碼位元流，較佳地，使得編碼位元流具有如本發明較佳實施例所指定的格式。

訊框緩衝器109為緩衝記憶體，其(例如以非暫態方式)儲存自級107輸出的編碼位元流的至少一訊框，及該編碼音訊位元流的一順序訊框然後由緩衝器109提示作為來自編碼器100的輸出，以輸送至系統150。

為元資料產生器106所產生並為級107所包含在編碼位元流中的LPSM係典型表示對應音訊資料的響度處理狀態(例如，已經執行於音訊資料的響度處理的類型)及相關音訊資料的響度(例如，量測對話響度、加閘及/或未加閘響度、及/或動態範圍)。

於此，執行於音訊資料上的響度及/或位準量測值的”加閘”表示一特定位準或響度臨限，超出該臨限的計算值係被包含於最後量測中(例如在最終量測值中，忽略低於-60dBFS的短期響度值)。對絕對值加閘表示一固定位準或響度，對相對值加閘表示係取決於現行”未加閘”量測值的一個值。

在編碼器100的一些實施法中，緩衝在記憶體109中(並輸出至輸送系統150)之編碼位元流為AC-3位元流或E-AC-3位元流，並包含音訊資料區段(例如，示於圖4中的訊框的AB0-AB5區段)與元資料區段，其中音訊資料區段表示音訊資料，及至少一部份的各個元資料區段包含PIM及/或SSM(及選用地其他元資料)。級107將元資料區段(包含元資料)以以下格式插入位元流中。各個包含PIM及/或SSM的元資料區段係被包含在位元流的廢棄位元區段(例如圖4或圖7所示廢棄位元區段“W”)或者該位元流的訊框的位元流資訊(BSI)區段的“addbsi”欄，或者在該位元流的訊框的末端的auxdata欄(例如圖4或圖7所示之AUX區段)。位元流的訊框可以包含一或兩個元資料區段，各個包含元資料，及如果該訊框包含兩元資料區段，則一個可以出現在該訊框的addbsi欄中，另一個則出現在該訊框的AUX欄中。

在一些實施例中，為級107所插入的各個元資料區段(有時稱為“盒”)具有一格式，其包含元資料區段信頭(及選用地其他強制或“核心”元件)，及一或更多元資料酬載，在該元資料區段信頭之後。SIM如果有的話，係包含在(為酬載信頭所指明，並典型具有第一類型格式之)元資料酬載之一中。PIM如果有的話，係包含在(為酬載信頭所指明並典型具有第二類型的格式的)另一元資料酬載中。類似地，各個類型元資料(如果有的話)係包含在(為酬載信頭所指明並典型具有該元資料類型所特定的格式的)另一元資料酬載中。例示格式允許在解碼以外的時間(例如以在解碼後的後處理器，或藉由組態以辨識元資料而不執行整個編碼位元流的完全解碼的處理器)方便存取SSM、PIM及其他元資料，並允許在位元流的解碼期間，方便與有效之(例如次流識別的)錯誤檢測及校正。例如，在未以例示格式存取SSM時，解碼器可能不正確地識別有關於一節目的次流的正確數量。在元資料區段中的一個元資料酬載可以包含SSM，在元資料區段中的另一元資料酬載可能包含PIM，及選用地，在元資料區段中的至少另一元資料酬載可能包含其他元資料(例如，響度處理狀態元資料或“LPSM”)。

在一些實施例中，(為級107)所包含於編碼位元流的訊框(例如，表示至少一音訊節目的E-AC-3位元流)的次流結構元資料(SSM)酬載包含以下格式的SSM：

酬載信頭，典型地包含至少一識別值(例如，2位元值，表示SSM格式版本，及選用地長度、週期、計數、及次流相關值)；及

在該信頭後：

獨立次流元資料，表示為位元流所表示的節目的獨立次流的數目；及

相依次流元資料，表示是否該節目的各個獨立次流具有至少一相關相依次流(即，是否至少一相依次流係相關於各個獨立次流)，及如果是，則相依次流的數目相關於節目的各個獨立次流。

可以想到，編碼位元流的獨立次流可以表示音訊節目的一組喇叭頻道(例如，5.1喇叭頻道音訊節目的喇叭頻道)，及(為相依次流元資料所表示之有關於獨立次流)的各個一或更多相依次流可以表示該節目的目標頻道。然而，典型地，編碼位元流的獨立次流係表示節目的一組喇叭頻道，及有關於獨立次流的各個相依次流(如相依次流元資料所指)表示該節目的至少一額外喇叭頻道。

在一些實施例中，(為級107所)包含在編碼位元流的訊框(例如，表示至少一音訊節目的E-AC-3位元流)中的節目資訊元資料(PIM)酬載具有以下格式：

酬載信頭，典型包含至少一識別值(例如，表示PIM格式版本的值，及也有長度、週期、計數及次流相關值)；及

在該信頭後，PIM為以下格式：

作動頻道元資料，表示音訊節目的各個靜音頻道及各個非靜音頻道(即，節目的哪些頻道包含音訊資訊，及(如果有)哪些只包含靜音(典型該在訊框期間))。在編碼位元流為AC-3或E-AC-3位元流的實施例中，在位元流的訊框中的作動頻道元資料可以結合位元流的額外元資料使用(例如，訊框的音訊編碼模式(acmod)欄，如果有，則在該訊框或相關相依次流訊框)中的chanmap欄)，以決定節目的哪些頻道包含音訊資訊及哪些包含靜音。AC-3或E-AC-3訊框的“acmod”欄表示為該訊框的音訊內容所表示的音訊節目的全範圍頻道的數量(例如，該節目為1.0頻道單音節目、2.0頻道立體音節目、或包含L、R、C、Ls、Rs全範圍頻道的節目)，或該訊框表示兩獨立1.0頻道單音節目。E-AC-3位元流的“chanmap”表示為該位元流所指示的相依次流的頻道地圖。作動頻道元資料可以有用於(在後處理器中)實施解碼器的下游的上混(upmix)，例如，在解碼器的輸出加入音訊至包含靜音的頻道。

下混處理狀態元資料表示是否該節目(在編碼之前或之時)被下混，如果是，則所應用的下混類型。下混處理狀態元資料可以有用於(在後處理器)實施解碼器的下游的上混，例如，使用最接近匹配所施加下混類型的參數，來上混該節目的音訊內容。在編碼位元流為AC-3或E-AC-3位元流的實施例中，下游處理狀態元資料可以用以結合該訊框的音訊編碼模式(acmod)欄，以決定應用至該節目的頻道的下混類型(如果有的話)；

上混處理狀態元資料，表示在編碼之前或之時，是否該節目被上混(例如，來自較小數量的頻道)，如果是，則所被應用的上混的類型。上混處理狀態元資料可以有用於(在後處理器中)實施解碼器的下游的下混，例如，下混節目的音訊內容，以與應用至該節目的上混類型匹配(例如，杜比Pro邏輯、或杜比Pro邏輯II電影模式、或杜比Pro邏輯II音樂模式、或杜比專業上混器)。在編碼位元流為E-AC-3位元流的實施例中，上混處理狀態元資料可以被使用以結合其他元資料(例如，訊框的“strmtyp”欄的值)，以決定(如果有的話)應用至該節目頻道的上混類型。“strmtyp”欄(E-AC-3位元流的訊框的BSI區段)的值表示是否該訊框的音訊內容屬於獨立流(其決定節目)或(包含或有關多數次流的節目的)獨立次流，因此，可以被獨立於為E-AC-3位元流所表示的任何其他次流地解碼，或者，該訊框的音訊內容屬於(包含或有關多數次流的節目的)相依次流，因此，必須結合其所相關的獨立次流加以解碼；及

預處理狀態元資料表示預處理是否已經(在編碼音訊內容，以產生編碼位元流前)被執行於該訊框的音訊內容上，如果是，所執行的預處理類型。

在一些實施法中，預處理狀態元資料表示：

是否應用環繞衰減(例如，是否音訊節目的環繞頻道在編碼前被衰減3dB)，

是否應用90度相移(例如，在編碼前音訊節目的環繞頻道Ls及Rs頻道。

是否低通濾波器在編碼前被應用至音訊節目的LFE頻道，

該節目的LFE頻道的位準是否在生產時被監視，如果是，則LFE頻道的監視位準相對於該節目的全範圍音訊頻道的位準，

是否動態範圍壓縮應(例如，在該解碼器中)對該節目的解碼音訊內容的各個方塊執行，如果是，要執行的動態範圍壓縮的類型(及/或參數)(例如，此類型的預處理狀態元資料可以表示哪一以下壓縮分佈類型被編碼器所假定，以產生包含在編碼位元流中的動態範圍壓縮控制值：電影標準、電影光、音樂標準、音樂光或語音。或者，此類型的預處理狀態元資料可以表示重動態範圍壓縮(“compr”壓縮)應以包含在編碼位元流中的動態範圍壓縮控制值所決定的方式，被執行在該節目的解碼音訊內容的各個訊框上)，

是否頻譜擴充處理及/或頻道耦合編碼被使用，以編碼該節目內容的特定頻率範圍，如果是，則頻譜擴充編碼執行的內容的頻率分量的最小及最大頻率，及執行有頻道耦合編碼的內容的頻率分量的最小及最大頻率。此類型的預處理狀態元資料可以有用於(在後處理器中)執行解碼器的下游的等化。頻率耦合及頻譜擴充資訊均有用於最佳化在轉碼操作及應用時的品質。例如，編碼器可以根據參數的狀態，例如頻譜擴充及頻道耦合資訊，最佳化其行為(包含採用預處理步驟，例如，耳機虛擬化、上混等等)。再者，編碼器可以動態適配其耦合及頻譜擴充參數，以根據進入(及鑑別)元資料的狀態，匹配及/或最佳化值，及

是否對話加強調整範圍資料包含在編碼位元流中，如果是，則在對話加強處理的執行期間可用的(例如，在解碼器的後處理器下游中)調整範圍，以相對於音訊節目中的非對話內容的位準，調整對話內容的位準。

在一些實施法中，額外預處理狀態元資料(例如，表示耳機相關參數的元資料)係(級107)所包含在予以由編碼器100輸出的編碼位元流的PIM酬載中。

在一些實施例中，(為級107)所包含於編碼位元流(例如，表示至少一音訊節目的E-AC-3位元流)的訊框中的LPSM酬載包含以下格式的LPSM：

(典型包含指明LPSM酬載的開始的syncword，其為至少一識別值，例如LPSM格式版本、長度、週期、計數、及以下表2中所示之次流相關值所跟隨的)信頭；及

在信頭後，

至少一對話指示值(例如表2的參數“對話頻道”)指示是否相關音訊資料指示對話或者並不指示對話(例如，哪些相關音訊資料的頻道表示對話)；

至少一響度法規符合值(例如，表2的參數“響度法規類型”)表示是否對應音訊資料符合所指定組的響度法規；

至少一響度處理值(例如表2的參數“對話加閘響度校正旗標”、“響度校正類型”之一或更多)表示已經執行於對應音訊資料上的響度處理的類型；及

至少一響度值(例如，表2的參數“ITU相對加閘響度”、“ITU語音加閘響度”、“ITU(EBU3341)短期3s響度”、及“真實峰”之一或更多)表示相關音訊資料的至少一響度(例如峰或平均響度)特徵。

在一些實施例中，各個包含PIM及/或SSM(及選用其他元資料)的元資料區段包含元資料區段信頭(及選用其他額外核心元件)，及在元資料區段信頭(或元資料區段信號與其他核心元件)後，至少一元資料酬載區段具有以下格式：

酬載信號，典型地包含至少一識別值(例如，SSM或PIM格式版本、長度、週期、計數、及次流相關值)，及

在酬載信頭後，SSM或PIM(或另一類型的元資料)。

在一些實施法中，為級107所插入位元流的訊框的廢棄位元/跳脫欄區段(或“addbsi”欄或auxdata欄)的各個元資料區段(有時於此稱為“元資料盒”或“盒”)具有以下格式：

元資料區段信頭(典型包含指明元資料區段的開始的syncword，為識別值，例如，下表1所指示的版本、長度、週期、擴充元件計數、及次流相關值所跟隨)；及

在元資料區段信頭後，至少一保護值(例如表1的HMAC摘要及音訊指紋值)，其係有用於對元資料區段或對應音訊資料的至少之一元資料進行解密、鑑別、或驗證的至少之一)；及

同時，在元資料區段信頭後，元資料酬載識別(ID)及酬載組態值，其指明在各個以下元資料酬載中的元資料類型並指明各個此酬載的組態的至少一方面(例如大小)。

各個元資料酬載跟隨對應酬載ID及酬載組態值。

在一些實施例中，在訊框中的廢棄位元區段(或auxdata欄或“addbsi”欄)中的各個元資料區段具有三層的結構：

高層結構(例如，元資料區段信頭)，包含旗標指示是否廢棄位元(或auxdata或addbsi)欄包含元資料，至少一ID值表示出現的元資料的類型，及典型地，也有一值，表示出現有多少(例如各個類型的)元資料位元(如果有的話)。可以出現的一類型元資料為PIM，可出現的另一類型的元資料為SSM，及可出現的另一類型元資料為LPSM、及/或節目邊界元資料、及/或媒體研究元資料；

中層結構，包含有關於各個指明類型元資料(例如元資料酬載信頭、保護值、及酬載ID及用於各個指明類型元資料的酬載組態值)的資料；及

低層結構，包含用於各個指明類型元資料的元資料酬載(例如，一順序PIM值，如果PIM被指明為出現，及/或另一類型的元資料值(例如SSM或LPSM)，如果此類型元資料被指明為出現)。

在此三層結構中之資料值可以被巢套。例如，為高及中層結構所識別的用於各個酬載(例如各個PIM、或SSM、或其他元資料酬載)的保護值可以被包含在酬載後(因此，在酬載的元資料酬載信頭後)，或者，為高及中層結構所識別的所有元資料酬載的保護值可以包含在元資料區段中的最終元資料酬載後(因此，在元資料區段的所有酬載的元資料酬載信頭之後)。

在一實施例中(將參考圖8的元資料區段或“盒”加以描述)，一元資料區段信頭識別四個元資料酬載。如於圖8所示，元資料區段信頭包含盒同步字元(識別為“盒同步”)及版本及鑰ID值。元資料區段信頭係為四個元資料酬載及保護位元所跟隨。用於第一酬載(例如PIM酬載)之酬載ID及酬載組態(例如酬載大小)值跟隨元資料區段信頭，第一酬載本身跟隨ID及組態值；酬載ID及用於第二酬載(例如，SSM酬載)的酬載組態(例如酬載大小)值跟隨第一酬載；第二酬載本身跟隨這些ID及組態值，用於第三酬載(例如，LPSM酬載)的酬載ID及酬載組態(例如，酬載大小)值跟隨第二酬載；及第三酬載本身跟隨這些ID及組態值；用於第四酬載的酬載ID及酬載組態(例如酬載大小)值，跟隨第三酬載；第四酬載本身跟隨這些ID及組態值；及用於所有這些及部份酬載(對於高及中層結構及所有或部份酬載的)保護值(在圖8中識別為”保護資料”)，跟隨最後酬載。

在一些實施例中，如果解碼器101接收依據本發明實施例產生的具有密碼雜湊的音訊位元流，則解碼器被組態以由該位元流決定的資料方塊剖析及檢索密碼雜湊，其中該方塊包含元資料。驗證器102可以使用密碼雜湊以驗證所接收的位元流及/相關元資料。例如，如果驗證器102根據在參考密碼雜湊與自資料方塊檢索密碼雜湊間的匹配認為元資料為有效，則其會去能響度處理級103對相關音訊資料的操作並使得選擇級104通過(未改變)音訊資料。另外，選用或替代地，其他類型的密碼技術也可以用以替換根據密碼雜湊的方法。

圖2的編碼器100可以(回應於LPSM，及選用地為解碼器101所擷取的節目邊界元資料)決定後/預處理單元已在該予以編碼的音訊資料上執行一類型的響度處理(在元件105、106及107)及因此可以(在元資料產生器106)建立響度處理狀態元資料，其包含用於先前執行響度處理及/或由之導出的特定參數。在一些實施例中，編碼器100(及包含在由該處輸出的編碼位元流輸出)可以建立元資料，以表示對音訊內容的處理歷史，只要編碼器係得知已經執行於音訊內容上的處理的類型。

圖3為一解碼器(200)的方塊圖，其為本發明音訊處理單元的實施例，及其後處理器(300)耦接至其上。後處理器(300)也是本發明音訊處理單元的一實施例。解碼器200及後處理器300的任一元件或組成可以被實施為一或更多程序及/或一或更多電路(例如，ASIC、FPGA、或其他積體電路)、為硬體、軟體、或硬體及軟體的組合。解碼器200包含訊框緩衝器201、剖析器205、音訊解碼器202、音訊狀態驗證器(驗證級)203、及控制位元產生器(產生級)204，並連接成如所示。典型地，解碼器200包含其他處理元件(未示出)。

訊框緩衝器201(緩衝記憶體)儲存(例如以非暫態方式)為解碼器200所接收的編碼音訊位元流的至少一訊框。該編碼音訊位元流的一順序訊框係由緩衝器201提示至剖析器205。

剖析器205被耦接及組態以由編碼輸入音訊的各訊框擷取PIM及/或SSM(及選用地其他元資料，例如LPSM)，以提示至少部份的元資料(例如LPSM及節目邊界元資料(如果任一被擷取的話)，及/或PIM及/或SSM)至音訊狀態驗證器203及控制位元產生器204，以提示擷取元資料作為輸出(例如，至後處理器300)，以自編碼輸入音訊擷取音訊資料，並提示擷取音訊資料至解碼器202。

輸入至解碼器200的編碼音訊位元流可以為AC-3位元流、E-AC-3位元流、或杜比E位元流之一。

圖3的系統同時也包含後處理器300。後處理器300包含訊框緩衝器301及另一處理元件(未示出)，其包含至少一處理元件耦接至緩衝器301。訊框緩衝器301儲存(例如，以非暫態方式)為後處理器300由解碼器200所接收的在解碼音訊位元流至少一訊框。後處理器300的處理元件係被耦接及組態以接收及適應地使用來自解碼器200的元資料輸出及/或來自解碼器200的控制位元產生器204輸出的控制位元，處理由緩衝器301輸出的編碼音訊位元流的一順序訊框。典型地，後處理器300被組態以使用來自解碼器200的元資料，對解碼音訊資料執行適應處理(例如，使用LPSM值及選用地也節目邊界元資料對解碼音訊資料進行適應響度處理，其中適應處理可以根據響度處理狀態、及/或一或更多音訊資料特徵，為LPSM所表示之用以表示單一音訊節目的音訊資料)。

解碼器200及後處理器300的各種實施法被組態以執行本發明方法的各種不同實施例。

解碼器200的音訊解碼器202係被組態以解碼為剖析器205擷取的音訊資料，以產生解碼的音訊資料，及提示所解碼的音訊資料作為輸出(例如至後處理器300)。

音訊狀態驗證器203被組態以鑑別及驗證對其提示的元資料。在一些實施例中，元資料為(或包含於)已經(例如依據本發明實施例)被包含於輸入位元流的資料方塊中。該方塊可以包含密碼雜湊(雜湊為主信息鑑別碼或“HMAC”)，用以處理元資料及/或內藏音訊資料(由剖析器205及/或解碼器202所提供至音訊狀態驗證器203)。在這些實施例中，資料方塊可以數位簽章，使得下游音訊處理可以相當容易鑑別及驗證處理狀態元資料。

其他密碼方法包含但並不限於非HMAC密碼法之一或更多之任一可以被用以驗證元資料(例如在音訊狀態驗證器203中)，以確保安全傳輸及接收元資料及/或內藏音訊資料。例如，(使用此密碼法的)驗證可以執行於各個音訊處理單元，其接收本發明音訊位元流的實施例，以決定是否包含在位元流中的響度處理狀態元資料及相關音訊資料已經受到(如元資料所表示之)特定響度處理(及/或造成結果)，並且，在此特定響度處理執行後，未被修正。

音訊狀態驗證器203提示控制資料，以控制位元產生器204及/或提示控制資料作為輸出(例如至後處理器300)，以表示驗證操作的結果。回應於控制資料(及選用地自輸入位元流擷取的其他元資料)，控制位元產生器204可以產生(及提示後處理器300)：

控制位元，表示自解碼器202輸出的解碼音訊資料已經受到特定類型響度處理(當LPSM表示自解碼器202輸出的音訊資料已經受到特定類型的響度處理時，來自音訊狀態驗證器203的控制位元表示LPSM為有效)；或

表示自解碼器202輸出的解碼音訊資料的控制位元應受到一特定類型的響度處理(例如，當LPSM表示自解碼器202輸出的音訊資料並未受到該特定類型的響度處理，或者，當LPSM表示自解碼器202輸出的音訊資料已經受到特定類型的響度處理，但來自音訊狀態驗證器203的控制位元表示LPSM並未有效時)。

或者，解碼器200提示為解碼器202所由輸入位元流擷取的元資料，及為剖析器205所由輸入位元流擷取的元資料至後處理器300，及後處理器300使用元資料對解碼音訊資料執行適應處理，或者，執行元資料的驗證並如果驗證表示元資料有效，則對解碼音訊資料使用元資料執行適應處理。

在一些實施例中，如果解碼器200接收依據本發明實施例產生的音訊位元流，以具有密碼雜湊的本發明之實施例，則解碼器係被組態以剖析及自位元流所決定的資料方塊檢索密碼雜湊，該方塊包含響度處理狀態元資料(LPSM)。音訊狀態驗證器203可以使用密碼雜湊以驗證所接收的位元流及/或相關元資料。例如，如果音訊狀態驗證器203根據在參考密碼雜湊及自資料方塊取回的密碼雜湊間之匹配，找出LPSM為有效，則其可以發信給下游音訊處理單元(例如後處理器300，其可以或包含音量位準單元)以通過位元流的(未改變)音訊資料。另外，選用地、替代地，其他類型的密碼技術也可以使用以替代根據密碼雜湊的方法。

在解碼器200的一些實施法中，所接收(及緩衝在記憶體201中)的編碼位元流係為AC-3位元流或E-AC-3位元流，並包含音訊資料區段(例如，如圖4所示之訊框的AB0-AB5區段)及元資料區段，其中音訊資料區段表示音訊資料，及各個至少一些元資料區段包含PIM或SSM(或其他元資料)。解碼器級202(及/或剖析器205)係被組態以自位元流擷取元資料。包含PIM及/或SSM(及選用地其他元資料)的各個元資料區段係被包含在該位元流的訊框的廢棄位元區段中，或位元流的訊框的位元流資訊(BSI)區段的“addbsi”欄，或者，在位元流的訊框的末端的auxdata欄(例如圖4所示之AUX區段)。位元流的訊框可以包含一或兩元資料區段，其各個包含元資料，如果該訊框包含兩元資料區段，則一個可以出現在該訊框的addbsi欄中，另一個可以在該訊框的AUX欄中。

在一些實施例中，緩衝於緩衝器201中的位元流的各個元資料區段(有時於此稱為“盒”)具有一格式，其包含元資料區段信頭(及選用地有其他強制或“核心”元件)，及一或更多元資料酬載，跟隨著酬載區段信頭。SIM如果有的話，係包含在(為酬載信頭所識別，典型地，具有第一類型的格式的)一元資料酬載中。PIM如果有的話，則係包含在(為酬載信頭所識別並典型具有第二類型格式的)另一元資料酬載。同樣地，各個其他類型元資料(如果有的話)包含在(為酬載信頭所識別並典型具有特定元資料類型的格式的)另一元資料酬載中。例示格式允許方便接取SSM、PIM、及其他元資料，在解碼以外的時間(例如在解碼後的後處理器300，或藉由被組態以辨識元資料的處理器，而不必對編碼位元流執行全解碼)，並允許方便及有效錯誤檢測及校正(例如，次流識別)在解碼位元流之期間。例如，並未存取有例示格式的SSM，解碼器200可能不正確地識別有關於一節目的次流的正確數量。在元資料區段中的一元資料酬載可以包含SSM，在元資料區段中的另一元資料酬載可以包含PIM，或在元資料區段中的選用至少一其他元資料酬載可以包含其他元資料(例如，響度處理狀態元資料或“LPSM”)。

在一些實施例中，緩衝在緩衝器201的包含在編碼位元流(例如E-AC-3位元流表示至少一音訊節目)的訊框中的次流結構元資料(SSM)酬載包含以下格式之SSM：

酬載信頭，典型地包含至少一識別值(例如，2-位元值，表示SSM格式版本，及選用地長度、週期、計數及次流相關值)；及

在信頭後：

獨立次流元資料表示為該位元流表示的節目的獨立次流的數量；及

相依次流元資料表示是否節目的各個獨立次流具有至少一與之相關的相依次流，如果是，則相依次流的數目相關於該節目的各個獨立次流。

在一些實施例中，緩衝在緩衝器201中的包含在編碼位元流(例如E-AC-3位元流表示至少一音訊節目)的訊框中的一節目資訊元資料(PIM)酬載具有以下格式：

酬載信頭，典型包含至少一識別值(例如，一值表示PIM格式版本，及選用地也有長度、週期、計數、及次流相關值)；及

在信頭後，PIM為以下格式：

音訊節目的各個靜音頻道及各個非靜音頻道(即節目的哪些頻道包含音訊資訊，及如果有，哪些只有靜音(典型只在訊框的期間))的作動頻道元資料。在編碼位元流為AC-3或E-AC-3位元流的實施例中，在位元流的訊框中的作動頻道元資料可以用以結合位元流的額外元資料(例如，該訊框的音訊編碼模式(“acmod”)欄，並且，如果有，在訊框中的chanmap欄或相關相依次流訊框，決定節目的哪些頻道包含音訊資訊及哪些包含靜音；

下混處理級元資料表示是否節目被下混(在編碼之前或之時)，如果是，則被應用下混類型。下混處理狀態元資料可以有用於實行解碼器的下游的上混(例如，在後處理器300中)，例如，使用幾乎接近匹配所應用的下混類型的參數，以上混節目的音訊內容。在編碼位元流為AC-3或E-AC-3位元流的實施例中，下游處理狀態元資料可以用以結合該訊框的音訊編碼模式(“acmod”)欄，以決定(如果有的話)施加至節目的頻道的下混的類型；

上混處理狀態元資料表示是否節目(在被編碼之前或之時)被上混(如由較小數量的頻道)，如果是，則所應用的上混類型。上混處理狀態元資料可以有用以(在後處理器)實行解碼器的下游的下混，例如，下混節目的音訊內容成為相符於應用至該節目的上混的類型(例如，杜比Pro邏輯、或杜比Pro邏輯II電影模式、或杜比Pro邏輯II音樂模式、或杜比專業上混器)。在編碼位元流為E-AC-3位元流的實施例中，上混處理態元資料可以用以結合其他元資料(例如，該訊框的“strmtyp”欄的值)，以決定(如果有的話)施加至該節目的頻道的上混類型。(在E-AC-3位元流的訊框的BSI區段中)“strmtyp”欄的值表示是否該訊框的音訊內容屬於獨立流(其決定一節目)或(包含多數次流或與多次流相關的節目的)獨立次流，因此，可以獨立解碼為E-AC-3位元流所表示的任一其他次流，或者，是否該訊框的音訊內容屬於一相依次流(或包含相關於多數次流的節目)，因此，必須結合與之相關的獨立次流解碼；及

預處理狀態元資料，表示是否預處理係被執行於該訊框的音訊內容上(在音訊內容編碼之前，產生編碼位元流)，如果是，則所執行的預處理的類型。

在一些實施例中，預處理狀態元資料係表示為：

是否環繞衰減被應用(例如，在編碼之前，音訊節目的環繞頻道是否被衰減3dB)，

是否應用90度相移(例如，在編碼之前，環繞頻道Ls及Rs頻道)，

在編碼之前，是否低通濾波被應用至該音訊節目的LFE頻道，

是否在生產時，節目的LFE頻道的位準被監視，如果是，則LFE頻道相對於節目全範圍音訊頻道的位準的監視位準。

是否動態範圍壓縮應(例如於解碼器中)對該節目的解碼音訊內容的各個方塊執行，如果是，則予以執行之動態壓縮的類型(及/或參數)(例如此類型的預處理狀態元資料可以表示哪一以下壓縮分佈類型係為編碼器所提示，以產生包含在編碼位元流中的動態範圍壓縮控制值：電影標準；電影光；音樂標準；音樂光或語音)。或者，此類型的預處理狀態元資料可以指示重動態範圍壓縮(“compr”壓縮)應執行於該節目的解碼音訊內容的各個訊框上，以包含在編碼位元流中的動態範圍壓縮控制值所決定的方式。

是否頻譜擴充處理及/或頻道耦接編碼被使用以編碼節目內容的特定頻率範圍，如果是，則頻譜擴充編碼所執行的內容的頻率分量的最小及最大頻率，及該頻道耦合編碼執行的內容的頻率分量的最小及最大頻率。此類型的預處理狀態元資料資訊可以有用以執行等化解碼器的下游(在後處理器中)。在轉碼操作及應用時，頻道耦合與頻譜擴充資訊也有用於最佳化品質。例如，編碼器可以根據參數的狀態，如頻譜擴充及頻道耦合資訊，最佳化其行為(包含適應預處理步驟，例如耳機虛擬化、上混等等)。再者，編碼器可以動態適應其耦合及頻譜擴充參數，以根據進入(及鑑別)元資料的狀態，匹配及/或最佳化值，及

是否對話加強調整範圍資料係包含在編碼位元流中，如果是，則在對話加強處理的執行期間(例如，在解碼器的後處理器下游)可用的範圍調整，以相對於在音訊節目中的非對話內容的位準，調整對話內容位準。

在一些實施例中，緩衝在緩衝器201中的包含在一編碼位元流(例如表示至少一音訊節目的E-AC-3位元流)的訊框中的LPSM酬載包含以下格式的LPSM：

信頭(典型地，包含識別LPSM酬載的開始的syncword，其後跟隨至少一識別值，例如，LPSM格式版本、長度、週期、計數、及在以下表2所示之次流相關值)；及

在該信頭後，

表示是否對應音訊資料的至少一對話指示值(例如，表2的參數“對話頻道”)表示對話或不包含對話(例如，哪些頻道的對應音訊資料表示對話)；

至少一響度法規符合值(例如，表2的參數“響度法規類型”)表示是否對應音訊資料符合指示組的響度法規；

至少一響度處理值(例如，表2的一或更多參數“對話加閘響度校正旗標”，“響度校正類型”)表示至少一類型響度處理，其已經被執行於對應音訊資料上；及

至少一響度值(例如，表2的一或更多的參數“ITU相對加閘響度”、“ITU語音加閘響度”、“ITU(EBU3341)短期3s響度”、”及真峰值)表示相應音訊資料的至少一響度(例如峰或平均響度)特徵。

在一些實施例中，剖析器205(及/或解碼器級202)被組態以由位元流的訊框的廢棄位元區段、或“addbsi”欄、或auxdata欄擷取具有以下格式的各個元資料區段：

元資料區段信頭(典型包含識別元資料區段開始的syncword，其跟隨有至少一識別值，例如，版本、長度、及週期，擴充元件計數，及次流相關值)；及

在元資料區段信頭後，至少一保護值(例如，表1的HMAC摘要及音訊指紋值)，有用於對元資料區段或相關音訊資料的元資料的至少之一進行解密、鑑別、或驗證；及

同時，在元資料區段信頭之後，元資料酬載識別(ID)及酬載組態值，其識別各個以後元資料酬載的類型及至少一態樣的組態(例如大小)。

各個元資料酬載區段(較佳地具有上述格式)跟隨對應元資料酬載ID及酬載組態值。

通常，為本發明較佳實施例所產生之編碼音訊位元流具有一結構，其提供一機制以標示元資料元件及次元件為核心(強制)或擴充(選用)元件或次元件。這允許位元流(包含其元資料)的資料率縮放至各種應用。較佳位元流語法的核心(強制)也應能發信相關於該音訊內容的擴充(選用)元件出現(帶內)及/或在一遠端位置(帶外)。

核心元件需要被出現在位元流的每一訊框中。核心元件的一些次元件係為選用並可以以任何組合出現。擴充元件並不需要出現在每一訊框(以限制位元率負擔)。因此，擴充元件可以出現在一些訊框而不在其他訊框。擴充元件的一些次元件為選用的並可以以任何組合出現，而擴充元件的一些次元件可以為強制(即，如果擴充元件出現在位元流的一訊框中)。

在一群實施例中，(例如，以實施本發明的音訊處理單元)產生包含一順序的音訊資料區段及元資料區段的編碼音訊位元流。該音訊資料區段表示音訊資料，各個至少部份的元資料區段包含PIM及/或SSM(及選用地至少另一類型的元資料)，及該音訊資料區段與元資料區段作分時多工。在此群中的較佳實施例中，各個元資料區段具有予以在此說明的較佳格式。

在一較佳格式中，編碼位元流為AC-3位元流或E-AC-3位元流，及包含SSM及/或PIM的各個元資料區段(例如為編碼器100的較佳實施法的級107)所包含作為在該位元流的訊框的位元流資訊(BSI)區段的“addbsi”欄(如圖6所示)中的額外位元流資訊、或該位元流的訊框的auxdata欄、或在位元流的訊框的廢棄位元區段。

在較佳格式中，各個訊框包含一元資料區段(有時在此稱為元資料盒，或盒)在該訊框的廢棄位元區段(或addbsi欄中)。元資料區段具有強制元件(統稱為“核心元件”)，如以下表1所示(並可以包含如於表1所示的選用元件)。示於表1中的所需元件的至少一部份係包含在元資料區段的元資料區段信中，但有些可以包含在元資料區段中的它處：

在較佳格式中，各個元資料區段(在編碼位元流的訊框的廢棄位元區段或addbsi或auxdata欄)，其包含SSM，PIM，或者LPSM包含元資料區段信頭(及選用地其他核心元件)，及在元資料區段信頭後(或元資料區段信頭及其他核心元件)，一或更多元資料酬載。各個元資料酬載包含元資料酬載信頭表示包含在酬載中的特定類型元資料(例如SSM、PIM、或LPSM)，其後跟隨該特定類型的元資料。典型地，元資料酬載信頭包含以下值(參數)：

酬載ID(識別元資料類型，例如，SSM、PIM或LPSM)，跟隨元資料區段信頭(其可以包含在表1中指明的值)；

跟在酬載ID後的酬載組態值(典型表示酬載的大小)；

及選用地，額外酬載組態值(例如，一補償值，表示由訊框的開始至酬載所屬的第一音訊取樣的音訊取樣的數量，及酬載優先值，例如，表示一酬載可以被放棄的狀態)。

典型地，酬載的元資料具有以下格式之一：

酬載的元資料為SSM，包含獨立次流元資料，表示為該位元流所表示的節目的獨立次流數；及相依次流元資料，表示節目的各個獨立次流是否具有至少一與之相關的相依次流，如果是，則相關於節目的各個獨立次流的相依次流的數量；

酬載的元資料為PIM，包含作動頻道元資料，表示音訊節目的哪些頻道包含音訊資訊，及(如果有)只包含靜音(典型地用於訊框的持續時間)；下混處理狀態元資料，表示是否節目(在編碼前或編碼時)被下混；如果是，則所應用的下混的類型，上混處理狀態元資料，表示是否節目被上混(例如，由最少量頻道)在編碼之前或編碼之時，如果是，則所應用的上混的類型，及預處理元資料表示是否預處理被執行於該訊框的音訊內容(在編碼該音訊內容以產生編碼位元流之前)，如果是，被執行的預處理的類型；或

酬載的元資料為LPSM，具有下表(表2)所指示的格式：

在依據本發明產生的編碼位元流的另一較佳格式中，位元流為AC-3位元流或E-AC-3位元流，及各個包含PIM及/或SSM(及選用至少另一類型的元資料) 的元資料區段係(例如為編碼器100的較佳實施法的級107所)包含於以下之任一：該位元流的訊框的廢棄位元區段；或該位元流的訊框的位元流資訊(BSI)區段的“addbsi”欄(如於圖6所示)；或該位元流的訊框的末端的auxdata欄(例如圖4所示之AUX區段)。一訊框可以包含一或兩元資料區段，各個區段包含PIM及/或SSM，及(在一些實施例中)，如果該訊框包含兩元資料區段，則一個可以出現在該訊框的addbsi欄中及另一個出現在該訊框的AUX欄中。各個元資料區段較佳具有如上參考表1所指明的格式(即其包含表1所指明的核心元件，其後跟有酬載ID(識別在元資料區段的各個酬載中的元資料類型)及酬載組態值，及各個元資料酬載)。包含LPSM的各個元資料區段較佳具有上述參考表1及2所指明的格式(即，其包含表1所指明的核心元件，其後跟有酬載ID(指明元資料為LPSM)及酬載組態值，其後跟有酬載(LPSM資料，具有如表2所指示的格式))。

在另一較佳格式中，編碼位元流為杜比E位元流，及各個包含PIM及/或SSM(及選用其他元資料)的元資料區段係為該杜比E保護帶間距的前面N個取樣位置。包含此一元資料區段(含LPSM)的杜比E位元流較佳包含表示LPSM酬載長度的值，其係被發信在SMPTE 337M前言的Pd字元中(SMPTE 337M Pa字元重覆率較佳保持與相關視訊訊框率相同)。

在編碼位元流為E-AC-3位元流的較佳格式中，各個包含PIM及/或SSM(及選用也有LPSM及/或其他元資料)的元資料區段係(例如為編碼器100的較佳實施法的級107)所包含作為在廢棄位元區段中的，或者位元流的訊框的位元流資訊(BSI)區段的“addbsi”欄中的額外位元流資訊。接著描述編碼E-AC-3位元流的額外方面，具有以下較佳格式的LPSM：

1.在E-AC-3位元流產生時，當E-AC-3編碼器(其將LPSM值插入該位元流)為“作動”，對於各個所產生之訊框(syncframe)，位元流應包含被載於該訊框的addbsi欄(或廢棄位元區段)中的元資料方塊(包含LPSM)。該等需要承載元資料區塊的位元不應增加編碼器位元率(訊框長度)；

2.各個元資料區塊(包含LPSM)應包含以下資訊：

響度_校正_類型_旗標：其中’1’表示對應音訊資料的響度係於編碼器的上游校正，及’0’表示響度係為內藏在編碼器內的響度校正器所校正(例如，圖2的編碼器100的響度處理級103)。

語音_頻道：表示哪些來源頻道包含語音(超出先前的0.5秒)。如果未檢測到語音，則這應如所表示：

語音_響度：表示包含語音(超出先前之0.5秒)的各個對應音訊頻道的整合語音響度，

ITU_響度：表示各個對應音訊頻道的整合ITU BS.1770-3響度；及

增益：在解碼器中，逆向的響度複合增益(展現可逆性)；

3.雖然E-AC-3編碼器(其將LPSM值插入位元流)為“作動”並正接收具有“信任”旗標的AC-3訊框，但在編碼器中的響度控制器(例如圖2的編碼器100的響度處理級103)應被旁路。“信任”源dialnorm及DRC值應被(編碼器100的元資料產生器106所)傳送至E-AC-3編碼器元件(例如，編碼器100的級107)。LPSM區塊產生持續及響度_校正_類型_旗標被設定為’1’。響度控制器旁路順序必須同步於出現“信任”旗標的解碼AC-3訊框的開始。響度控制器旁路順序應實施如下：在10個音訊區塊期間(即53.5毫秒)期間，位準器_量控制係由9的值減量至0的值，及位準器_後_端-表控制被置放於旁路模式(此操作應造成無縫轉移)。用語位準器的“信任”旁路暗示源位元流的dialnorm值也在編碼器的輸出再被利用。(例如，如果’信任’源位元流具有-30的dialnorm值，則編碼器的輸出應利用-30作為向外dialnorm值)；

4.雖然E-AC-3編碼器(其將LPSM值插入位元流)為“作動”並正接收沒有’信任’旗標的AC-3訊框，但內藏在編碼器中之響度控制器(例如，圖2的編碼器100的響度處理級103)應作動。LPSM方塊產生持續及響度_校正_類型_旗標被設定為’0’。響度控制器啟動順序應同步至“信任”旗標消失的解碼AC-3訊框的開始。響度控制器啟動順序應被實施如下：在1音訊方塊期間(即 5.3毫秒)，位準器_量控制由0的值增量至9的值，及位準器_後_端_表控制被置放於“作動”模式(此操作應造成無縫轉移並包含後_端_表整合重設)；及

5.在編碼期間，圖形使用者介面(GUI)應對使用者表示如下參數：“輸入音訊節目：[信任/未信任]”-此參數的狀態係根據“信任”旗標的出現在輸入信號；及“即時響度校正：[致能/去能]”-此參數的狀態係根據是否內藏在編碼器中之響度控制器為作動否。

當解碼具有LPSM(為較佳格式)包含在位元流的各個訊框的廢棄位元或跳脫欄區段或包含在位元流資訊(BSI)區段的“addbsi”欄的AC-3或E-AC-3位元流時，解碼器應剖析(在廢棄位元區段或addbsi欄中)LPSM方塊資料並傳送所有擷取LPSM值至圖形使用者介面(GUI)。該組擷取LPSM值被每訊框再新。

在依據本發明產生之編碼位元流的另一較佳格式中，編碼位元流為AC-3位元流或E-AC-3位元流，及各個包含PIM及/或SSM(及選用也有LPSM及/或其他元資料)的元資料區段(例如為編碼器100的較佳實施法的級107所)包含於廢棄位元區段、或在AUX區段中、或作為該位元流的訊框的位元流資訊(BSI)區段(如圖6所示)的“addbsi”欄中的額外位元流資訊。在此格式中(其為上述參考表1及2所述格式的變化)，各個包含LPSM的addbsi(或AUX或廢棄位元)欄包含以下LPSM值：

表1中所指明的核心元件，跟隨有酬載ID(指明元資料為LPSM)及酬載組態值，跟隨有具有以下格式(類似於上表2中表示強制元件)的酬載(LPSM資料)：

LPSM酬載的版本：2位元欄，其指明LPSM酬載的版本；

dialchan：3位元欄，表示左、右、及/或對應音訊資料的中心頻道包含語音對話。dialchan欄的位元配置可以如下：表示左頻道中的出現對話的位元0係儲存在dialchan欄的最高效位元中；及表示在中頻道出現對話的位元2係被儲存在dialchan欄的最低效位元中。在節目的前0.5秒期間，如果對應頻道包含談話對話，則dialchan欄的各個位元係被設定為’1’；

loudregtyp：四位元欄，表示該節目響度遵循的哪個響度法規標準。設定“loudregtyp”欄為“000”表示LPSM並未表示響度法規符合。例如，此欄一值(例如，0000)可以表示符合未被指出的響度法規標準，此欄另一值(例如，0001)可以表示該節目的音訊資料符合ATSC A/85標準，及此欄的另一值(例如，0010)可以表示節目的音訊資料符合EBU R128標準。在此例子中，如果此欄被設定為’0000’以外的任一值，則loudcorrdialgat及loudcorrtyp欄應跟隨在酬載中；

loudcorrdialgat：表示如果對話_加閘響度校正已經被施加的一位元欄。如果節目的響度已經使用對話加閘校正，則loudcorrdialgat欄的值被設定為’1’，否則，則設定為’0’；

loudcorrtyp：表示應用至該節目的響度校正的類型的一位元欄。如果該節目的響度已經以有效前看(檔案為基礎)響度校正程序加以校正，則loudcorrtyp欄的值被設定為’0’。如果節目的響度已經使用即時響度量測法及動態範圍控制的組合加以校正，則此欄的值被設定為’1’；

loudrelgate：表示是否相關加閘響度資料(ITU)存在的一位元欄。如果loudrelgate欄被設定為’1’，則7位元ituloudrelgat欄應跟隨在酬載中；

loudrelgat：表示相關加閘節目響度(ITU)的7位元欄。此欄表示依據ITU-R BS.1770-3，由於應用dialnorm及動態範圍壓縮(DRC)而沒有任何增益調整所量測的音訊節目的整合響度。0至127的值係被解譯為以0.5LKFS步階的-58LKFS至+5.5LKFS；

loudspchgate：表示是否語音加閘響度資料(ITU)存在的一位元欄。如果loudspchgate欄被設定為’1’，則7位元loudspchgat欄應跟隨此酬載。

loudspchgat：表示語音加閘節目響度的7位元欄。此欄表示依據ITU-R BS.1770-3的公式(2)，由於dialnorm及動態範圍壓縮被使用，而沒有任何增益調整所量測的整個相關音訊節目的整合響度。0至127的值被解譯為以0.5LKFS步階的-58至+5.5LKFS；

loudstrm3se：表示是否短期(3秒)響度資料存在的一位元欄。如果此欄被設定為’1’，則7位元loudstrm3s欄將跟隨於酬載中；

loudstrm3s：表示依據ITU-R BS.1771-1，由於應用dialnorm及動態範圍壓縮，而沒有任何增益調整時所量測的對應音訊節目的前3秒的未加閘響度。0至256的值被解譯為以0.5LKFS步階的-116LKFS至+11.5LKFS；

truepke：表示是否真峰響度資料存在的一位元欄。如果truepke欄被設定為’1’，則8位元truepk欄應跟隨在酬載中；及

truepk：表示依據ITU-R BS.1770-3的附錄2而由於dialnorm及動態範圍壓縮被應用，而沒有任何增益調整所量測的該節目的真峰取樣值的8位元欄。0至256的值被解譯為以0.5LKFS步階的-116LKFS至+11.5LKFS。

在一些實施例中，在廢棄位元區段中或在AC-3位元流或E-AC-3位元流的訊框的auxdata(或”addbsi”)欄中的元資料區段的核心元件包含元資料區段信頭(典型包含識別值，例如版本)，及在元資料區段信頭之後：表示是否指紋資料的值(或其他保護值)被包含在該元資料區段的元資料，表示是否外部資料(相關於有關於對應於元資料區段的元資料的音訊資料)的值存在；為核心元件所識別的各個類型元資料的酬載ID及酬載組態值(例如，PIM及/或SSM及/或LPSM及/或一類型的元件)；及為元資料區段信頭所識別的至少一類型元資料的保護值(或元資料區段的其他核心元件)。元資料區段的元資料酬載跟隨元資料區段信頭並(在一些情況下)係巢套在該元資料區段的核心元件內。

本發明之實施例可以實施為硬體、韌體、或軟體或兩者之組合(例如成為可程式邏輯陣列)。除非特別指明，否則包含作為本發明一部份的演算法或程序並不本質上相關於任一特定電腦或其他設備。更明確地說，各種一般目的機器可以依據於此之教示加以與寫成的程式一起使用，其可以更方便地建構更特定設備(例如積體電路)，以執行所需方法步驟。因此，本發明可以實施在執行在一或更多可程式電腦系統(例如，實施圖1的任一元件的實施法、圖2的編碼器100(或其元件)、或圖3的解碼器200(或其元件)、或圖3的後處理器300(或其元件)的一或更多電腦程式中，其各個系統包含至少一處理器、至少一資料儲存系統(包含揮發及非揮發記憶體及/或儲存元件)、至少一輸入裝置或埠，及至少一輸出裝置或埠。程式碼係應用至輸入資料，以執行於此所述之功能並產生輸出資訊。輸出資訊係以已知方式應用至一或更多輸出裝置。

各個此程式可以以任何想要電腦語言加以實施(包含機器、組合、或高階程序、邏輯、或物件導向規劃語言)，以與一電腦系統相通訊。在任何情況下，該語言可以為編譯或解譯語言。

例如，當電腦軟體指令順序所實施時，本發明之實施例的各種功能及步驟可以以執行在適當數位信號處理硬體的多線軟體指令順序加以實施，其中各實施例的各種裝置、步驟及功能可以對應於軟體指令的部份。

各個此電腦程式較佳係儲存在或下載至為一般或特殊目的可程式電腦可讀取的儲存媒體或裝置(例如，固態記憶體或媒體，或磁或光學媒體)，用以當該儲存媒體或裝置為電腦系統所讀取時，組態或操作該電腦以執行於此所述之程序。本發明也可以實施為電腦可讀取媒體，被組態(即儲存)電腦程式，其中，儲存媒體被組態以使得電腦系統，以特定預定方式操作，以執行於此所述之功能。

本發明之若干實施例已經被描述。然而，應了解的是，各種修改可以在不脫離本發明之精神與範圍下完成。本發明之各種修改與變化在以上之教示下仍有可能。可以了解的是，在隨附申請專利範圍內，本發明可以以於此所特定說明以外之方式實施。