TWM467148U

TWM467148U - 具響度處理狀態詮釋資料之音訊處理設備

Info

Publication number: TWM467148U
Application number: TW102201885U
Authority: TW
Inventors: Jeffrey C Riedmiller; Michael Ward
Original assignee: Dolby Lab Licensing Corp
Priority date: 2013-01-21
Filing date: 2013-01-29
Publication date: 2013-12-01
Also published as: CN107578781A; CN103943112B; HK1248395A1; CN103943112A; DE202013001075U1; FR3001325B3; CN112652316B; CN107276552A; HK1198674A1; EP3082128A1; CN203134365U; CN107257234A; JP3183637U; HK1244111A1; CN112652316A; CN107257234B; EP3079257B1; FR3001325A3; EP3079257A1; CN107578781B

Description

具響度處理狀態詮釋資料之音訊處理設備

〔相關申請案〕

本案和Michael Ward及Jeffrey Riedmiller於2013年1月21日提申之名稱為“Audio Encoder and Decoder with Loudness Processing State Metadata＂的第61/754,882號美國暫時專利申請案有關。

本創作係有關於音訊處理，更明確地係關於用代表音訊內容的響度處理狀態的詮釋資料(metadata)來將位元流解碼的設備。本創作的一些實施例產生Dolby Digital(AC-3)、Dolby Digital Plus(Enhanced AC-3或E-AC-3)、或Dolby E等格式中的一種格式的音訊或將該音訊解碼。

Dolby、Dolby Digital、Dolby Digital Plus、或Dolby E是Dolby Laboratories Licensing Corporation的商標。Dolby Laboratories提供分別被稱為Dolby Digital及 Dolby Digital Plus的AC-3及E-AC-3的專屬實施方案。

音訊資料處單元典型地係以盲目的方式操作且並不注意音訊資料被接收到之前該音訊資料的處理歷史。這在單一個體於一目標媒體提供裝置(target media rendering device)實施該經過編碼的音訊資料的所有解碼及提供作業的同時完成所有用於各種目標媒體提供裝置的音訊資料處理及編碼處理的架構中是行的通的。然而，此種盲目處理在多個音訊處理單元散布橫跨一多變的網路中或以隨機(如，鏈鎖)方式被設置且被期待實施它們各自類型的音訊處理的情況中是很難實施(或完全無法實施)的。例如，有些音訊資料可為了高效能媒體系統被編碼且必須順著一媒體處理鏈被轉換成一適合行動裝置的縮減格式。因此，一音訊處理單元會非必要地對一音訊資料實施一種處理，而該種處理是已經被實施過的處理。例如，一音量校平單元可對一輸入音訊剪輯(clip)實施處理，不論相同或類似的音量校平處理是否之前已對該輸入音訊剪輯實施過。因此，該音量校平單元會實施該校平，即使是在非必要的時候亦然。此非必要的處理亦會在提供該音訊資料的內容的同時造成特定特徵的下降及/或消除。

一典型的音訊資料流包括音訊內容(如，音訊內容的一或多個頻道)及該音訊內容的至少一特徵的詮釋資料表示(metadata indicative)兩者。例如，在一AC-3位元流中有數個音訊詮釋資料參數，其係特別要在改變該被送至一聆聽環鏡的節目的聲音時使用的。該等詮釋資料參數中的一者是DIALNORM參數，其係用來指出發生在一音訊節目中的對話的平均位準(level)，且被用來決定音訊回放訊號位準。

在一包含一連串不同的音訊節目片段(每一片段具有不同的DIALNORM參數)的位元流的回放期間，一AC-3解碼器使用每一片段的該DIALNORM參數來實施一種響度處理，在該響度處理中改變了回放位準或響度，使得該一連串的片段的對話之被感覺到的響度是在一致的位準。在一串經過編碼的音訊項目(item)中的每一經過編碼的音訊片段(項目)將(大致上)具有一不同的DIALNORM參數，且該解碼器將調整該等項目的每一項目的位準，使得該對話用於每一項目的回放位準或響度相同或極為接近，雖然這會需要在回放期間對不同的項目施用不同的增益量。

該DIALNORM典型地是由使用者設定，且不是自動被產生，但如果沒有數值被使用者設定的話，則會有一內定的(default)DIALNORM值。例如，一內容創造器(content creator)會用AC-3編碼器外部的一裝置來實施響度測量，然後將結果(其為一音訊節目的口說對話的響度的表示)傳送至該編碼器來設定該DIALNORM值。因此，正確地設定該DIALNORM參數有賴於該內容創造器。

在AC-3位元流中的DIALNORM參數可能不正確有數個不同的原因。首先，如果一DIALNORM值沒有被該內容創造器產生的話，每一AC-3編碼器具有一內定的DIALNORM值，其在該位元流的產生期間被使用。此內定值可能和該音訊的實際對話響度位準實質地不同。其次，即使一內容創造器測量響度並據此設定該DIALNORM值，但所使用的響度測量演算法或測量器可能和被記憶的AC-3響度測量方法不符，因而造成不正確的DIALNORM值。第三，即使AC-3位元流已用被測得的DIALNORM值產生且被該內容創造器正確地設定，但它可能在該位元流的傳送及/或儲存期間被改變成一不正確的數值。例如，在AC-3位元流將使用不正確的DIALNORM詮釋資料予以解碼、修改、然後重新編碼的電視廣播應用中這是很常見的。因此，包括在AC-3位元流內的DIALNORM值可能是不正確或不精確的，因此對於聆聽經驗的品質會有負面的影響。

又，該DIALNORM參數並沒有顯示出相應的音訊資料的響度處理狀態(如，哪種響度處理已被實施於該音訊資料上)。在本創作之前，音訊位元流並沒有包括詮釋資料，其為該音訊位元流的音訊內容的響度處理狀態(如，施加至該音訊內容的響度處理種類)或該音訊位元流的音訊內容的響度處理狀態及響度的表示(indicative)，其格式是一種描述於本文中的形式。此一格式的響度處理狀態詮釋資料對於以特別有效率的方式促進一音訊位元流之可調適的(adaptive)響度處理及/或該音訊內容的響度處理狀態及響度的正確性(validity)的驗證是有幫助的。

PCT國際專利申請案公開第WO 2012/075246 A2號(其在2011年12月1日提出國際申請案並讓渡給本案申請人)揭露了用於產生、解碼、及處理包含詮釋資料(其為音訊內容的處理狀態(如，響度處理狀態)及特徵(如，響度)的表示)的音訊位元流的方法及系統。此參考文獻亦描述了使用該詮釋資料之該位元流的音訊內容的可調適的處理、及使用該詮釋資料之該位元流的音訊內容的響度處理狀態及響度的正確性的驗證。然而，該參考文獻並沒有描述一音訊位元流中包含有詮釋資料(LPSM)，其為音訊資料的響度處理及響度用描述於本文中的格式種類呈現的表示。如所提及的，此格式的LPSM對於以特別有效率的方式促進該位元流之可調適的(adaptive)響度處理及/或該音訊內容的響度處理狀態及響度的正確性(validity)的驗證是有幫助的。

雖然本創作並不侷限於和AC-3位元流、E-AC-3位元流、或Dolby E位元流一起使用，但為了方便，在本創作的實施例中，本創作將被描述成產生、解碼、或以其它方式處理包含響度處理狀態詮釋資料的位元流。

一AC-3經過編碼的位元流包含詮釋資料及1至6個頻道的音訊內容。該音訊內容是已經使用感知音訊編碼(perceptual audio coding)加以壓縮的音訊資料。該詮釋資料包括數個音訊詮釋資料參數，其係在改變一被送至一聆聽環境的節目的聲音時使用的參數。

AC-3(亦被稱為Dolby Digital)編碼的細節是習知的且在許多參考文獻中被提出，這些參考文獻包括：ATSC Standard A52/A：Digital Audio Compression Standard(AC-3),Revision A ,Advanced Television Systems Committee,20 Aug.2001；及美國專利第5,583,962；5,632,005；5,633,981；5,727,119；及6,021,386號。

Dolby Digital Plus(E-AC-3)的細節被描述在2004年10月28日出版的“Introduction to Dolby Digital Plus,an Enhancement to the Dolby Digital Coding System,”AES Convention Paper 6196,117^th AES Convention中。

Dolby E編碼的細節被描述在1999年8月的"Efficient Bit Allocation,Quantization,and Coding in an Audio Distribution System",AES Preprint 5068,107th AES Conference及1999年8月的"Professional Audio Coder Optimized for Use with Video",AES Preprint 5033,107th AES Conference中。

一AC-3經過編碼的位元流的每一音框包含音訊內容及用於1536個數位音訊樣本的詮釋資料。對於48kHz取樣率而言，這表示32毫秒的數位音訊或每秒31.25個音框的音訊。

一E-AC-3經過編碼的位元流的每一音框包含音訊內容及用於256個、512個、768個或1536個數位音訊樣本的詮釋資料，這和該音框包含1個、2個、3個或6個數位資料區塊有關。對於48kHz取樣率而言，這分別表示5.333、10.667、16或32毫秒的數位音訊或每秒189.9、93.75、62.5或31.25個音框的音訊。

如圖4中所示，每一AC-3音框被分割成區段(片段)，其包括：同步資訊(SI)區段其包含一同步字元(SW)及兩個錯誤校正字元中的第一個錯誤校正字元(CRC1)(如圖5所示)；位元流資訊(BSI)區段，其包含該詮釋資料的大部分；6個音訊區塊(AB0至AB5)，其包含被壓縮的音訊內容的資料(且亦可包括詮釋資料)；無用位元(waste bits)(W)，其包含該音訊位元被壓縮之後留來之任何未被使用到的位元；輔助(AUX)資訊區段，其可包含更多詮釋資料；及兩個錯誤校正字元中的第二個錯誤校正字元(CRC2)。

如圖7中所示，每一E-AC-3音框被分割成區段(片段)，其包括：同步資訊(SI)區段其包含一同步字元(SW)(如圖5所示)；位元流資訊(BSI)區段，其包含該詮釋資料的大部分；1個至6個音訊區塊(AB0至AB5)，其包含被壓縮的音訊內容的資料(且亦可包括詮釋資料)；無用位元(W)，其包含該音訊位元被壓縮之後留來之任何未被使用到的位元；輔助(AUX)資訊區段，其可包含更多詮釋資料；及錯誤校正字元(CRC)。

在一AC-3(或E-AC-3)位元流中有數個音訊詮釋資料參數，其係特別要在改變被送至一聆聽環境的節目的聲音時使用。該等詮釋資料參數中的一個者是該DIALNORM參數，其被包括在該BSI片段中。

如圖6中所示，一AC-3音框的BSI片段包括一個5位元參數(“DIALNORM”)，其顯示用於該節目的DIALNORM值。一顯示攜載於同一AC-3音框中的第二個音訊節目的DIALNORM值的5位元參數(“DIALNORM2”)被包括，如果該AC-3音框的音訊編碼模式(“acmod”)是“0”的話，其表示使用雙1或“1+1”頻道組態。

該BSI片段亦包括一旗標(“addbsie”)，其顯示在該“addbsie”位元之後有(或沒有)額外的位元流資訊、一參數(“addbsil”)，其顯示在該“addbsil”值之後任何額外的位元流資訊的長度、及在該“addbsil”值之後多達64位元的額外位元流資訊(“addbsi”)。

該BSI片段包括未被特別顯示於圖6中之其它詮釋資料值。

在本創作的一類實施例中，本創作是一種音訊處理設備，其包含一輸入暫存器記憶體，用來儲存一包含LPSM及音訊資料之經過編碼的音訊位元流的至少一音框、一剖析器，其耦合至該輸入暫存器記憶體以擷取該音訊資料、一AC-3或E-AC-3解碼器，其耦合至該剖析器以產生一經過解碼的音訊資料流、及一輸出暫存器記憶體，其耦合至該解碼器以儲存該經過解碼的音訊資料。

100‧‧‧編碼器

101‧‧‧解碼器

102‧‧‧音訊狀態驗證器

103‧‧‧響度處理階段

104‧‧‧音訊流選擇階段

105‧‧‧編碼器

106‧‧‧詮釋資料產生階段

107‧‧‧填料器/格式編排器階段

108‧‧‧對話響度測量子系統

109‧‧‧音框暫存器(記憶體)

150‧‧‧經過編碼的音訊傳送子系統

152‧‧‧解碼器

110‧‧‧音框暫存器

111‧‧‧剖析器

200‧‧‧解碼器

300‧‧‧後處理器

201‧‧‧音框暫存器

202‧‧‧音訊解碼器

203‧‧‧音訊狀態驗證階段(驗證器)

204‧‧‧控制位元產生階段

205‧‧‧剖析器

301‧‧‧音框暫存器

圖1是一可被建構來實施本創作的方法的實施例的系統的實施例的方塊圖。

圖2是本創作的音訊處理單元的實施例的編碼器的方塊圖。

圖3是本創作的音訊處理單元的實施例的解碼器、及一耦合至該解碼器的後處理器的方塊圖，該後處理器是本創作的音訊處理單元的另一實施例。

圖4是一包括被分割成片段的AC-3音框的圖式。

圖5是一包括被分割成片段的AC-3音框的同步資訊(SI)片段的圖式。

圖6是一包括被分割成片段的AC-3音框的位元流資訊(BSI)片段的圖式。

圖7是一包括被分割成片段的E-AC-3音框的圖式。

記號及術語

在包括申請專利範圍在內的此揭露內容中，“對”一訊號或資料實施一操作(如，濾波、縮放 (scaling)、變形、或施加增益至該訊號或資料)此一敘述係以廣義的方式被使用，用以表示直接對該訊號或資料或對該訊號或資料的一經過處理的版本(如，在實施該操作之前該訊號已接受了早期的濾波或預處理的版本)實施該操作。

在包括申請專利範圍在內的此揭露內容中，“系統”一詞係以廣義的方式被使用，用以表示一裝置、系統或子系統。例如，一實現一解碼器的子系統可被稱為一解碼器系統，及一包括此一子系統的系統(如，一產生X個輸出訊號以回應多個輸出的系統，在該系統中該子系統產生M個輸入且其它X-M個輸入係接收自一外部來源)亦可被稱為一解碼器系統。

在包括申請專利範圍在內的此揭露內容中，“處理器”一詞係以廣義的方式被使用，用以表示一可程式的或可用其它方式予以組態化的(configurable)(如，用軟體或韌體)系統或裝置，用以對資料(如，音訊、或視訊或其它影像資料)實施操作。處理器的例子包括一現場可程式閘極陣列(或其它可被組態化的積體電路或晶片組)、一被程式化及/或以其它方式予以組態化以對音訊或其它聲音資料實施管線式處理的數位訊號處理器、一可程式的一般用途處理器或電腦、及一可程式微處理器晶片或晶片組。

在包括申請專利範圍在內的此揭露內容中，“音訊處理器”及“音訊處理單元”等詞句係被可互換地且廣義地使用，用以表示一被建構來處理音訊資料的系統。音訊處理單元的例子包括但不侷限於編碼器(如，轉換編碼器)、解碼器、編解碼器、預處理系統、後處理系統、及位元流處理系統(有時被稱為位元流處理工具)。

在包括申請專利範圍在內的此揭露內容中，“處理狀態詮釋資料”(如，被表示為“響度處理狀態詮釋資料”)一詞係指來自相對應的音訊資料(一亦包括處理狀態詮釋資料之音訊資料流的音訊內容)之分開的且不同的資料。處理狀態詮釋資料和音訊資料相關聯、顯示該相對應的音訊資料的響度處理狀態(如，已對該音訊資料實施何種處理)、且典型地亦顯示該音訊資料的至少一種特性或特徵。該處理狀態詮釋資料和該音訊資料的關聯是時間同步。因此，當前的(最近被接收到的或被更新的)處理狀態詮釋資料顯示該相對應的音訊資料同時包含被顯示的音訊資料處理種類的結果。在一些例子中，處理狀態詮釋資料可包括處理歷史及/或使用於該被顯示的處理種類中及/或從該被顯示的處理種類中推導出的參數的一部分或全部。此外，處理狀態詮釋資料可包括該相對應的音訊資料的至少一特性或特徵(其已被運算或已從該音訊資料被擷取出)。處理狀態詮釋資料亦包括和該相對應的音訊資料的任何處理無關的或不是從該相對應的音訊資料的任何處理推導出來的其它詮釋資料。例如，第三方資料、音軌資訊、識別碼、專屬或標準資訊、使用者註解資料、使用者偏好資料等等可用一特殊的音訊處理單元來添加以傳遞至其它音訊處理單元。

在包括申請專利範圍在內的此揭露內容中，“響度處理狀態詮釋資料”(或“LPSM”)一詞意指該相對應的音訊資料的響度處理狀態的處理狀態詮釋資料表示(如，已對該音訊資料實施何種處理)且典型地亦指該相對應的音訊資料的至少一種特性或特徵(如，響度)。響度處理狀態詮釋資料(即，當它被單獨考量時)可包括不是響度處理狀態詮釋資料的資料(如，其它詮釋資料)。

在包括申請專利範圍在內的此揭露內容中，“耦合”或“被耦合”等詞被用來表示直接或間接連接。因此，如果一第一裝置耦合至一第二裝置的話，則該連接可透過一直接連接、或透過一經由其它裝置或其它連接的間接連接。

本創作的實施例的詳細描述

依據本創作的典型實施例，響度處理狀態詮釋資料(LPSM)被嵌埋在一音訊位元流的詮釋資料片段的一或多個保留區(或欄位(slot))中，該音訊位元流亦包括音訊資料於其它片段(音訊資料片段)中。典型地，該位元流的每一音框的至少一片段包括LPSM，且該音框的至少一其它片段包括相對應的音訊資料(即，響度處理狀態及響度被該LPSM指出的音訊資料)。在一些實施例中，該LPSM的資料量可以小到足以被攜載而不會影響到被分配來攜載該音訊資料的位元率。

當在一音訊處理鏈(或內容生命週期)中，兩個或更多個音訊處理單元必需彼此協力地工作時，將響度處理狀態詮釋資料在該音訊處理鏈溝通是有幫助的。如果在音訊位元流中沒有包括響度處理狀態詮釋資料的話，數個媒體處理問題(譬如，品質、位準及空間下降)會在例如兩個或更多個音訊編解碼器被使用於該音訊處理鏈中及單端式(single-ended)音量校平在位元流旅行至媒體消耗裝置(或該位元流的音訊內容的提供點(rendering point))時發生。

圖1是一示範性的音訊處理鏈(音訊資料處理系統)的方塊圖，在此圖中，該系統的一或多個元件可依據本創作的實施例來建構。該系統包括下列元件，它們如所示地被耦合在一起：一預處理單元、一編碼器、一訊號分析及詮釋資料校正單元、一轉換編碼器、一解碼器、及一預處理單元。在該被示出的系統的變化例中，該等元件中的一或多者被省略掉，或額外的音訊資料處理單元被加入。

在一些實施中，圖1的預處理單元被建構來接受包含音訊內容的PCM(時間域)樣本作為輸入，並輸出經過處理的PCM樣本。該編碼器可被建構來接受該等PCM樣本作為輸入並輸出該音訊內容之經過編碼的(如，被壓縮的)音訊位元流表示(indicative)。該位元流的資料(其為該音訊內容的表示)有時候被稱為“音訊資料”。如果該編碼器依據本創作的一典型的實施例被建構的話，則來自該編碼器的音訊位元流輸出包括響度處理狀態詮釋資料(及典型地其它詮釋資料)以及音訊資料。

圖1的該訊號分析及詮釋資料校正單元可接受一或多個經過編碼的音訊位元流作為輸入並藉由實施訊號分析來決定(如，驗證)在每一經過編碼的音訊位元流中的處理狀態詮釋資料是否正確。如果該訊號分析及詮釋資料校正單元發現被包括的詮釋資料是無效的(invalid)的話，則它將用取自於訊號分析的正確數值取代該不正確的數值。因此，來自該訊號分析及詮釋資料校正單元的每一經過編碼的音訊位元流可包括經過校正的(或未校正的)處理狀態詮釋資料以及經過編碼的音訊資料。

圖1的轉換編碼器可接受經過編碼的音訊位元流作為輸入，並在回應時輸出經過修改的(如，被不同地編碼的)音訊位元流(如，將輸入流解碼並將該被解碼的流以不同的編碼格式重新編碼)。如果該轉換編碼器依據本創作的一典型的實施例被建構的話，則來自該轉換編碼器的該音訊位元流輸出包括響度處理狀態詮釋資料(及典型地其它詮釋資料)以及經過編碼的音訊資料。該詮釋資料可以已經被包括在該位元流中。

圖1的解碼器可接受經過編碼的(如，被壓縮的)音訊位元流作為輸入，並(在回應時)輸出被解碼的PCM音訊樣本流。如果該解碼器依據本創作的一典型的實施例被建構的話，則該解碼器在典型操作中的輸出是下列的任何一者或包括下列任何一者：一音訊樣本流，及一從一經過編碼的位元流輸入中擷取出來之相對應的響度處理狀態詮釋資料(及典型地其它詮釋資料)流；或一音訊樣本流，及一相對應的控制位元流，其係用擷取自一經過編碼的位元流輸入的響度處理狀態詮釋資料(及典型地其它詮釋資料)來決定的；或一音訊樣本流，其沒有相對應的處理狀態詮釋資料流或用處理狀態詮釋資料決定的控制位元流。在此最後一種例子中，該解碼器可從該經過編碼的位元流輸入中擷取響度處理狀態詮釋資料(及/或其它詮釋資料)且對該被擷取的詮釋資料實施至少一項操作(如，驗證)，即使該解碼器沒有輸出該被擷取的詮釋資料或由該詮釋資料決定的控制位元亦然。

藉由依據本創作的一典型的實施例建構圖1的該後處理單元，該後處理單元被建構來接受一經過解碼的PCM音訊樣本流，並使用和該等樣本一起被接受的響度處理狀態詮釋資料(及其它詮釋資料)或(該解碼器從響度處理狀態詮釋資料及其它詮釋資料中決定的)控制位元對該經過解碼的PCM音訊樣本流實施後處理(如，該音訊內容的音量校平)。該後處理單元典型地亦被建構來提供(render)該經過後處理的音訊內容以供一或多個揚聲器回放。

本創作的典型實施例提供一種強化型音訊處理鏈，在該音訊處理鏈中，諸音訊處理單元(如，編碼器、解碼器、轉換編碼器、及前處理單元和後處理單元)改造(adapt)它們各自的處理，其將依據該等音訊處理單元分別接收到的響度處理狀態詮釋資料所顯示之媒體資料的同時期狀態(contemporaneous state)被施加至該音訊資料。

輸入至圖1的系統的任何音訊處理單元(如，圖1的編碼器或轉換編碼器)的音訊資料可包括響度處理狀態詮釋資料(及非必要地，其它詮釋資料)以及音訊資料(如，經過編碼的音訊資料)。依據本創作的實施例，此詮釋資料可以已經被圖1的系統的另一元件(或另一未被示於圖1中的來源)包括在該輸入音訊中。接收該(具有詮釋資料的)音訊輸入的該處理單元可被建構來對該詮釋資料實施至少一種操作(如，驗證)或回應該詮釋資料(如，該輸入音訊的可調適的處理(adaptive processing))，且典型地亦將該詮釋資料、該詮釋資料之經過處理的版本、或由該詮釋資料決定的控制位元包括在其輸出音訊中。

在本創作的一典型的實施例中，音訊處理單元(或音訊處理器)被建構來根據響度處理狀態詮釋資料所顯示出之和該音訊資料相對應的音訊資料狀態來實施該音訊資料的可調適的處理。在一些實施例中，該可調適的處理是(或包括)響度處理(如果該詮釋資料顯示該響度處理，或與其相類似的處理，尚未被實施於該音訊資料上的話)，或該可調適的處理不是(且不包括)響度處理(如果該詮釋資料顯示該響度處理，或與其相類似的處理，已被實施於該音訊資料上的話)。在一些實施例中，該可調適的處理是或包括詮釋資料驗證(如，在一詮釋資料驗證子單元中被實施)，用以確保該音訊處理單元根據該響度處理狀態詮釋資料所顯示之該音訊資料的狀態來實施該音訊資料的其它可調適的處理。在一些實施例中，該驗證決定和該音訊資料相關連(如，和它一起被包括在一位元流中)的該響度處理狀態詮釋資料的可靠度。例如，如果該詮釋資料被驗證是可靠的，則得自之前被實施的音訊處理類型的結果可被重新使用且可避免實施相同類型的音訊處理。另一方面，如過該詮釋資料被發現被竄改過(或因其它原因而不可靠)的話，則(該不可靠的詮釋資料所顯示之)據稱之前已被實施的媒體處理類型就必須被該音訊處理單元重複，及/或其它處理可被該音訊處理單元實施在該詮釋資料及/或該音訊資料上。該音訊處理單元亦可被建構來對位在一強化型媒體處理鏈中的下游的其它音訊處理單元送出該響度處理狀態詮釋資料是有效的訊號(如，呈現在一媒體位元流中)，如果該單元決定該響度處理狀態詮釋資料是有效的話(如，根據一被擷取出來的密碼值(cryptographic value)和一參考密碼值相符的結果)。

圖2是一編碼器(100)的方塊圖，該編碼器為本創作的音訊處理單元的一實施例。編碼器100的任何構件或元件可被實施成一或多個處理器及/或一或多個電路(如，ASIC、FPGA、或其它積體電路)、硬體、軟體、或硬體和軟體的組合。編碼器100包含音框暫存器110、剖析器111、解碼器101、音訊狀態驗證器102、響度處理階段103、音訊流選擇階段(MUX)104、編碼器105、填料器/格式編排階段107、詮釋資料產生階段106、對話響度測量子系統108、及音框暫存器109，它們係如圖所示地連。典型地，編碼器100亦包括其它處理元件(未示出)。

編碼器100(其為一轉換編碼器)被建構來藉由使用包括在該位元流輸入中的響度處理狀態詮釋資料實施可調適的及自動化的響度處理來將音訊位元流輸入(其例如可以是AC-3位元流、E-AC-3位元流、或Dolby E位元流中的一者)轉換成一經過編碼的音訊位元流輸出(其例如可以是AC-3位元流、E-AC-3位元流、或Dolby E位元流中的另一者)。例如，編碼器100可被建構來將一Dolby E位元流輸入(一種典型地被使用在製作及廣播設備中而不是使用在接收音訊節目的消費者裝置中的格式)轉換成一AC-3或E-AC-3格式之經過編碼的音訊位元流輸出(其適合廣播至消費者裝置)。

圖2的系統亦包括經過編碼的音訊傳送子系統150(其儲存及/或傳送來自編碼器100的該經過編碼的位元流輸出)及解碼器152。一來自編碼器100的經過編碼的音訊位元流輸出可被子系統150(如，以DVD或藍光碟片的形式)儲存、或被子系統150(其可被體現為一傳送鏈或網路)傳送、或同時被子系統150儲存及傳送。解碼器152被建構來將一被該子系統150接收到之(該編碼器100產生的)經過編碼的音訊位元流解碼，其包括將響度處理狀態詮釋資料(LPSM)從該位元流的每一音框中擷取出來、及產生經過解碼的音訊資料。典型地，解碼器152被建構來使用該LPSM對該經過解碼的音訊資料實施可調適的響度處理、及/或將該經過解碼的音訊資料及LPSM送至一後處理器，其被建構來使用該LPSM對該經過解碼的音訊資料實施可調適的響度處理。典型地，解碼器152包括一暫存器，其儲存(如，以非短暫性的方式)該接收自該子系統150的該經過解碼的音訊資料。

編碼器100和該解碼器152的不同實體化被建構來實施本創作的方法的不同實施例。

音框暫存器110是一被耦合來接收一經過解碼的音訊位元流輸入的暫存記憶體。在操作時，暫存器110儲存(如，以非短暫性的方式)該經過解碼的音訊位元流的至少一音框，且該經過解碼的音訊位元流的順序係從該暫存器110至該剖析器111被宣告(assert)。

該剖析器111被耦合及建構來從該經過解碼的音訊資料中擷取出該響度處理狀態詮釋資料(LPSM)及其它詮釋資料、宣告至少該LPSM至該音訊狀態驗證器102、響度處理階段103、詮釋資料產生階段106、及子系統108，用以從該經過解碼的音訊輸入中擷取出音訊資料、並將該音訊資料宣告給該解碼器101。編碼器100的解碼器101被建構來將該音訊資料解碼以產生經過解碼的音訊資料、並將該經過解碼的音訊資料宣告給該響度處理階段103、該音訊流選擇階段104、子系統108、及典型地亦宣告給該狀態驗證器102。

狀態驗證器102被建構來鑑定及確認該被宣告的LPSM(及非必要地，其它詮釋資料)。在一些實施例中，該LPSM是一已被包括在該位元流輸入內的資料區塊(或被包括在該資料區塊內)(如，依據本創作的一實施例)。該資料區塊可包含一用於處理該LPSM(及非必要地，其它詮釋資料)及/或底下的(underlying)(由該解碼器101提供給該驗證器102)音訊資料的密碼雜湊(crytographic hash)(一以雜湊為主的訊息認證碼或“HMAC”)。該資料區塊在這些實施例中可被數位地簽名，使得一下游的音訊處理單元可相對容易地鑑定並確認該處理狀態詮釋資料。

例如，該HMAC被用來產生一摘要(digest)，且包括在本創作的位元流內的保護值可包括該摘要。該摘要可如下所述地被產生以用於一AC-3音框：

1.在AC-3資料LPSM被編碼之後，音框資料位元組(其被串連成frame_data#1及frame_data#2)及該LPSM資料位元組被用作為該雜湊功能HMAC的輸入。其它資料(其可存在一輔助資料欄位(field)內部)在計算該摘要時沒有被加以考量。這些其它資料可以是不屬於該AC-3資料也不屬於LSPSM資料的位元組。包括在LPSM中的保護位元在計算該HMAC摘要時可不予以考慮。

2.在該摘要被計算出之後，它被寫入到在一保留給保護位元的欄位內的位元流中。

3.產生該完整的AC-3音框的最後一個步驟是該CRC-檢查的計算。這被寫在該音框的最末端且屬於此音框的所有資料都被加以考量，包括該LPSM位元。

其它的加密方法(包括但不侷限於一或多個非HMAC加密方法的任何一種)可被用於LPSM的驗證(如，在該驗證器102中)，用以確保該LPSM及/或底下的音訊資料安全的傳送及接收。例如，(使用此一加密方法的)驗證可被實施於每一音訊處理單元中，該音訊處理單元接收本創作的音訊位元流的一個實施例，用以決定該響度處理狀態詮釋資料和包括在該位元流中的相應的音訊資料是否已接受特定的響度處理(及/或已從(詮釋資料所示之)特定的響度處理獲得相應的音訊資料)且在實施該特定的響度處理之後尚未被修改。

狀態驗證器102宣告控制資料給該音訊流選擇階段104、詮釋資料產生階段106、及對話響度測量子系統108，用以顯示該驗證操作的結果。在回應該控制資料時，階段104可選擇(並將其傳送至編碼器105)以下所列：該被可調適地處理的該響度處理階段103的輸出 (如，當該LPSM顯示來自該解碼器101的該音訊資料輸出尚未接受特定的類型的響度處理，且來自驗證器102的控制位元顯示該LPSM是有效的時)；或來自該解碼器101的該音訊資料輸出(如，當該LPSM顯示來自該解碼器101的該音訊資料輸出已接受會在階段103被實施之特定的類型的響度處理，且來自驗證器102的控制位元顯示該LPSM是有效的時)。

該編碼器100的階段103被建構來根據被解碼器101擷取出來的LPSM所顯示的一或多個音訊資料特徵對來自解碼器101的經過解碼的音訊資料輸出實施可調適的響度處理。階段103可以是可調適的轉換域即時響度及動態範圍控制處理器。階段103可接收使用者輸出(如，使用者目標響度/動態範圍值或對話歸一值(dialnorm value))、或其它詮釋資料輸入(如，第三方資料、音軌資訊、識別元、專屬或標準資訊、使用者註解資料、使用者偏好資料等等的一或多種)及/或其它輸入(如，來自鑑別處理的輸入)，並使用此輸入來處理來自解碼器101之經過解碼的音訊資料。

當來自驗證器102的控制位元顯示該LPSM是有效的時，該對話響度測量子系統108可操作，用以例如使用該解碼器101擷取出來的該LPSM(及/或其它詮釋資料)決定(來自該解碼器101之)該經過解碼的音訊的片段的響度，該等片段是該對話(或其它演說)的表示(indicative)。當來自驗證器102的控制位元顯示該 LPSM是有效的時候，該對話響度測量子系統108的操作可在該LPSM顯示(來自解碼器101之)該經過解碼的音訊的對話(或其它演說)片段之前被決定的響度時被失去能力(disabled)。

有可方便且輕易地測量在音訊內容中的對話的位準的有用的工具(如，Dolby LM100響度計)存在。本創作的APU(如，編碼器100的階段108)的一些實施例被體現為包括此一工具(或實施此工具的功能)，用以測量一音訊位元流(如，一從編碼器100的解碼器101被宣告給階段108之經過解碼的AC-3位元流)的音訊內容的平均對話響度。

如果階段108被體現為測量音訊資料的真實的平均對話響度的話，則該測量可包括將音訊內容之顯著地包含演說的片段予以隔離的步驟。該等顯著地包含演說的音訊片段然後依據一響度測量演算法則被處理。對於從AC-3位元流中被解碼出來的音訊資料而言，此演算法則可以是標準的K-權衡(K-weighted)的響度測量(依據國際標準ITU-R BS.1770)。或者，其它響度測量可被使用(如，根據響度的音響心理學模型(psychoacoustic model)的響度測量)。

該等演說片段的隔離對於測量該音訊資料的平均對話響度而言並非關鍵。然而，從聆聽者的角度而言，這可改善測量的精確度且典型地提供更令人滿意的結果。因為並不是所有音訊內容包含對話(演說)，所以如果有演說存在的話則整個音訊內容的響度測量提供該音訊的對話位準的充分趨近。

詮釋資料產生器106產生將被階段107包括在將從該編碼器100被輸出之該經過編碼的位元流中的詮釋資料。該詮釋資料產生器106可將被該編碼器101擷取出來的該LPSM(及/或其它詮釋資料)傳送至階段107(如，當來自該驗證器102的控制位元顯示該LPSM及/或其它詮釋資料是有效的時候)、或產生新的LPSM(及/或其它詮釋資料)並將該新的詮釋資料宣告給階段107(如，當來自該驗證器102的控制位元顯示該LPSM及/或該解碼器101所擷取的其它詮釋資料是無效的時候)、或它可將被該解碼器101擷取出來的詮釋資料和該新產生的詮釋資料的組合宣告給該階段107。該詮釋資料產生器106可包括該子系統108所產生的響度資料、及該子系統108所實施的響度處理的種類的至少一數值表示，在該LPSM中它宣告給階段107用以包括在該將從編碼器100被輸出的經過編碼的位元流中。

該詮釋資料產生器106可產生保護位元(其可包含或包括一以雜湊為主的訊息認證碼或“HMAC”)，其對於將被包括在該經過編碼的位元流內的該LPSM(及非必要地，其它詮釋資料)及/或將被包括在該經過編碼的位元內之底下的音訊資料的解密、認證、或驗證的至少一者是很有用的。該詮釋資料產生器106可提供此等保護位元給階段107以包括在該經過編碼的位元流中。

在典型的操作中，對話響度測量子系統108處理來自該解碼器101的音訊資料輸出以產生響度值來回應該音訊資料輸出(如，被閘控的或未被閘控的響度值)及動態範圍值。在回應這些數值時，該詮釋資料產生器106可產生響度處理狀態詮釋資料(LPSM)用以(被填料器/格式編排階段107)包括在將從該編碼器100輸出的該經過編碼的位元流中。

額外地、非必要地、或替代地，該編碼器100的子系統106及/或108可實施該音訊資料的額外分析以產生該音訊資料之將被包括在將從該階段107被輸出的經過編碼的位元流中的至少一特徵的詮釋資料表示(metadata indicative)。

編碼器105(藉由對從該選擇階段104輸出的音訊資料實施比較)而將該音訊資料編碼，並將該經過編碼的音訊資料宣告給階段107，用以包括在將從階段107被輸出的該經過編碼的位元流中。

階段107將來自該編碼器105的經過編碼的位元流和來自產生器106的該詮釋資料(包括LPSM)予以多工處理(multiplex)以產生將從階段107被輸出之經過編碼的位元流，較佳地使得該經過編碼的位元流具有本創作的一較佳的實施例所界定的格式。

音框暫存器109是一暫存記憶體，其儲存(如，以非短暫性的方式)來自階段107的該經過編碼的位元流輸出的至少一音框，該經過編碼的音訊位元聯的一連串的音框然後從該暫存器109被宣告成為從該編碼器100至該傳送系統150的輸出。

被該詮釋資料產生器106產生且被階段107包括在該經過編碼的位元流中的該LPSM是相對應的音訊資料的響度處理狀態(如，何種響度處理已被實施於該音訊資料上)及該相對應的音訊資料的響度(如，被測量的對話的響度、被閘控及/未被閘控的響度、及/或動態範圍)的表示。

在本文中，被實施在音訊資料上的響度及/或位準測量的“閘控(gating)”係指一特定的位準或響度門檻值，超過該門檻值之被計算出來的數值被包括在最終的測量中(如，在最終的測量數值中忽略低於-60dBFS之短期的響度數值)。對絕對數值閘控係指一固定的位準或響度，而對一相對數值閘控係指一和目前“未被閘控的”測量數值相依(dependent on)的數值。

在編碼器100的一些實施中，被暫存在該記憶體109中(且被輸出至該傳送系統150)之經過編碼的位元流是AC-3位元流或E-AC-3位元流，且包含音訊資料片段(如，圖4中所示的音框的片段AB0-AB5)及詮釋資料片段，其中該等音訊資料片是音訊資料的表示，及至少一些該等詮釋資料片段的每一者包括響度處理狀態詮釋資料(LPSM)。階段107將LPSM插入到下列格式的位元流中。每一包括該LPSM的詮釋資料片段都被包括在該位元流的一音框的位元流資訊(“BSI”)片段的“addbsi”欄位中，或該位元流的一音框的終端的輔助資欄位中(如，圖4所示的AUX片段)。該位元流的音框可包括一或兩個詮釋資料片段，每一詮釋資料片段包括LPSM，且如果該音框包括兩個詮釋資料片段的話，則其中一者重現在該音框的addbsi欄位及另一者在該音框的AUX欄位。包括該LPSM的每一詮釋資料片段包含具有下列格式的LPSM酬載(或容器)片段：一標頭(header)(其典型地包括一用來辨識該LPSM酬載的開頭的同步字(syncword)，其後接著至少一身份值(如，下面的表2中所記載的該LPSM格式、長度、週期、數量、及子流(substream)關聯值)；及在標頭之後，至少一對話指示值(如，表2的“對話頻道(dialog channel)”參數)，其顯示相應的音訊資料是否有指出有對話或沒有指出有對話(如，相應的音訊資料的哪些頻道指出對話)；至少一響度調整符合值(如，表2的“響度調整類型”參數)，其顯示相應的音訊資料是否和一組被指出的響度調整相符合)；至少一響度處理值(如，表2的“對話被閘控的響度校正旗標(flag)”、“響度正種類”參數的一者或多者)，其顯示至少一種已被實施於該相應的音訊資料上的響度處理；及至少一響度值(如，表2的“ITU相對被閘控的響度”、“ITU演說被閘控的響度”、“ITU(EBU 3341)短期3s響度”、及“真實峰值”參數的一者或多者)，其顯示該相應的音訊資料的至少一響度(如，峰值或平均響度)特徵。

在一些實施例中，被階段107插入到該位元流的一音框的“addbsi”欄位內的每一詮釋資料片段具有下列格式：一核心標頭(其典型地包括一用來辨識該詮釋資料片段的開頭的同步字，其後接著身份值(如，下面的表1中所列的核心元件版本、長度、及週期、延長元件數量、及和該等數值相關連的子流)；及在該核心標頭之後，至少一保護值(如，表1的該HMAC摘要及自動指紋值)，其對於響度處理狀態詮釋資料或該相應的音訊資料的至少一者的解密、認證、或驗證的至少一種很有用；及同樣在該核心標頭之後，如果該詮釋資料片段包括LPSM的話，則該LPSM酬載身份(“ID”)及LPSM酬載大小值將後面的詮釋資料視為LPSM酬載並顯示出該LPSM酬載的大小。

該LPSM酬載(或容器)片段(其較佳地具有上述的格式)跟在該LPSM酬載身份及該等LPSM酬載大小值之後。

在一些實施例中，在一音框的該輔助資料 (或“addbsi”)欄位中的每一詮釋資料片段具有三個層級的結構：一高層級結構，其包括一指出該輔助資料(或“addbsi”)欄位是否包括詮釋資料的旗標、至少一個ID值其顯示出現的詮釋資料是哪種類型、及一數值，其顯示(每一種)詮釋資料有多少位元出現(如果有詮釋資料出現的話)。一種可出現的詮釋資料是LSPM，另一種可出現的詮釋資料是媒體研究詮釋資料(如，Nielsen媒體研究詮釋資料)；一中間層級結構，其包含一用於每一種被指認出的詮釋資料(如，上文所述之用於每一種被指認出的詮釋資料的核心標頭、保護值、及LPSM酬載ID及LPSM酬載大小值)的核心元件；及一下層級結構，其包含用於一核心元件的每一酬載(如，一LPSM酬載，如果該核心元件指認出有一個LPSM酬載存在的話，及/或一詮釋資料酬載，如果該核心元件指認出有一個詮釋資料酬載存在的話)。

在此三層級結構中的資料值可被套疊(nested)。例如，用於被一核心元件指認出的LPSM酬載及/或另一詮釋資料酬載的保護值可在每一酬載被該核心元件指認出之後被包括(及因而是包括在該核心元件的核心標頭之後)。在一個例子中，一核心標頭可指認出一LPSM酬載及另一詮釋資料酬載、用於該第一酬載(如，該LPSM酬載)的酬載ID及酬載大小值可跟在該核心標頭之後、該第一酬載本身可跟在該ID及該等大小值之後、用於該第二酬載的酬載ID及酬載大小值可跟在該第一酬載之後、該第二酬載本身可跟在這些ID及等大小值之後、及用於這兩個酬載(或用於核心元件值及兩個酬載)的保護值可跟在最後一個酬載之後。

在一些實施例中，如果解碼器101接受依據本創作的一實施例所產生之具有密碼雜湊的音訊位元流的話，則該解碼器被建構來剖析並從一由該位元流決定的資料區塊中取得該密碼雜湊，該資料區塊包含響度處理狀態詮釋資料(LPSM)。該驗證器102可使用該密碼雜湊來驗證該被接收到的位元流及/或相關連的詮釋資料。例如，該驗證器102根據一參考密碼雜湊和從該資料區塊取得的該密碼雜湊兩者間的匹配來找出待驗證的LPSM，然後它可將該處理器103對該相應的音訊資料的處理停止並造成選擇階段104傳送(未被改變的)該音訊資料。額外地、非必要地、或替代地，其它種類的加密技術可被用來取代以密碼雜湊為基礎的方法。

圖2的編碼器100可(在回應被解碼器101擷取的LPSM時)(在元件105、106及107中)決定一後/前處理單元已對一待編碼的音訊資料實施一種響度處理，因此可(在產生器106中)產生響度處理狀態詮釋資料，其包括在之前被實施的響度處理中被使用及/或從該之前被實施的響度處理中被推導出來的特定參數。在一些實施例中，只要該編碼器知曉已被實施在該音訊內容上的處理種類，該編碼器100就可產生(及包括在由該編碼器產生之該經過編碼的位元流輸出中的)該音訊內容的處理歷使的響度處理狀態詮釋資料表示。

圖3為一解碼器(200)及一耦合至該解碼器的後處理器(300)的方塊圖，該解碼器是本創作的音訊處理單元的一實施例。該後處理器(300)亦是本創作的音訊處理單元的一實施例。解碼器200及後處理器300的任何構件或元件可被體現為一或多個程序及/或一或多個電路(如，ASIC、FPGA、或其它積體電路、硬體、軟體、或硬體和軟體的組合。解碼器200包含音框暫存器201、剖析器205、音訊解碼器202、音訊狀態驗證階段(音訊狀態驗證器)203、及控制位元產生階段204，它們係如圖所示地被連。典型地，解碼器200亦包括其它處理元件(未示出)。

音框暫存器201(一暫存記憶體)儲存(如，以非短暫的方式)該解碼器200接收到的該經過編碼的音訊位元流的至少一音框。該經過編碼的音訊位元流的一連串音框從該暫存器201被宣告(asserted)至該剖析器205。

該剖析器205被耦合及被建構來從該經過編碼的音訊輸入的每一音框中擷取響度處理狀態詮釋資料(LPSM)，用以至少將該LPSM宣告至該音訊狀態驗證器203及階段204，用以將該LPSM宣告成(送至後處理器300的)輸出、用以從該經過編碼的音訊輸入擷取音訊資料、及用以將該被擷取的音訊資料宣告至該解碼器202。

輸入至該解碼器200的該經過編碼的音訊位元流可以是AC-3位元流、E-AC-3位元流、或Dolby E位元流中的一種。

圖3的系統亦包括後處理器300。後處理器300包含音框暫存器301及其它處理元件(未示出)，其包括至少一耦合至該暫存器301的處理元件。音框暫存器301儲存(如，以非短暫的方式)該後處理器300從該解碼器200處接收到的該經過解碼的音訊位元流的至少一音框。後處理器300的處理元件被耦合及建構來接受及使用從解碼器202輸出的詮釋資料(其包括LPSM值)及/或從解碼器200的階段204輸出的控制位元來可調適地處理從該暫存器301輸出的該經過解碼的音訊位元流的一連串音框。典型地，後處理器300被建構來使用該LPSM數值(如，根據LPSM所顯示的響度處理狀態、及/或一或多個音訊資料特徵)來對該經過解碼的音訊資料實施可調適的響度處理。

解碼器200及後處理器300的各種實施例被建構來實施本創作的方法的不同實施例。

解碼器200的音訊解碼器202被建構來將該剖析器205所擷取的音訊資料解碼以產生經過解碼的音訊資料，並將該經過解碼的音訊資料宣告成(例如，送至後處理器300的)輸出。

狀態驗證器203被建構來鑑定及確認該被宣告的LPSM(及非必要地，其它詮釋資料)。在一些實施例中，該LPSM是一已被包括在該位元流輸入內的資料區塊(或被包括在該資料區塊內)(如，依據本創作的一實施例)。該資料區塊可包含一用於處理該LPSM(及非必要地，其它詮釋資料)及/或(由該剖析器205及/或該解碼器202提供給該驗證器203之)底下的(underlying)音訊資料的密碼雜湊(一以雜湊為主的訊息認證碼或“HMAC”)。該資料區塊在這些實施例中可被數位地簽名，使得一下游的音訊處理單元可相對容易地鑑定並確認該處理狀態詮釋資料。

其它的加密方法(包括但不侷限於一或多個非HMAC加密方法的任何一種)可被用於LPSM的驗證(如，在該驗證器203中)，用以確保該LPSM及底下的音訊資料安全的傳送及接收。例如，(使用此一加密方法的)驗證可被實施於每一音訊處理單元中，該音訊處理單元接收本創作的音訊位元流的一個實施例，用以決定該響度處理狀態詮釋資料和包括在該位元流中的相應的音訊資料是否已接受特定的響度處理(及/或已從(詮釋資料所示之)特定的響度處理獲得相應的音訊資料)且在實施該特定的響度處理之後尚未被修改。

狀態驗證器203宣告控制資料給該控制位元產生器204、及/或將該控制資料宣告為(例如，送至後處理器300的)輸出，用以顯示該驗證操作的結果。在回應該控制資料(及非必要地，其它從該位元流輸入中擷取出來的詮釋資料)時，階段204可產生以下所列(並將其宣告至後處理器300)：控制位元，其顯示來自該解碼器202之經過解碼的音訊資料輸出已接受一特定種類的響度處理(當該LPSM顯示來自該解碼器202之經過解碼的音訊資料輸出已接受該特定種類的響度處理，且來自該驗證器203的控制位元顯示該LPSM是有效的時)；或控制位元，其顯示來自該解碼器202之經過解碼的音訊資料輸出應接受一特定種類的響度處理(當該LPSM顯示來自該解碼器202之經過解碼的音訊資料輸出尚未接受該特定種類的響度處理時，或當該LPSM顯示來自該解碼器202之經過解碼的音訊資料輸出已接受該特定種類的響度處理，但來自該驗證器203的控制位元顯示該LPSM是無效的時)。

或者，解碼器200該被解碼器202從該位元流輸入中擷取出來的LPSM(及任何其它詮釋資料)宣告至該後處理器300，且該後處理器300使用該LPSM對該經過解碼的音訊資料實施響度處理、或實施該LPSM的驗證，然後(如果該驗證顯示該LPSM是有效的話)使用該LPSM對該經過解碼的音訊資料實施響度處理。

在一些實施例中，如果解碼器201接受依據本創作的一實施例所產生之具有密碼雜湊的音訊位元流的話，則該解碼器被建構來剖析並從一由該位元流決定的資料區塊中取得該密碼雜湊，該資料區塊包含響度處理狀態詮釋資料(LPSM)。該驗證器203可使用該密碼雜湊來驗證該被接收到的位元流及/或相關連的詮釋資料。例如，如果該驗證器203根據一參考密碼雜湊和從該資料區塊取得的該密碼雜湊兩者間的匹配來找出待驗證的LPSM的話，則它可通知一下游的音訊處理單元(如，後處理器300，其可以是或可以包括一音量校平單元)用以傳送(未被改變的)該音訊資料。額外地、非必要地、或替代地，其它種類的加密技術可被用來取代以密碼雜湊為基礎的方法。

在該解碼器100的一些實施例中，該被接收到的(且被暫存在記憶體201中的)經過編碼的音訊位元流是AC-3位元流或E-AC-3位元流，且包含音訊資料片段(如，圖4所示的音框的AB0-AB5片段)及詮釋資料片段，其中該等音訊資料片段是音訊資料的表示(indicative)，該等詮釋資料片段的至少一些詮釋資料片段的每一者包括響度處理狀態詮釋資料(LPSM)。解碼器階段202被建構來從具有下列格式的位元流中擷取出LPSM。每一包括LPSM的詮釋資料片段係被包括在該位元流的一音框的位元流資訊(“BSI”)片段的“addbsi”欄位中，或該位元流的一音框的終端的輔助資欄位中(如，圖4所示的AUX片段)。該位元流的音框可包括一或兩個詮釋資料片段，每一詮釋資料片段包括LPSM，且如果該音框包括兩個詮釋資料片段的話，則其中一者重現在該音框的addbsi欄位及另一者在該音框的AUX欄位。包括該LPSM的每一詮釋資料片段包含具有下列格式的LPSM酬載(或容器)片段：一標頭(header)(其典型地包括一用來辨識該LPSM酬載的開頭的同步字(syncword)，其後接著至少一身份值(如，下面的表2中所記載的該LPSM格式、長度、週期、數量、及子流(substream)關聯值)；及在標頭之後，至少一對話指示值(如，表2的“對話頻道(dialog channel)”參數)，其顯示相應的音訊資料是否有指出有對話或沒有指出有對話(如，相應的音訊資料的哪些頻道指出對話)；至少一響度調整符合值(如，表2的“響度調整類型”參數)，其顯示相應的音訊資料是否和一組被指出的響度調整相符合)；至少一響度處理值(如，表2的“對話被閘控的響度校正旗標”、“響度校正種類”參數的一者或多者)，其顯示至少一種已被實施於該相應的音訊資料上的響度處理；及至少一響度值(如，表2的“ITU相對被閘控的響度”、“ITU演說被閘控的響度”、“ITU(EBU 3341)短期3s響度”、及“真實峰值”參數的一者或多者)，其顯示該相應的音訊資料的至少一響度(如，峰值或平均響度)特徵。

在一些實施例中，解碼器階段202被建構來從該位元流的一音框的“addbsi”欄位或一輔助資料欄位中擷取每一具有下列格式的詮釋資料片段：一核心標頭(其典型地包括一用來辨識該詮釋資料片段的開頭的同步字，其後跟著至少一身份值(如，下面的表1中所列的核心元件版本、長度、及週期、延長元件數量、及和該等數值相關連的子流)；及在該核心標頭之後，至少一保護值(如，表1的該HMAC摘要及自動指紋值)，其對於響度處理狀態詮釋資料或該相應的音訊資料的至少一者的解密、認證、或驗證的至少一種很有用；及同樣在該核心標頭之後，如果該詮釋資料片段包括LPSM的話，則該LPSM酬載身份(“ID”)及LPSM酬載大小值將後面的詮釋資料視為LPSM酬載並顯示出該LPSM酬載的大小。

更一般性地，被本創作的較佳實施例產生的該經過編碼的音訊位元流具有一結構，其提供一機制來將詮釋資料元件及子元件標示為核心(必要)元件或擴充(非必要)元件。這讓該位元流(其包括自身的詮釋資料在內)的資料率適用許多應用。該較佳的位元流語法結構(syntax)的核心(必要)元件亦應能夠以信號方式傳遞和該音訊內容相關連的擴充(非必要)元件是在現場(present)(在頻帶內(in-band))及/或在遠端位置(在頻帶外(out of band))的訊息。

核心元件被要求要出現在該位元流的每一音框中。該等核心元件的一些子元件是非必要的且可以任何組合出現。該等擴充元件並未被要求必須出現在每一音框中(以限制位元率前導符元(bitrate overhead))。因此，該等擴充元件可出現在一些音框中而沒有出現在其它音框中。一擴充元件的一些子元件是非必要的且可以任何組合出現，而一擴充元件的一些子元件可以是必要的(即，如果該擴充元件出現在該位元流的一音框中的話)。

在一類型的實施例中，一包含一連串的音訊資料片段及詮釋資料片段的經過編碼的音訊位元流被產生(如，被一體現本創作的音訊處理單元產生)。該等音訊資料片段是音訊資料的表示，該等詮釋資料片段的至少一些詮釋資料片段的每一者包括響度處理狀態詮釋資料(LPSM)，且該等音訊資料片段用該等詮釋資料片段予以分時多工傳輸(time-division multiplexed)。在此類型的較佳實施例中，每一詮釋資料片具有將於本文中描述之較佳的格式。

在一較佳的格式中，該經過編碼的位元流是AC-3位元流或E-AC-3位元流，且每一包括該LPMS的詮釋資料片段被包括(如，被該編碼器100的一較佳的實施例的階段107包括)在該位元流的一音框的該位元流資訊(“BSI”)片段的“addbsi”欄位中(如圖6所示)，或在該位元流的一音框的輔助資料欄位中。

在該較佳的格式中，每一音框在該音框的該addbsi欄位中包括一核心元件，其具有下面表1中所示的格式：

在該較佳的格式中，每一包含LPSM的addbsi(或輔助資料)欄位包括一核心標頭(及非必要地亦包括額外的核心元件)，且在該核心標頭(或該核心標頭及其它核心元件)之後是下列LPSM值(參數)：酬載ID(其將該詮釋資料指認為LPSM)，其跟在該等核心元件(如，表1中所具體指出的核心元件)之後；酬載大小(其指出該LPSM酬載的大小)，其跟在該酬載ID之後；及LPSM資料(其跟在該酬載ID及該酬載大小值之後)，其具有下面的表(表2)所具體指出的格式：

在依據本創作被產生的經過編碼的位元流的另一較佳的格式中，該位元流是AC-3位元流或E-AC-3位元流，且每一包括該LPSM的詮釋資料片段被包括(如，被該編碼器100的一較佳的實施例的階段107包括)在該位元流的一音框的該位元流資訊(“BSI”)片段的“addbsi”欄位中(如圖6所示)；或在該位元流的一音框的末端的輔助資料欄位(如，圖4所示的該AUX 片段)中。一音框可包括一或兩個詮釋資料片段，每一詮釋資料片段包括LPSM，且如果該音框包括兩個詮釋資料片段的話，則一詮釋資料片段在該音框的該addbsi欄位中及另一詮釋資料片段在該音框的AUX欄位中。每一包括該LPSM的詮釋資料片段具有上文中的表1及表2中所界定的格式(即，它包括界定於表1中的核心元件、其後跟著酬載ID(將該詮釋資料指認為LPSM)及上文中所界定的酬載大小值、其後跟著該酬載(該LPSM資料，其具有表2所列的格式)。

在另一較佳的格式中，該經過編碼的位元流是Dolby E位元流，且每一包括該LPSM的詮釋資料片段是該Dolby E護衛頻帶區間的前N個樣本位置。一包括此一包含LPSM的詮釋資料片段的Dolby E位元流較佳地包括該LPSM酬載長度的一數值表示，其被形成為SMPTE 337M報頭(preamble)的Pd字元中的訊號(該SMPTE 337M Pa字元重復率較佳地保持和相關連的視訊框率相同)。

在該經過編碼的位元流是E-AC-3位元流的一較佳的格式中，包含該LPSM的每一詮釋資料片段係被包括(如，被編碼器100的一較佳的實施例的階段107包括)作為該位元流的一音框的位元流資訊(“BSI”)片段的該“addbsi”欄位中的額外位元流資訊。吾人接下來將描述用具此較佳格式的LPSM來編碼一E-AC-3位元流的額外面向： 1.在產生一E-AC-3位元流期間，在該E-AC-3編碼器(其將LPSM值插入到該位元流中)是“作用中(active)”的情況下，對於每一被產生的音框(同步音框)而言，該位元流應包括一攜載於該音框的addbsi欄位中的詮釋資料區塊(其包括LPSM)。攜載該詮釋資料區塊所需的位元不應增加該編碼器位元率(音框長度)；2.每一詮釋資料區塊(其包括LPSM)應包含下列資訊：1.響度_校正_類型_旗標：其中‘1＇表示該相應的音訊資料的響度係在該編碼器的上游被校正，及‘0＇表示該響度被一嵌設在該編碼器中的響度校正器(如，圖2的編碼器100的響度處理器103)校正；2.演說_頻道：其顯示哪些來源頻道包含演說(在前面的0.5秒期間中)。如果沒有演說被偵測到的話，則其應如此被顯示；3.演說_響度：其顯示包含演說(在前面的0.5秒期間中)的每一相應的音訊頻道之合併的演說響度；4.ITU_響度：其顯示每一相應的音訊頻之合併的ITU BS.1770-2響度；5.增益：用於一解碼器中的逆轉的響度複合增益(以展示可逆性)；3.在E-AC-3編碼器(其將LPSM值插入到該位元流中)是“作用中”且正在接受一帶有‘信任(trust)＇旗標的AC-3音框的時候，在該編碼器中的響度控制器(如圖2的編碼器100的響度處理器103)應被繞過(bypass)。該‘被信任的＇來源對話歸一值(dialnorm value)及DRC值應被傳送(如被編碼器100的產生器106)至E-AC-3編碼器構件(如，編碼器100的階段107)。該LPSM區塊產生持續進行且該響度_校正_類型_旗標被設定為‘1＇。該響度控制器繞道程序必須和出現該‘信任＇旗標的該經過解碼的AC-3音框的開頭同步。該響度控制器繞道程序應如下地被實施：該校平器_數量控制在10個音訊區塊期間(即，53.3毫秒)從9的數值被減至0的數值且該校平器_後端_計數器控制被放入到繞道模式(此操作應產生無縫轉換的結果)。該校平器的該‘被信任的＇繞道一詞意謂著該來源位元流的對話歸一值亦在該編碼器的輸出被重新使用。(如，如果該‘被信任的＇來源位元流具有-30的對話歸一值的話，則該編碼器的輸出應使用-30作為該外向的(outbound)對話歸一值)；4.在E-AC-3編碼器(其將LPSM值插入到該位元流中)是“作用中”且正在接受一不帶有‘信認(trust)＇旗標的AC-3音框的時候，嵌設在該編碼器中的響度控制器(如，圖2的編碼器100的響度處理器103)應是在作用中。該LPSM區塊產生持續進行且該響度_校正_類型_旗標被設定為‘0＇。該響度控制器繞道程序必須和未出現該‘信任＇旗標的該經過解碼的AC-3音框的開頭同步。該響度控制器繞道程序應如下地被實施：該校平器_ 數量控制在1個音訊區塊期間(即，5.3毫秒)從0的數值被增加至9的數值且該校平器_後端_計數器控制被放入到‘作用中＇模式(此操作應產生無縫轉換的結果且包括一後端_計數器合併重設)；及5.在編碼期間，一圖形使用者界面(GUI)應顯示下列參數給使用者：“輸入音訊節目：[受信任的/不受信任的”-此參數的狀態係根據在該輸入訊號中“信任”旗標的存在；及“即時響度校正：[開始作用/停止作用]”-此參數的狀態係根據嵌設在該編碼器中的響動控制器是否為作用中。

當對具有(較佳格式的)LPSM的AC-3或E-AC-3位元流解碼時(該LPSM係被包括在該位元流的每一音框的位元流資訊(“BSI”)片段的“addbsi”欄位中)，該編碼器應剖析(在該addbsi欄位中的)該LPSM區塊資料並將所有被擷取的LPSM數值送至圖形使用者界面(GUI)。該組被擷取的LPSM數值每一音框被更新一遍。

在依據本創作產生的一經過編碼的位元流的另一較佳的格式中，該經過編碼的位元流是AC-3位元流或E-AC-3位元流，每一包括該LPSM的詮釋資料片段係被包括(如被編碼器100的一較佳實施例的階段107包括)作為該位元流的一音框的位元流資訊(“BSI”)片段(或Aux片段)的“addbsi”欄位(如圖6所示)中的額外位元流資訊。在此格式中(其為上文中參考表1及2 描述的格式的變化例)，每一包括該LPSM的addbsi(或Aux)欄位包含下列LPSM數值：界定於表1中的核心元件，其後跟著酬載ID(其將詮釋資料鑑定為LPSM)及乘載大小值，其後跟著該酬載(LPSM資料)其具有下面的格式(其類似於上面表2中所列的必要元件)：LPSM酬載的版本：其為一2位元的欄位，其顯示該LPSM酬載的版本；dialchan：其為一3位元的欄位，其顯示相應的音訊資料的左、右及/或中央頻道中的哪一個頻道包含口說對話。該dialchan欄位的位元分配可如下所述：位元0(其代表對話係出現在左頻道中)被儲存在該dialchan欄位的最重要的位元中；及位元2(其代表對話係出現在中央頻道中)被儲存在該dialchan欄位的最不重要的位元中。該dialchan欄位中的每一位元被設定為‘1＇，如果該節目的前0.5秒期間相應的頻道中包含口說對話的話；loudregtyp：其為一3位元的欄位，其顯示該節目響度遵從哪種響度調整標準。將“loudregtyp”欄位設定為‘000＇代表該LPSM並沒有顯示出響度調整遵從性。例如，此欄位的一個數值(如，000)可代表沒有遵從響度調整標準，此欄位的另一個數值(如，001)可代表該節目的音訊資料遵從ATSC A/85標準，此欄位的另一個數值(如，010)可代表該節目的音訊資料遵從EBU R128標準。在此例子中，如果該欄位被設定為‘000＇以外的任何數值的話，則在該酬載中，loudcorrdialgat及loudcorrtyp欄位應跟在此欄位後面；loudcorrdialgat：一1位元的欄位，其顯示對話閘控的響度校正是否已被實施。如果該節目的響度以使用對話閘控(dialog gating)予以校正的話，則該loudcorrdialgat欄位的數值被設定為‘1＇。否則，它被設定為‘0＇；loudcorrtyp：一1位元的欄位，其顯示施加至該節目的響度校正的種類。如果該節目的響度已用無限預見(infinite look-ahead)(以檔案為主)響度校正處理予以校正的話，則該loudcorrtyp欄位被設定為‘0＇。如果該節目的響度已用即時響度測量和動態範圍控制的組合予以校正的話，則此欄位被設定為‘1＇；loudrelgate：一1位元的欄位，其顯示是否有相對閘控的響度資料(ITU)存在。如果該loudrelgate欄位被設定為‘1＇的話，則在該酬載中，一7位元的ituloudrelgat欄位應跟在此欄位後面；loudrelgat：一7位元的欄位，其顯示相對閘控的及目響度(ITU)。此欄位顯示該音訊節目的合併響度，其係依據ITU-R BS.1770-2來測量，沒有任何增益調整，因為對話歸一及動態範圍壓縮被施加。0至127的數值被解讀為-58LKFS至+5.5LKFS，在0.5LKFS步驟中；loudspchgate：一1位元欄位，其顯示演說閘控的響度資料(ITU)是否存在。如果該loudspchgate欄位被設定為‘1＇的話，則在該酬載中，一7位元的loudspchgat 欄位應跟在此欄位後面；loudspchgat：一7位元的欄位，其顯示演說閘控的及目響度。此欄位顯示整個相應的音訊節目的合併響度，其係依據ITU-R BS.1770-3的公式(2)來測量且沒有任何增益調整，因為對話歸一及動態範圍壓縮被施加。0至127的數值被解讀為-58LKFS至+5.5LKFS，在0.5LKFS步驟中；loudstrm3se：一1位元的欄位，其顯示短期(3秒)響度資料是否存在。如果此欄位被設定為‘1＇的話，則在該酬載中，一7位元的loudstrm3s欄位應跟在此欄位後面；loudstrm3s：一7位元的欄位，其顯示該相應的音訊節目的前3秒鐘未被閘控的響度，其係依據ITU-R BS.1771-1來測量且沒有任何增益調整，因為對話歸一及動態範圍壓縮被施加。0至256的數值被解讀為-116LKFS至+11.5LKFS，在0.5LKFS步驟中；truepke：一1位元的欄位，其顯示真實的峰值響度資料是否存在。如果該truepke欄位被設定為‘1＇的話，則在該酬載中，一8位元的truepk欄位應跟在此欄位後面；及truepk：一8位元的欄位，其顯示該節目的真實峰值樣本值，其係依據ITU-R BS.1770-3的Annex 2來測量且沒有任何增益調整，因為對話歸一及動態範圍壓縮被施加。0至256的數值被解讀為-116LKFS至+11.5LKFS，在 0.5LKFS步驟中。

在一些實施例中，在一AC-3位元流或E-AC-3位元流的一音框的auxdata欄位(或“addbsi”欄位)中的一詮釋資料片段的核心元件包含一核心標頭(其典型地包括身份值，如核心元件版本)，且在該核心標頭之後有：用於該詮釋資料片段的詮釋資料的指紋資料(或其它保護值)是否有被包括的數值表示、外部資料(其和對應於該詮釋資料片段的詮釋資料的音訊資料有關)是否存在的數值表示、用於被該核心元件指認出的每一種詮釋資料(如，LPSM、及/或一種不是LPSM的詮釋資料)的酬載ID及酬載大小值、及用於至少一種被該核心元件指認出的詮釋資料的保護值。該詮釋資料片段的詮釋資料酬載跟在該核心標頭之後，且(在一些情況中)係被套疊在該核心元件的數值內。

本創作的實施例可被體現為硬體、韌體、或軟體、兩者的組合(如，可程式的邏輯陣列)。除非被不同地界定，否則被包括成為本創作的一部分的演算法則或處理並不必然和任何特定的電腦或其它設備有關。詳言之，其內有依據本創作的教示所編寫的程式的各式一般用途的機器可被使用、或本創作可更方便來建造更特用的設備(如，積體電路)來實施所需的方法步驟。因此，本創作可被體現為一或多個可在一或多個可程式的電腦系統(如，圖1的任何元件的實施例、或圖2的編碼器100(或它的元件)、或圖3的解碼器200(或它的元件)、或圖3的後處理器300(或它的元件))上執行的電腦程式，這些系統的每一者包含至少一處理器、至少一資料儲存系統(其包括揮發及非揮發記憶體及/或儲存元件)、至少一輸入裝置或輸入埠、及至少一輸出裝置或輸出埠。程式碼被施加至輸出資料以實施描述於本文中的功能並產生輸出資訊。該輸出資訊以習知的方式被施加至一或多個輸出裝置。

每一此種程式都可用任何想要的電腦語言來實施(其包括機器語言、組合語言、或高階序列的、邏輯的、或物件導向的程式語言)，用以和電腦系統溝通。無論如何，該語言可以是一經過編譯或解譯的語言。

例如，當用電腦軟體指令程序來實施時，本創作的實施例的各種功能及步驟可用能夠在適當的數位訊號處理硬體上執行的多執行緒(multithreaded)指令序列來實施，在此例子中，該等實施例的各式裝置、步驟及功能可對應於該等軟體指令的諸部分。

每一此種電腦程式較佳地被儲存在或下載至一般用途或特殊用途的可程式電腦可讀取的一儲存媒體或裝置(如，固態記憶體或媒體、或磁性媒體或光學媒體)，用以在該儲存媒體或裝置被該電腦系統讀取時配置(configuring)並操作該電腦以實施描述於本文中的程序。本創作的系統亦可被實施成電腦可讀取的儲存媒體，其配置有(如，儲存有)電腦程式，其中該如此地配置的儲存媒體促使電腦系統以一特定的且預定的方式操作以實施描述於本文中的功能。

本創作的數個實施例已被描述。然而，將可被瞭解是，各式變化可在不偏離本創作的精神及範圍下被達成。在上文的教示下本創作可以有許多的修改及變化。應被理解的是，在下面的申請專利範圍的範圍內，本創作可用不同於本文中所明確地描述的方式來體現。