TWI442789B

TWI442789B - 使用物件式元資料來產生音訊輸出信號之裝置與方法

Info

Publication number: TWI442789B
Application number: TW098123593A
Authority: TW
Inventors: Stephan Schreiner; Wolfgang Fiesel; Matthias Neusinger; Oliver Hellmuth
Original assignee: Fraunhofer Ges Forschung
Priority date: 2008-07-17
Filing date: 2009-07-13
Publication date: 2014-06-21
Also published as: MX2010012087A; CN102100088B; RU2510906C2; AR094591A2; RU2010150046A; CN103354630B; PL2297978T3; RU2013127404A; EP2297978A1; KR101325402B1; KR20120131210A; CN103354630A; KR101283771B1; CA2725793A1; JP2011528200A; ES2453074T3; WO2010006719A1; HK1190554A1; US8824688B2; JP5467105B2

Description

使用物件式元資料來產生音訊輸出信號之裝置與方法

發明領域

本發明係有關音訊處理，並特別係有關在諸如空間音訊物件編碼之音訊物件編碼內容中之音訊處理。

發明背景

在現今的像是電視機的廣播系統中，在某些情況下，會希望不要如同音響工程師所設計的那樣再現音軌，而較希望是執行特殊調整，以解決在演示時所給予的限制。一種廣為人知的控制此種後製調整之技術，係提供伴隨著那些音軌的適當元資料。

傳統的音訊再現系統，如老式家用電視系統，係由一個揚聲器或一對立體揚聲器所組成的。更先進的多聲道再現系統使用五個或者甚至更多個揚聲器。

若考慮的是多聲道再現系統，那麼音響工程師於在一個二維平面上放置數個單音源上，便可更有彈性，並因此亦可針對其所有的音頻而使用較高的動態範圍，因為由於著名的雞尾酒會效應，聲音清晰度係較為容易的

然而，那些逼真的、高動態的音訊可能會導致在傳統再現系統上的問題。可能會有這樣的情景出現：一個顧客可能會不想要這種高動態信號，因為她或他是在吵鬧的環境中(如開車時或是在飛機上，或是行動娛樂系統)聆聽這些內容，她或他正戴著耳機，或是她或他並不想要打擾到她或他的鄰居(例如在深夜的時候)。

此外，廣播員會面臨這樣的問題，那就是，由於連續項目之不同的峰值因素需求位準調整，在一個節目中的不同項目(如廣告)可能會是不同的音量位準。

在一個傳統的廣播發送鍊中，末端使用者接收已混音軌。在接收者這邊的任何更進一步的操縱，皆可能會只在非常受限的形式下完成。目前杜比元資料的一個小型特徵集允許使用者修改音訊信號的一些特性。

一般而言，依據上文所提過的元資料之操縱，係在不具有任何頻率選擇性區別的情況下應用，因為在傳統上隸屬於音訊信號的元資料並未提供足夠的資訊來這麼做。

此外，只有完整的音訊串流本身才可作操縱。同時，也沒有任何在此音訊串流中採納或分割各個音訊物件的方法。特別是在不適當的聆聽環境中，這可能會令人不滿。

在午夜模式中，因為失去了導引資訊，所以現存的音訊處理器不可能區分週遭雜訊與對話。因此，在高位準雜訊(其必須在音量上被壓縮或限制)的情況中，對話也將會被平行地操縱。這可能會損害語音清晰度。

相對於周遭聲音而增加對話位準，有助於增進對語音的感知，特別是對於聽力障礙者。這樣的技術只在當音訊信號額外配合特性控制資訊，而在對話與週遭成份上真正分離時，才能發揮作用。若只有一個立體聲降混信號是可用的，那麼便再也不能在分別地區別與操縱這些語音資訊上應用更進一步的分離。

目前的降混解決辦法允許一種針對中央與周圍聲道的動態立體位準調整。但針對取代立體聲音響的任何變異的揚聲器組態，並沒有從發送器來的要如何降混最終的多聲道音訊信號的真正說明。只有解碼器中的一個除錯公式，在非常沒有彈性的方式下執行音訊混合。

在所有所說明的架構中，通常會存在著兩種工作方式。第一個工作方式就是，當產生要發送的音訊信號時，將一組音訊物件降混進一個單聲道、立體聲、或是多聲道信號中。要經由廣播、任何其他發送協定、或在一個電腦可讀儲存媒體上之發佈，發送給此信號的一個使用者的這個信號，一般會具有小於原始音訊物件的數目之聲道數，這些原始音訊物件被音響工程師在例如一個工作室環境中降混。此外，可附著元資料，以允許數種不同的修改，但這些修改只可應用在完整的發送信號上，或者是，若所發送之信號具有數個不同的發送聲道時，整體上地應用在獨立的發送聲道上。然而，既然此等發送聲道總是疊加在數個音訊物件上，那麼在更進一步的音訊物件未被操縱的情況下，對於某一個音訊物件的獨立操縱是完全不可能的。

另一個工作方式是不執行物件降混，而在其作為分離的發送聲道時發送此等音訊物件信號。當音訊物件的數目很小的時候，這樣的架構可好好地發揮功效。例如當只存在著五個音訊物件時，就有可能在一個5.1架構中彼此分離地發送這五個相異的音訊物件。元資料可與這些聲道相關聯，其指出一個物件/聲道的特定本質。然後，在接收器側，便可基於所發送的元資料來操縱這些所發送聲道。

此工作方式的一個缺點是，其並非反向相容的，且只在小量音訊物件的情況中良好運作。當音訊物件的數目增加時，以分離的明確音軌發送所有物件的所需位元率急遽上升。此上升位元率在廣播應用的情況中特別無益。

因此，目前具有高位元率效率的工作方式並不允許相異音訊物件的獨立操縱。這樣的獨立操縱只在要個別發送各個物件時被允許。然而，此工作方式並不具有高位元率效率，且因此在廣播情境中特別不可行。

本發明的一個目標是提供對這些問題的一個具有高位元率效率又可行的解決方法。

發明概要

依據本發明之第一觀點，此目標係由一種用於產生代表至少兩個不同的音訊物件之疊加的至少一個音訊輸出信號之裝置來達成，該裝置包含：一個處理器，該處理器係用於處理一個音訊輸入信號，以提供該音訊輸入信號的一個物件表示型態，其中該等至少兩個不同的音訊物件彼此分離，該等至少兩個不同的音訊物件可作為分離的音訊物件信號，並且該等至少兩個不同的音訊物件可彼此獨立地操縱；一個物件操縱器，該物件操縱器係用於依據關聯至少一個音訊物件之以音訊物件為主的元資料，而操縱該至少一個音訊物件之該音訊物件信號或一個已混音訊物件信號，以針對該至少一個音訊物件來獲得一個受操縱音訊物件信號或一個受操縱已混音訊物件信號；以及一個物件混合器，該物件混合器係用於藉由將該受操縱音訊物件與一個未經修改的音訊物件組合，或是將該受操縱音訊物件與以和該至少一個音訊物件不同之方式操縱的一個受操縱的不同音訊物件組合，來混合該物件表示型態。

依據本發明之第二觀點，此目標係藉由一種用以產生代表至少兩個不同的音訊物件之疊加的至少一個音訊輸出信號之方法來達成，該方法包含下列步驟：處理一個音訊輸入信號，以提供該音訊輸入信號的一個物件表示型態，其中該等至少兩個不同的音訊物件彼此分離，該等至少兩個不同的音訊物件可作為分離的音訊物件信號，並且該等至少兩個不同的音訊物件可彼此獨立地操縱；依據關聯至少一個音訊物件之以音訊物件為主的元資料，而操縱該至少一個音訊物件之該音訊物件信號或一個已混音訊物件信號，以針對該至少一個音訊物件來獲得一個受操縱音訊物件信號或一個受操縱已混音訊物件信號；以及藉由將該受操縱音訊物件與一個未經修改的音訊物件組合，或是將該受操縱音訊物件與以和該至少一個音訊物件不同之方式操縱的一個受操縱的不同音訊物件組合，來混合該物件表示型態。

依據本發明之第三觀點，此目標係藉由一種用於產生表示至少兩個不同的音訊物件之疊加的已編碼音訊信號之裝置來達成，該裝置包含：一個資料串流格式器，該資料串流格式器係用於格式化一個資料串流，以使該資料串流包含代表該等至少兩個不同的音訊物件之組合的一個物件降混信號，以及作為邊側資訊的關聯該等不同的音訊物件中之至少一個音訊物件之元資料。

依據本發明之第四觀點，此目標係藉由一種用以產生代表至少兩個不同的音訊物件之疊加的已編碼音訊信號之方法來達成，該方法包含下列步驟：格式化一個資料串流，以使該資料串流包含代表該等至少兩個不同的音訊物件之組合的一個物件降混信號，以及作為邊側資訊的關聯該等不同的音訊物件中之至少一個音訊物件之元資料。

本發明之更進一步的觀點提到運用此等創新方法的電腦程式，以及具有儲存於其上的一個物件降混信號以及，作為旁側資訊的，針對包括在此物件降混信號中之一個或多個音訊物件物件參數資料與元資料的一個電腦可讀儲存體媒體。

本發明係根據這樣的調查結果，即分別的音訊物件信號或分別的混合音訊物件信號組的獨立操縱允許基於物件相關元資料的獨立的物件相關處理。依據本發明，此操縱之結果並非直接輸出至揚聲器，而是提供給一個物件混合器，其針對某一個演示場景產生輸出信號，其中此等輸出信號係由至少一個受操縱物件信號或一組已混物件信號加上其他受操縱物件信號及/或一個未經修改的物件信號之疊加來產生的。當然，並非必須要操縱各個物件，但在一些情況中，僅操縱此等多個音訊物件中之一個物件，而無操縱更進一步的物件可便已足夠。此物件混合操作之結果為根據受操縱物件的一個或多個音訊輸出信號。依特定應用場景而定，這些音訊輸出信號可被發送到揚聲器，或為進一步的利用而儲存，或甚至發送至更遠的接收器。

較佳的是，輸入此創新操縱/混合設備之此信號為由降混多個音訊物件信號所產生的一個降混信號。此降混操作可為獨立地針對各個物件而受元資料控制的，或可為不受控制的，如與各個物件相同。在前者的情況中，依據此元資料的此物件之操縱為物件控制的獨立個體的與特定於物件的上混操作，其中代表此物件的一個喇叭成份信號被產生。較佳的是，亦提供空間物件參數，其可用來利用所發送的物件降混信號，藉由其中之近似版本來重組原本的信號。之後，用於處理一個音訊輸入信號以提供此音訊輸入信號的一個物件表示法之此處理器便係操作來基於參數資料，而計算原本的音訊物件之重組版本，其中這些近似物件信號之後可由以物件為主的元資料來獨立操縱。

較佳的是，亦提供物件演示資訊，其中此物件演示資訊包括在此再現場景中，在所欲音訊再現設定上的資訊，與在此等獨立音訊物件之安置上的資訊。然而，特定的實施例可亦無關此等物件定位資料而作用。此等組配為，例如，靜止物體位置的提供，其可固定地設置，或針對一個完整的音軌，在發送器與接收器之間交涉。

圖式簡單說明

本發明之較佳實施例接下來就所附圖式中之內容而討論，其中：第1圖繪示用於產生至少一個音訊輸出信號之裝置的一個較佳實施例；第2圖繪示第1圖之處理器的一個較佳實作；第3a圖繪示用於操縱物件信號的一個較佳實施例；第3b圖繪示如第3a圖所繪示的一個操縱器內容中之物件混合器的較佳實作；第4圖繪示在一個情況中的一個處理器/操縱器/物件混合器組態，在此情況中，操縱動作係在物件降混之後，但在最終物件混合之前執行；第5a圖繪示用於產生一個已編碼音訊信號之裝置的一個較佳實施例；第5b圖繪示具有一個物件混頻、以物件為主的元資料、以及數個空間物件參數的一個傳輸信號；第6圖繪示指出由某個ID所界定的數個音訊物件的一個映射，其具有一個物件音訊檔案，以及一個聯合音訊物件資訊矩陣E；第7圖繪示第6圖中的一個物件共變矩陣的說明；第8圖繪示一個降混矩陣以及由降混矩陣D所控制的一個音訊物件編碼器；第9圖繪示一個目標演示矩陣A，其通常是由一個使用者提供，且為針對一個特定目標演示場景的一個範例；第10圖繪示用於產生依據本發明之更進一步的觀點的至少一個音訊輸出信號之裝置的一個較佳實施例；第11a圖繪示更進一步的一個實施例；第11b圖繪示又再進一步的實施例；第11c圖繪示更進一步的實施例；第12a圖繪示一個示範性應用場景；並且第12b圖繪示一個更進一步的示範性應用場景。

較佳實施例之詳細說明

為了要面對上面所提過的問題，一個較佳的工作方式是要隨那些音軌提供適當的元資料。此種元資料可由資訊組成，以控制下面三個因素(三個「經典」D的)：

‧　對話音量規格化(dialog normalization)

‧　動態範圍控制(dynamic range control)

‧　降混(downmix)

此種音訊元資料有助於接收器基於由聆聽者所執行的調整，而操縱所接收的音訊信號。為了要將這種音訊元資料與他者(如諸如作者、標題等的記述元資料)區分，通常會將之稱為「杜比元資料」(因為他們還只由杜比系統實施)。接下來只考慮這種音訊元資料，並且將之簡稱為元資料。

音訊元資料是伴隨著音訊節目所載運的額外的控制資訊，並且其具有對一個接收者來說為必要的關於此音訊之資料。元資料提供許多重要的功能，包括針對不理想的聆聽環境的動態範圍控制、在節目間的位準匹配、針對經由較少喇叭聲道的多聲道音訊之再現的降混資訊以及其他資訊。

元資料提供使音訊節目精準且具藝術性地在許多不同的，從完全型家庭劇院到空中娛樂的聆聽情況中再現的所需工具，而無視喇叭聲道的數量、錄放器材品質、或相對周遭雜訊位準。

雖然一個工程師或內容製作人在於它們的節目中提供可能的最高品質音訊上非常謹慎，她或他在企圖要再現原始音軌的各式各樣的消費者電子產品或聆聽環境上並沒有控制權。元資料提供工程師或內容製作人在他們的作品要在幾乎所有可想像的聆聽環境中如何被再現以及享受上，擁有較大的控制權。

杜比元資料是要提供資訊，以控制所提到的三個因素的一種特殊格式。

最重要的三個杜比元資料功能為：

‧　對話音量規格化，以在一個演出中達到對話的一個長期平均位準，此演出常常是由諸如劇情片、廣告或諸如此類的不同的節目類型所組成的。

‧　動態範圍控制，以用怡人的音訊壓縮滿足大部分的觀眾，但同時又允許各個獨立的顧客控制此音訊信號的動態以及調整此壓縮，以適於她或他的個人聆聽環境。

‧　降混，以將一個多聲道的音訊信號的聲音映射成兩個或一個聲道，以防無多聲道音訊錄放器材可用的情況。

杜比元資料伴隨著杜比數位(AC-3)與杜比E來使用。杜比-E音訊元資料格式在[16]中說明。杜比數位(AC-3)是專為經由數位電視廣播(不論是高解析度或是一般解析度)、DVD或其他媒體，將音訊傳譯到家庭所設計的。

杜比數位可載運從音訊的一個單一聲道到一個完全的5.1聲道節目的任何事物，包括元資料。在數位電視與DVD這兩個情況中，其除了完全的5.1分離音訊節目以外，亦皆普遍地被用於立體聲之傳輸。

杜比E特別是專為在專業的製作與發佈環境中之多聲道音訊的發佈而設計的。在傳遞到消費者之前的任何時候，杜比E皆係以影像發佈多聲道/多節目音訊的較佳的方法。杜比E在一個現存的雙聲道數位音訊基礎設施中，可載運高到八個的組配到任何數量的獨立節目組態之分離音訊通道(包括個別的元資訊)。不同於杜比數位，杜比E可處理許多編碼/解碼產物，並與影像圖框率同步。如同杜比數位，杜比E亦載運針對在此資料流中編碼的各個獨立音訊節目的元資料。杜比E的使用允許所生成的音訊資料串流被解碼、修改以及再編碼，而不產生可聽度退化。由於杜比E流與影像圖框率同步，故其可在一個專業廣播環境中被路由、切換、與編輯。

除此之外，亦隨著MPEG AAC提供數個裝置，以執行動態範圍控制以及控制降混產生。

為了要在針對消費者將變異性最小化的某種程度上處理具有多種峰值位準、平均位準與動態範圍的原始資料，必須要控制再現位準以使，例如，對話位準或平均音樂位準被設為一個消費者在再現時所控制的位準，而無論此節目是如何創始的。此外，所有的消費者都可以在一個良好的環境(如，低雜訊)中聆聽這些節目，對於他們要把音量放得多大毫無限制。例如，行車環境具有高度的周遭雜訊位準，而可因此預期使用者將會想要降低將以其他方式再現的位準範圍。

針對這兩個理由，動態範圍控制在AAC的規範中必須可用。為了要達到這個目的，必須要以用來設定與控制這些節目項目的動態範圍來陪同降低位元率音訊。這樣的控制必須相對於一個參考位準以及關於重要的節目元素而特別明定，例如，對話。

動態範圍控制之特徵如下：

1.動態範圍控制(DRC)完全是選擇性的。因此，只要具備正確的語法，對於不想要援用DRC的人來說，在複雜度上並沒有變化。

2.降低位元串流音訊資料是以原始資料的完全動態範圍來發送，包括支持資料，以協助動態範圍控制。

3.動態範圍控制資料可在每個訊框送出，以將設定重播增益中之延遲減少到最小。

4.動態範圍控制資料是利用AAC的「fill_element」特徵來發送的。

5.參考位準被明定為滿刻度。

6.節目參考位準被發送，以准許在不同來源的重播位準間之位準同位，以及此提供動態範圍控制可能會適用於的一個有關參考。此來源信號的特徵是與一個節目的音量之主觀印象最為相關的，就像在一個節目中的對話內容位準或是一個音樂節目中的平均位準。

7.節目參考位準代表可能會與在消費性硬體中之此參考位準 相關的一組位準中被再現的節目位準，以達到重播位準同位。對此，此節目的較安靜的部份之可能會被提昇位準，而此節目的較大聲的部份可能會被降低位準。

8.節目參考位準相對於參考位準 被明定在0到-31.75dB的範圍中。

9.節目參考位準使用具有0.25分貝節距的一個7位元的欄位。

10.動態範圍控制被明定在±31.75分貝的範圍中。

11.動態範圍控制使用具有0.25分貝節距的一個8位元的欄位(1個符號、7個量值)。

12.動態範圍控制可如同一個單一個體一般，被應用於一個音訊通道的所有光譜係數或頻帶上，或是此等係數可被拆成不同的比例因子帶，其各分別由分別的動態範圍控制資料組來控制。

13.動態範圍控制可如同一個單一個體一般，被應用於(一個立體聲或多聲道位元流的)所有聲道，或可以分別的動態範圍控制資料所控制的聲道組被拆開。

14.若遺失一個預期的動態範圍控制資料組，則應使用最新近收到的數個有效值。

15.並非動態範圍控制資料的所有元素每次都被送出。舉例來說，節目參考位準 可能只在平均每200毫秒送出一次。

16.當有需要時，由運輸層提供錯誤檢測/保護。

17.應給予使用者用以更改應用到此信號的位準之動態範圍控制數量的途徑，其呈現在位元串流中。

除了在一個5.1聲道傳輸中發送分離的單聲道或立體聲降混聲道的可能性以外，AAC亦允許來自於5聲道音軌的自動降混產生。在此情況下，應忽略LFE聲道。

矩陣降混方法可由一個音軌的編輯器來控制，此音軌具有界定加到降混的後部聲道數量的一小組參數。

矩陣降混方法只請求將一個3前/2後喇叭組態、5聲道節目降混至立體聲或一個單聲道節目。不可請求除了3/2組態以外的任何節目。

在MPEG中，提供數個途徑來控制在接收器側的音訊演示。

一個一般技術是藉由一個場景說明語音，如BIFS與LASeR，來提供。這兩個技術均用於將視聽元件從分離的編碼物件演示成一個錄放場景。

BIFS在[5]中標準化，而LASeR在[6]中標準化。

MPEG-D主要是處理(參數的)說明(如元資料)

‧　以產生基於已降混音訊表示法(MPEG環繞)的多聲道音訊；以及

‧　以基於音訊物件(MPEG空間音訊物件編碼)產生MPEG環繞參數。

MPEG環繞將在位準、相位以及相干性上的聲道內差異相當於ILD、ITD與IC提示訊號來運用，以捕捉與所發送的一個降混信號有關的一個多聲道音訊信號的空間影像，以及以一種非常緊密的型態來編碼這些提示訊號，以使這些提示訊號以及所發送的信號能夠被解碼，以合成一個高品質多聲道表示型態。MPEG環繞編碼器接收多聲道音訊信號，其中N為輸入聲道的數目(如5.1)。再編碼過程中的一個關鍵問題是，通常是立體聲(但也可為單聲道)的降混信號xt1與xt2是從多聲道輸入信號中得出的，並且為了在此通道上傳輸而被壓縮的，是此降混信號，而不是多聲道信號。此編碼器可能可以運用此降混程序來獲益，以使其創造在單聲道或立體聲降混中的此多聲道信號的一個公平等效，並亦基於此降混與編碼空間提示訊號創造有可能達到的最好的多聲道解碼。或者是，可由外部支援降混。MPEG環繞編碼程序對於用於所發送的聲道的壓縮演算法是不可知的；其可為諸如MPEG-1 Layer III、MPEG-4 AAC或MPEG-4 High Efficiency AAC之多種高效能壓縮演算法中的任何一種，或者其甚至可為PCM。

MPEG環繞技術支援多聲道音訊信號的非常有效率的參數編碼。MPEG SAOC的這個點子是要針對獨立的音訊物件(軌)的非常有效率參數編碼，將相似的基本假設配合相似的參數表示型態一起應用。此外，亦包括一個演示功能，以針對再現系統的數種類型(對於揚聲器來說是1.0、2.0、5.0、…；或對於耳機來說是雙聲道)，交互地將此等音訊物件演示為聲音場景。SAPC是設計來在一個聯合單聲道或立體聲降混信號中發送多個音訊物件，以稍後允許在一個交互演示音訊場景中呈現此等獨立物件。為了這個目的，SAOC將物件位準差異(OLD)、內部物件交互相干(IOC)以及降混聲道位準差異(DCLD)編碼成一個參數位元串流。此SAOC解碼器將此SAOC參數表示型態轉化成一個MPEG環繞參數表示型態，其之後與降混信號一起被MPEG環繞解碼器解碼，以產生所欲音訊場景。使用者交互地控制此程序，以在結果音訊場景中改變此等音訊物件的表示型態。在SAOC的這麼多種可以想像的應用中，下文列出了幾種典型的情況。

消費者可利用一個虛擬混音檯來創造個人互動混音。舉例來說，可針對獨自演奏(如卡啦OK)而削弱某些樂器、可修改原始的混音以適合個人品味、可針對較好的語音清晰度以調整電影/廣播中的對話位準等等。

對於互動式遊戲來說，SAOC是再現音軌的一個儲存體以及具有高效率計算的方式。在虛擬場景中四處移動是藉由採用物件演示參數來反映的。網路化的多播放器遊戲自使用一個SAOC串流來表示在某個玩家端外部的所有的聲音物件之傳輸效率而得益。

在此種應用的情況下，「音訊物件」一語亦包含在聲音生產場景中已知的一個「主音」。特別是，主音為一個混合中的獨立成份，其係針對一個混音之數個使用目的來分離儲存(通常是進碟片中)。相關的主音一般是從相同的原始位置反彈的。其範例可為一個鼓類主音(包括在一個混合中的所有相關的鼓類樂器)、一個人聲主音(只包括人聲音軌)或是一個節奏主音(包括所有與節奏相關的樂器，諸如鼓、吉他、鍵盤…)。

目前的電信基礎結構是單聲道的，且可在功能性上擴充。配備有SAOC擴充的端點揀選數個音源(物件)並產生一個單聲道降混信號，其藉由利用現存的(語音)編碼器以相容方式發送。可以一種嵌入的、反向相容的方式來載運邊側資訊。當SAOC致能端能夠演示一個聽覺場景時，遺留下來的端點將繼續產生單聲道輸出，並藉由在空間上分離不同的喇叭(「雞尾酒會效應」)而因此增進清晰度。

以概述實際可用的杜比音訊元資料應用來說明以下段落：

午夜模式

如在第[]段所提過的，可能會有聆聽者也許並不想要高動態信號這樣的情景出現。因此，她或他可能會啟動她或他的接收器的所謂的「午夜模式」。之後，便將一個壓縮器應用在全體音訊信號上。為了要控制此壓縮器的參數，所發送的元資料會被估算，並應用到全體音訊信號上。

乾淨音訊

另一種情景是聽力障礙者，他們並不想要擁有高動態環境雜訊，但他們想要擁有十分乾淨的含有對話的信號。(「乾淨音訊」)。亦可使用元資料來致能這個模式。

一個目前所建議的解決方法界定在[15]的附件E中。在立體聲主信號與額外的單聲道對話說明聲道間之平衡在這裡是由一個獨立的位準參數組來處理。基於一個分離的語法的所建議之解決方法在DVB中被稱為補充音訊服務。

降混

有一些分離的元資料參數支配L/R降混。某些元資料參數允許工程師選擇要如何建構立體聲降混，以及何種類比信號較佳。於此，中央與周圍降混位準界定針對每一個解碼器的降混信號之最終混合平衡。

第1圖繪示用於產生依據本發明之較佳實施例的代表至少兩個不同的音訊物件之疊加的至少一個音訊輸出信號之裝置。第1圖的裝置包含用於處理一個音訊輸入信號11以提供此音訊輸入信號的一個物件表示型態12的一個處理器10，其中此等至少兩個不同的音訊物件彼此分離，其中此等至少兩個不同的音訊物件可作為分離的音訊物件信號，並且其中此等至少兩個不同的音訊物件可彼此獨立地受操縱。

物件表示型態之操縱是在一個音訊物件操縱器13中執行，以操縱此音訊物件信號，或是操縱基於以音訊物件為主的元資料14的至少一個音訊物件的音訊物件信號的一個混合表示型態，其中以音訊物件為主的元資料14關聯此至少一個音訊物件。物件操縱器13適於獲得針對此至少一個音訊物件的一個受操縱的音訊物件信號，或是一個受操縱的混合音訊物件信號15。

由物件操縱器所產生的信號被輸入至一個物件混合器16中，以藉由將受操縱的音訊物件與一個未經修改的音訊物件或是一個受操縱的不同的音訊物件組合，而混合物件表示型態，其中此受操縱的不同的音訊物件係以一種與此至少一個音訊物件不同的方式操縱。此物件混合器的結果包含一個或多個音訊輸出信號17a、17b、17c。此一個或多個輸出信號17a到17c較佳為針對一個特定演示設定而設計的，諸如單聲道演示設定、立體聲演示設定、例如需要至少五個或至少七個不同的音訊輸出信號的環繞設定的包含三個或更多個聲道的多聲道演示設定。

第2圖繪示用於處理音訊輸入信號的處理器10的一個較佳實作。音訊輸入信號11較佳為以一個物件降混11來實施，如第5a圖中之物件降混器101a所獲得的，第5a圖將於稍後說明。在這樣的情況下，處理器額外地接收物件參數18，如同例如稍後所說明之第5a圖中之物件參數計算器101a所產生的。之後，處理器10便就位，以計算分離的物件表示型態12。物件表示型態12的數目可高於在物件降混11中之聲道數。物件降混11可包括一個單聲道降混、一個立體聲降混、或甚至是具有多於兩個聲道的降混。然而，物件表示型態12可操作來產生比在物件降混11中之單獨的信號數更多的物件表示型態12。由於由處理器10所執行的參數化處理，這些音訊物件信號並非原始的音訊物件之真實再現，其在執行物件降混11之前呈現，但是這些音訊物件信號是原始音訊物件的近似版，其中近似的精確度取決於在處理器10中所執行的分離演算法之類型，以及，當然，發送參數的精確度。較佳的物件參數為由空間音訊物件編碼而知的，而較佳的用於產生單獨分離的音訊物件信號之重建演算法為依據此空間音訊物件編碼標準而實施的重建演算法。處理器10以及物件參數的一個較佳實施例隨後在第6到9圖之內容中介紹。

第3a與3b圖共同繪示物件操縱在物件降混之前對重建設定執行的一個實作，而第4圖繪示物件降混係在操縱之前，且操縱係在最終物件混合操作之前的更進一步的實作。此程序在第3a、3b圖之結果與第4圖相比是一樣的，但是在處理架構上，物件操縱是在不同的位準上執行的。雖然音訊物件信號的操縱在效率與運算資源的背景上是一個議題，但第3a/3b圖之實施例是較佳的，因為音訊物件操縱必須只能在單一音訊信號上執行，而非如第4圖中之多個音訊信號。在一個不同的實作中，可能會有物件降混必須使用未經修改的物件信號這樣的需求，在這樣的實作中，第4圖之組態便為較佳的，在第4圖中，操縱是接著物件降混，但在最終物件混合之前執行，以幫助，例如左聲道L、中央聲道C或右聲道R獲得輸出信號。

第3a圖繪示第2圖之處理器10輸出分離的音訊物件信號的情況。諸如給第1個物件的信號之至少一個音訊物件信號係基於針對此第1個物件的元資料，而在物件操縱器13a中受操縱。取決於實作，諸如第2個物件的其他物件亦由一個物件操縱器13b來操縱。當然，這樣的情況也會發生，也就是實際上存在著一個諸如第3個物件的物件，第3個物件並未被操縱，然而卻由物件分離而產生。在第3a圖之範例中，第3a圖之操作結果是兩個受操縱物件信號以及一個非受操縱信號。

這些結果被輸入到物件混合器16，其包括以物件降混器19a、19b與19c來實作的一個第一混合器階，並且其更包含以設備16a、16b與16c來實做的一個第二物件混合器階。

物件混合器16的第一階包括，針對第3a圖的各個輸出的，諸如針對第3a圖之輸出1的物件降混器19a、針對第3a圖之輸出2的物件降混器19b、針對第3a圖之輸出3的物件降混器19c的一個物件降混器。物件降混器19a到19c的目的是將各個物件「分配」到輸出聲道。因此，各個物件降混器19a、19b、19c具有針對一個左成份信號L、一個中成份信號C以及一個右成份信號R的一個輸出。因此，例如若第1個物件為單一物件時，降混器19a便為一個直行降混器，且方塊19a之輸出便與在17a、17b、17c所指出的最終輸出L、C、R相同。物件降混器19a到19c較佳為接收在演示資訊30所指出的演示資訊，其中此演示資訊可能會說明演示設定，亦即，如在第3e圖之實施例中，只存在著三個輸出喇叭。這些輸出為一個左喇叭L、一個中喇叭C以及一個右喇叭R。例如若演示設定或再現設定包含一個5.1架構時，那麼各個物件降混器便具有六個輸出通道，並且會存在六個加法器，以使得能夠獲得針對左聲道的一個最終輸出信號、針對右聲道的一個最終輸出信號、針對中央聲道的一個最終輸出信號、針對左環繞聲道的一個最終輸出信號、針對右環繞聲道的一個最終輸出信號以及針對低頻增強(重低音喇叭)通道的一個最終輸出信號。

具體上，加法器16a、16b、16c適於針對個別的聲道而將這些成份信號組合，其是由對應的物件降混器所產生的。這樣的組合較佳為藉由樣本所加成的一個直行樣本，但取決於實作，也可以應用加權因子。此外，在第3a、3b圖中之功能亦可在頻域或次頻域中執行，以使元件19a至19c可在此頻域中操作，並且在一個再現設定中，在實際將這些信號輸出到喇叭之前，會有某些種類的頻率/時間轉化。

第4圖繪示一個替代實作，其中的元件19a、19b、19c、16a、16b、16c與第3b圖的實施例相似。然而，重要的是，在第3a圖中所發生的先於物件降混19a的操縱，現在是在物件操縱19a之後發生。因此，針對個別物件的由元資料所控制的特定物件操縱是在降混域中完成，即，在之後被操縱的成份信號之實際加成之前。當第4圖被拿來和第1圖比較時，如19a、19b、19c之物件降混器將在處理器10中實施這點就變的清楚了，並且物件混合器16將會包含加法器16a、16b、16c。當實施第4圖，且此等物件降混器為處理器之一部份時，那麼除了第1圖之物件參數18之外，處理器亦將會接收演示資訊30，即，在各個音訊物件位置上的資訊以及在演示設定上的資訊與額外資訊，視情況而定。

此外，操縱可包括由方塊19a、16b、16c所實施的降混操作。在此實施例中，操縱器包括這些方塊，且可發生額外操縱，但這並非在所有情況中都需要的。

第5a圖繪示一個編碼器側的實施例，其可產生如概略在第5b圖中繪示的資料串流。具體上，第5a圖繪示用於產生一個已編碼音訊信號50的一個裝置，其代表至少兩個不同的音訊物件之疊加。基本上，第5a圖之裝置繪示用於格式化資料串流50的一個資料串流格式器51，以使此資料串流包含一個物件降混信號52，其代表諸如此等至少兩個音訊物件之加權的或未加權的組合的一個組合。此外，資料串流50包含，作為邊側資訊的關聯此等不同音訊物件中之至少一個物件的53。資料串流較佳為更包含參數資料54，其具有時間與頻率選擇性，並允許將此物件降混信號分離成數個音訊物件的高品質分離，其中此操作亦被稱為一個物件上混操作，其係由在第1圖中之處理器10所執行的，如先前所討論。

物件降混信號52較佳是由物件降混器101a所產生的。參數資料54較佳是由物件參數計算器101a所產生的，並且物件選擇性元資料53是由物件選擇性元資料提供器所產生的。此物件選擇性元資料提供器可為用於接收如由音樂製作者在錄音室中所產生的元資料的一個輸入端，或可為用於接收如由物件與相關的分析所產生的資料，其可接著物件分離而發生。具體上，可將此物件選擇性元資料提供器實施為藉由處理器10來分析物件的輸出，以例如查明一個物件是否為一個語音物件、一個聲音物件或是一個環境聲音物件。因此，可藉由一些從語音編碼而得知的著名的語音檢測演算法來分析一個語音物件，且可將物件選擇性分析實施成亦查明起源於樂器的聲音物件。此種聲音物件具有高音調的本質，並可因此與語音物件或環境聲音物件區別。環境聲音物件會具有相當吵雜的本質，其反映出典型上存在於例如戲劇電影中的背景聲音，例如其中的背景雜訊可能為交通的聲音或是任何其他靜態的吵雜的信號，或是具有寬頻聲譜的非靜態的信號，諸如在例如戲劇中發生槍擊場景時所產生的。

基於此分析，人們可放大一個聲音物件並減弱其他物件，以強調此語音，因為這對於針對聽力障礙者或年邁者在電影的較佳理解上是很有用處的。如先前所述，其他實作包括提供諸如物件識別符的物件特定元資料以及由於在CD或DVD上產生實際物件降混信號的音響工程師的物件相關資料，諸如一個立體聲降混或是一個環境聲音降混。

第5d圖繪示一個示範性的資料串流50，其具有作為主要資訊的單聲道、立體聲或多聲道物件降混，並且其具有作為邊側資訊的物件參數54與以物件為主的元資料53，其在只將物件辨識為語音或環境的情況中是靜態的，或者其在將位準資料提供為以物件為主的元資料的情況中為時變的，如在午夜模式中所需要的。然而，較佳為不在頻率選擇性方式中提供以物件為主的元資料，以節省資料率。

第6圖繪示一個音訊物件映射的一個實施例，其繪示數目為N的物件。在第6圖的示範性解釋中，各個物件均具有一個物件ID、一個對應物件音訊檔案，以及很重要的物件參數資訊，其較佳為與此音訊物件的能量相關的資訊以及與此音訊物件的物件內相關性相關的資訊。此音訊物件參數資訊包括針對各個次頻帶與各個時間區塊的一個物件共變矩陣E。

針對此種物件音訊參數資料矩陣E的一個範例繪示在第7圖中。對角線元素e_ii 包括第i個音訊物件在對應的次頻帶以及對應時間區塊中的功率或能量資訊。為此，表示某個第i個音訊物件的次頻帶信號被輸入一個功率或能量計算器，其可例如執行一個自動相關性函數(acf)，以獲得帶有或不帶有某些標準化的值e₁₁ 。或者是，可將能量計算成此信號在某段長度上的平方之和(即向量積：ss*)。acf在某種意義上可說明此能量的譜相分佈，但由於無論如何，最好係使用針對頻率選擇的T/F轉換這樣的事實，能量計算可在無acf下針對各個次頻帶分離執行。因此，物件音訊參數矩陣E的主要對角元素顯示針對一個音訊物件在某個次頻帶以及某個時間區塊中的能量之功率的一個衡量。

另一方面，非對角元素e_ij 顯示第i、j個音訊物件在對應的次頻帶與時間區塊之間的個別的相關性衡量。從第7圖可清楚看出，矩陣E-針對實數值項目-為沿對角線對稱的。通常此矩陣為一個厄米特矩陣(Hermitian matrix)。相關性衡量元素e_ij 可藉由例如個別的音訊物件的這兩個次頻帶信號的一個交互相關性來計算，以獲得可能是或可能不是規格化的一個交互相關性衡量。可使用其他相關性衡量，其並非利用交互相關性操作而計算的，而是藉由判定在兩個信號間的相關性的其他方法而計算的。出於實際原因，矩陣E的所有元素均被規格化，以使其具有介於0與1之間的量值，其中1顯示最大功率或最大相關性，而0顯示最小功率(零功率)，且-1顯示最小相關性(反相)。

具有大小為K ×N ，其中K >1，的降混矩陣D以具有K個列的矩陣形式，透過矩陣操縱判定K聲道降混信號。

X=DS　 (2)

第8圖繪示具有降混矩陣元素d_ij 的降混矩陣D的一個範例。這樣的一個元素d_ij 顯示第i個物件降混信號是否包括部份或全部的第j個物件。例如，其中的d₁₂ 等於零，意思是第1個物件降混信號並不包括第2個物件。另一方面，d₂₃ 的值等於1，顯示第3個物件係完全地包括在第2個物件降混信號中。

介於0與1之間的降混矩陣元素之值為有可能的。具體上，0.5的值顯示某個物件被包括在一個降混信號中，但只有其一半的能量。因此，當諸如第4號物件的一個音訊物件被均等分佈到兩個降混信號聲道中時，d₂₄ 與d₁₄ 便會等於0.5。這種降混方法是一種保持能量的降混操作，其在某些情況中是較佳的。然而，或者是，亦可使用非保持能量的降混，其中整個音訊物件均被導入左降混聲道以及右降混聲道，以使此音訊物件的能量對於在此降混信號中之其他音訊物件而言係加倍的。

在第8圖之較下面的部份中，給予第1圖之物件編碼器101的一個概圖。具體上，物件編碼器101包括兩個不同的101a與101b部份。101a部份為一個降混器，其較佳為執行音訊第1、2、…N個物件的加權線性組合，並且物件編碼器101的第二個部份為一個音訊物件參數計算器101b，其針對各個時間區塊或次頻帶，計算諸如矩陣E的音訊物件參數資訊，以提供音訊能量與相關性資訊，其為參數性資訊，並且因此能夠以一個低位元率來發送，或是能夠消耗少量記憶體資源而儲存。

具有大小M ×N 的使用者控制物件演示矩陣A以具有M個列的矩陣形式透過矩陣操縱判定此等音訊物件之M通道目標演示。

Y=AS 　(3)

因為目標是放在立體聲演示上，因此在接下來的推導中，將假設M =2。對多於兩個聲道給定一個啟始演示矩陣，以及將從這數個通道通向兩個通道的一個降混規則，對於熟於此技者而言，係可以很明顯的推導出對應的具有大小為2×N的針對立體聲演示的演示矩陣A。亦將為了簡化而假設K =2，以使物件降混亦為一個立體聲信號。從應用場合的方面來說，立體聲物件降混的案例更為最重要的特殊案例。

第9圖繪示目標演示矩陣A的一個細部解釋。取決於應用，目標演示矩陣A可由使用者來提供。使用者具有完全的自由來指示音訊物件應該針對一個重播設定以虛擬的方式位在哪兒。此音訊物件的強度概念是，降混資訊以及音訊物件參數資訊在此等音訊物件的一個特定的地方化上是完全獨立的。音訊物件的這樣的地方化是由一個使用者以目標演示資訊的形式提供的。目標演示資訊可較佳地由一個目標演示矩陣A來實施，其可為在第9圖中之形式。具體上，演示矩陣A具有m列與N行，其中M等於所演示輸出信號中之聲道數，而其中N等於音訊物件的數目。M相當於較佳立體聲演示場景中的二，但若執行一個M聲道演示，那麼矩陣A便具有M行。

具體上，矩陣元素a_ij 顯示部份或全部的第j個物件是否要在第i個特定輸出通道中被演示。第9圖之較下面的部份針對一個場景的目標演示矩陣給予一個簡單範例，其中有六個音訊物件AO1到AO6，其中只有前五個音訊物件應該要在特定位置被演示，並且第六個音訊物件應該完全不被演示。

至於音訊物件AO1，使用者希望這個音訊物件在一個重播場景中在左邊被演示。因此，此物件被放在一個(虛擬)重播房間中的一個左喇叭的位置，此導致演示矩陣A中之第一列為(10)。至於第二個音訊物件，a₂₂ 為1，而a₁₂ 為0，這表示第二個音訊物件要在右邊被演示。

第3個音訊物件要在左喇叭與右喇叭的中間被演示，以使此音訊物件的位準或信號的50%進入左聲道，而50%的位準或信號進入右聲道，以使對應的目標演示矩陣A的第三列為(0.5長度0.5)。

同樣的，可藉由目標演示矩陣來顯示在左喇叭與右喇叭間的任何安排。至於第4個音訊物件，其右邊的安排較多，因為矩陣元素a₂₄ 大於a₁₄ 。同樣的，如由目標演示矩陣元素a₁₅ 與a₂₅ 所顯示的，第五個音訊物件AO5在左喇叭被演示較多。目標演示矩陣A另外還允許完全不演示某個音訊物件。此係由目標演示矩陣A的具有零元素的第六列來示範性地繪示。

接下來，本發明的一個較佳實施例參考第10圖來概述。

較佳地是，從SAOC(空間音訊物件編碼)而知的方法將一個音訊物件拆成不同的部份。這些部份可例如為不同的音訊物件，但其可並不受限於此。

若元資料針對此音訊物件的單一部份而發送，則其允許只調整一些信號成份，而其他部份將維持不便，或甚至可以不同的元資料來修改。

此可針對不同的聲音物件來完成，但亦針對單獨的空間範圍。

針對物件分離的參數為針對每一個單獨的音訊物件的典型的，或甚至是新的元資料(增益、壓縮、位準、…)。這些資料可較佳地被發送。

解碼器處理箱是以兩個不同的階段來實施的：在第一階段，物件分離參數被用來產生(10)單獨的音訊物件。在第二階段中，處理單元13具有多種情況，其中各個情況係針對一個獨立的物件。於此，應該要應用物件特定元資料。在解碼器的尾端，所有的獨立物件都再次被組合(16)成一個單一音訊信號。此外，一個乾/濕控制器20可允許在原始與受操縱信號間的平順淡化，以給予末端使用者一個簡單找出她或她的較佳設定的可能性。

取決於特定實作，第10圖繪示兩個觀點。在一個基本觀點中，物件相關元資料只顯示針對一個特定物件的一個物件說明。較佳的是，此物件說明係與一個物件ID有關，如在第10圖中之21所顯示的。因此，針對上方的由設備13a所操縱的以物件為主的元資料僅係此物件為一個「語音」物件的資料。針對由項目13b所處理的另一個以物件為主的元資料具有此第二個物件為一個環境物件的資訊。

兼針對這兩個物件的此基本物件相關元資料可能便足夠實施一個增強的乾淨音訊模式，其中語音物件被放大，而環境物件被削弱，或是，一般來說，語音物件相對於環境物件而被放大，或是環境物件相對於語音物件而被削弱。然而，使用者可較佳地在接收器/解碼器側實施不同的處理模式，其可經由一個模式控制輸入端來規劃。這些不同的模式可為對話位準模式、壓縮模式、降混模式、增強午夜模式、增強乾淨音訊模式、動態降混模式、導引式上混模式、針對物件重置之模式等等。

取決於實作，除指出諸如語音或環境的一個物件之特徵類型的基本資訊以外，不同的模式還需要不同的以物件為主的元資料。在一個音訊信號的動態範圍必須要被壓縮的午夜模式中，較佳的是，針對諸如語音物件與環境物件的各個物件，將針對此午夜模式的實際位準或目標位準之一提供為元資料。當此物件的實際位準被提供時，接收器便必須針對此午夜模式計算目標位準。然而，當給予目標相對位準時，便減少解碼器/接收器側處理。

在這個實作中，各個物件均具有位準資訊的一個時變物件型序列，其係由一個接收器來使用，以壓縮動態範圍，以減少在一個訊號物件中之位準差異。此自動地導致一個最終音訊信號，其中之位準差異不時地如一個午夜模式實作所需要地減少。針對乾淨音訊應用，亦可提供針對此語音物件的一個目標位準。那麼，環境物件便可被設為零或幾乎為零，以在由某個揚聲器設定所產生的聲音中大大地加強語音物件。在與午夜模式相反的一個高逼真度應用中，可甚至增強此物件的動態範圍或在此等物件間的差異之動態範圍。在這個實作中，會較希望提供目標物件增益位準，因為這些目標位準保證，在最後，獲得由一個藝術音響工程師在一個錄音室中所創造的聲音，以及，因此，具有與自動設定或使用者定義設定相比之下的最高品質。

在其他物件型元資料與進階降混相關的實作中，物件操縱包括與特定演示設定不同的一個降混。之後，此物件型元資料便被導入在第3b圖或第4圖中之物件降混器區塊19a到19c。在這個實作中，當降混取決於演示架而執行一個單獨的物件的時候，操縱器可包括區塊19a至19c。具體上，物件降混區塊19a至19c可被設定成彼此不同。在這樣的情況中，取決於聲道組配，一個語音物件可僅被導入中央聲道，而非左聲道或右聲道。然後，降混器區塊19a至19c可具有不同數量的成份信號輸出。亦可動態地實施降混。

此外，亦可提供導引式上混資訊與用以重定物件位置之資訊。

接下來，給予提供元資料與物件特定元資料的一個較佳方式之簡要說明。

音訊物件可並不如在典型SOAC應用中一樣完美地分離。針對音訊操縱，具有物件「遮罩」可能便已足夠，而非完全分離。

這可通向用於分離的較少的/較粗略的參數。

對於稱為「午夜模式」的應用，音響工程師需要獨立地針對各個物件界定所有的元資料參數，例如在固定的對話音量中產生，而非受操縱的周遭雜訊(「增強型午夜模式」)。

這對於戴著助聽器的人門來說亦可為有益的(「增強型乾淨音訊」)。

新的降混架構：可針對各個特定降混情況來不同地對待不同的分離的物件。例如，一個5.1聲道信號必須針對一個立體聲家庭電視系統而降混，而另一個接收器甚至只具有一個單聲道錄放系統。因此，可用不同方式對待不同物件(並且由於由音響工程師所提供的元資料，這種種皆是由音響工程師在製造過程中所控制的)。

同樣的，降混到3.0等等也是較佳的。

所產生的降混將不會是由一個固定的全球參數(組)來界定，但其可由與時變物件相關的參數來產生。

伴隨著新的以物件為主的元資料，執行導引式上混亦為有可能的。

可將物件放置於不同的位置，例如以在周遭被削弱時使空間影像更寬廣。這將有助於聽障者的語音辨識度。

在這份文件中所提議的方法延伸了現存的由杜比編碼解碼器所實施，並且主要是由杜比編碼解碼器所使用的元資料概念。現在，不只將已知元資料概念應用在完整的音訊串流上，還應用在在此串流中之提取物件是有可能的。這給予音響工程師以及藝術家更多彈性、較大的調整範圍，以及由此，更佳的音訊品質與給予聆聽者較多歡樂。

第12a、12b圖繪示此創新概念的不同的應用場景。在一個典型的場景中，存在著電視上的運動，其中人們具有在5.1聲道中的體育場氛圍，並且喇叭聲道是映射到中央聲道。這樣的「映射」可由將喇叭聲道直接加到針對傳播此體育場氛圍的5.1聲道的一個中央聲道來執行。現在，這個創新的程序允許具有在此體育場氛圍聲音說明中的此種中央聲道。然後，此加成操作將來自於於此體育場氛圍的中央聲道與喇叭混合。藉由產生針對此喇叭與來自於體育場氛圍的中央聲道物件參數，本發明允許在一個解碼器側分離這兩個聲音物件，並且允許增強或削弱喇叭或來自於體育場氛圍的中央聲道。更進一步的架構是，當人們擁有兩個喇叭時。這樣的情況可能會在當兩個人正對同一個足球賽作評論的時候發生。具體上，當存在著兩個同時放送的喇叭時，使這兩個喇叭成為分離物件可為有用處的，並且此外，使這兩個喇叭與體育場氛圍聲道分離。在這樣的應用中，當低頻增強聲道(重低音聲道)被忽略時，此5.1聲道以及這兩個喇叭聲道可被處理成八個不同的音訊物件或是七個不同的音訊物件。因為此直行分佈基本設定適於一個5.1聲道聲音信號，所以這七個(或八個)物件可被降混至一個5.1聲道降混信號，並且除了此5.1降混聲帶以外，亦可提供此等物件參數，以使在接收側，可在次分離這些物件，並且由於以物件為主的元資料將會從體育場氛圍物件中識別出喇叭物件這樣的事實，所以在由此物件混合器所做的一個最終5.1聲道降混在接收側發生之前，物件特定處理是有可能的。

在這個架構中，人們可亦擁有包含第一喇叭的一個第一物件，以及包含第二喇叭的一個第二物件，以及包含完整的體育場氛圍的第三物件。

接下來，將在第11a到11c圖之內容中討論不同的以物件為主的降混架構的實施。

當例如由第12a或12b圖之架構所產生的聲音必須在一個傳統的5.1錄放系統中重播時，便可忽視嵌入的元資料串流，且所接收的串流可如其播放。然而，當一個錄放必須在立體聲喇叭設定上發生時，必須發生從5.1到立體聲的一個降混。若只將環境聲道加到左邊/右邊時，那麼仲裁器可能會處在太小的位準上。因此，較好是在仲裁器物件被(重新)加上之前，在降混之前或之後減少氣氛位準。

當仍然兼具有兩個喇叭分離在左邊/右邊時，聽障者可能會想要減少氛圍位準，以擁有較佳的語音辨識度，也就是所謂的「雞尾酒會效應」，當一個人聽見她或她的名字時，便會集中注意力至她或他聽見她或他的名字的方向。從心理聲學的觀點來看，這種特定方向集中會削弱從相異方向來的聲音。因此，一個特定物件的鮮明位置，諸如在左邊或右邊的喇叭或是兼在左邊或右邊以使喇叭出現在左邊或右邊的中間的喇叭，可能會增進辨識度。為此目的，輸入音訊串流較佳為被劃分為分離的物件，其中這些物件必須具有在元資料中的說明一個物件重要或較不重要的排名。然後，在他們之中的位準差異便可依據元資料來調整，或是可重新安置物件位置，以依據元資料來增進辨識度。

為了要達到這個目標，並不把元資料應用在所發送的信號上，而是視情況而在物件降混之前或之後，將元資料應用在單一的分離音訊物件上。現在，本發明再也不要求物件必須要限制於空間聲道，以使這些聲道可被單獨地操縱。相反地，這個創新的以物件為主的元資料概念並不要求在一個特定聲道中擁有一個特定的物件，但物件可被降混至數個聲道，並可仍為單獨受操縱的。

第11a圖繪示一個較佳實施例的更進一步的實施。物件降混器16從k×n的輸入聲道中產生m個輸出聲道，其中k為物件數，且一個物件產生n個通道。第11a圖對應於第3a、3b圖的架構，其中操縱13a、13b、13c係發生在物件降混之前。

第11a圖更包含位準操縱器16d、16e、16f，其可在無元資料控制下實施。然而，或者是，這些操縱器亦可由以物件為主的元資料來控制，以使由19d至19f的方塊所實施的位準修改亦為第1圖之物件操縱器13的一部分。同樣的，當這些降混操作係由以物件為主的元資料所控制時，此在降混操作19a至19b至19c上亦為真。然而，這個情況並未在第11a圖中繪示，但當此以物件為主的元資料亦被遞送給降混區塊19a至19c時，其亦可實施。在後者的情況中，這些區塊亦為第11a圖之物件操縱器13的一部分，並且物件混合氣16的剩餘功能是由針對對應的輸出聲道之受操縱物件成份信號的輸出聲道式的組合來實施的。第11a圖更包含一個對話規格化功能25，其可以傳統元資料來實施，因為此對話規格化並不在物件域中發生，而是在輸出聲道域。

第11b圖繪示一個以物件為主的5.1立體聲降混的一個實作。於此，降混是在操縱之前執行的，並且因此，第11b圖對應於第4圖之架構。位準修改13a、13b是藉由以物件為主的元資料來執行的，其中，例如，上方的分支對應於一個語音物件，而下方的分支對應於一個環境物件，或，例如在第12a、12b圖中，上方的分支對應於一個喇叭或兼對應於兩個喇叭，而下方的分支對應於所有的環境資訊。那麼，位準操縱區塊13a、13b可兼操縱基於被固定設置的參數的這兩個物件，以使以物件為主的元資料將僅為此等物件的一個識別符，但位準操縱器13a、13b可亦操縱基於由元資料14所提供之目標位準，或基於由元資料14所提供之實際位準的位準。因此，為了要針對多聲道輸入而產生一個立體聲降混，應用針對各個物件的一個降混公式，並且在將物件再次混合到一個輸出信號之前，將這些物件藉由一個給定位準來加權。

針對如在第11c圖中所繪示的乾淨音訊應用，一個重要位準被發送為元資料，以啟動較不重要的信號成分之減少。然後，另一個分支將對應於此等重要性成份，其在較低分支可能會對應於可被削弱的較不重要成份時被放大。此等不同物件之特定削弱以及/或是放大是如何被執行的，可藉由接收端來固定地設置，但可亦尚由以物件為主的元資料來控制，如由第11c圖中之「乾/濕」控制器14所實施的。

通常，動態範圍控制可在物件域中執行，其以相似於AAC動態範圍控制實作之方式以多頻帶壓縮來完成。以物件為主的元資料甚至可為頻率選擇性資料，以使一個頻率選擇性壓縮相似於一個平衡器實作來執行。

如先前所述，對話規格化較佳是接著降混，即降混信號，而執行。通常，降混應該能夠將具有n個輸入聲道的k個物件處理至m個輸出聲道。

將物件分離成分立物件並不十分重要。「遮掩」要操縱的信號成份可就足夠。此相似於在影像處理中編輯遮罩。然後，一個廣義的「物件」變為數個原始物件的疊加，其中，這個疊加包括小於原始物件之總數的多個物件。所有的物件再次於一個最終階段被加總。可能會對分離的單一物件毫無興趣，並且對於某些物件，當某個物件必須被完全移除時，位準值可能會被設為0，此為一個高分貝數字，例如在針對卡啦OK應用時，人們可能會對於完全移除人聲物件以使卡啦OK歌唱者可將她或他自己的聲音導入剩餘的樂器物件中感興趣。

本發明之其他較佳應用如之前所敘述的，為可減少單一物件之動態範圍的增強型午夜模式，或是擴充物件之動態範圍之高逼真模式。在內文中，可壓縮所發送的信號，並且其傾向於倒置這樣的壓縮。對話規格化的應用主要是較希望針對所有的信號在輸出到喇叭時發生，但當對話規格化被調整時，針對不同物件的非線性削弱/放大是有用處的。除了針對從物件降混信號中分離出不同的音訊物件參數資料之外，較希望針對各個信號以及除了與加成信號相關的典型元資料以外還有加成信號，針對降混、重要性與指出針對乾淨音訊的一個重要性位準之重要性之值、一個物件識別符、為時變資訊的實際絕對或相對位準或是為時變資訊的絕對或相對目標位準等等，而發送位準值。

所說明的實施例僅係針對本發明之原理而為繪示性的。可了解，於此所說明之細節之安排的修改體與變異體對其他熟於此技者而言將會是明顯可見。因此，權益是由迫近的申請專利範圍來限制的，而非由於此之實施例的說明與解釋方式而呈現的特定細節所限制的。

取決於此等創新方法的某些實施需求，此等創新方法可在硬體或軟體中實施。此實作可利用一個數位儲存媒體來執行，特別是具有儲存於其上之電子式可讀控制信號的碟片、DVD或CD，其可與可規劃電腦系統配合，以執行此等創新方法。一般而言，本發明因此為具有儲存在一個機械可讀載體上之程式碼的一個電腦程式產品，此程式碼係操作來在此電腦程式產品在一台電腦上運作時，執行此等創新方法。易言之，此等創新方法因此為具有用於在一台電腦上運作時，執行至少一個此等創新方法的一個程式碼的一個電腦程式。

參考資料

[1]ISO/IEC 13818-7:MPEG-2(Generic coding of moving pictures and associated audio information)-Part 7:Advanced Audio Coding(AAC)

[2]ISO/IEC 23003-1:MPEG-D(MPEG audio technologies)-Part 1:MPEG Surround

[3]ISO/IEC 23003-2:MPEG-D(MPEG audio technologies)-Part 2:spatial Audio Object Coding(SAOC)

[4]ISO/IEC 13818-7:MPEG-2(Generic coding of moving pictures and associated audio information)-Part 7:Advanced Audio Coding(AAC)

[5]ISO/IEC 14496-11:MPEG 4(Coding of audio-visual objects)-Part 11:Scene Description and Application Engine(BIFS)

[6]ISO/IEC 14496-:MPEG 4(Coding of audio-visual objects)-Part 20:Lightweight Application Scene Representation(LASER)and Simple Aggregation Format (SAF)

[7]http:/www.dolby.com/assets/pdf/techlibrary/17.AllMetadata.pdf

[8]http:/www.dolby.com/assets/pdf/tech_library/18_Metadata.Guide.pdf

[9]Krauss,Kurt;,Jonas;Schildbach,Wolfgang:Transcoding of Dynamic Range Control Coefficients and Other Metadata into MPEG-4 HE AA,AES convention 123,October 2007,pp 7217

[10]Robinson,Charles Q.,Gundry,Kenneth:Dynamic Range Control via Metadata,AES Convention 102,september 1999,pp 5028

[11]Dolby,“Standards and Practices for Authoring Dolby Digital and Dolby E Bitstreams”,Issue 3

[14]Coding Technologies/Dolby,“Dolby E/aacPlus Metadata Transcoder Solution for aacPlus Multichannel Digital Video Broadcast(DVB)”,V1.1.0

[15]ETSI TS101154:Digital Video Broadcasting(DVB),V1.8.1

[16]SMPTE RDD 6-2008:Description and Guide to the Use of Dolby E audio Metadata Serial Bitstream

1、2、3．．．輸出

10．．．處理器

11．．．音訊輸入信號/物件降混

12．．．物件表示型態

13、13a、13b．．．物件操縱器/位準修改

14．．．以音訊物件為主的元資料

15．．．受操縱的混合音訊物件信號

16．．．物件混合器/物件降混器

16a、16b、16c．．．加法器

16d、16e、16f．．．位準操縱器

17a、17b、17c．．．輸出信號

18．．．物件參數

19a、19b、19c．．．物件降混(器)

20．．．乾/濕控制器

25．．．對話正規化功能

30．．．演示資訊

50．．．已編碼音訊信號(資料串流)

51．．．資料串流格式器

52．．．物件降混信號

53．．．物件選擇性元資料(以物件為主的元資料)

54．．．參數資料(物件參數)

55．．．物件選擇性元資料提供器

101．．．物件編碼器

101a．．．物件降混器

101b．．．物件參數計算器

L．．．左聲道(左成份信號)

C．．．中聲道(中成份信號)

R．．．右聲道(右成份信號)

E．．．物件音訊參數資料矩陣(物件共變矩陣)

D．．．降混矩陣

AO1-AO6．．．音訊物件

第1圖繪示用於產生至少一個音訊輸出信號之裝置的一個較佳實施例；

第2圖繪示第1圖之處理器的一個較佳實作；

第3a圖繪示用於操縱物件信號的一個較佳實施例；

第3b圖繪示如第3a圖所繪示的一個操縱器內容中之物件混合器的較佳實作；

第4圖繪示在一個情況中的一個處理器/操縱器/物件混合器組態，在此情況中，操縱動作係在物件降混之後，但在最終物件混合之前執行；

第5a圖繪示用於產生一個編碼音訊信號之裝置的一個較佳實施例；

第5b圖繪示具有一個物件混頻、以物件為主的元資料、以及數個空間物件參數的一個傳輸信號；

第6圖繪示指出由某個ID所界定的數個音訊物件的一個映射，其具有一個物件音訊檔案，以及一個聯合音訊物件資訊矩陣E；

第7圖繪示第6圖中的一個物件共變矩陣的說明；

第8圖繪示一個降混矩陣以及由降混矩陣D所控制的一個音訊物件編碼器；

第9圖繪示一個目標演示矩陣A，其通常是由一個使用者提供，且為針對一個特定目標演示場景的一個範例；

第10圖繪示用於產生依據本發明之更進一步的觀點的至少一個音訊輸出信號之裝置的一個較佳實施例；

第11a圖繪示更進一步的一個實施例；

第11b圖繪示又再進一步的實施例；

第11c圖繪示更進一步的實施例；

第12a圖繪示一個示範性應用場景；並且

第12b圖繪示一個更進一步的示範性應用場景。

10．．．處理器

11．．．音訊輸入信號

12．．．物件表示型態

13．．．物件操縱器

14．．．以音訊物件為主的元資料

15．．．受操縱的混合音訊物件信號

16．．．物件混合器

17a、17b、17c．．．輸出信號

Claims

一種用於產生代表至少兩個不同的音訊物件之疊加的至少一個音訊輸出信號之裝置，其包含：一個處理器，該處理器係用於處理一個音訊輸入信號，以提供該音訊輸入信號的一個物件表示型態，其中該等至少兩個不同的音訊物件彼此分離，該等至少兩個不同的音訊物件可作為分離的音訊物件信號，並且該等至少兩個不同的音訊物件可彼此獨立地操縱；一個物件操縱器，該物件操縱器係用於依據關聯至少一個音訊物件之以音訊物件為主的元資料，而操縱該至少一個音訊物件之該音訊物件信號或一個已混音訊物件信號，以針對該至少一個音訊物件來獲得一個受操縱音訊物件信號或一個受操縱已混音訊物件信號，其中以該音訊物件為主的元資料包含關於一個增益、一個壓縮、一個位準、一個降混設定、或是特定於某個物件的一個特徵的資訊，並且其中該物件操縱器適於依據以該音訊物件為主的元資料來操縱該物件或數個其他物件，以在一種特定於物件的方法中實施一種午夜模式、一種高逼真度模式、一種乾淨音訊模式、一種對話規格化、一種特定於降混之操縱、一種動態降混、一種導引式上混、數個語音物件的一種重新定位或是一個周遭物件的一種削弱；以及一個物件混合器，該物件混合器係用於藉由將該受操縱音訊物件與一個未經修改的音訊物件組合，或是將該受操縱音訊物件與以不同方式操縱為該至少一個音訊物件的一個受操縱的不同音訊物件組合，來混合該物件表示型態。
如申請專利範圍第1項之裝置，其適於產生m個輸出信號，m為大於1的一個整數，其中該處理器係操作來提供具有k個音訊物件的一個物件表示型態，k為一個整數，且k大於m，其中該物件操縱器適於基於與至少兩個彼此相異的物件中之至少一個物件相關聯的元資料，而操縱該等至少兩個物件，並且其中該物件混合器係操作來組合該等至少兩個不同的物件之該等受操縱音訊信號，以獲得該等m個輸出信號，以使各個輸出信號受該等至少兩個不同的物件之該等受操縱音訊信號之影響。
如申請專利範圍第1項之裝置，其中該處理器適於接收該輸入信號，該輸入信號為多個原始音訊物件的一個已降混表示型態，其中該處理器適於接收用以控制一個重建演算法之數個音訊物件參數，該重建演算法係用於重建該等原始音訊物件的一個近似表現型態，並且其中該處理器適於利用該輸入信號以及該等音訊物件參數來指揮該重建演算法，以獲得包含數個音訊物件信號之該物件表示型態，該等音訊物件信號為該等原始音訊物件之數個音訊物件信號的一個近似。
如申請專利範圍第1項之裝置，其中該音訊輸入信號為多個原始音訊物件的一個已降混表示型態，並且該音訊輸入信號包含作為邊側資訊的以物件為主的元資料，該以物件為主的元資料具有關於被包括在該降混表示型態中之一個或多個音訊物件之資訊，並且其中該物件操縱器適於從該音訊輸入信號中提取出該以物件為主的元資料。
如申請專利範圍第3項之裝置，其中該音訊輸入信號包含作為邊側資訊的該等音訊物件參數，並且其中該處理器適於從該音訊輸入信號中提取出該邊側資訊。
如申請專利範圍第1項之裝置，其中該物件操縱器係操作來操縱該音訊物件信號，並且其中該物件混合器係操作來依據針對各個物件的一個演示位置以及一個重建設定，來應用針對該物件的一個降混規則，以獲得針對各個音訊輸出信號的一個物件成份信號，而且其中該物件混合器適於將來自於相同輸出聲道之數個不同物件的數個物件成份信號相加，以獲得針對該輸出聲道的該音訊輸出信號。
如申請專利範圍第1項之裝置，其中該物件操縱器係操作來依據針對該物件之元資料，而以相同方式操縱多個物件成份信號中之各個成份信號，以獲得針對該音訊物件之數個物件成份信號，並且其中該物件混合器適於將來自於相同輸出聲道之數個不同物件的該等物件成份信號相加，以獲得針對該輸出聲道的該音訊輸出信號。
如申請專利範圍第1項之裝置，其更包含一個輸出信號混合器，該輸出信號混合器係用於將依據至少一個音訊物件的一個操縱而獲得的該音訊輸出信號與不由該至少一個音訊物件之該操縱而獲得的一個對應的音訊輸出信號混合。
如申請專利範圍第1項之裝置，其中該等物件參數針對一個物件音訊信號之多個時間分區，包含針對在個別的時間分區中之多個頻帶的各個頻帶的數個參數，並且其中該元資料僅包括針對一個音訊物件的非頻率選擇性資訊。
一種用以產生代表至少兩個不同的音訊物件之疊加的至少一個音訊輸出信號之方法，其包含下列步驟：處理一個音訊輸入信號，以提供該音訊輸入信號的一個物件表示型態，其中該等至少兩個不同的音訊物件彼此分離，該等至少兩個不同的音訊物件可作為分離的音訊物件信號，並且該等至少兩個不同的音訊物件可彼此獨立地操縱；依據關聯至少一個音訊物件之以音訊物件為主的元資料，而操縱該至少一個音訊物件之該音訊物件信號或一個已混音訊物件信號，以針對該至少一個音訊物件來獲得一個受操縱音訊物件信號或一個受操縱已混音訊物件信號，其中以該音訊物件為主的元資料包含關於一個增益、一個壓縮、一個位準、一個降混設定、或是特定於某個物件的一個特徵的資訊，並且其中依據以該音訊物件為主的元資料來操縱該物件或數個其他物件，以在一種特定於物件的方法中實施一種午夜模式、一種高逼真度模式、一種乾淨音訊模式、一種對話規格化、一種特定於降混之操縱、一種動態降混、一種導引式上混、數個語音物件的一種重新定位或是一個周遭物件的一種削弱；以及藉由將該受操縱音訊物件與一個未經修改的音訊物件組合，或是將該受操縱音訊物件與以不同方式操縱為該至少一個音訊物件的一個受操縱的不同音訊物件組合，來混合該物件表示型態。
一種電腦程式，當該電腦程式在電腦上執行時，可進行如申請專利範圍第10項之用以產生至少一個音訊輸出信號之方法。