TW201909658A

TW201909658A - 用於適應性音頻信號的產生、譯碼與呈現之系統與方法

Info

Publication number: TW201909658A
Application number: TW107142737A
Authority: TW
Inventors: 查爾斯羅賓森; 尼可拉斯汀高斯; 克里斯多夫查班尼
Original assignee: 美商杜比實驗室特許公司
Priority date: 2011-07-01
Filing date: 2012-06-27
Publication date: 2019-03-01
Also published as: AU2018203734A1; KR102115723B1; TWI651005B; IL230046A; TW202139720A; RU2017112527A3; MY165933A; AU2020226984A1; US20210219091A1; US9942688B2; CN103650539A; IL295733B1; KR20230170110A; KR20190086785A; PL2727383T3; AU2012279357B2; JP2019095813A; US20230045090A1; KR102608968B1; JP2021005876A

Abstract

實施例係說明用於處理包含一些獨立的單聲道音頻串流的音頻資料之適應音頻系統。一或多個串流具有關聯於其的元資料，其特定串流是否為聲道基礎或是物件基礎串流。聲道基礎串流具有藉由聲道名稱編碼的呈現資訊；以及物件基礎串流具有透過編碼於關聯的元資料之定點表示之定點資訊。編解碼器封裝獨立的音頻串流至單一的串列位元流，其包含所有的音頻資料。此配置允許用於依據參考的非自我中心訊框所呈現的聲音，其中聲音的呈現定點係基於重現環境的特徵(例如，室內尺寸、形狀等)以符合混音師的意向。物件位置元資料包含參考資訊之適當的非自我中心訊框，其需要使用在安裝以播放適應音頻內容的室內中可得到的揚聲器位置正確的播放聲音。

Description

用於適應性音頻信號的產生、譯碼與呈現之系統與方法

用於一或多個一般有關於音頻信號處理的實現，以及更特別是關於用於電影院、家庭或其它環境的混成物件及聲道基礎(channel-based)音頻處理。

在背景章節所討論的標的不應假定為前案而僅為其在背景章節所提及的結果。相似的，在背景章節所提及的問題或是關聯於背景章節的標的不應假定為已先識別於前案之中。在背景章節的標的僅代表不同的方法，在其中或他們本身內亦可為發明。

自從有聲電影的導入以來，已有穩定的技術進化用以擷取創作者的針對電影聲軌的藝術目的以及將其在電影環境中正確的再生。電影聲音的基礎角色係以支持顯示於螢幕上的故事。典型的電影聲軌包含許多不同對應至元素的聲音元素以及發源於不同螢幕上元素之螢幕上的影像、對話、雜訊與音效並且結合背景音樂與環境音效以建立整體的聽眾體驗。創作者與製作人的藝術目代表他們想要讓這些聲音以符合盡可能接近在螢幕上顯示關聯於聲音來源位置、強度、動作及其它類似參數的方法進行再生。

目前的電影創作、分佈及重現遭受真實的身歷其境及逼真的音效之建立所約束的限制。傳統的聲道基礎音頻系統以在重現環境中饋送至個別的揚聲器之揚聲器形式來傳送音頻內容，像是立體聲與5.1系統。數位電影的導入已建立在電影上聲音的新標準，諸如上至16音頻聲道的合併以容許對於內容創作者更好的創造力，以及對於聽眾更多的圍繞及逼真的聽覺體驗。7.1環繞系統的導入已提供新的格式，其藉由將現存的左與右環繞聲道分開成四個區域以增加環繞聲道的數量，藉此增加聲音設計者與混音師的範圍以控制在劇院中音頻元素的定位。

為進一步改善聽者的體驗，在虛擬三維環境中聲音的重現已成為增加的研究及發展的領域。聲音的空間表現利用音頻物件(其為關聯於聲源(apparent source)位置的參數源描述之音頻信號例如，3D座標))、聲源寬廣度(apparent source width)及其它參數。物件基礎(object-based)音頻係增加的使用於許多目前的多媒體應用，諸如數位電影、電玩及3D視頻。

擴張超越傳統揚聲器饋送及聲道基礎音頻做為用於分佈空間音頻的手段是關鍵的，並且已具有在模型基礎音頻描述(audio description)中相當的利益，音頻描述持有允許聽者/展出者自由選擇適合他們個別需求或預算的重現配置之保證，且伴隨著特別針對他們所選的配置之音頻呈現。在高階上，現有四個主要空間音頻描述格式：揚聲器饋送於音頻如意圖為在名義上揚聲器位置的揚聲器之信號進行描述；麥克風饋送於音頻在預先定義陣列中則被虛擬或實際麥克風擷取的信號進行描述；模型基礎描述在於音頻以在描述的位置中音頻事件順序方面進行描述；以及立體聲在於音頻藉由到達聽者耳朵之信號進行描述。該等四個描述格式通常與一或多個呈現技術相關聯，呈現技術轉換音頻信號至揚聲器饋送。現今的呈現技術包括平移(panning)，其中音頻串流使用一組平移法則(panning laws)轉換至揚聲器饋送以及知悉的或假定的揚聲器位置(一般呈現於分佈之前)；高保真度立體聲響複製(Ambisonics)，其中麥克風信號轉換至用於揚聲器的可縮放陣列之饋送(一般在分佈之後呈現)；WFS(波場合成；wave field synthesis)其中聲音事件轉換至適當的信號以合成音場(一般呈現於分佈之後)；以及立體聲(binaural)，其中L/R(左/右)立體聲信號傳送至L/R耳，一般使用耳機，但亦可藉由揚聲器及串音消除(crosstalk cancellation)(呈現於分佈之前或之後)。在這些格式中，因為其簡單及有效的原因，揚聲器饋送(speaker-feed)格式係為最常見的。由於在內容創作者與聽者之間沒有處理，最好的聲音結果(最正確，最可靠)藉由混音/監測及分佈至揚聲器饋送而直接達成。若重現系統事先知悉，揚聲器饋送描述一般會提供最高的精確度。然而，在許多實際的應用上，重現系統是未知的。模型基礎(model-based)描述視為最適合的，因為其不假定關於呈現技術並且因此最容易應用至任何呈現技術。雖然模型基礎描述有效率的擷取空間資訊，但當音頻來源數量增加時則變為非常無效率的。

多年來，電影系統具有以左、中、右以及有時為「左內」與「右內」聲道的形式之特徵的分散螢幕聲道。這些分散來源通常具有足夠的頻率響應與功率，其操作以允許聲音被正確的放置在螢幕的不同區域，並且當聲音在位置之間移動或平移時准許音色匹配。最近改善聽者經驗的發展試圖正確的再生相關於聽者聲音的位置。在5.1設置上，環繞「區帶」包含揚聲器的陣列，所有的揚聲器在每個左環繞或右環繞地區中承載相同的音頻資訊。這種具有「周圍」或擴散環繞音效的陣列可以是有效的，然而，在每天生活中的許多音效係來自隨機放置的點來源。舉例來說，在餐廳中，周圍音樂顯然的可播放自身邊，同時細微但分散的聲音源自於特定的點：人自一個點上交談、在盤子上刀的噹啷聲來自於另一邊。分散的在禮堂附近放置這樣的聲音能夠加入增高的真實感觀而不會顯著的顯而易見。在上方的聲音亦為重要的環繞界定組件。在真實世界中，聲音來自於所有方向，且不總是來自於單一水平面。若聲音可從上方(換句話說，從上半球)聽見，則能夠達成加入的真實性感官。然而，現在的系統，無法提供用於在不同重現環境的變化中之不同的音頻類型聲音的真實正確的再生。處理、知識及實際重現環境配置的好的對策需要使用現存的系統以試圖正確表徵定點特定聲音，因此呈現了對於大多數應用不切實際的現行系統。

所需要的是支援多重螢幕聲道的系統，造成增加的界定以及用於螢幕上聲音或對話的改善的視聽(audio-visual)凝聚，以及任何在環繞帶域中精準定位來源的能力以改善從螢幕到室內的視聽轉變。舉例來說，若在螢幕上的角色看起來在朝向聲音來源的室內，聲音工程師(「混音師(mixer)」)應該具有精準定位聲音的能力以致匹配角色的視線並且此音效會持續的遍佈聽眾。然而，在傳統5.1或7.1環繞聲音混音中，此音效高度的取決於聽者的就座位置，其不利於大部分大規模聽的環境。增加的環繞解析度創造新的機會以使用相對傳統方法的在室內中心方式的聲音，其中係假定在「甜蜜區(sweet spot)」的單一聽者所建立的內容。

除了空間問題以外，現今藝術系統的多聲道狀態遭受關於音色的問題。舉例來說，一些聲音的音色品質，像是水汽從破裂管線發出嘶聲，會遭受到藉揚聲器陣列再生之問題。導引特定聲音至單一揚聲器的能力給予混音師消除陣列再生的人工製品並且傳送更實際的經驗至聽眾。傳統上來說，環繞揚聲器並不支援大螢幕聲道所支援相同全域的音頻率及準位。歷史上來說，這已產生混音師的問題，降低自由的將全域聲音從螢幕移動至室內的能力。因此，劇院所有者未感到強迫升級他們的環繞聲道配置，防礙了普遍採取較高品質的安裝。

系統與方法係說明以電影院聲音格式及處理系統其包括新的揚聲器布局(聲道配置)與關聯的空間描述格式。界定適應音頻系統與格式其支援多重呈現技術。音頻串流隨著元資料傳送，元資料描述包括音頻串流的所欲位置之「混音師之意向」。此位置能表示為具名聲道(來自預定聲道配置之內)或為三維位置資訊。這個聲道加上物件格式結合最佳聲道基礎及模型基礎音頻場景描述方法。用於適應音頻串流系統的音頻資料包含獨立的單聲道音頻串流的數目。每一個串流已與其元資料有關，元資料詳述串流是否為聲道基礎或物件基礎串流。聲道基礎串流具有依靠聲道名稱所編碼的呈現資訊；並且物件基礎串流具有透過更進一步關聯的元資料中的編碼的數學運算式所編碼的定點資訊。原始獨立的音頻串流以包含所有音頻資料之單一串列的位元流進行封裝。此配置允許聲音依據參考之非自我中心訊框而呈現，其中所呈現聲音之定點係基於重現環境的特徵(例如空間大小、形狀等)以符合混音師的意向。物件位置元資料包含適合的參考資訊之非自我中心訊框其要求以使用在空間內(其設定以播放適應的音頻內容)可得到的揚聲器位置來正確的播放聲音。其使聲音能最佳的混音以用於特別的重現環境，其可不同於聲音工程師所經歷之混音環境。

適應音頻系統透過改善的室內等化與低音管理這樣的好處來改善在不同室內中音頻品質，以致揚聲器(不論是螢幕上或螢幕外)能夠在不考慮音色匹配下自由的被混音師表述。適應音頻系統將動態音頻物件的彈性與力量加至傳統聲道基礎工作流程。這些音頻物件允許創作者無關於任何特定的重現揚聲器配置下控制分散的聲音元件，包括上方的揚聲器。此系統亦導入新的效率至後期製作流程，允許聲音工程師有效率的擷取所有的他們的意向且接著在即時監控中，或自動的產生環繞聲的7.1與5.1版本。

適應音頻系統在數位電影處理器中藉封裝音頻本質與藝術意向於單軌檔以簡化分佈。當混音與呈現使用相同的聲道配置與具有向下適應的單一清單以呈現配置(即向下混音(downmixing))時，系統提供藝術意向的最佳再生。

透過實施例提供這些與其它好處，其有關於電影聲音平台、表述目前的系統限制與傳遞超越現今可得系統之音頻體驗。

100‧‧‧端對端環境

102‧‧‧內容擷取元件

104‧‧‧音頻的前處理

106‧‧‧創作工具及處理

108‧‧‧編解碼器

110‧‧‧呈現處理

112‧‧‧音頻體驗

200‧‧‧處理

202‧‧‧聲道基礎資料

204‧‧‧音頻物件資料

206‧‧‧聲道資料+元資料

208‧‧‧適應音頻混音

300‧‧‧工作流程

302‧‧‧輸入混音控制

304‧‧‧混音控制台/音頻工作站

306‧‧‧呈現與主控單元

308‧‧‧其它呈現的可交付成果

310‧‧‧適應音頻混音

312‧‧‧數位電影處理器

314‧‧‧音頻信號

316‧‧‧音頻信號

318‧‧‧劇院

320‧‧‧適應音頻致能劇院

400‧‧‧系統

402‧‧‧適應音頻信號

404‧‧‧呈現器

406‧‧‧準位管理器

408‧‧‧陣列校正組件

410‧‧‧B鏈處理組件

500‧‧‧表

600‧‧‧圖

604‧‧‧重新錄音混音器

606‧‧‧最終混音

608‧‧‧呈現與主控單元

610‧‧‧打印主機

612‧‧‧環繞聲音劇院混音

614‧‧‧適應音頻封裝

700‧‧‧圖

702‧‧‧音頻檔案

704‧‧‧包裝/加密方塊

706‧‧‧方塊

708‧‧‧數位電影處理器

710‧‧‧密鑰傳遞訊息方塊

712‧‧‧壓縮

714‧‧‧字幕

716‧‧‧影像

800‧‧‧頂視圖

801‧‧‧螢幕揚聲器

802‧‧‧環繞揚聲器

804‧‧‧額外的揚聲器

806‧‧‧側環繞揚聲器

808‧‧‧上環繞揚聲器

810‧‧‧超低音音箱

816‧‧‧額外的超低音音箱

900‧‧‧前視圖

1000‧‧‧側視圖

在下列圖示中相似的參考代號用以參照至相似的元件。雖然圖示說明各種範例，但一或多個的實施並不限於在圖中所說明的範例。

圖1係為在一實施例下，利用適應音頻系統之音頻建立及重現環境的頂層概觀。

圖2說明在一實施例下，聲道與物件基礎資料之結合以製造適應音頻混音。

圖3係為在一實施例下，說明產生、封裝及呈現適應音頻內容的工作流程之方塊圖。

圖4係為在一實施例下適應音頻系統的呈現階段之方塊圖。

圖5係為在一實施例下，列舉元資料類型及關聯適應音頻系統之元資料元件之表格。

圖6係為在一實施例下，說明後期製作與控制適應音頻系統的圖。

圖7係為在一實施例下，用於使用適應音頻檔案之數位電影封裝過程的範例工作流程圖。

圖8係為用於在典型的禮堂中使用以適應音頻系統所建議的揚聲器定點之示範佈局的上視圖。

圖9係為用於使用在典型的禮堂中於螢幕上所建議的揚聲器定點的示範擺放的前視圖。

圖10係為用於在典型的禮堂中使用以適應音頻系統所建議的揚聲器定位之示範佈局的側視圖。

圖11係為在一實施例下，相關於參考點的頂端環繞揚聲器與側邊環繞揚聲器的定位範例。

針對適應音頻系統與支援多重呈現技術之關聯的音頻信號與資料格式說明系統與方法。在此說明的一或多個實施例之態樣可以音頻或視聽系統實現，其在混音、呈現與包括一或多個電腦或執行軟體指令的處理裝置之重現系統中處理來源音頻資訊。任何說明的實施例可用以單獨或與另一個共同做任易的結合。雖然各種實施例可被前案(其在說明書的一或多個位置所討論或暗示)的各種缺失所激發，但實施例並不需要闡述任何這些缺失。換句話說，不同的實施例可闡述在說明書中討論的不同的缺失。一些實施例可只局部的闡述一些缺失或就一個在說明書中討論的缺失，以及一些實施例可不闡述任何這些缺失。

針對本說明的目的，下列的術語具有關聯的意義：聲道或音頻聲道：單聲道音頻信號或音頻串流加上在以聲道ID譯碼的位置上(例如左前或右上環繞)的元資料。聲道物件可驅動多個揚聲器，例如左環繞聲道(Ls)將饋送至所有在Ls陣列的揚聲器。

聲道配置：預定組之關聯於名義上定點的揚聲區帶，例如5.1、7.1等；5.1參照至六聲道環繞聲頻系統，其具有前左與右聲道、中間道通、兩個環繞聲道及超低音聲道；7.1參照至將2個額外環繞聲道加至5.1系統的8聲道環繞系統。5.1與7.1配置的範例包括杜比(Dolby)環繞系統。

揚聲器：音頻轉換器或呈現音頻信號的轉換器組。

揚聲器區帶：一或多個揚聲器陣列能夠被獨一的參考並且其接收單一音頻信號，例如一般在電影院所見到的左環繞，且特別的是針對排除或包括物件呈現。

揚聲器聲道或揚聲器饋送聲道：關聯於具名的揚聲器或在界定的揚聲器配置內的揚聲器區帶之音頻聲道。揚聲器聲道名義上呈現使用關聯的揚聲器區帶。

揚聲器聲道群：一組一或多個對應至聲道配置的揚聲器聲道(例如立體聲軌、單聲道軌等)。

物件或物件聲道：一或多個具有參數來源描述的音頻聲道，諸如聲源位置(例如3D座標)、聲源寬度等。音頻串流加上在空間上3D位置所譯碼的位置中之元資料。

音頻程式：全套的揚聲器聲道及/或物件聲道以及描述所欲空間音頻表現之關聯的元資料。

非自我中心參考：在界定相關於呈現環境內特徵之空間參考的音頻物件中之空間參考，呈現環境諸如室內牆壁與角落、標準揚聲器定點及螢幕定點(例如室內的左前方角落)。

自我中心參考：在界定相關於(聽眾)聽者觀點的音頻物件中的空間參考並且通常特定為關聯於相對聽者的角度(例如，聽者右方30度)。

訊框：訊框係為短的、獨立可編碼之全體音頻程式所分割的區段。音頻訊框速率與邊界通常與視頻訊框一致。

適應音頻：聲道基礎及/或物件基礎音頻信號加上基於重現環境呈現音頻信號的元資料。

在此說明的電影聲音格式與處理系統(亦參照至「適應音頻系統」)利用新的空間音頻描述且呈現技術以允許增強的聽眾沈浸、更藝術的控制、系統彈性與可擴充性以及安裝與維護的簡易。電影音頻平台的實施例包括一些分散的組件，包括混音工具、包裝器/編碼器、拆卸器/解碼器、劇院上最終混音與呈現組件、新的揚聲器設計及網路放大器。系統包括對於新聲道配置的推薦以被內容創作者與展示者使用。系統利用模型基礎描述，其支援一些特徵像是：具有向下與向上適應呈現配置的單一清單，亦即，延遲呈現與致能可得到揚聲器的最佳使用；改善的聲音發展，包括最佳化的向下混音以避免聲道間的相關性；透過引導通過(steer-thru)陣列(例如，音頻物件動態的指派至一或多個環繞陣列內的揚聲器)之增加的空間解析度；以及支援代替的呈現方法。

圖1係為在一實施例下，利用適應音頻系統之音頻建立及重現環境的頂層概觀。如圖1所示，全面的、端對端環境100包括橫過為數眾多的端點裝置與使用情況之內容建立、封裝、分佈及重現/呈現組件。整體系統100起源於來自及用於包含不同使用者體驗112的不同使用情形的數目所擷取的內容。舉例來說，內容擷取元件102包括電影院、TV、現場直播、使用者產生的內容、記錄內容、遊戲、音樂等，並且可包括音頻/視覺或純音頻內容。當透過系統100從擷取階段102進展至最終使用者體驗112時，內容透過分散的系統組件穿越一些關鍵處理步驟。這些處理步驟包括音頻的前處理(pre-processing)104、創作工具及處理106、藉音頻編解碼器108(其擷取例如音頻資料、額外元資料及再生資訊)以及物件聲道編碼。各種處理音效，諸如壓縮(有損或無損)、加密等可應用至用於透過各種媒體之有效率與安全分佈的物件聲道。適合的端點特定解碼與呈現處理110接著應用至再生與傳送特別的適應音頻使用者體驗112。音頻體驗112代表透過適合的揚聲器與重現裝置之音頻或音頻/視覺內容的重現，並且可代表在聽者正體驗擷取內容中重現的任何環境，諸如電影院、音樂廳、戶外劇院、家或室內、聽展台、車子、遊戲機、耳機或耳機系統、播音(PA；public address)系統或任何其它的重現環境。

系統100的實施例包括能夠有效率的分佈之音頻編解碼器108與多聲道音頻程式之儲存，因而可參照至如「混成」編解碼器。編解碼器108結合傳統關於元資料的聲道基礎音頻資料以製造音頻物件，其促進適應及最佳化於呈現與在環境(其也許不同於混音環境)中重現的音頻之建立及傳送。這使得聲音工程師基於聽者實際聆聽環境對相關於最終音頻應如何被聽者聽見之他的或她的意向進行編碼。

慣用的聲道基礎音頻編解碼器操作於在假定音頻程式將藉相關於聽者預定位置中之揚聲器陣列進行再生之下。為建立完整的多聲道音頻程式，聲音工程師一般混音大數量分開的音頻串流(例如，對話、音樂、音效)以建立整體所欲的印象。音頻混音決定藉由聆聽當藉由在預定位置之揚聲器陣列再生的音頻程式做成，例如在特定劇場中的特別5.1或7.1系統。最終、混音信號供做對於音頻編解碼器的輸入。針對再生，只有當揚聲器放置於預定位置時才會達成空間的正確音場。

新的音頻譯碼(其稱為音頻物件譯碼)形式提供區別的聲音來源(音頻物件)以分開的音頻串流形式做為編碼器的輸入。音頻物件的範例包括對話軌、單一樂器、個別聲音音效及其它點來源。每一個音頻物件係關聯於空間參數，其可包括(但不限於此)聲音位置、聲音寬度及速度資訊。音頻物件及關聯的參數接著針對分佈與儲存而譯碼。最終音頻物件混音與呈現係施行於音頻分佈鏈的接收端，做為音頻程式重現的部分。此步驟可基於實際揚聲器位置的知識以致此結果係為針對使用者特定聆聽條件而可訂做的音頻分佈系統。此兩個譯碼形式(聲道基礎與物件基礎)最佳的施行用於不同輸入信號條件。聲道式音頻譯碼一般係更有效率的用於包含不同音頻來源的密集混音之譯碼輸入信號以及用於擴散聲音。相反的，音頻物件譯碼器更有效率的用於將少數高度方向性聲音來源進行譯碼。

在一實施例中，系統100的方法及組件包含音頻編碼、分佈及解碼系統其設定以產生一或多個包含慣用的聲道基礎音頻元件與音頻物件譯碼元件兩者的位元流。這樣的結合方法提供較大的譯碼效率及相較於分開採用聲道基礎或物件基礎其中之一的方法呈現彈性。

本說明實施例的其它態樣包括以向後相容的方式延伸預定的聲道基礎音頻編解碼器以包括音頻物件譯碼元件。界定新的包含音頻物件譯碼元件之「延伸層」並且被添加至聲道基礎音頻編解碼器位元流的「基底」或「向後相容」層。此方法致能一或多個位元流，其包括延伸層以被傳統解碼器處理，同時提供用於具有新的解碼器之使用者的增強聽者體驗。增強使用者體驗的一個範例包括音頻物件呈現的控制。此方法額外的好處在於音頻物件可沿著分佈鏈的任何地方不以解碼/混音/重編碼之以聲道基礎音頻編解碼器做音頻編碼的多聲道被添加或修改。

關聯於參考訊框，音頻信號的空間效果在提供給予聽者之印象深刻的體驗上是關鍵的。意味從觀看螢幕或室內的特定地區發出的聲音應透過位於同樣相對定點的揚聲器播放。藉此，在模型基礎描述的聲音事件之主要音頻(單筆)元資料係透過其它參數像是尺寸、定向、速度及亦可被描述的聽覺分散而定位。傳達定點、模型基礎、3D、音頻空間描述則需要3D座標系統。此用於傳送的座標系統(歐幾里德幾何學的、球面的等)一般係為了方便或簡潔而選擇，然而，其它的座標系統亦可用於呈現處理。除了座標系統之外，參考訊框需要代表在空間中的物件定點。針對在各種不同環境中正確的再生位置基礎(position-based)聲音，選擇適當的參考訊框能夠成為關鍵的因素。伴隨非自我中心參考訊框，音頻來源位置界定以相關於在呈現環境中的特徵，像是室內牆壁與角落、標準揚聲器定點及螢幕定點。在自我中心參考訊框上，定點代表關於聽者的觀點，像是「在我的前方，稍微往左方」等。空間知覺的科學研究(音頻與用別的方法的)已顯示幾乎舉世通用的自我中心觀點。然而對於電影院，由於一些原因非自我中心更適合。舉例來說，當有關聯的物件在螢幕上時音頻物件的精準定點最為重要。使用非自我中心參考，對於每個聆聽位置與對於任何螢幕尺寸，聲音將在螢幕上同樣相對的位置進行局部化，例如螢幕中間左邊三分之一處。另一個原因是混音師趨向於以非自我中心項目思考及混音，並且以非自我中心訊框(室內牆壁)佈局平移工具，以及混音師期盼他們以那樣的方式呈現，例如此聲音應該在螢幕上，此聲音應該在螢幕外或者來自左方牆壁等。

儘管在電影環境中使用參考的非自我中心訊框，會有參考的自我中心訊框為有益的情形，並且更適合。這些包括故事外的聲音(non-diegetic sounds)，亦即那些並未出現在「故事空間」中，例如氣氛音樂，對其中自我中心一致表現可為令人滿意的。另一個情形為近場音效(例如在聽者左耳發出嗡嗡聲的蚊子)其需要自我中心表徵(representation)。目前並受有工具用於呈現這樣缺乏使用耳機的音場或非常近場揚聲器。此外，無限遠的聲音來源(與造成的平面波)出現來自固定的自我中心位置(例如向左方30度)，以及這樣的聲音相較於在非自我中心項目上更容易在自我中心項目上描述。

在一些情形上，只要界定名義上的聆聽位置有可能使用參考的非自我中心訊框，同時一些範例需要還不可能呈現的自我中心表現。雖然非自我中心參考可更有益且適合，由於許多新的特徵，包括自我中心表徵在某些應用及聆聽環境下可更令人滿意，音頻表徵應為可延伸的。適應音頻系統的實施例包括混成空間描述方法其包括用於最佳保真度與用於擴散或複雜的呈現之推薦的聲道配置、使用自我中心參考的多點來源(例如體育場人群、氣氛)、加上非自我中心、模型基礎聲音描述以有效率的致能增加的空間解析度與可擴展性。

系統組件

參照至圖1，原始聲音內容資料102首先在預先處理方塊104中處理。系統100的預先處理方塊104包括物件聲道濾波組件。在許多情形下，音頻物件包含個別聲音來源以致能獨立的聲音平移。在一些情形下，像是當使用自然或「製作」聲音建立音頻程式時，可需要自記錄包含多個聲音來源以提取個別的聲音物件。實施例包括從更多複雜信號隔離獨立的來源信號之方法。分開自獨立的來源信號之不宜的元件可包括(但不限於此)其它獨立的聲音來源與背景噪音。此外，混響(reverb)可移除以回復「乾的」聲音來源。

預先處理器104亦包括來源分離與內容類型偵測功能。此系統透過輸入音頻分析提供元資料的自動產生。位置的元資料起源自透過在聲道對之間相關輸入的相對準位的分析來錄音的多聲道。可藉由特徵提取及分類達成內容類型(像是「語音」或「音樂」)的偵測。

創作工具

創作工具方塊106包括特徵以藉由對聲音工程師的創造力的意向之輸入與譯碼最佳化以改善音頻程式的創作，一旦其在實際上任何重現環境對於重現最佳化，創造力的意向允許他建立最終音頻混音。此係透過音頻物件與以原始音頻內容聯繫及編碼的位置資料之使用而完成。為了正確放置聲音於禮堂附近，聲音工程師需要在基於實際的限制與重現環境的特徵下如何將聲音終極的呈現的控制。適應音頻系統藉由允許聲音工程師改變如何對音頻內容透過音頻物件與位置資料的使用進行設計與混音以提供此控制。

音頻物件能夠視為聲音元件的分組，其可被察覺以從特別的實體定點或在禮堂中的定點發射。這樣的物件能夠是靜態的，或者他們能移動。在適應音頻系統100中，音頻物件被元資料控制，其介於其它東西之間，詳述及時在給定的點上聲音位置。當物件被監控或在劇院後方播放時，他們依據使用現存的揚聲器之位置元資料而呈現，而不必然被輸出至實體聲道。在會期中的軌能夠為音頻物件，以及標準的平移資料類比於位置元資料。這樣一來，放置在螢幕上的內容可如同具有通道基礎內容同樣有效的方式平移，但若想要的話，放置在環繞上的內容能夠被呈現於個別的揚聲器。當音頻物件的使用提供用於分散音效所欲的控制時，電影聲帶的其它態樣在聲道基礎環境中真的有效的運作。舉例來說，許多環境音效或回響自饋送至揚聲器陣列而真正受益。雖然這些可視為具有足夠寬度的物件以填充陣列，但有利的是保留了一些聲道基礎的功能。

在一實施例中，除了音頻物件外適應音頻系統支援「配樂(beds)」，其中配樂為有效的聲道基礎子混音或是混音元素(stems)。取決於內容創造者的意向，這些能夠被傳送以用於個別最終重現(呈現)，或是結合至單一配樂。這些配樂能夠以不同的聲道基礎配置(像是5.1、7.1)來建立，並且可延伸至更廣泛的格式像是9.1，以及包括上頭的揚聲器陣列。

圖2說明在一實施例下，聲道與物件基礎資料的結合以製造適應音頻混音。如在處理200所示，聲道基礎資料202，例如其可為提供以脈波電碼調變(PCM)資料形式的5.1或7.1環繞聲音資料係與音頻物件資料204結合以製造適應音頻混音208。藉結合關聯於特定某些附屬至音頻物件定點參數之元資料的原始聲道基礎資料的元件來製造音頻物件資料204。

概念上如圖2所示，創作工作提供能力以建立音頻程式其同時包含揚聲器聲道分組與物件聲道的結合。舉例來說，音頻程式可包含一或多個可選擇組織成分組(或軌，例如立體聲或5.1軌)揚聲器聲道、用於一或多個揚聲器聲道的描述元資料、一或多個物件聲道以及用於一或多個物件聲道的描述元資料。在一個音頻程式內，每一個揚聲器聲道分組與每一個物件聲道可代表使用一或多個不同的取樣率。舉例來說，數位電影院(D-Cinema)的應用支援48kHz與96kHz取樣率，但其它取樣率亦可支援。此外，亦可支援攝取、儲存及具有不同取樣率的聲道編輯。

音頻程式的建立需要聲音設計的步驟，其包括結合聲音元件做為調整組成的聲音元件準位的總合以建立新的、所欲的音效。適應音頻系統的創作工具致能音效的建立做為具有使用空間視覺聲音設計圖形使用者介面的相對位置之聲音物件的收集。舉例來說，聲音產生物件(例如車子)的視覺表徵可用做用於裝配音頻元件(排氣音符、輪胎嗡嗡聲、引擎噪音)的模板，其做為包含聲音與適合的空間位置(在尾管、輪胎、引擎罩)的物件聲道。個別的物件聲道接著能如一個分組般鏈結與操作。創作工具106包括一些使用者介面元件以允許聲音工程師輸入控制資訊與查看混音參數，並且改善系統功能。聲音設計與創作處理亦可藉由允許物件聲道及揚聲器聲道如分組般鏈結及操作進行改善。一個範例係為將物件聲道與具有一組包含關聯的混響信號之揚聲器聲道分散的、乾的聲音來源做結合。

音頻創作工具106支援用以結合多個音頻聲道的能力，一般參照如混音。支援混音的多個方法，且可包括傳統的準位基礎混音與響度基礎混音。在準位基礎混音上，寬帶縮放應用至音頻聲道，並且縮放的音頻聲道接著總和在一起。選擇對於每個聲道的寬帶縮放因素以控制造成的混音信號之絕對準位，且亦控制在混音信號內之混音聲道的相對準位。在響度基礎混音上，使用頻率相依振幅縮放修改一或多個輸入信號，其中頻率相依振幅選擇以提供所欲察覺的絕對與相對的響度，同時保存輸入聲音之察覺的音色。

創作工具允許建立揚聲器聲道與揚聲器聲道分組的能力。這允許元資料與每個揚聲器分組相關聯。每個揚聲器分組能夠依據內同類型加上標籤。內容類型經由文字說明係為可延伸的。內容類型可包括(但不限於此)對話、音樂與音效。可指派每個揚聲器聲道分組在如何自一個聲道配置向上混音(upmix)至另一個上的獨一的指令，其中向上混音界定為從N個聲道建立M個音頻聲道，其中M>N。向上混音指令可包括(但不限於此)如下：致能/禁能旗標以指示是否准許向上混音；向上混音矩陣以控制介於每個輸入與輸出聲道之間的映射；以及基於內容類型可指派內定致能與矩陣設定，例如只針對音樂致能向上混音。亦可指派每個揚聲器聲道分組在如何自一個聲道配置向下混音(downmix)至另一個上的獨一的指令，其中界定向下混音為從X個聲道中建立Y個音頻聲道，其中Y<X。向下混音指令可包括(但不限於此)如下：矩陣以控制介於每個輸入與輸出聲道之間的映射；以及基於內容類型能夠指派內定矩陣設定，例如對話應向下混音至螢幕上；音效應向下混音到螢幕外。每個揚聲器聲道在呈現期間亦能夠與元資料旗標相關聯以禁能低音管理。

實施例包括致能建立物件聲道與物件聲道分組的特徵。此發明允許元資料與每個物件聲道分組相關聯。依據內容類型能夠對每個物件聲道分組加上標籤。內容類型經由文字描述係為可延伸的，其中內容類型可包括(但不限於此)對話、音樂及音效。每個物件聲道分組能夠被指派元資料以說明物件應如何呈現。

位置資訊提供以指示所欲的聲源位置。可使用自我中心或非自我中心參考的訊框指示位置。當來源位置參照至聽者時自我中心參考則為適合的。對於自我中心位置來說，球面座標在用於位置描述上是有益的。非自我中心參考係為用於電影或其它音頻/視覺表現的典型參考訊框，其中來源位置係參考相關於在表現環境的物件像是視覺顯示螢幕或室內邊界。三維(3D)軌道資訊提供以致能用於位置的內插或是用於其它呈現決定的使用像是致能「鎖定(snap to)模式」。尺寸資訊則提供以指示所欲的明顯察覺音頻來源尺寸。

空間量化係提供以透過「鎖定最接近的揚聲器」控制藉由聲音工程師或混音師指示意向以具有藉由準確的一個揚聲器(對於空間正確性具有潛在的犧牲)所呈現的物件。允許的空間失真之限制係透過高度及方位容錯臨界值來指示，像是若超過臨界值，則不發生「鎖定」功能。除了距離臨界值之外，指示交叉衰落(crossfade)率參數以控制當所欲的位置在揚聲器之間跨越時，移動的物件將如何快速的從一個揚聲器轉移或跳躍至另一個。

在一實施例中，相依的空間元資料用於某些位置元資料。舉例來說，能夠自動產生元資料以用於「從」物件，其藉由與其關聯之「主」物件(從物件所跟隨的)產生。時間滯後或相對速度能被指派至從物件。亦可針對物件的集合或分組提供機構以允許用於重力聽覺中樞的界定，以致物件可被呈現以致使查覺到在另一個物件附近的移動。在這樣的情形下，一或多個物件可在物件或界定區域附近輪替，像是支配點或是室內乾燥區域。即使終極定點資訊會以相關於室內的定點所表達，如相對至相關於另一個物件的定點，重力聽覺中樞接著會使用在呈現階段以幫助判定對於每一個適合的物件基礎聲音之定點資訊。

當物件呈現時，其依據位置元資料而指派至一或多個揚聲器，以及重現揚聲器的定點。額外的元資料可與物件相關聯以限制應使用的揚聲器。限定的使用能禁止指示的揚聲器之使用或者僅僅禁止指示的揚聲器(允許比會做不同應用較低的能量進入該揚聲器或多個揚聲器)。被限定的揚聲器組可包括(但不限於此)任何具名的揚聲器或揚聲器區帶(例如L、C、R等)或是揚聲器區域，諸如：前牆、後牆、左牆、右牆、天花板、地板、在室內的揚聲器等。相似的，在特定所欲多個聲音元件的混音之過程中，有可能會因為其它「遮蔽」聲音元件的存在而造成一或多個聲音元件變成無聲的或「遮蔽的」。舉例來說，當偵測到遮蔽元件時，他們可經由圖形顯示對使用者識別。

如別處所述的，音頻程式描述能夠適應於呈現在廣泛不同的揚聲器安裝以及聲道配置。當創作音頻程式時，重要的是監控呈現程式在預計重現配置的音效以驗證達成所欲的結果。此發明包括選擇目標重現配置與監控結果的能力。此外，系統能夠監控最差情形(即最高)信號準位，其會產生在每個預計重現配置中，並且若剪裁或限制將發生時，提供指示。

圖3係為在一實施例下，說明建立、封裝及呈現適應音頻內容的工作流程之方塊圖。圖3的工作流程300分開成三個明顯的任務分組，其標籤成建立/創作、封裝及展示。一般來說，如圖2所示的配樂與物件的混成模型允許聲音設計、編輯、預先混音及最終混音以如他們現今且不過度的往上加目前的處理般同樣的方式來施行。在一實施例中，適應的音頻功能提供以軟體、韌體或電路的形式，其用以與聲音製作與處理配備接合，其中這種配備可為新的硬體系統或對現存的系統升級。舉例來說，插件應用可提供用於數位音頻工作站以允許現存在聲音設定與編輯內的平移技術維持不變。這樣一來，有可能將於5.1或相似環繞裝備編輯室中的工作站內之配樂與物件兩者皆放下。物件音頻與元資料記錄於準備用於在配音劇院上的預先及最終混音階段之會期中。

如圖3所示，建立或創作任務包括藉使用者(例如在下列範例中的聲音工程師)對混音控制台或音頻工作站304輸入混音控制302。在一實施例中，元資料整合至混音控制台面，允許聲道帶的化音器、平移及音頻處理與配樂或混音元素及音頻物件兩者進行運作。元資料能夠使用控制台面或工作站使用者介面其中之一進行編輯，以及使用呈現與主控單元(RMU；rendering and mastering unit)306監控聲音。配樂與物件音頻資料與關聯的元資料係記錄於主控會期之間以建立「打印主機」，其包括適應音頻混音310與任何其它呈現的可交付成果(像是環繞7.1或5.1劇院混音)308。現存創作工具(例如數位音頻工作站像是專業工具(Pro Tools))可用以允許聲音工程師在混音會期內對個別音軌標籤。藉允許使用者在軌內對個別子區段標籤實施例延伸此概念以幫助尋找或快速的識別音頻物件。對於致能元資料之界定與建立的混音控制台之使用者介面可透過圖形使用者介面元件、實體控制(例如滑件或旋鈕)或任何其中的結合來實現。

在封裝階段，為了確保用於傳送至數位電影封裝設施之音頻內容的完整性，打印主機檔案使用工業標準的MXF包裝程序包裝、切碎且可選擇的加密。此步驟可藉數位電影處理器(DCP；digital cinema processor)312或任何適合的音頻處理器取決於終極重現環境而施行，重現環境像是配備以劇院318的標準環繞聲音、適應音頻致能劇院320或任何其它重現環境。如圖3所示，處理器312取決於展示環境輸出適合的音頻信號314及316。

在一實施例中，適應音頻打印主機抱含隨著標準的DCI(DCI-compliant)兼容脈波電碼調變(PCM)混音在一起的適應音頻混音。PCM混音能夠藉在配音劇院中的呈現與主控單元來呈現，或者若想要時藉分開的混音通過所建立。PCM音頻在數位電影處理器312內形成標準主要音軌檔，並且適應音頻形成額外的軌檔案。這樣的軌檔案可順應現存的工業標準，且被不能使用其的適用DCI伺服器所忽略。

在一範例的電影重現環境中，包含適應音軌檔案的DCP被伺服器識別為有效的包裝，且被吸收至伺服器並且然後流動至適應音頻電影處理器。同時具有可得到的線性PCM與適應音頻檔案兩者的系統，當需要時此系統能夠在他們之間切換。對於分佈至展示階段來說，適應音頻方案允許單一類型的封裝之傳送被傳送至電影院。DCP封裝包含PCM與適應音頻檔案兩者。安全密鑰的使用，像是密鑰傳遞訊息(KDM；key delivery message)可結合以致能電影內容的安全傳遞，或其它的類似內容。

如圖3所示，適應音頻方法論透過音頻工作站304藉由使得聲音工程師能表達他或她的關於呈現與音頻內容重現的意向以實現。藉由控制某些輸入控制，取決於聆聽環境工程師能特定音頻物件與聲音元件如何及於何處回放。反應於工程師的混音輸入302在音頻工作站304處產生元資料以提供呈現佇列，其控制空間參數(例如位置、速度、強度、音色等)以及特定在聆聽環境中哪一個揚聲器或揚聲器分組於展示期間播放各別的聲音。元資料關聯於在工作站304或RMU 306中各別音頻資料以用於封裝及藉DCP 312傳輸。

圖形使用者介面及藉工程師提供工作站304的控制之軟體工具包含至少部分圖1的創作工具106。

混成音頻編解碼器

如圖1所示，系統100包括混成音頻編解碼器108。此組件包含音頻編碼、分佈及解碼系統其設定以產生包含慣用的聲道基礎音頻元件與音頻物件譯碼元件兩者的單一位元流。混成音頻譯碼系統建造在聲道基礎編碼系統的周圍，編碼系統設定以產生單一(統一的)位元流其同時相容於(亦即可藉以解碼)設定以對依據第一編碼協定(聲道基礎)編碼之音頻資料進行解碼之第一解碼器並且一或多個次解碼器設定以對依據一或多個次編碼協定(物件基礎)編碼的音頻資料進行解碼。位元流能夠包括藉第一解碼器(並且被任何次解碼器忽略)而可解碼的編碼資料(以資料叢發形式)以及藉一或多個次解碼器(並且被第一解碼器忽略)而可解碼的編碼資料(例如其它資料的叢發)兩者。來自第一及一或多個次解碼器的解碼音頻與關聯的資訊(元資料)接著能夠以像在聲道基礎與物件基礎資訊兩者同時呈現的方式結合以重新建立環境、聲道、空間資訊及表現在混成譯碼系統之物件(亦即在3D空間或聆聽環境內)的摹寫。

編解碼器108產生位元流其包含譯碼音頻資訊以及與多組聲道位置(揚聲器)有關的資訊。在一實施例中，一組聲道位置係固定的並且用於聲道基礎編碼協定，同時另一組聲道位置係為適應的並且用於音頻物件基礎編碼協定，以致用於音頻物件的聲道配置可隨時間函數改變(取決於物件放置於音場的何處)。藉此，混成音頻譯碼系統可承載關於用於重現的兩組揚聲器定點之資訊，其中一組係為固定的且為另一個的子設備。支援傳統譯碼音頻資訊的裝置會自固定的子設備解碼及呈現音頻資訊，同時能夠支援較大設備的裝置能解碼及呈現額外的譯碼音頻資訊其會時變的從較大設備指派至不同的揚聲器。此外，系統並不相依於第一及一或多個次解碼器其同時在系統及/或裝置內出現。因此，包含只有支援第一協定之解碼器的傳統及/或現存的裝置/系統會產出完全相容的音場以經由傳統聲道基礎再生系統呈現。在此情形下，未知或未支援之混成位元流協定(亦即被次編碼協定所代表的音頻資訊)的部分會被支援第一混成編碼協定系統或裝置解碼器所忽略。

在另一實施例中，編解碼器108設定以操作在一模式下其中第一編碼子系統(支援第一協定)包含所有音場資訊(聲道與物件)之結合的表徵其代表於出現在混成編碼器內的第一及一或多個次編碼器兩者的子系統中。這確保了藉由允許音頻物件(一般承載在一或多個次編碼器協定中)代表及呈現在只支援第一協定的解碼器內則混成位元流包括與只支援第一編碼子系統的協定的解碼器之向後相容性。

而在另一個實施例中，編解碼器108包括兩個或多個編碼子系統，其中這些子系統中的每個設定以依據不同協定編碼音頻資料，並且設定以結合子系統的輸出以產生混成格式(統一的)位元流。

在其中一個益處中，實施例係為用於混成譯碼音頻位元流的能力以承載於寬範圍的內容分佈系統，其中分佈系統的每一個慣例的只支援依據第一編碼協定編碼的資料。這消除了為了特定支援混成譯碼系統而對於任何系統及/ 或傳輸準位協定修改/改變的需求。

音頻編碼系統一般利用標準化的位元流元件以致能在位元流本身內額外的(隨意的)資料傳輸。包括在位元流中編碼的音頻之解碼期間一般會略過(亦即忽略)額外的(隨意的)資料，但可用於非解碼的目的。不同的音頻譯碼標準表達這些額外的資料欄位使用獨一的命名法。此一般類型的位元流元件可包括(但不限於此)輔助資料、忽略欄位、資料串流元件、填充元件、補充資料及子串流元件。除非有其它的註解，在本文件中使用「輔助資料」的表達並非暗示額外資料的特定類型或格式，但較佳的應解釋成通用的表達其包含任何或全部關聯於本發明的範例。

經由在結合的混成譯碼系統位元流內的第一編碼協定之「輔助」位元流元件致能的資料聲道能承載一或多個次(獨立的或相依的)音頻位元流(依據一或多個次編碼協定所編碼)。一或多個次音頻位元流能分成N個取樣方塊以及多工成第一位元流的「輔助資料」欄位。第一位元流藉適合的(互補)解碼器係為可解碼的。此外，第一位元流的輔助資料能被提取、重新結合至一或多個次音頻位元流、被支援一或多個次位元流語法的處理器所解碼以及然後結合及一起或獨立的呈現。再者，亦可能顛倒第一與第二位元流的角色，以致第一位元流的資料方塊被多工成第二位元流的輔助資料。

關聯於次編碼協定的位元流元件亦承載且傳遞根本音頻的資訊(元資料)特徵，其可包括(但不限於此)所欲的聲音來源位置、速度及尺寸。在解碼與呈現處理期間利用此元資料以重建立用於承載在可應用的位元流內關聯的音頻物件之適當的(亦即原始的)位置。亦可能在關聯於第一編碼協定的位元流元件內承載上述的元資料，其可應用至包含在一或多個出現在混成串流的次位元流中的音頻物件。

關聯於混成譯碼系統之第一及第二編碼協定其中一個或兩者的位元流元件承載/傳遞上下文的元資料其識別空間參數(亦即信號屬性本身的本質)與進一步說明在特定音頻類別形式之根本音頻本質類型的資訊，其承載在混成譯碼音頻位元流內。這樣的元資料能指示例如口語對話的表現、音樂、在音樂上的對話、喝采、唱歌的聲音等，並且能利用以適應的修改預先或在後處理模組混成譯碼系統上游或下游的互連行為。

在一實施例中，編解碼器108設定以具有共享的或共同的位元池(bit pool)來操作其中對於譯碼之可得到的位元係「分享」於所有或部分支援一或多個協定的編碼子系統之間。為了最佳化統一的位元流整體的音頻品質，這樣的編解碼器可在編碼子系統之間分佈可得到的位元(從共同「分享」的位元池中)。舉例來說，在第一時間間隔中，編解碼器可指派較多的可得到的位元至第一編碼子系統，並且較少的可得到的位元至剩下的子系統，當在第二時間間隔中，編解碼器可指派較少的可得到的位元至第一編碼子系統，並且較多的可得到的位元至剩下的子系統。例如，如何在編碼子系統之間指派位元的決定可取決於分享的位元池之統計分析的結果，且/或藉每個子系統編碼的音頻內容之分析。編解碼器以藉由對編碼子系統之輸出進行多工所建構的統一的位元流在特定時間間隔上維持固定的訊框長度/位元率的這種方法則可從分享池中分配位元。在一些情形下，對於統一的位元流之訊框長度/位元率亦可能在特定時間間隔上變化。

在替代的實施例中，編解碼器108產生統一的位元流其包括依據設定及傳輸做為編碼資料串流之獨立子串流的第一編碼協定所編碼的資料(其支援第一編碼協定的解碼器將進行解碼)，以及依據傳送做為獨立的或相依的編碼資料串流的子串流之第二協定所編碼的資料(支援第一協定的解碼器那一個將會忽略)。更一般的來說，在實施例的類別上編解碼器產生統一的位元流其包括兩個或多個獨立或相依的子串流(其中每個子串流包括依據不同或一致的編碼協定所編碼的資料)。

在又另一個替代實施例中，編解碼器108產生統一的位元流其包括依據以統一的位元流識別符(其支援關聯於統一的位元流識別符之第一編碼協定的解碼器將進行解碼)設定及傳輸的第一編碼協定所編碼的資料，以及依據以統一的位元流識別符設定與傳輸之第二協定所編碼的資料，其支援第一協定的解碼器將忽略。更一般的來說，在實施例的類別中編解碼器產生統一的位元流其包括兩個或多個子串流(其中每個子串流包括依據不同或一致的編碼協定所編碼的資料以及其中每一個承載統一的位元流識別符)。用於建立上述統一的子串流的方法與系統提供能力至明確的信號(至解碼器)其交錯及/或協定已利用於混成位元流內(例如信號是否利用在本發明中說明的AUX資料、SKIP、DSE或子串流的方法)。

混成譯碼系統設定以支援位元流的去交錯/去多工及重新交錯/重新多工其在遍及媒體傳送系統找到的任何處理點上支援一或多個至第一位元流的次協定(支援第一協定)。混成編解碼器亦設定以能夠對一個位元流以不同的取樣率以對音頻輸入串流編碼。這提供了用於對包含具有本質上不同帶寬的信號之音頻來源有效率的進行譯碼與分佈的手段。舉例來說，對話軌一般具有比音樂與音效軌本質上更低的帶寬。

呈現

在一實施例之下，適應音頻系統允許多個(例如到128個)軌被封裝，通常作為配樂與物件的結合。用於適應音頻系統的音頻資料之基本格式包含一些獨立的單聲道音頻串流。每個串流已關聯於其元資料特定是否串流為聲道基礎串流或是物件基礎串流。聲道基礎串流具有藉由聲道名稱或標籤所編碼之呈現的資訊；並且物件基礎串流透過在進一步關聯的元資料中編碼的數學式所編碼的定點資訊。原始獨立音頻串流接著封裝為單一串列位元流其包含所有在有次序的樣式中的音頻資料。適應資料配置允許聲音依據參考的非自我中心訊框呈現，其中聲音的終極呈現定點係基於重現環境以對應至混音師的意向。藉此，聲音能特定以源自重現室內(例如左牆壁的中間)的參考訊框，而非特定標籤的揚聲器或揚聲器分組(例如左環繞)。物件位置元資料包含適當的參考資訊之非自我中心訊框，其需要使用在設置以播放適應音頻內容的室內中可得到的揚聲器位置正確的播放聲音。

呈現器採用位元流編碼音軌，並且依據信號類型處理內容。配樂饋送至陣列，其比個別物件將潛在的需要不同的延遲與量化處理。此處理支援呈現這些配樂與物件至多個(至64個)揚聲器輸出。圖4係為在一實施例下，適應音頻系統呈現階段的方塊圖。如圖4的系統400所示，一些輸入信號，像是至128音軌其包含適應音頻信號402，信號402藉由某些建立、創作及系統300的封裝階段的組件(像是RMU 306及處理器312)所提供。這些信號包含聲道基礎配樂及被呈現器404利用的物件。聲道基礎音頻(配樂)及物件係輸入至準位管理器406其提供在不同音頻組件的輸出準位或振幅上的控制。某些音頻組件可被陣列校正組件408處理。適應音頻信號接著通過B鏈處理組件410，其產生一些(例如至64個)揚聲器饋送輸出信號。一般來說，B鏈饋送參照至被功率放大器、交換體及揚聲器處理的信號，做為在底片上組成聲軌之相對A鏈的內容。

在一實施例中，呈現器404運行呈現演算法其將在劇院中的環繞揚聲器智能的使用至他們最好的能力。藉由改善環繞揚聲器的功率儲備(power handling)與頻率響應，並且對於在劇院中每個輸出聲道或揚聲器保持相同的監控參考準位，在螢幕與環繞揚聲器之間平移的物件能維持他們聲壓準位且重要的是在劇院中不增加整體聲壓準位之下具有較接近的音色匹配。適當特定的環繞揚聲器的陣列將典型的具有充足的頂部空間以再生在環繞7.1或5.1聲帶(亦即20dB以上的參考準位)內可得到的最大動態範圍，然而不像單一環繞揚聲器將具有同樣大的多路螢幕揚聲器的頂部空間。結果是，像是有當放置在音場中的物件將需要比其可實現使用單一環繞揚聲器較大之聲壓時的實例。在這些情形中，為了達成所需要的聲壓準位，呈現器將跨越適當數目的揚聲器以散佈聲音。適應音頻系統改善環繞揚聲器的品質與功率儲備以提供在忠實呈現上的改善。透過可選擇的後置超低音音箱(subwoofer)之使用提供對於環繞揚聲器之低音管理的支援，其允許每個環繞揚聲器達成改善功率儲備，並且同時潛在的利用較小的揚聲器箱。其亦允許側環繞揚聲器的添加比目前的實行更接近螢幕以確保物件能從螢幕平順的轉移至周圍。

隨著某些呈現處理透過元資料的使用以特定音頻物件的定點資訊，系統400提供對於內容創造者綜合的、彈性的方法以在現存的系統的限制上移動。如前述目前的系統建立及分佈音頻其以在音頻本質中傳遞的內容類型之有限的知識固定至特別的揚聲器定點(回放音頻的部分)。適應的音頻系統100提供新的混成方法其包括對於揚聲器定點特定音頻(左聲道、右聲道等)的選項與物件導向音頻元件兩者，物件導向音頻元件具有一般化的空間資訊其可包括(但不限於位置)尺寸與速度。混成方法提供對在呈現中(一般化的音頻物件)的保真度(藉固定揚聲器定點提供)及彈性。系統亦提供額外有用的資訊，此資訊關於以藉由在內容建立時間上之內容創造者的音頻本質所配對的音頻內容。此資訊在呈現期間能用在非常強大的方法中之音頻的屬性上提供強大的、細節的資訊。這樣的屬性可包括(但不限於此)內容類型(對話、音樂、音效、動作音(Foley)、背景/環境等)、空間屬性(3D位置、3D尺寸、速度)及呈現資訊(鎖定至揚聲器定點、聲道權重、增益、低音管理資訊等)。

在此說明的適應音頻系統提供強大的資訊其可用於藉由廣泛不同數目的端點呈現。許多最佳呈現技術應用的情形非常的取決於端點裝置。舉例來說，家庭劇院系統與聲霸(soundbars)可具有2、3、5、7或甚至9個分離的揚聲器。許多其它類型的系統，像是電視、電腦及音樂基座(music dock)只具有兩個揚聲器並且幾乎所有一般使用的裝置具有立體聲耳機輸出(PC、膝上型電腦、平板電腦、手機、音樂播放器等)。然而，對於現今分佈的傳統音頻(單聲道、立體聲、5.1、7.1聲道)端點裝置通常需要做出過分簡化的決定並且對現在分佈於聲道/揚聲器特定形式音頻之呈現與再生上妥協。此外鮮少或沒有資訊係傳遞關於被分佈的實際內容(對話、音樂、環境等)以及鮮少或沒有資訊關於對於音頻再生上創造者意向的內容。然而，適應音頻系統100提供此資訊並且潛在的存取音頻物件，其能用以建立引人注目的下世代使用者體驗。

透過獨一的且強力的元資料及適應音頻傳輸格式，系統100允許內容創造者在使用元資料(諸如位置、尺寸、速度等)的位元流內嵌入混音的空間意向。這允許在音頻的空間再生中很大的彈性。從空間呈現立場來看，為避免當重現系統的幾何不同於呈現系統時發生的空間失真適應音頻致能混音之適應至在特別室內的揚聲器切確的位置。在目前音頻再生系統中其中只有傳送用於揚聲器聲道的音頻，內容創造者的意向係未知的。系統100使用傳遞遍佈建立與分佈管線中之元資料。適應音頻感知再生系統能夠使用此元資料資訊以在匹配內容創造者原始意向的方式再生內容。相似的，混音能適應至切確的再生系統的硬體配置。目前，在呈現配備上存在許多不同可能的揚聲器配置與類型，像是電視、家庭劇院、聲霸、攜帶型音樂播放基座等。當現今這些系統被傳送聲道特定音頻資訊時(亦即左與右聲道音頻或多聲道音頻)，系統必需處理音頻以適當的匹配呈現配備的能力。範例係為送至比兩個揚聲器多的聲霸之標準立體聲音頻。在目前的音頻再生上其中只傳送用於揚聲器聲道的音頻，內容創造者的意向係未知的。透過傳遞遍佈建立與分佈管線的元資料之使用，適應音頻感知再生系統能夠使用此資訊以匹配內容創造者原始意向的方式再生內容。舉例來說，一些聲霸具有側燒揚聲器(side firing speakers)以建立包圍的感覺。以適應音頻來說，空間資訊與內容類型(像是環境音效)能夠被聲霸用以只傳送適當的音頻至這些側燒揚聲器。

適應音頻系統允許在所有前/後、左/右、上/下、近/遠維度上的系統中無限的揚聲器內插。在目前音頻再生系統中，沒有資訊存在以針對如何處理音頻其中可能所需的是定位音頻以致其在兩個揚聲器間被聽者查覺到。目前，以只指派至特定揚聲器的音頻來說，導入了空間量化因子。以適應音頻來說，能夠正確的知道音頻的空間定位以及據以在音頻在生系統上進行再生。

關於耳機的呈現，創造者的意向藉匹配對空間定位的頭部相關傳輸函數(HRTF；Head Related Transfer Functions)實現。當音頻在耳機上再生時，能藉頭部相關傳輸函數的應用達成空間虛擬化，頭部相關傳輸函數處理音頻的、添加的知覺線索其建立播放在3D空間中音頻的察覺而非在耳機上。空間再生的正確性係取決於適當的HRTF(其能夠基於包括空間位置的一些因素而變化)的選擇。適應音頻系統提供使用空間資訊能夠造成一個或連續不同數目的HRTF的選擇以大大的改善再生體驗。

適應音頻系統傳遞空間資訊能夠不只是被內容創造者使用以建立引人注目的娛樂體驗(電影、電視、音樂等)，但空間資訊亦能指示聽者定位於相對實體物件的何處，像是建築物或相關地理點。這會允許使用者與虛擬化音頻體驗(其相關真實世界，亦即加強的現實)互動。

只有物件音頻資料無法得到時，藉由施行藉由讀取元資料的增強向上混音，實施例亦致能空間向上混音。知道所有物件的位置及他們的類型允許向上混音器(upmixer)更佳的在聲道基礎軌內區分元件。現存的向上混音演算法必需推斷資訊像是音頻內容類型(談話、音樂、環境音效)以及在音頻串流內不同元件的位置以最少或無可聽的加工製品建立高品質向上混音。許多時後推斷的資訊可為不正確或不適當的。以適應音頻來說，從元資料關於例如音頻內容類型、空間位置、速度、音頻物件尺寸等得到的額外資訊能夠藉由向上混音演算法用以建立高品質再生結果。藉由正確的定位螢幕的音頻物件至視覺元件系統亦空間的將音頻匹配至視頻上。在此情形下，若再生的一些音頻元件的空間定點匹配至螢幕上的影像元件，引人注目的音頻/視頻再生體驗係可能的，特別是以大螢幕尺寸上來說。範例係具有在電影或電視節目的對話與在螢幕上說話的人或角色進行空間的符合。以正常揚聲器聲道基礎音頻來說，沒有簡單的方法以判定對話應該空間的定位於何處來匹配人或角色在螢幕上的定點。以得到具有適應音頻的音頻資訊來說，能夠達成這樣的音頻/視覺對準。視覺位置與音頻空間的對準亦能夠用於非角色/對話物件像是汽車、卡車、動畫等。

由於透過適應音頻元資料的混音之空間意向的知識意味混音能夠適應任何揚聲器配置，所以空間遮蔽處理藉系統100促成。然而，因為重現系統限制，任何人在同樣或幾乎同樣的定點上會冒著向下混音物件的風險。舉例來說，若環繞聲道不存在，表示平移在左後的物件可能會向下混音至左前方，但若較大聲的元件同時發生在左前方時，向下混音物件將被遮蔽且從混音中消失。使用適應音頻元資料、空間遮蔽會被呈現器所預期，並且每個物件的空間及或響度向下混音參數可被調整所以所有混音的音頻物件保留就如在原始混音中般可察覺的。因為呈現器了解介於混音與重現系覺間的空間關係，其具有「鎖定」物件至最接近的揚聲器的能力以代替介於兩個或多個揚聲器間的假體影像(phantom image)。當此方法稍微的使混音的空間表徵失真，其亦允許呈現器避免意外的假體影像。舉例來說，若混音階段的左揚聲器的角度位置並不符合重現系統的左揚聲器的角度位置，使用鎖定至最接近的揚聲器之功能可避免使重現系統再生混音階段的左聲道之不變的假體影像。

關於內容處理，適應音頻系統100允許內容創造者建立個別的音頻物件並且添加關於能傳遞至再生系統的內容的資訊。這允許在再生之前的音頻處理中大量的彈性。從內容處理與呈現的觀點上，適應音頻系統致能處理以適應物件類型。舉例來說，對話增強只可應用至對話物件。對話增強參照至包括對話的處理音頻之方法以致對話的可聽度及/或理解性增加及或改善。在許多情形中，應用至對話的音頻處理不適合用於非對話音頻內容(亦即音樂、環境音效等)並且能造成不好的可聽到的人造製品。以適應音頻來說，音頻物件可只包含一片段內容中的對話，並且其能夠據以標籤以致呈現解答能選擇的將對話增強只應用至對話內容。此外，若音頻物件只為對話時(並且通常的情形並非對話與其它內容的混音)，接著對話增強處理能專門的處理對話(據以限制任何處理施行在任何其它的內容)。相似的，低音管理(濾波、衰減、增益)能基於他們的類型在特定的物件中被對準。低音管理參照至選擇性的隔離以及只處理在特殊片段的內容中之低音(或更低的)頻率。以目前的音頻系統與傳送機制來說這是個「盲目」處理其應用至所有的音頻。以適應音頻來說，用於低音管理為適當的特定音頻物件能夠藉元資料識別，並且呈現處理能夠適當的應用。

適應音頻系統100亦提供用於物件基礎動態範圍壓縮與選擇的向上混音。傳統的音軌具有如內容本身同樣的期間，同時音頻物件可只發生在內容中有限數量的時間。關聯於物件的元資料能夠包含關於其平均及峰值信號振幅以及其起始(onset)或起音(attack)時間(特別用於短暫的材料)。此資訊會允許壓縮器更佳適應其壓縮與時間常數(起音、釋放等)以更佳的使內容合適。對於選擇的向上混音，內容創造者在適應音頻位元流中可選擇指示物件是否應向上混音。此資訊允許適應音頻呈現器與向上混音器區別哪一個音頻物件能安全的向上混音，同時尊重創造者的意向。

實施例亦允許適應音頻系統從一些可得到的呈現演算法及/或環繞聲音格式中選擇較佳的呈現演算法。可得到的呈現演算法的範例包括：立體聲、立體聲雙極、高保真度立體聲響複製、波場合成(WFS；Wave Field Synthesis)、多聲道平移、具有位置元資料的原始混音元素(raw stem)。其它包括雙平衡及向量基礎振幅平移。

立體聲分佈格式使用就出現在左右耳信號而言的聲場之兩聲道表徵(representation)。立體聲資訊能夠經由耳內記錄或使用HRTF模型合成。立體聲表徵的重現一般在耳機上完成，或是藉由使用串音消除。在任意的揚聲器設定上之重現會需要信號分析以判定關聯的聲場及/或信號來源。

立體聲雙極呈現方法為漏音(transaural cross-talk)消除處理以使得立體聲信號在立體聲揚聲器上重現(例如偏離中間+及-10度)。

高保真度立體聲響複製係為(分佈格式與呈現方法)其以四個稱為B格式的聲道形式進行編碼。第一聲道W為無方向性的壓力信號；第二聲道X為包含前方與後方資訊之方向性壓力梯度；第三聲道Y包含左方與右方以及Z包含上方與下方。這些聲道界定在一點上完整音場的第一階取樣。高保真度立體聲響複製使用所有可得到的揚聲器以在揚聲器陣列內重建取樣的(或合成的)音場以致當一些揚聲器正推動時，其它的則在抽拉。

波場合成係為聲音再生呈現方法，其基於藉次來源之所欲的聲波音場之精準的構造。WFS係基於惠更斯原理，並且以揚聲器陣列(數十或數百個)實現其圍繞聆聽空間並且操作在協調、分階段的樣式中以重建每個個別的聲波。

多聲道平移係為分佈格式及/或呈現方法，以及可參照至如聲道基礎音頻。在此情形中，聲音代表為一些分散的來源以透過從聽者的界定角度上相等數量的揚聲器重播放。內容創造者/混音師能夠藉由介於鄰近聲道之間的平移信號建立虛擬影像以提供方向提示；早期反射、混響等能混音至許多聲道以提供方向及環境提示。

具有位置元資料的原始混音元素係為分佈格式，並且亦可參照至如物件基礎音頻。在此格式下，隨著位置及環境元資料代表清楚的、「近麥克風的(close mic’ed)」的聲音來源。基於元資料與重現配備及聆聽環境呈現虛擬來源。

適應音頻格式係多聲道平移格式以及原始混音元素格式的混成。在現在實施例的呈現方法係為多聲道平移。對於音頻聲道，呈現(平移)發生在創作時間，同時對於物件呈現(平移)發生在重現。

元資料與適應音頻傳輸格式

如上所述，在建立階段產生元資料來編碼某些用於音頻物件的位置資訊並且來伴隨音頻程式以幫助呈現音頻程式，並且特別的是，以在各種各樣的重現配備與重現環境上致能呈現音頻程式的方式來描述音頻程式。產生元資料以用於給定的程式以及在後期製作期間建立、收集、編輯與操作音頻之編者及混音師。適應音頻格式的重要特徵係為用以控制音頻如何轉譯至重現系統與不同於混音的環境之能力。特別的是，給定的電影院可具有比混音環境較低的能力。

設計適應音頻呈現器使得可得到配備的最佳使用以重建混音師的意向。此外，適應音頻創作工具允許混音師預覽及調整混音將如何在各種重現配置中呈現。所有的元資料值能夠在重現環境與揚聲器配置中調節。舉例來說，用於給定音頻元件之不同的混音準位能夠基於在重現配置或模式上被特定。在一實施例中，調節的重現模式之列舉係為可延伸的並且包括下列：(1)只為聲道基礎的重現：5.1、7.1、7.1(高度)、9.1；及(2)分散的揚聲器重現：3D、2D(無高度)。

在一實施例中，元資料控制或指定適應音頻內容的不同態樣以及基於不同類型進行組織其包括：程式元資料、音頻元資料及呈現元資料(用於聲道及物件)。每個元資料的類型包括一或多個元資料項目其提供值以用於被識別符(ID；identifier)參考的特徵。圖5係為在一實施例下，列舉用於適應音頻系統的元資料類型與關聯的元資料元件。

如圖5的表500所示，元資料的第一類型係為程式元資料，其包括特定訊框率、軌計數、可延伸聲道描述及混音階段描述的元資料元件。訊框率元資料元件以訊框每秒的單位(fps)特定音頻內容訊框速率。由於音頻提供做為全軌(捲盤或整體特徵的期間)而非音頻片段(物件的期間)，原始音頻格式需要不包括音頻或元資料的框架。原始格式真的需要承載所有的資訊其需要致能適應音頻編碼器以對音頻及元資加框，包括實際訊框率。表1顯示ID，訊框率元資料元件的範例值與說明。

軌計數元資料元件指示在訊框中的音軌數目。範例的適應音頻解碼器/處理器能夠支援至128同步音軌，同時適應音頻格式將支援任何數目的音軌。表2顯示ID、範例的值及軌計數元資料元件的描述。

聲道基礎音頻能夠被指派至非標準的聲道並且可延伸的聲道描述元資料元件致能混音以使用新的聲道位置。對於每個延伸聲道，下列元資料應提供如表3所示：

混音階段描述元資料元件特定在特別的揚聲器產生一半的通帶功率處的頻率。表4顯示ID、範例的值及混音階段描述元資料的描述，其中LF=低頻率；HF=高頻率；3dB點=揚聲器通帶的邊緣。

如圖5所示，元資料的第二類型係為音頻元資料。每個聲道基礎或物件基礎音頻元件由音頻本質及元資料構成。音頻本質係為承載在許多音軌之一上的單聲道音頻串流。關聯的元資料描述如何儲存音頻本質(音頻元資料，例如取樣率)或是其應如何呈現(呈現元資料，例如所欲的音頻來源位置)。一般來說，音軌持續經過音頻程式的期間。程式編輯者或混音師負責指派音頻元件至軌。軌的使用預期為稀疏的，亦即中數同步軌的使用可為只有16至32。在一般的實現中，音頻將有效率的使用無損編碼器傳輸。然而，替代的實現是可能的，例如傳輸未譯碼的音頻資料或失真的譯碼音頻資料。在典型的實現中，格式由上至128個音軌構成其中每個軌具有單一取樣率以及單一譯碼系統。每個軌維持特徵期間(沒有明確的捲盤支援)。物件至軌的映射(時間多工)係為內容創造者(混音師)的責任。

如圖3所示，音頻元資料包括取樣率元件、位元深度及譯碼系統。表5顯示ID、範例的值及取樣率元資料元件的描述。

表6顯示ID、範例的值及位元深度元資料元件(用於PCM及無損壓縮)。

表7顯示ID、範例的值及譯碼系統元資料元件的描述。

如圖5所示，第三類型元資料正呈現元資料。不論重現環境為何，呈現的元資料特定幫助呈現器盡可能接近的來匹配原始混音師的意向之值。此組元資料元件不同於聲道基礎音頻與物件基礎音頻。如表8所示，第一呈現元資料欄位在介於音頻~聲道基礎或物件基礎的兩個類型之間做選擇。

用於聲道基礎音頻的呈現元資料包含位置元資料元件其特定音頻來源位置做為一或多個揚聲器位置。表9顯示ID及用於針對聲道基礎情形的位置元資料元件之值。

如表10所示，用於聲道基礎音頻之呈現的元資料包含呈現控制元件其特定關聯於聲道基礎音頻的重現之某些特徵。

對於物件基礎音頻，元資料包括類比元件做為用於聲道基礎音頻。表11提供ID與用於物件位置元資料元件的值。物件位置以三個方法中的一個做描述：三維座標；平面及二維座標；或線及一維座標。呈現方法能夠基於位置資訊類型來適應。

表12顯示ID及用於物件呈現控制元資料元件的值。這些值提供額外的手段以控制或最佳化用於物件基礎音頻的呈現。

在一實施例中，產生並儲存上述及圖5說明的元資料做為一或多個檔案其關聯於或索引於對應的音頻內容以致音頻串流藉適應音頻系統轉譯被混音師產生的元資料所處理。應注意，上述的元資料為一組範例的ID、值及界定以及其它或額外的元資料元件可被包括用於使用在適應音頻系統內。

在一實施例中，兩(或多)組元資料元件係關聯於每個聲道與物件基礎音頻串流。第一組元資料係應用至複數個音頻串流以用於重現環境的第一條件，並且第二組元資料係應用至複數個音頻串流以用於重現環境的第二條件。基於重現環境的條件第二或接續組的元資料元件取代用於給定音頻串流的第一組元資料元件。條件包括的因素像是室內尺寸、形狀、在室內的才料組成、目前在室內人的佔用與密度、環境噪音特徵、環境光線特徵及任何其它可能影響聲音或即使是重現環境氣氛的因素。

後期製作與主控

適應音頻處理系統100的呈現階段110可包括音頻後期製作步驟其導致最終混音的建立。在電影應用中，用在電影混音中三個主要聲音類別係為對話、音樂及音效。音效由非對話或音樂(例如，環境噪音、背景/場景噪音)的聲音構成。聲音音效能夠被聲音設計者記錄或合成或者他們能源自音效庫。包含特定噪音來源之音效的子群(例如，腳步、門等)係已知為動作音並且藉動作演員施行。不同類型的聲音被記錄工程師據以標記及平移。

圖6說明在一實施例中，在適應音頻系統中的後期製作之範例的工作流程。如圖600所示，於最終混音606之中所有音樂、對話、動作音及特效個別的聲音成分一起帶進配音劇院，並且隨著個別的聲音物件及位置資訊重新錄音混音器604使用前期混音(亦所知為「混音消除(mix minus)」)以分組的方法建立混音元素，例如對話、音樂、特效、動作音及背景聲音。除了形成最終混音606之外，音樂及所有的混音元素能夠使用做為用於建立配音的電影語言版本之基礎。每個混音元素由聲道基礎與一些具有元資料的音頻物件所構成。混音元素結合以形成最終混音。使用來自音頻工作站與混音控制台兩者的物件平移資訊，呈現與主控單元608呈現音頻至在配音劇院中的揚聲器定點。此呈現允許混音師聽見聲道基礎配樂及音頻物件如何結合，並且亦提供呈現至不同的配置的能力。混音師能夠使用有條件的元資料，其內定至相關的設定檔，以控制內容如何呈現至環繞聲道。這樣一來，混音師保留在所有可擴充環境中電影如何重播的完全控制。監控步驟可包括在重新錄音步驟604與最終混音步驟606的其中之一或兩者允許混音師聽見且評估在這些階段每個中產生的立即內容。

在主控會期間，混音元素、物件及元資料帶至適應音頻封裝614，其藉打印主機610產生。此封裝亦包含向後相容(傳統5.1或7.1)環繞聲音劇院混音612。呈現/主控單元(RMU)608能夠呈現這些輸出(若相要的話)；從而消除對於任何在產生現存的聲道基礎可交付成果額外的工作流程步驟。在一實施例中，使用標準素材交換格式(MXF；Material Exchange Format)包裝以封裝音頻檔案。適應音頻混音主控檔案亦能用以產生其它可交付成果，像是消費者多聲道或立體聲混音。智能設定檔及有條件的元資料允許控制的呈現其能夠顯著的降低需要建立這樣的混音之時間。

在一實施例中，封裝系統能夠用以建立數位電影封裝以用於可交付物件其包括適應音頻混音。音軌檔案可一起栓鎖以幫助防止伴隨適應音軌檔案的同步錯誤。在封裝期間內某些領域需要軌檔案的添加例如聽力障礙(HI；Hearing Impaired)或視覺障礙旁白(VI-N；Visually Impaired Narration)軌至主音軌檔案。

在一實施例中，在重現環境中的揚聲器陣列可包含任何數目的環繞聲音揚聲器其依據建立的環繞聲音標準放置與指定。用於物件基礎音頻內容之正確呈現的任何數目額外的揚聲器亦可基於重現環境的條件放置。這些額外的揚聲器可被聲音工程師安裝，並且此安裝以安裝檔的形式提供至系統其藉由用於呈現適應音頻的物件基礎組件之系統來使用以特定揚聲器或在整體揚聲器陣列內的揚聲器。此安裝檔包括至少一串列的揚聲器指定以及對個別揚聲器聲道的映射、關於揚聲器分組的資訊以及基於揚聲器至重現環境的相對位置之運行時間映射。運行時間映射係藉由系統的鎖定功能來利用其呈現點來源物件基礎音頻內容至特定的揚聲器，此特定的揚聲器最接近如聲音工程師所意指的聲音的察覺定點。

圖7係為在一實施例下，用於使用適應音頻檔案之數位電影封裝處理的範例工作流程圖。如圖700所示，包含適應音頻檔案與5.1或7.1環繞聲音音頻檔案兩者的音頻檔案係輸入至包裝/加密方塊704。在一實施例中，在方塊706中的數位電影封裝建立上，PCM MXF檔案(具有附加適當額外的軌)依據現行做法使用SMPTE規格加密。適應音頻MXF封裝為輔助的軌檔，並且可選擇的使用在每SMPTE規格中之對稱內容密鑰加密。此單一的DCP 708接著能傳送至任何數位電影聯盟(DCI；Digital Cinema Initiatives)的兼容伺服器。一般而言，任何未適當裝備的安裝將簡單的忽略包含適應音頻聲帶之額外的軌檔，並且將使用針對標準重現現存的主要音軌檔案。裝備以適當的適應音頻處理器的安裝將能夠吸收與重播適應音頻聲帶於其中應用、回復至標準音軌(當需要時)。包裝/加密組件704亦可直接提供輸入至用於產生針對使用在數位電影伺服器之適當的安全密鑰之分佈KDM方塊710。其它的電影元件或檔案，像是字幕714及影像716可隨著音頻檔案702進行包裝及加密。在此情形下，可包括某些處理步驟，像是在影像檔案716情形中的壓縮712。

關於內容管理，適應音頻系統100允許內容創造者建立個別的音頻物件並且添加關於能夠傳遞至再生系統的內容。此允許在音頻的內容管理上大量的彈性。從內容管理的觀點來看，適應音頻方法致能一些不同的特徵。這些包括藉由為了空間節約、下載效率、地理重現適應等原因而取代對話物件以改變內容語言。電影、電視及其它娛樂節目一般在國際上分佈。這通常需要取決於在何處再生(為了在法國展出的電影之法語，為了在德國電視節目展出之德語等)改變在內容片斷上的語言。現今這通常需要完全獨立的音頻聲帶以被建立、封裝及分佈。以適應音頻及其固有的音頻物件概念來說，用於內容片斷的對話可為獨立的音頻物件。這允許內容的語言在不更新或改變其它音頻聲帶(像是音樂、音效等)的元件下被簡單的變更。這不會只應用在國外語言但亦應用於針對某些聽眾(例如，兒童的電視秀、航空公司電影等)的不適當語言、目標廣告等。

安裝與配備考量

適應音頻檔案格式且關聯的處理允許在劇院配備如何安裝、校準及維持上的變更。以許多的潛在揚聲器輸出之導入來說，每個個別的等化與平衡，需要針對智能的及時效的自動室內等化，其可透過手動調整任何自動室內等化的能力來施行。在一實施例中，適應音頻系統使用最佳的1/12倍頻帶(octave band)等化引擎。上至64輸出能夠被處理以更正確的平衡在劇院的聲音。系統亦允許個別揚聲器輸出之排定的監控，從電影處理器輸出一直至在禮堂再生的聲音。能夠建立本地或網路警報以確保採取適當的行動。彈性的呈現系統從重播鏈及在其附近呈現可自動的移除損壞的揚聲器或放大器，所以允許演出繼續。

電影處理器以現存的8xAES主音頻連接能連接至數位電影伺服器，以及用於串流適應音頻資料的乙太網路。環繞的重現7.1或5.1內容使用現存的PCM連接。適應音頻資料在乙太網路上串流至用於解碼與呈現的電影處理器，並且在伺服器與電影處理器之間的通訊允許識別與同步音頻。在任何具有適應音軌重現問題的事件中，聲音回復至杜比環繞7.1或5.1 PCM音頻。

雖然實施例已見於關於5.1與7.1環繞聲音系統的說明，但應注意，其它當前及未來的環繞配置可用以與包括9.1、11.1與13.1及以上的實施例連結。

適應音頻系統設計以允許內容創造者與展示者兩者決定聲音內容如何呈現在不同的重現揚聲器配置中。理相使用的揚聲器聲道數目將依據室內大小變化。推薦的揚聲器放置藉此取決於許多因素，像是尺寸、組成、座位配置、環境、平均聽眾多少等。在此提供的範例或代表的揚聲器配置及佈局只用於說明的目的，並無意圖限制任何宣告的實施例之範圍。

推薦的用於適應音頻系統揚聲器的佈局保持與現存的電影系統相容，其係極重要的以致不向現存5.1與7.1聲道基礎格式的重現妥協。為了保存適應音頻聲音工程師的意向，以及7.1與5.1內容混音師的意向，現存螢幕聲道的位置不應以增高或強調新揚聲器定點的導入而進行太徹底的改變。相反於使用所有可得到的64輸出聲道，適應音頻格式能夠正確的呈現在電影院對揚聲器配置像是7.1，所以甚至允許不改變放大器或揚聲器的配置下使用在現存劇院的格式(以及關聯的利益)。

取決於劇院設計不同的揚聲器定點能夠具有不同的效用，藉此目前並無聲道的工業特定理想數目或放置。適應音頻準備真實的適應及能夠在各種的禮堂中正確回放，無論他們是否具有有限數目的重現聲道或是伴隨彈性配置的許多聲道。

圖8係為用於使用以具有在典型禮堂中適應音頻系統之建議的揚聲器定點範例佈局頂視圖800，以及圖9係為在禮堂中螢幕之建議的揚聲器定點範例佈局前視圖900。參照至此後對應至從螢幕至後牆之後方距離2/3位置的參考位置，在螢幕的中線上。標準螢幕揚聲器801顯示在相對螢幕的通常位置上。在螢幕平面提升感知的研究已顯示在螢幕後之額外的揚聲器804，像是左中(Lc)與右中(Rc)螢幕揚聲器(在70mm電影格式之左額外和右額外聲道的定點中)，能在建立跨越螢幕之滑順的平移上係有好處的。這樣可選擇的揚聲器，藉此推薦特別是在具有大於12m(40ft.)之寬螢幕的禮堂中的。所有螢幕揚聲器應移動角度以致他們向參考位置對準。關於室內中間，推薦的在螢幕後之超低音音箱810的放置應維持不變，包括維持不對稱音箱放置以防止駐波的刺激。額外的超低音音箱816可放置在劇院後方。

環繞揚聲器802應個別的向後接線至放大器架，並且個別的放大其中是可能具有功率放大的專屬聲道其依據手冊的規格匹配揚聲器的功率儲備。理想的，應特定環繞揚聲器以處理用於每一個個別揚聲器之增加的SPL，並且亦具有其中可能之較寬的頻率響應。如平均尺寸劇院的經驗法則，環繞揚聲器的間距應為在2與3m(6’6”與9’9”)之間，具有左與右環繞揚聲器對稱的放置。然而，環繞揚聲器的間距最有效的視為對著來自在鄰近揚聲器間給定的聽者的角度。對於遍佈禮堂最佳的重現，參考來自主要聆聽區域的四個角中的每個，介於鄰近揚聲器角度距離應為30度或更小。以間隔上至50度能夠達成良好的結果。對於每個環繞區帶，揚聲器相鄰至座位區域其中可能之處應維持相等線性間隔。在聆聽區域以外的線性間隔，例如介於前排與螢幕之間，能夠稍微較大。圖11係為在一實施例下，相對於參考位置之上環繞揚聲器808與側環繞揚聲器806的定位範例。

額外的則環繞揚聲器806應鑲嵌在比目前推薦的實際開始於至禮堂後方約三分之一的距離還要接近螢幕。這些揚聲器在杜比環繞7.1或5.1聲帶的重現期間並未用做側環繞，但當將物件從螢幕揚聲器平移至環繞區帶時將會致能平滑轉移與改善的音色匹配。最大化空間印象上，環繞陣列應放置如實際般的低，受到下列限制：在陣列前之環繞揚聲器的垂直放置應合理的接近螢幕揚聲器聽覺中樞的高度，並且足夠的高度以維持依據揚聲器的方向性之跨越座位區域良好的涵蓋範圍。環繞揚聲器的垂置放置應為像是他們形成從前方至後方的直線，並且(一般的)向上傾斜所以當座位升高增加時在聽者上的環繞揚聲器之相對升高則被維持以朝電影院後的後方，則如圖10所示，其為針對以在典型禮堂中適應音頻系統來使用之建議的揚聲器定點範例佈局的側視圖。實際上，藉由選擇對於最前與最後側環繞揚聲器的升高這能夠最簡單的達成，並且把其餘的揚聲器放置在這些點之間的線上。

為了提供在座位區域上每個揚聲器最佳的涵蓋範圍，在關於間隔、位置、角度等之界定的方針下，側環繞806與後揚聲器816及上環繞808應朝著在劇院中的參考位置對準。

適應音頻電影系統及格式的實施例藉由提供強大新的創作工具給混音師達到改善的聽眾沈浸以及在目前系統上囓合的水準，並且提供以彈性呈現引擎(其最佳化音頻品質與聲帶的環繞音效至每個室內的揚聲器佈局與特徵)為特色之新的電影處理器。此外，系統維持向後相容性並且最小化對當前製作與分佈的工作流程之衝擊。

雖然實施例已說明以關於範例及在電影環境(其中適應音頻內容系關聯於用於在數位電影處理系統中使用的電影內容)中的實現，應注意實施例亦可以非電影院環境實現。包含物件基礎音頻與聲道基礎音頻的適應音頻內容可配合任何相關內容(關於音頻、視頻、圖形等)使用，或是可組成獨立的音頻內容。重現環境可為從耳機或任何近場監視器至小的或大的室內、汽車、露天的舞台、音樂廳等之任何適當的聆聽環境。

系統100的態樣可實現在用於處理數位或數位化音頻檔案之適當的電腦基礎聲音處理的網路環境中。適應音頻系統的部分可包括一或多個網路，網路包含任何所欲數目的個別機器，其包括一或多個路由器(未繪示)其用來緩衝及發送在電腦間傳輸的資料。這樣的網路可建造在各種不同網路協定上，並且可為網際網路、廣域網路(WAN；Wide Area Network)、局部區域網路(LAN；Local Area Network)或是任何其中的結合。在網路包含網際網路、一或多個機器的實施例中可設定以透過網頁瀏覽器程式存取網際網路。

一或多個組件、方塊、處理或其它功能組件可透過控制系統的處理器基礎計算裝置之執行實現。應注意，各種在此揭露的功能可用任何數目的硬體、韌體、及/或資料及/或指令(就他們的行為、暫存器轉換、邏輯組件及/或其它特徵來說，其體現在各種機器可讀取或電腦可讀取媒體)來說明。這樣格式化資料及/或指令可被體現於其中的電腦可讀取媒體包括(但不限於此)以任何形式的非揮發性儲存媒體，像是光學、磁性或半導體儲存媒體。

除非內容清楚的要求，否則遍佈說明及申請專利範圍，用字「包含」、「其包含」等用以建構在如相對於排他或窮舉意思之包容的意思；也就是說，在「包括，但不限於此」的意思下。使用單數或複數的字亦各別包括複數或單數。此外，用字「在此」、「在此之下」、「在上」、「在下」及相似意味的字參照至此案做為全部及並非至此案中任何特別部分。當用字「或者」用以參照至兩個或多個項目的列舉，這字涵蓋所有下列字的解釋：在列舉中的任何項目、在列舉中的所有項目及在列舉中的任何項目的結合。

當一或多個實現已藉由範例及就特定實施例方面說明，需了解，一或多個實現並不限於所揭露的實施例。相反的，其準備涵蓋各種修改與相似的安排如會對於那些本領域具有技術者來說是明顯的。因此，所附請求項的範圍應依據最廣的解釋以致包含所有如此的修改與相似的安排。

Claims

一種用於處理音頻信號的系統，包含創作組件，其配置以：接收複數個音頻信號；產生適應音頻混音，其包含複數個單聲道音頻串流和與該音頻串流之各者關聯的元資料，並且指示分別的單聲道音頻串流之重現定點，其中該複數個單聲道音頻串流之至少一些被識別為聲道基礎音頻且該複數個單聲道音頻串流之其它者被識別為物件基礎音頻，且其中物件基礎單聲道音頻串流之該重現定點包含在三維空間中之定點，且其中各個物件基礎單聲道音頻串流係在該揚聲器陣列之至少一特定揚聲器中呈現；以及封裝該複數個單聲道音頻串流及該元資料於位元流中以用於傳輸到呈現系統，該呈現系統配置以將該複數個單聲道音頻串流呈現到對應於在重現環境中的揚聲器之複數個揚聲器饋送，其中該揚聲器陣列之該揚聲器係放置在該重現環境內的特定位置，且其中與各個分別的物件基礎單聲道音頻串流關聯的元資料元件指示用以應用到在二或以上的維度之各者中該物件基礎單聲道音頻串流的獨立散佈量，使得該物件基礎單聲道音頻串流被呈現為具有在該二或以上的維度之各者中對應於由該元資料指示之獨立散佈量的空間範圍的該複數個揚聲器饋送。
如申請專利範圍第1項的系統，其中該二或多個維度包括長度、寬度、高度、x、y或z之一或多者。
一種用於處理音頻信號的系統，包含程現系統，配置以：接收封裝適應音頻混音的串流，該適應音頻混音包含複數個單聲道音頻串流和與該音頻串流之各者關聯的元資料，並且指示分別的單聲道音頻串流之重現定點，其中該複數個單聲道音頻串流之至少一些被識別為聲道基礎音頻且該複數個單聲道音頻串流之其它者被識別為物件基礎音頻，且其中物件基礎單聲道音頻串流之該重現定點包含在三維空間中之定點，且其中各個物件基礎單聲道音頻串流係在該揚聲器陣列之至少一特定揚聲器中呈現；以及將該複數個單聲道音頻串流呈現到對應於在重現環境中的揚聲器之複數個揚聲器饋送，其中該揚聲器陣列之該揚聲器係放置在該重現環境內的特定位置，且其中與各個分別的物件基礎單聲道音頻串流關聯的元資料元件指示用以應用到在二或以上的維度之各者中該物件基礎單聲道音頻串流的獨立散佈量，使得該物件基礎單聲道音頻串流被呈現為具有在該二或以上的維度之各者中對應於由該元資料指示之獨立散佈量的空間範圍的該複數個揚聲器饋送。
如申請專利範圍第3項的系統，其中該二或多個維度為包括長度、寬度、高度、x、y或z之一或多者。
如申請專利範圍第3項的系統，其中與各個物件基礎單聲道音頻串流關聯的該元資料元件更指示空間參數，其控制對應的聲音成分的該重現，該對應的聲音成分包含下列一或多者：聲音位置、聲音寬度以及聲音速度。
如申請專利範圍第3項的系統，其中用於該複數個物件基礎單聲道音頻串流之各者的該重現定點係相對參考之自我中心訊框或參考之非自我中心訊框其一者來獨立地明定，其中該參考自我中心訊框係採取與在該重現環境中聽者相關，且其中該參考之非自我中心訊框係採取相對該重現環境之特性。
一種創作用於呈現的音頻內容的方法，包含：接收複數個音頻信號；產生適應音頻混音，其包含複數個單聲道音頻串流和與該音頻串流之各者關聯的元資料，並且指示分別的單聲道音頻串流之重現定點，其中該複數個單聲道音頻串流之至少一些被識別為聲道基礎音頻且該複數個單聲道音頻串流之其它者被識別為物件基礎音頻，且其中該物件基礎音頻之該重現定點包含在三維空間中之定點，且其中各個物件基礎單聲道音頻串流係在該揚聲器陣列之至少一特定揚聲器中呈現；以及封裝該複數個單聲道音頻串流及該元資料於位元流中以用於傳輸到呈現系統，該呈現系統配置以將該複數個單聲道音頻串流呈現到對應於在重現環境中的揚聲器之複數個揚聲器饋送，其中該揚聲器陣列之該揚聲器係放置在該重現環境內的特定位置，且其中與各個分別的物件基礎單聲道音頻串流關聯的元資料元件指示用以應用到在二或以上的維度之各者中該物件基礎單聲道音頻串流的獨立散佈量，使得該物件基礎單聲道音頻串流被呈現為具有在該二或以上的維度之各者中對應於由該元資料指示之獨立散佈量的空間範圍的該複數個揚聲器饋送。
如申請專利範圍第7項的方法，其中該二或多個維度包括長度、寬度、高度、x、y或z之一或多者。
一種用於呈現音頻信號的方法，包含：接收封裝適應音頻混音的串流，該適應音頻混音包含複數個單聲道音頻串流和與該音頻串流之各者關聯的元資料，並且指示分別的單聲道音頻串流之重現定點，其中該複數個單聲道音頻串流之至少一些被識別為聲道基礎音頻且該複數個單聲道音頻串流之其它者被識別為物件基礎音頻，且其中物件基礎單聲道音頻串流之該重現定點包含在三維空間中之定點，且其中各個物件基礎單聲道音頻串流係在該揚聲器陣列之至少一特定揚聲器中呈現；以及將該複數個單聲道音頻串流呈現到對應於在重現環境中的揚聲器之複數個揚聲器饋送，其中該揚聲器陣列之該揚聲器係放置在該重現環境內的特定位置，且其中與各個分別的物件基礎單聲道音頻串流關聯的元資料元件指示用以應用到在二或以上的維度之各者中該物件基礎單聲道音頻串流的獨立散佈量，使得該物件基礎單聲道音頻串流被呈現為具有在該二或以上的維度之各者中對應於由該元資料指示之獨立散佈量的空間範圍的該複數個揚聲器饋送。
如申請專利範圍第9項的方法，其中該二或多個維度包括長度、寬度、高度、x、y或z之一或多者。
如申請專利範圍第9項的方法，其中與各個物件基礎單聲道音頻串流關聯的該元資料元件更指示空間參數，其控制對應的聲音成分的該重現，該對應聲的音成分包含下列一或多者：聲音位置、聲音寬度以及聲音速度。
如申請專利範圍第9項的方法，其中用於該複數個物件基礎單聲道音頻串流之各者的該重現定點包含相對於在重現環境內螢幕的空間位置，或包圍該重現環境的表面，且其中該表面包含前平面、後平面、左平面、右平面、上平面及下平面，及/或相對參考之自我中心訊框或參考之非自我中心訊框其一者來獨立地明定，其中該參考自我中心訊框係採取與在該重現環境中聽者相關，且其中該參考之非自我中心訊框係採取相對該重現環境之特性。
一種非暫態電腦可讀儲存媒體，其包含指令之序列，其中當由用於處理音頻信號的系統執行時，該指令之序列引起該系統進行如申請專利範圍第7項所述的方法。
一種非暫態電腦可讀儲存媒體，其包含指令之序列，其中當由用於處理音頻信號的系統執行時，該指令之序列引起該系統進行如申請專利範圍第9項所述的方法。