TW201303851A

TW201303851A - 三維音訊聲軌之編碼與再生技術

Info

Publication number: TW201303851A
Application number: TW101108869A
Authority: TW
Inventors: Jean-Marc Jot; Zoran Fejzo; James D Johnston
Original assignee: Dts Inc
Priority date: 2011-03-16
Filing date: 2012-03-15
Publication date: 2013-01-16
Also published as: HK1195612A1; CN103649706A; EP2686654A1; JP6088444B2; KR20200014428A; KR20140027954A; KR102374897B1; US20140350944A1; CN103649706B; EP2686654A4; WO2012125855A1; US9530421B2; TWI573131B; JP2014525048A

Abstract

本發明提出一種用以產生、編碼、傳輸、解碼與再生空間音訊聲軌之新穎端到端解決方案。所提出的聲軌編碼格式係與舊式環繞音效編碼格式可相容，使得以新穎格式編碼的聲軌可在舊式回放設備上解碼與再生，而比起舊式格式並無品質損耗。

Description

三維音訊聲軌之編碼與再生技術

參考相關申請案

(無)

有關聯邦贊助研究/發展之陳述

不適用。

發明領域

本發明係有關於音訊信號之處理技術，更明確言之係有關於三維音訊聲軌之編碼與再生技術。

發明背景

數十年來空間音訊再生已經獲得音訊工程師及消費者電子業的注目。空間聲音再生要求二聲道或多聲道電氣-聲學系統(揚聲器或耳機)，其必須依據應用脈絡組配(例如音樂會表演、電影院、家庭音響設施、電腦顯示器、個人頭戴式顯示器)，更進一步說明於Jot,Jean-Marc，「音樂、多媒體及互動式人機介面之即時空間聲音處理」，IRCAM,1 place Igor-Stravinsky 1997，[後文稱作(Jot,1997)]，以引用方式併入此處。與此音訊回放系統組態相聯結，須定義適當技術或格式來於用於傳輸或儲存的多聲道音訊信號中編碼方向定位提示。

空間編碼聲軌須藉兩種互補辦法產生：

(a)以同時或間隔緊密的麥克風系統(大致上置於或接近該場景內部之收聽者的虛擬位置)記錄既有聲音場景。此種麥克風系統可以是例如成對立體聲麥克風、人工頭、或聲場麥克風。此種聲音拾取技術可以不等傳真程度同時編碼如從一給定位置所捕捉的存在於所記錄場景的各個音源相聯結的空間聽覺提示。

(b)合成虛擬聲音場景。於此一辦法中，各個音源之定位及室內效應係利用信號處理系統人工重建，該系統接收個別來源信號，及提供用以描述該虛擬聲音場景之一參數介面。此種系統之實例為專業錄音室混音機台或數位音訊工作站(DAW)。控制參數可包含各個音源的位置、定向及指向性連同虛擬室內或空間的聲學特性。此種辦法之一個實例為利用混音機台及信號處理模組諸如第1A圖例示說明之人工混疊器進行多軌記錄之後處理。

電影業及家庭視訊娛樂業的音訊記錄與再生技術的發展已經導致多聲道「環繞聲音」記錄格式的標準化(最值得注意者為5.1及7.1格式)。環繞聲音格式預先假設音訊聲道信號須個別地饋給以規定幾何布局環繞收聽者於水平面排列的揚聲器，諸如第1B圖顯示的「5.1」標準布局(於該處LF、CF、RF、RS、LS及SW分別表示左前、中前、右前、右環繞、左環繞及重低音揚聲器)。本項假設特有地限制可靠地且準確地編碼與再生自然聲場的三維音訊提示的能力，包括音源的接近性及其高於水平面的高度，及沈浸於聲場的空間擴散成分感覺諸如室內混疊。

已經發展出多種音訊記錄格式來於錄音中編碼三維音訊提示。此等3-D音訊格式包括環境立體聲學及離散多聲道音訊格式包含升高揚聲器聲道，諸如第1C圖例示說明的NHK 22.2格式。但此等空間音訊格式與舊式消費者環繞聲音回放設備不相容：需要不同的揚聲器布局幾何及不同的音訊解碼技術。與舊式設備及裝置不相容乃既有3-D音訊格式成功地部署的關鍵性障礙。

多聲道音訊編碼格式

多種多聲道數位音訊格式諸如得自加州卡拉巴薩DTS公司的DTS-ES及DTS-HD解決此等問題，解決方式係藉在聲軌資料串流中含括一回溯可相容的下混，可藉舊式解碼器解碼及在既有回放設備上再生，及舊式解碼器所忽略的載有額外音訊聲道之資料串流擴延。DTS-HD解碼器能復原此等額外聲道，在回溯可相容的下混中扣除其貢獻，及以與回溯可相容的格式不同的目標空間音訊格式來成音，可以包括升高揚聲器位置。於DTS-HD中，額外聲道於回溯可相容的混合及於目標空間音訊格式的貢獻係藉混合係數集合描述(各個揚聲器聲道有一個混合係數)。聲軌意圖的目標空間音訊格式須在編碼階段載明。

此種辦法允許以與舊式環繞聲音解碼器可相容的資料串流形式編碼多聲道音訊聲軌，在編碼/產生階段期間也選用一個或數個其它目標空間音訊格式。此等其它目標格式可包含適合三維音訊提示之改良再生之格式。但此種方案之一項限制為將同一個聲軌編碼成另一個目標空間音訊格式要求返回製造工廠來記錄與編碼針對新穎格式所混合的聲軌之新版本。

以物件為基礎之音訊場景編碼

以物件為基礎之音訊場景編碼針對以與該目標空間音訊格式獨立無關編碼的聲軌提供一般性解決方案。以物件為基礎之音訊場景編碼系統之一實例為MPEG-4場景之高階音訊二進制格式(AABIFS)。於此種辦法中，各個來源信號係連同成音提示資料串流個別地傳輸。此一資料串流攜載空間音訊場景成音系統之參數的時變值，諸如第1A圖所闡釋者。此種參數集合可以格式獨立無關之音訊場景描述形式提供，使得聲軌可藉依據此種格式設計成音系統而以任何目標空間音訊格式成音。各個來源信號組合其相聯結的成音提示定義一個「音訊物件」。此種辦法之顯著優點為成音器可以在再生端所選用的任何目標空間音訊格式而體現可供成音各個音訊物件之最準確空間音訊合成技術。以物件為基礎之音訊場景編碼系統之另一項優點為其許可在解碼階段互動式修改已成音音訊場景，包含再混合、音樂重新演繹(例如卡拉OK)、或於該場景的虛擬導航(例如遊戲)。

雖然以物件為基礎之音訊場景編碼允許與格式獨立無關的聲軌編碼與再生，但此種辦法有兩大限制：(1)與舊式消費者環繞聲音系統不相容；(2)典型地要求運算上昂貴的解碼及成音系統；及(3)要求高傳輸或儲存資料率來分別地攜載多個來源信號。

多聲道空間音訊編碼

針對多聲道音訊信號之低位元率傳輸或儲存的需求已經激勵新穎頻域空間音訊編碼(SAC)技術的發展，包含雙耳提示編碼(BCC)及MPEG-環繞。於SAC技術之實例中，例示說明於第1D圖，M-聲道音訊信號係以下混音訊信號之形式編碼，伴隨空間提示資料串流於時-頻域中描述存在於原先M-聲道信號中之聲道間關係(聲道間相關性及位準差)。由於下混信號包含少於M個音訊聲道，及空間提示資料率係比該音訊信號資料率更小，此種編碼辦法獲得總體資料率的顯著減低。此外，下混格式可經選擇來輔助與舊式設備的回溯可相容性。

於此種辦法之一變化法中，稱作空間音訊場景編碼(SASC)，如敘述於美國專利申請案第2007/0269063號，傳輸給解碼器的時-頻空間提示資料為格式不相干性。如此允許以任一種目標空間音訊格式作空間再生，同時保有攜載回溯可相容的下混信號於該已編碼聲軌資料串流的能力。但於此一辦法中，已編碼聲軌資料並不界定可分開的音訊物件。於大部分記錄中，位在聲音場景不同位置的多個音源在時-頻域中為同時。於此種情況下，空間音訊解碼器無法分開其在下混音訊信號的貢獻。結果，音訊再生之空間保真度可能受空間定位誤差之害。

空間音訊物件編碼

MPEG空間音訊物件編碼(SAOC)係類似MPEG-環繞，在於已編碼之聲軌資料串流包含一回溯可相容的下混音訊信號連同一時-頻提示資料串流。SAOC為多物件編碼技術，設計來在單聲道或雙聲道下混音訊信號中傳輸數目M 個音訊物件。連同SAOC下混信號傳輸的SAOC提示資料串流包含時-頻物件混合提示，於各個頻率子帶中，描述在單聲道或雙聲道下混信號的各個聲道中施加至各個物件輸入信號之混合係數。此外，SAOC提示資料串流包含頻域物件分離提示，許可音訊物件在解碼器端個別地後處理。SAOC解碼器提供的物件後處理功能模擬以物件為基礎之空間音訊場景成音系統之能力，且支援多項目標空間音訊格式。

SAOC提供一種多個音訊物件信號之低位元率傳輸及計算上有效的空間音訊成音方法連同以物件為基礎及格式不相干之三維音訊場景描述。但SAOC編碼串流之舊式可相容性係限於SAOC音訊下混信號之二聲道立體聲再生，因而不適合擴延既有多聲道環繞聲音編碼格式。此外，須注意若SAOC解碼器中施加於音訊物件信號上的成音操作包含某些類型的後處理效應，諸如人工混疊，則SAOC下混信號並非已成音音訊場景的知覺表示型態(原因在於此等效應將在成音場景為可聽聞，但不會同時結合入下混信號中，信號中含有未經處理的物件信號)。

此外，SAOC帶有與SAC及SASC技術相同的限制：SAOC解碼器無法完全分開在下混信號中於時-頻域為同時的音訊物件信號。舉例言之，物件藉SAOC解碼器徹底放大或衰減典型地導致已成音場景的音訊品質無法容許的降低。

有鑑於空間音訊再生用在娛樂及通訊的興趣及用途不斷增加，技藝界需要有改良之三維音訊聲軌編碼方法及相聯結的空間音訊場景再生技術。

發明概要

本發明提出一種用以產生、編碼、傳輸、解碼與再生空間音訊聲軌之新穎端到端解決方案。所提出的聲軌編碼格式係與舊式環繞音效編碼格式可相容，使得以新穎格式編碼的聲軌可在舊式回放設備上解碼與再生，而比起舊式格式並無品質損耗。於本發明中，聲軌資料串流包含回溯可相容的混合信號，及解碼器可從該回溯可相容的混合信號中移除的額外音訊聲道。本發明允許於任何目標空間音訊格式中再生一聲軌。在編碼階段並非必要載明目標空間音訊格式，且係與該回溯可相容的混合信號之舊式空間音訊格式獨立無關。各個額外音訊聲道係藉解碼器解譯為物件音訊資料，且與在聲軌資料串流中傳輸的物件成音提示相聯結，描述感官上在聲軌中的音訊物件之貢獻，而與該目標空間音訊格式無關。

本發明允許聲軌的製造商界定一或多個選定的音訊物件，其將於任何目標空間音訊格式(今日既有者或未來將發展者)中以最大可能保真度成音，只受聲軌傳遞與再生狀況所限(儲存或傳輸資料率、回放裝置之能力、及回放系統組態)。除了彈性以物件為基礎的三維音訊再生外，所提出的聲軌編碼格式允許以高解析度多聲道音訊格式諸如NHK 22.2格式等所產生的聲軌未受損的回溯-及正向-可相容性聲軌編碼。

於本發明之一個實施例中，提出一種編碼一音訊聲軌之方法。該方法始於接收表示一實體聲音之一基本混合信號；至少一個物件音訊信號，各個物件音訊信號具有該音訊聲軌之至少一個音訊物件成分；至少一個物件混合提示串流，該等物件混合提示串流界定該等物件音訊信號之混合參數；至少一個物件成音提示串流，該等物件成音提示串流界定該等物件音訊信號之成音參數。該方法繼續利用該等物件音訊信號及該等物件混合提示串流來組合該等音訊物件成分與該基本混合信號，藉此獲得一下混信號。該方法繼續多工化該下混信號、該物件音訊信號、該等成音提示串流、及該等物件提示串流來形成一聲軌資料串流。該等物件音訊信號可在輸出下混信號前藉第一音訊編碼處理器編碼。該等物件音訊信號可藉第一音訊解碼處理器解碼。

下混信號可在多工化前藉第二音訊編碼處理器編碼。該第二音訊編碼處理器可以是有損耗數位編碼處理器。

於本發明之另一個實施例中，提出一種解碼表示一實體聲音之一音訊聲軌之方法。該方法始於接收一聲軌資料串流具有表示一音訊場景之一下混信號；至少一個物件音訊信號，該物件音訊信號具有該音訊聲軌之至少一個音訊物件成分；至少一個物件混合提示串流，該物件混合提示串流界定該等物件音訊信號之混合參數；及至少一個物件成音提示串流，該物件成音提示串流界定該等物件音訊信號之成音參數。該方法繼續利用該物件音訊信號及該物件混合提示串流來從該下混信號部分地移除至少一個音訊物件成分，藉此獲得一殘差下混信號。該方法繼續施加一空間格式變換至該殘差下混信號，藉此輸出具有空間參數界定該空間音訊格式之一變換殘差下混信號。該方法繼續利用該等物件音訊信號及該等物件成音提示串流來推衍出至少一個物件成音信號。該方法以組合該變換殘差下混信號及該物件成音信號來獲得一聲軌成音信號結束。該音訊物件成分可從該下混信號扣除。該音訊物件成分可從該下混信號部分地移除使得該音訊物件成分於該下混信號為不顯著。該下混信號可以是一編碼音訊信號。該下混信號可藉一音訊解碼器解碼。該等物件音訊信號可為單聲道音訊信號。該等物件音訊信號可為具有至少二聲道之多聲道音訊信號。該等物件音訊信號可為分開的揚聲器饋給音訊聲道。該等音訊物件成分可為該音訊場景之語音、樂器、音效、或任何其它特性。該空間音訊格式可表示一收聽環境。

於本發明之另一個實施例中，提出一種音訊編碼處理器，包括一接收器處理器用以接收表示一實體聲音之一基本混合信號；至少一個物件音訊信號，各個物件音訊信號具有該音訊聲軌之至少一個音訊物件成分；至少一個物件混合提示串流，該等物件混合提示串流界定該等物件音訊信號之混合參數；及至少一個物件成音提示串流，該等物件成音提示串流界定該等物件音訊信號之成音參數。該編碼處理器進一步包含一組合處理器用以基於該等物件音訊信號及該等物件混合提示串流來組合該等音訊物件成分與該基本混合信號，該組合處理器輸出一下混信號。該編碼處理器進一步包含一多工器處理器用以多工化該下混信號、該物件音訊信號、該等成音提示串流、及該等物件提示串流來形成一聲軌資料串流。於本發明之另一個實施例中，提出一種音訊解碼處理器包括一接收處理器用以接收：表示一音訊場景之一下混信號；至少一個物件音訊信號，該物件音訊信號具有該音訊場景之至少一個音訊物件成分；至少一個物件混合提示串流，該物件混合提示串流界定該等物件音訊信號之混合參數；及至少一個物件成音提示串流，該物件成音提示串流界定該等物件音訊信號之成音參數。該音訊解碼處理器進一步包含一物件音訊處理器用以基於該物件音訊信號及該物件混合提示串流來從該下混信號部分地移除至少一個音訊物件成分，及輸出一殘差下混信號。該音訊解碼處理器進一步包含一空間格式變換器用以施加一空間格式變換至該殘差下混信號，藉此輸出具有空間參數界定該空間音訊格式之一變換殘差下混信號。該音訊解碼處理器進一步包含一成音處理器用以處理該等物件音訊信號及該等物件成音提示串流來推衍出至少一個物件成音信號。該音訊解碼處理器進一步包含一組合處理器用以組合該變換殘差下混信號及該物件成音信號來獲得一聲軌成音信號。

圖式簡單說明

此處揭示之各個實施例之此等及其它特徵及優點就後文說明及圖式將更為明瞭，附圖中相同元件符號表示各圖間之相同部件，及附圖中：第1A圖為方塊圖顯示用於空間聲音記錄之記錄或再生之先前技術音訊處理系統；第1B圖為示意俯視圖顯示先前技術標準「5.1」環繞音效多聲道揚聲器布局組態；第1C圖為示意圖顯示先前技術「NHK 22.2」三維多聲道揚聲器布局組態；第1D圖為方塊圖顯示空間音訊編碼、空間音訊場景編碼、及空間音訊物件編碼系統之先前技術操作；第1圖為依據本發明之一個構面編碼器之方塊圖；第2圖為依據該編碼器之一個構面，執行音訊物件包涵之一處理方塊之方塊圖：第3圖為依據編碼器之一個構面一種音訊物件成音器之方塊圖；第4圖為依據本發明之一個構面解碼器之方塊圖；第5圖為依據該解碼器之一個構面，執行音訊物件移除之一處理方塊之方塊圖：第6圖為依據解碼器之一個構面一種音訊物件成音器之方塊圖；第7圖為依據解碼器之一個構面一種格式變換方法之示意說明圖；第8圖為方塊圖顯示依據解碼器之一個構面之格式變換方法。

詳細說明

連結附圖陳述如下之詳細說明部分意圖作為本發明之目前較佳實施例之說明，但非意圖表示可建構或可利用本發明之唯一形式。詳細說明部分陳述連結具體實施例發展與操作本發明之功能及步驟順序。但須瞭解相同或相當功能及順序可藉也意圖涵蓋於本發明之精髓及範圍內之不同實施例達成。又更明瞭相對術語諸如第一及第二的使用等，僅係用來區別一個與另一個實體而非必要要求或暗示此等實體間之此種關係或順序。

一般定義

本發明係考慮處理音訊信號，換言之表示實體聲音的信號。此等信號係藉數位電子信號表示。於後文討論中，可顯示或討論類比波形來例示說明該等構思；須瞭解本發明之典型實施例將於數位位元組或字組之一時間序列之脈絡操作，該等位元組或字組形成類比信號或(最終地)實體聲音之分開近似值。分開的數位信號係相對應於週期性取樣音訊波形之數位表示型態。如技藝界已知，為了均一取樣，波形須以針對關注頻率至少足夠滿足尼奎斯特(Nyquist)取樣定理之比率取樣。舉例言之，於典型實施例中，可採用約44.1千樣本/秒之均一取樣率。另可使用更高取樣率，諸如96 kHz。依據技藝界眾所周知的原理，量化方案及位元解析度須經選擇來滿足特殊應用需求。本發明之技術及設備典型地交互相依性地應用於多個聲道。舉例言之，可用在「環繞」音訊系統脈絡(具有多於兩個聲道)。

如此處使用，「數位音訊信號」或「音訊信號」並非僅描述數學抽象提取，反而係表示資訊在可藉機器或設備檢測的實體媒體中體現或攜載。本術語表示經記錄的或傳輸的信號，且須瞭解包含藉任何編碼形式傳達，包含脈碼調變(PCM)但非限於PCM。輸出或輸入或確實中間音訊信號可藉多種已知方法中之任一種編碼或壓縮，包括MPEG、ATRAC、AC3，或DTS公司之專有方法，如敘述於美國專利案5,974,380；5,978,762及6,487,535。計算可能要求若干修改來因應特定壓縮或編碼方法，如對熟諳技藝人士顯然易知。

本發明係描述為音訊編解碼器。於軟體中，音訊編解碼器乃電腦程式，其依據給定音訊檔案格式或串流化音訊格式而格式化數位音訊資料。大部分編解碼器係體現為存庫，其係介接至一或多個多媒體播放器，諸如快時播放器(QuickTime Player)、XMMS、Winamp、視窗媒體播放器(Windows Media Player)、原邏輯(Pro Logic)等。於硬體中，音訊編解碼器係指單一或多個裝置，其將類比音訊編碼成數位信號，及將數位解碼回類比。換言之，音訊編解碼器含有依相同時鐘跑的ADC及DAC。

音訊編解碼器可以在消費者電子裝置體現，諸如DVD或BD播放器、TV調諧器、CD播放器、掌上型播放器、網際網路影音裝置、遊戲機台、行動電話等。消費者電子裝置包含中央處理單元(CPU)其可表示一或多個習知型別之此等處理器，諸如IBM PowerPC、英特爾(Intel)奔騰(Pentium) (x86)處理器等。隨機存取記憶體(RAM)暫時儲存由CPU執行資料處理操作的結果，典型地係透過專用記憶體通道而與CPU互連。消費者電子裝置也可包含持久性儲存裝置，諸如硬碟機，也係透過輸出入匯流排而與CPU通訊。也可連結其它型別之儲存裝置，諸如磁帶機、光碟機。繪圖卡也係透過視訊匯流排而連結至CPU，及傳輸表示顯示資料之信號給顯示器監視器。外部周邊資料輸入裝置諸如鍵盤或滑鼠可透過USB埠而連結至音訊再生系統。USB控制器轉移資料及指令來去於CPU給連結至該USB埠的外部周邊裝置。額外裝置諸如印表機、麥克風、揚聲器等可連結至該消費者電子裝置。

消費者電子裝置可利用具有圖形使用者介面(GUI)之作業系統，諸如得自華盛頓州李德蒙的微軟公司(Microsoft Corporation)之WINDOWS、得自加州庫伯堤諾的蘋果公司(Apple,Inc.)之MAC OS、設計用於行動作業系統之行動GUI的各個版本諸如Android等。消費者電子裝置可執行一或多個電腦程式。一般而言，作業系統及電腦程式係具體有形地在電腦可讀取媒體中體現，例如固定式及/或可卸式資料儲存裝置中之一或多者，包含硬碟機。作業系統及電腦程式二者可從前述資料儲存裝置載入RAM用以藉CPU執行。電腦程式可包括指令該等指令當由CPU讀取且執行時使得CPU進行該等步驟來執行本發明之步驟或特徵。

音訊編解碼器可具有多種不同組態及架構。任何此等組態及架構可方便地取代而未悖離本發明之範圍。熟諳技藝人士將瞭解前述順序乃電腦可讀取媒體最常利用的順序，但可取代以其它既有順序而未悖離本發明之範圍。

音訊編解碼器之一個實施例之元件可藉硬體、韌體、軟體或其任一種組合體現。當體現為硬體時，音訊編解碼器可採用在一個音訊信號處理器上或分散在多個處理組件間。當以軟體體現時，本發明之一實施例之元件大致上為代碼節段來執行必要的任務。軟體較佳地包含實際代碼來進行於本發明之一個實施例所述的操作，或仿真或模擬該等操作的代碼。程式或代碼節段可儲存於處理器或機器可存取媒體，或透過傳輸媒體藉於載波實施的電腦資料信號或藉載波調變之信號傳輸。「處理器可讀取或可存取媒體」或「機器可讀取或可存取媒體」可包含任何能夠儲存、傳輸、或轉移資訊之媒體。

處理器可讀取媒體之實例包含電子電路、半導體記憶體裝置、唯讀記憶體(ROM)、快閃記憶體、可抹除ROM(EROM)、軟碟、壓縮光碟(CD)ROM、光碟、硬碟、纖維光學媒體、射頻(RF)鏈路等。電腦資料信號可包含可透過傳輸媒體諸如電子網路通道、光纖、空氣、電磁波、RF鏈路等而傳播的任何信號。代碼節段可透過電腦網路諸如網際網路、企業網路等下載。機器可存取媒體可於一製造物件實施。機器可存取媒體可包含資料，該等資料當藉機器存取時使得該機器執行後述操作。「資料」一詞於此處係指編碼針對機器可讀取目的之任一型資訊。因此可包含程式、代碼、資料、檔案等。

本發明之全部或部分實施例可藉軟體體現。軟體可具有彼此耦接的數個模組。一軟體模組耦接至另一模組來接收變數、參數、自變數、指標器等及/或產生或傳送結果、已更新變數、指標器等。一軟體模組也可以是軟體驅動器或介面來與在平台上跑的操作系統互動。一軟體模組也可以是硬體驅動器來組配、設定、初始化、發送及接收資料來去於硬體裝置。

本發明之一個實施例可描述為處理程序，通常係闡釋為流程圖、流程略圖、結構圖、或方塊圖。雖然方塊圖可描述操作為循序處理程序，但許多操作可並行地或並列地執行。此外，操作順序可以重排。當一處理程序之操作完成時即結束。處理程序可相對應於方法、程式、程序等。

編碼器綜論

現在參考第1圖，提出闡釋編碼器之體現的示意圖。第1圖闡釋依據本發明用以編碼一聲軌之編碼器。編碼器產生聲軌資料串流40，包含以所選空間音訊格式記錄之呈下混信號30形式的記錄聲軌。於後文說明部分中，此種空間音訊格式係稱作為下混格式。於編碼器之較佳實施例中，下混格式乃與舊式消費者解碼器可相容的環繞音效格式，及下混信號30係藉數位音訊編碼器32編碼，藉此產生已編碼下混信號34。編碼器32之較佳實施例係為回溯可相容的多聲道數位音訊編碼器，諸如得自DTS公司之DTS數位環繞或DTS-HD。

此外，聲軌資料串流40包含至少一個音訊物件(於本說明部分及附圖中稱作為「物件1」)。於後文描述中，一音訊物件係通常定義為一聲軌的音訊成分。音訊物件可表示在聲軌中可聽聞的可區別音源(語音、樂器、音效等)。各個音訊物件係以一音訊信號(12a、12b)為特徵，後文稱作為物件音訊信號，及在該聲軌資料中具有獨特識別符。除了物件音訊信號外，編碼器選擇性地接收以下混格式提供的多聲道基本混合信號10。此種基本混合信號例如可表示背景音樂、記錄的周圍聲音、或記錄的或合成的聲音場景。

於下混信號30中全部音訊物件的貢獻係藉物件混合提示16定義，及藉音訊物件包涵處理方塊24而與基本混合信號10組合在一起(容後詳述)。除了物件混合提示16外，編碼器接收物件成音提示18，及透過提示編碼器36，將物件成音提示18連同物件混合提示16含括於聲軌資料串流40。成音提示18允許互補解碼器(容後詳述)以與下混格式不同的目標空間音訊格式而成音該音訊物件。於本發明之較佳實施例中，成音提示18為與格式獨立無關，使得解碼器以任一種目標空間音訊格式成音該聲軌。於本發明之一個實施例中，物件音訊信號(12a、12b)、物件混合提示16、物件成音提示18及基本混合信號10係由操作員在聲軌產生過程中提供。

各個物件音訊信號(12a、12b)可呈示為單聲道或多聲道信號。於一較佳實施例中，部分或全部物件音訊信號(12a、12b)及下混信號30在包含於聲軌資料串流40之前係藉低位元率音訊編碼器(20a-20b、32)編碼，來減少編碼聲軌40之傳輸或儲存所需資料率。於一較佳實施例中，透過有損耗低位元率數位音訊編碼器(20a)傳輸的物件音訊信號(12a-12b)隨後地在藉音訊物件包涵處理方塊24處理前係藉互補解碼器(22a)解碼。如此許可在解碼器端從該下混信號確切移除該物件的貢獻(容後詳述)。

接著，已編碼音訊信號(22a-22b、34)及編碼提示38係藉方塊42多工化來形成聲軌資料串流40。多工器42將數位資料串流(22a-22b、34、38)組合成單一資料串流40用以透過共享媒體傳輸或儲存。多工化資料串流40係透過通訊通道發射，該通訊通道可以是實體傳輸媒體。多工化將低位準通訊通道的能力劃分成數個較高位準邏輯通道，每個通道針對各個欲轉移的資料串流。稱作為解多工化的往復處理程序可在解碼器端提取原先資料串流。

音訊物件包涵

第2圖闡釋依據本發明之一較佳實施例之音訊物件包涵處理模組。音訊物件包涵模組24接收物件音訊信號26a-26b及物件混合提示16，及發射此等信號給音訊物件成音器44，音訊物件成音器44將音訊物件組合成音訊物件下混信號46。音訊物件下混信號46係以下混格式提供且係組合基本混合信號10來產生聲軌下混信號30。各個物件音訊信號26a-26b可呈示為單聲道或多聲道信號。於本發明之一個實施例中，多聲道物件信號係視為多個單聲道物件信號處理。

第3圖闡釋依據本發明之一實施例之音訊物件成音器模組。音訊物件成音器模組44接收物件音訊信號26a-26b及物件混合提示16，且推衍音訊物件下混信號46。音訊物件成音器44依據技藝界眾所周知之原理操作，例如描述於(Jot，1997)來將各個物件音訊信號26a-26b混合入音訊物件下混信號46。混合操作係依據混合提示16所提供的指示執行。各個物件音訊信號(26a、26b)係藉一空間汰選模組(分別地48a、48b)處理，如當收聽物件下混信號46時所感知，處理分配方向定位給音訊物件。下混信號46係藉加成性組合物件信號汰選模組48a-48b之輸出模組形成。於成音器之一較佳實施例中，各個物件音訊信號26a-26b於下混信號46的直接貢獻也係藉直接發送係數(第3圖中標示為d₁-d_n)放大來控制於聲軌中各個音訊物件的響度。

於成音器之一個實施例中，物件汰選模組(48a)係經組配來許可將該物件成音為空間擴延音源，具有可控制式矩心方向及可控制式空間展幅，如當收聽該汰選模組輸出信號時感知。再生空間擴延音源之方法為技藝界眾所周知，及描述於例如Jot,Jean-Marc等人，「針對互動式音訊之複合聲學場景之雙耳模擬」，2006年10月5至8日第121屆AES會議提出[後文稱作(Jot，2006)]，係以引用方式併入此處。音訊物件相聯結的空間展幅可設定來再生空間漫射音源(亦即環繞收聽者的音源)感覺。

選擇性地，音訊物件成音器44係經組配來針對一或多個音訊物件產生間接音訊物件貢獻。於此組態中，下混信號46也包括空間混疊模組之輸出信號。於音訊物件成音器 44之一較佳實施例中，空間混疊模組係藉施加空間汰選模組54至人工混疊器50的輸出信號52形成。汰選模組54將信號52變換成下混格式，同時選擇性地對音訊混疊輸出信號52提供方向性強調，如當收聽下混信號30時所感知。設計人工混疊器50及空間汰選模組54之習知方法為技藝界眾所周知及可由本發明採用。另外，處理模組(50)可以是常用於音訊記錄(諸如回聲效果、鑲邊效果、或振鈴調諧器效果)的另一型數位音訊處理效果演算法。模組50接收物件音訊信號26a-26b之組合，其中各個物件音訊信號係藉間接發送係數(第3圖中標示為r₁-r_n)放大。

此外，技藝界眾所周知實現直接發送係數d₁-d_n及間接發送係數r₁-r_n作為數位濾波器，來模擬由各個音訊物件表示之虛擬音源的直接度及方向性的聽覺效果，及於虛擬音訊場景中聲學障礙及區隔的效應。此點進一步描述於(Jot，2006)。未例示說明於第3圖，於本發明之一個實施例中，音訊物件成音器44包括數個並行聯結的空間混疊模組，及由物件音訊信號之不同組合饋給來模擬複雜的聲學環境。

於音訊物件成音器44的信號處理操作係依據混合提示16提供的指令執行。混合提示16之實例可包括施加於汰選模組48a-48b的混合係數，描述各個物件音訊信號26a-26b對下混信號30之各個聲道之貢獻。概略言之，物件混合提示資料串流16攜載控制參數之一集合的時變值，該等時變值獨一無二地決定藉音訊物件成音器44所執行的全部信號處理操作。

解碼器綜論

現在參考第4圖，例示說明依據本發明之一實施例之解碼器處理程序。解碼器接收已編碼聲軌資料串流40作為輸入。解多工器56將編碼輸出信號40分離來復原已編碼下混信號34、已編碼物件音訊信號14a-14c、及已編碼提示串流38d。各個已編碼信號及/或串流係藉解碼器(個別地58、62a-62c及64)解碼用來產生聲軌資料串流40，該解碼器係與關聯第1圖描述之用以編碼聲軌編碼器中之相對應信號及/或串流的編碼器相對應。

該已解碼下混信號60、物件音訊信號26a-26c、及物件混合提示串流16d係供給音訊物件移除模組66。信號60及26a-26c係以許可混合與濾波操作的任何形式呈示。舉例言之，線性PCM可適當使用，具有針對特定應用的足夠位元深度。音訊物件移除模組66產生殘差下混信號68，其中音訊物件貢獻係確切地、部分地、或實質上地移除。殘差下混信號68係提供給格式變換器78，產生經變換的殘差下混信號80適用於以目標空間音訊格式再生。

此外，已解碼物件音訊信號26a-26b及物件成音提示串流18d係提供給音訊物件成音器70，其產生適合以目標空間音訊格式再生音訊物件貢獻的物件成音信號76。物件成音信號76及經變換的殘差下混信號80係經組合來產生呈目標空間音訊格式之聲軌成音信號84。於本發明之一個實施例中，輸出後處理模組86施加選擇性後處理給聲軌成音信號84。於本發明之一個實施例中，模組86包含常見施用於音訊再生系統的後處理，諸如頻率響應校正、響度或動態範圍校正、額外空間音訊格式變換等。

熟諳技藝人士將容易瞭解與一目標空間音訊格式可相容的聲軌再生可藉下述方式達成，直接傳輸已解碼下混信號60給格式變換器78，刪除音訊物件移除模組66及音訊物件成音器70。於另一實施例中，刪除格式變換器78，或含括於後處理模組80。若下混格式與目標空間音訊格式被視為等效，及音訊物件成音器70係單獨採用在解碼器端的使用者互動目的，則此等變化實施例為適宜。

於本發明之應用中，其中下混格式與目標空間音訊格式非為等效，特別優異地，音訊物件成音器70以目標空間格式直接成音音訊物件貢獻，使得藉由於成音器70中採用匹配音訊回放系統的特定組態之物件成音方法而可以最佳傳真及空間準確度而再生音訊物件。於此種情況下，在組合下混信號與物件成音信號76前，格式變換78施加至殘差下混信號68，原因在於已經以目標空間音訊格式提供物件成音。

如同於習知以物件為基礎的場景編碼，若在聲軌中的全部可聽聞事件係以物件音訊信號14a-14c形式伴以成音提示18d提供給解碼器，則下混信號34及音訊物件移除模組66的提供並非聲軌以目標空間音訊格式成音所必需。包含已編碼下混信號34於聲軌資料串流中的特殊優點為其許可使用舊式聲軌解碼器的回溯可相容的再生，後者係捨棄或忽略在聲軌資料串流中提供的物件信號及提示。

又復，將音訊物件移除功能結合於解碼器之特殊優點為音訊物件移除步驟66使得可能再生全部組成該聲軌的可聽聞事件，同時只傳輸、移除及成音選定的可聽聞事件之一子集作為音訊物件，因而顯著地減少傳輸資料率及解碼器複雜度需求。於本發明之另一個實施例(未顯示於第4圖)中，傳輸給音訊物件成音器70之物件音訊信號(26a)中之一者係等於下混信號60之音訊聲道信號歷經一時間週期。於此種情況下，及歷經相同時間週期，該物件之音訊物件移除操作66單純只包含靜音下混信號60中的音訊聲道信號，而無需接收與解碼物件音訊信號14a。如此更減低傳輸資料率及解碼器複雜度。

於一較佳實施例中，當傳輸資料率或聲軌回放裝置的運算能力有限時，在解碼器端(第4圖)已解碼且已成音的物件音訊信號14a-14c集合乃在編碼器端(第1圖)已編碼物件音訊信號14a-14b集合的不完整子集。一或多個物件可在多工器42(因而減低傳輸資料率)及/或在解多工器56捨棄(因而減低解碼器計算需求)。選擇性地，用於傳輸及/或成音的物件選擇可藉優先排序方案自動地決定，因而各個物件被指定一個優先順位提示含括於該提示資料串流38/38d。

音訊物件移除

現在參考第4及5圖，例示說明依據本發明之一實施例之音訊物件移除處理模組。音訊物件移除處理模組66針對欲成音的選定物件集合，執行於編碼器提供的音訊物件包涵模組之往復操作。該模組接收物件音訊信號26a-26c及相聯結的物件混合提示16d，及發射該等信號給音訊物件成音器44d。針對欲成音的選定物件集合，音訊物件成音器44d複製在編碼端所提供的於音訊物件成音器44中執行的信號處理操作，先前係關聯第3圖描述。音訊物件成音器44d將選定的音訊物件組合成為音訊物件下混信號46d，該信號係以下混格式提供且從下混信號60扣除來產生殘差下混信號68。選擇性地，音訊物件移除也輸出由音訊物件成音器44d所提供的混疊輸出信號52d。

音訊物件移除無需為確切減法。音訊物件移除66之目的係在收聽殘差下混信號68時，讓選定物件集合實質上或感知上變不顯著。因此下混信號60無需以無損耗數位音訊格式編碼。若係運用有損耗數位音訊格式編碼與解碼，則從已解碼下混信號60之算術扣除音訊物件下混信號46d可能無法正確地消除來自於殘差下混信號68的音訊物件貢獻。但此項誤差於收聽聲軌成音信號84中乃實質上不顯著，原因在於由於接著組合物件成音信號76成為聲軌成音信號84而實質上被遮掩。

因此依據本發明之解碼器的實現並不排除使用有損耗音訊解碼器技術解碼下混信號34。藉採用有損耗數位音訊編解碼器技術於下混音訊編碼器32來編碼下混信號30(第1圖)而顯著減少發射聲軌資料需要的資料率為優異。又更優異地藉執行有損耗的下混信號34解碼來減低下混音訊解碼器58之複雜度，即便係以無損耗格式(例如以高傳真或無損耗DTS-HD格式傳輸之下混信號的DTS核心解碼)傳輸亦復如此。

音訊物件成音

第6圖闡釋音訊物件成音器模組70之一較佳實施例。音訊物件成音器模組70接收物件音訊信號26a-26c及物件成音提示18d，及推衍物件成音信號76。音訊物件成音器70依據技藝界眾所周知的原理先前連結第3圖所述音訊物件成音器44綜論的原理操作，來將各個物件音訊信號26a-26c混合入物件成音信號76。各個物件音訊信號(26a、26c)係藉空間汰選模組(90a、90c)處理，分配一方向性定位給該音訊物件，如當收聽物件成音信號76時所感知。物件成音信號76係藉加成性組合空間汰選模組90a-90c之輸出信號而形成。各個物件音訊信號(26a、26c)於物件成音信號76之直接貢獻係藉直接發送係數(d₁、d_m)定標。此外，物件成音信號76包含混疊汰選模組92之輸出信號，其接收含括於音訊物件移除模組66內藉音訊物件成音器44d所提供的混疊輸出信號52d。

於本發明之一個實施例中，由音訊物件成音器44d(於第5圖所示音訊物件移除模組66中)所產生的音訊物件下混信號46d不包含含括於由音訊物件成音器44(於第2圖所示音訊物件包涵模組24中)所產生的音訊物件下混信號46中所含括的間接音訊物件貢獻。於此種情況下，間接音訊物件貢獻留在殘差下混信號68中，不提供混疊輸出信號52d。本發明之此一聲軌解碼器物件之實施例提供間接物件貢獻之改良位置音訊成音而不需要在音訊物件成音器44d的混疊處理。

於音訊物件成音器模組70中之信號處理操作係依據由成音提示18d所提供的指令執行。空間汰選模組(90a-90c、92)係依據目標空間音訊格式定義74組配。於本發明之較佳實施例中，成音提示18d係以格式獨立無關音訊場景描述形式提供，於音訊物件成音器模組70中的全部處理操作包含汰選模組(90a-90c、92)及發送係數(d₁、d_m)係經組配來使得物件成音信號76再生相同感知空間音訊場景，而與所選用的目標空間音訊格式獨立無關。於本發明之一較佳實施例中，此一音訊場景係與藉物件下混信號46d再生的音訊場景相同。於此等實施例中，成音提示18d可用來推衍或置換提供給音訊物件成音器44d的混合提示16d；同理，成音提示18可用來推衍或置換提供給音訊物件成音器44的混合提示16；因此無需提供物件混合提示(16、16d)。

於本發明之一較佳實施例中，與格式獨立無關的物件成音提示(18、18d)包含各音訊物件之感知空間位置，以笛卡兒座標或極性座標表示，該座標為絕對或相對於音訊場景中的收聽者之虛擬位置及方向性。與格式獨立無關的成音提示之其它實例係於多個音訊場景描述標準中提供，諸如OpenAL或MPEG-4高階音訊BIFS。此等場景描述標準包含特別混疊及距離提示足夠獨一無二地決定發送係數值(第3圖及第5圖之d₁-d_n及r₁-r_n)，及人工混疊器50及混疊汰選模組(54、92)之處理參數。

本發明之數位音訊聲軌編碼器與解碼器物件可優異地施加至原先以與下混格式不同的多聲道音源格式所提供的音訊記錄之回溯可相容的及正向可相容的編碼。來源格式可以是例如高解析度離散多聲道音訊格式，諸如NHK 22.2格式，其中各個聲道信號係意圖作為揚聲器饋給信號。此項目的可藉提供原先記錄的各個聲道信號給聲軌編碼器(第1圖)作為一分開物件音訊信號，伴隨以物件成音提示指示相對應揚聲器在來源格式中的適當位置而予達成。若多聲道音源格式為下混格式之一超集(含括額外音訊聲道)，呈來源格式的各個額外音訊聲道可編碼成依據本發明之額外音訊物件。

依據本發明之編碼與解碼方法之另一項優點為允許再生音訊場景的選擇性以物件為基礎的修改。此項目的係藉依據如第6圖所示使用者互動提示72，控制在音訊物件成音器模組70中執行的信號處理而達成，該使用者互動提示72可修改或覆寫部分物件成音提示18d。此等使用者互動之實例包含音樂重新混音、虛擬來源重新定亥、及於音訊場景中之虛擬導航。於本發明之一個實施例中，提示資料串流38包含獨一無二地分配給各個物件之物件性質，包含下列性質：識別與一物件相聯結的音源(例如字符名稱或樂器名稱)；指出音源的本質(例如「對話」或「音效」)；或將一音訊物件集合定義為一組(可整體操縱之一複合物件)。含括此等物件性質於提示串流許可額外應用，諸如對話理解力增強(施加特定處理給音訊物件成音器70中的對話物件音訊信號)。

於本發明之另一個實施例中(第4圖中未顯示)，選定的物件係從下混信號68移除，及相對應的物件音訊信號(26a)係藉分開地接收的一不同音訊信號所置換，且提供給音訊物件成音器70。此一實施例可優異地用於下列應用諸如多語言電影聲軌再生或卡拉OK及其它音樂重新演繹形式。此外，不包含在聲軌資料串流40的額外音訊物件可以與物件成音器提示相聯結的額外音訊物件信號形式而分開地提供給音訊物件成音器70。本發明之此一實施例例如用於互動式遊戲應用為優異。於此等實施例中，優異地如同前文於音訊物件成音器44的說明中描述，音訊物件成音器70係結合一或多個空間混疊模組。

下混格式變換

如先前連結第4圖所述，聲軌成音信號84係藉組合物件成音信號76與藉格式變換78殘差下混信號68所得的經變換的殘差下混信號80而得。空間音訊格式變換78係依據目標空間音訊格式定義74而予組配，且可藉適合用以目標空間音訊格式而再生由殘差下混信號68所表示的音訊場景之技術予以實施。技藝界已知之格式變換技術包含多聲道上混、下混、重新對映、或虛擬化。

如第7圖之例示說明，於本發明之一個實施例中，該目標空間音訊格式係透過揚聲器或耳機的二聲道回放，及下混格式為5.1環繞音效格式。格式變換係藉虛擬音訊處理設備執行，如說明於美國專利申請案第2010/0303246號，以引用方式併入此處。第7圖例示說明之架構進一步包含使用虛擬音訊揚聲器，產生音訊係從虛擬揚聲器發出的錯覺。如技藝界眾所周知，此等錯覺可藉考慮揚聲器到耳朵聲學轉移函式之度量或近似值、或頭部相關的傳送函式(HRTF)來對音訊輸入信號施加變換而予達成。此等錯覺可藉依據本發明之格式變換而採用。

另外，於第7圖例示說明之實施例中，於該處該目標空間音訊格式係透過揚聲器或耳機的二聲道回放，如第8圖中例示說明格式變換器可藉頻域信號處理而予體現。如Jot等人「基於空間音訊場景編碼之雙耳3-D音訊成音」，2007年10月5至8日第123屆AES會議提出所述，以引用方式併入此處，依據SASC框架的虛擬音訊處理許可格式變換器執行環繞至3D格式變換，其中經變換的殘差下混信號80在透過揚聲器或耳機的收聽時產生空間音訊場景的擴延：在殘差下混信號68中內部汰選的可聽聞事件係以目標空間音訊格式再生為升高的可聽聞事件。

更加一般言之，頻域格式變換處理可應用於格式變換器78之實施例，其中該目標空間音訊格式包含多於兩個音訊聲道，如敘述於Jot等人，「多聲道環繞格式變換與普及化上混」，AES第30屆國際會議，2007年3月15至17日，以引用方式併入此處。第8圖闡釋一較佳實施例，其中提供於時域的殘差下混信號68係藉短時間富利葉變換(STFT)方塊而變換成頻域表示型態。STFT定義域信號然後提供給頻域格式變換方塊，該方塊基於空間分析與合成而體現格式變換，提供STFT定義域多聲道輸出信號，及透過短時間富利葉反變換及重疊-加法處理而產生經變換的殘差下混信號80。下混格式定義及目標空間音訊格式定義74係提供給頻域格式變換方塊，來用在此一方塊內部的被動上混、空間分析、及空間合成處理程序，如第8圖闡釋。雖然格式變換係顯示為全然頻域操作，但熟諳技藝人士將認知於若干實施例中，某些成分值得一提者為被動上混另外可於時域體現。本發明涵蓋此等變化而非限制性。

此處顯示之細目係僅供舉例說明及於本發明之實施例的說明性討論之用，及係為了提供相信為最有用的且最容易明瞭的本發明之原理及構思面向而呈示。就此點而言，絕非意圖以超過本發明之基本瞭解所需的更多細節而顯示本發明之細目，詳細說明部分連同附圖讓熟諳技藝人士顯然易知如何在實務上實施本發明之若干形式。

10‧‧‧基本混合信號

12a-b‧‧‧音訊信號

14a-c‧‧‧已編碼物件音訊信號

16‧‧‧物件混合提示

16d‧‧‧物件混合提示串流

18‧‧‧物件成音提示

18d‧‧‧物件成音提示串流

20a-b‧‧‧低位元率音訊編碼器

22a-b‧‧‧互補解碼器

24‧‧‧音訊物件包涵處理方塊

26a-c‧‧‧物件音訊信號

30‧‧‧下混信號

32‧‧‧數位音訊編碼器、下混音訊編碼器

34‧‧‧已編碼下混信號

36‧‧‧提示編碼器

38‧‧‧編碼提示、提示資料串流

38d‧‧‧已編碼提示串流

40‧‧‧聲軌資料串流

42‧‧‧多工器

44、44d、70‧‧‧音訊物件成音器、成音器模組

46、46d‧‧‧音訊物件下混信號

48a-b‧‧‧汰選模組

50‧‧‧人工混疊器

52、52d‧‧‧音訊混疊輸出信號

54‧‧‧空間汰選模組

56‧‧‧解多工器

58‧‧‧解碼器、下混音訊解碼器

60‧‧‧已解碼下混信號

62a-c、64‧‧‧解碼器

66‧‧‧音訊物件移除模組

68‧‧‧殘差下混信號

72‧‧‧使用者互動提示

74‧‧‧目標空間音訊格式定義

76‧‧‧物件成音信號

78‧‧‧格式變換器

80‧‧‧經變換的殘差下混信號

84‧‧‧聲軌成音信號

86‧‧‧輸出後處理模組

90a-c‧‧‧空間汰選模組

92‧‧‧混疊汰選模組

d₁-d_n‧‧‧直接發送係數

r₁-r_m、r₁-r_n‧‧‧間接發送係數

第1A圖為方塊圖顯示用於空間聲音記錄之記錄或再生之先前技術音訊處理系統；第1B圖為示意俯視圖顯示先前技術標準「5.1」環繞音效多聲道揚聲器布局組態；第1C圖為示意圖顯示先前技術「NHK 22.2」三維多聲道揚聲器布局組態；第1D圖為方塊圖顯示空間音訊編碼、空間音訊場景編碼、及空間音訊物件編碼系統之先前技術操作；第1圖為依據本發明之一個構面編碼器之方塊圖；第2圖為依據該編碼器之一個構面，執行音訊物件包涵之一處理方塊之方塊圖：第3圖為依據編碼器之一個構面一種音訊物件成音器之方塊圖；第4圖為依據本發明之一個構面解碼器之方塊圖；第5圖為依據該解碼器之一個構面，執行音訊物件移除之一處理方塊之方塊圖：第6圖為依據解碼器之一個構面一種音訊物件成音器之方塊圖；第7圖為依據解碼器之一個構面一種格式變換方法之示意說明圖；第8圖為方塊圖顯示依據解碼器之一個構面之格式變換方法。

10‧‧‧基本混合信號

12a-b‧‧‧物件音訊信號

14a-b‧‧‧已編碼物件音訊信號

16‧‧‧物件混合提示

18‧‧‧物件成音提示

20a-b‧‧‧物件音訊編碼器

22a-b‧‧‧互補解碼器

24‧‧‧音訊物件包含處理模組

26a-b‧‧‧物件音訊信號

30‧‧‧下混信號

32‧‧‧數位音訊編碼器

34‧‧‧已編碼下混信號

36‧‧‧提示編碼器

38‧‧‧提示資料串流

40‧‧‧聲軌資料串流

42‧‧‧多工器(MUX)

Claims

一種編碼一音訊聲軌之方法，該方法係包含下列步驟：接收表示一實體聲音之一基本混合信號；接收至少一個物件音訊信號，各個物件音訊信號具有該音訊聲軌之至少一個音訊物件成分；接收至少一個物件混合提示串流，該等物件混合提示串流界定該等物件音訊信號之混合參數；接收至少一個物件成音提示串流，該等物件成音提示串流界定該等物件音訊信號之成音參數；利用該等物件音訊信號及該等物件混合提示串流來組合該等音訊物件成分與該基本混合信號，藉此獲得一下混信號；及多工化該下混信號、該物件音訊信號、該等成音提示串流、及該等物件提示串流來形成一聲軌資料串流。
如申請專利範圍第1項之方法，其中該等物件音訊信號係在該利用步驟之前藉一第一音訊編碼處理器編碼。
如申請專利範圍第2項之方法，其中該等物件音訊信號係藉一第一音訊解碼處理器解碼。
如申請專利範圍第1項之方法，其中該下混信號係在被多工化之前藉一第二音訊編碼處理器編碼。
如申請專利範圍第4項之方法，其中該第二音訊編碼處理器係為一有損耗數位編碼處理器。
一種解碼表示一實體聲音之一音訊聲軌之方法，該方法係包含下列步驟：接收一聲軌資料串流，其係具有：表示一音訊場景之一下混信號；至少一個物件音訊信號，該物件音訊信號具有該音訊聲軌之至少一個音訊物件成分；至少一個物件混合提示串流，該物件混合提示串流界定該等物件音訊信號之混合參數；及至少一個物件成音提示串流，該物件成音提示串流界定該等物件音訊信號之成音參數；利用該物件音訊信號及該物件混合提示串流來從該下混信號部分地移除至少一個音訊物件成分，藉此獲得一殘差下混信號；施加一空間格式變換至該殘差下混信號，藉此輸出具有空間參數界定該空間音訊格式之一變換殘差下混信號；利用該等物件音訊信號及該等物件成音提示串流來推衍出至少一個物件成音信號；及組合該變換殘差下混信號及該物件成音信號來獲得一聲軌成音信號。
如申請專利範圍第6項之方法，其中該音訊物件成分係從該下混信號扣除。
如申請專利範圍第6項之方法，其中該音訊物件成分係從該下混信號部分地移除使得該音訊物件成分於該下混信號為不顯著。
如申請專利範圍第6項之方法，其中該下混信號係為一編碼音訊信號。
如申請專利範圍第9項之方法，其中該下混信號係藉一音訊解碼器解碼。
如申請專利範圍第6項之方法，其中該等物件音訊信號係為單聲道音訊信號。
如申請專利範圍第6項之方法，其中該等物件音訊信號係為具有至少二聲道之多聲道音訊信號。
如申請專利範圍第6項之方法，其中該等物件音訊信號係為分開的揚聲器饋給音訊聲道。
如申請專利範圍第6項之方法，其中該等音訊物件成分係為該音訊場景之語音、樂器、或音效。
如申請專利範圍第6項之方法，其中該空間音訊格式表示一收聽環境。
一種音訊編碼處理器，其係包含：一接收器處理器用以接收：表示一實體聲音之一基本混合信號；至少一個物件音訊信號，各個物件音訊信號具有該音訊聲軌之至少一個音訊物件成分；至少一個物件混合提示串流，該等物件混合提示串流界定該等物件音訊信號之混合參數；及至少一個物件成音提示串流，該等物件成音提示串流界定該等物件音訊信號之成音參數；一組合處理器用以基於該等物件音訊信號及該等物件混合提示串流來組合該等音訊物件成分與該基本混合信號，該組合處理器輸出一下混信號；及一多工器處理器用以多工化該下混信號、該物件音訊信號、該等成音提示串流、及該等物件提示串流來形成一聲軌資料串流。
如申請專利範圍第16項之音訊編碼處理器，其中該等物件音訊信號係在該利用步驟之前藉一第一音訊編碼處理器編碼。
如申請專利範圍第17項之音訊編碼處理器，其中該等物件音訊信號係藉一第一音訊解碼處理器解碼。
如申請專利範圍第16項之音訊編碼處理器，其中該下混信號係在被多工化之前藉一第二音訊編碼處理器編碼。
一種音訊解碼處理器，其係包含：一接收處理器用以接收：表示一音訊場景之一下混信號；至少一個物件音訊信號，該物件音訊信號具有該音訊場景之至少一個音訊物件成分；至少一個物件混合提示串流，該物件混合提示串流界定該等物件音訊信號之混合參數；及至少一個物件成音提示串流，該物件成音提示串流界定該等物件音訊信號之成音參數；一物件音訊處理器用以基於該物件音訊信號及該物件混合提示串流來從該下混信號部分地移除至少一個音訊物件成分，及輸出一殘差下混信號；一空間格式變換器用以施加一空間格式變換至該殘差下混信號，藉此輸出具有空間參數界定該空間音訊格式之一變換殘差下混信號；一成音處理器用以處理該等物件音訊信號及該等物件成音提示串流來推衍出至少一個物件成音信號；及一組合處理器用以組合該變換殘差下混信號及該物件成音信號來獲得一聲軌成音信號。
如申請專利範圍第20項之音訊解碼處理器，其中該音訊物件成分係從該下混信號扣除。
如申請專利範圍第20項之音訊解碼處理器，其中該音訊物件成分係從該下混信號部分地移除使得該音訊物件成分於該下混信號為不顯著。