TW202024896A

TW202024896A - 六自由度及三自由度向後相容性

Info

Publication number: TW202024896A
Application number: TW108133116A
Authority: TW
Inventors: 金墨永; 尼爾斯古恩瑟彼得斯; ＳＭ艾卡姆斯薩利赫; 賽德哈薩高塔姆斯瓦米納坦; 迪潘強森
Original assignee: 美商高通公司
Priority date: 2018-10-06
Filing date: 2019-09-12
Publication date: 2020-07-01
Also published as: US11019449B2; EP4372530A2; CN112771479B; EP3861423A1; US11843932B2; US20200112814A1; WO2020072185A1; US20210281967A1; CN112771479A

Abstract

本發明描述一種用於虛擬實境(VR)、混合實境(MR)、擴充實境(AR)、電腦視覺及圖形系統之向後相容性的器件及方法。該器件及方法使得能夠在支援較少自由度之器件上顯現具有更多自由度之音訊資料。該器件包括記憶體，該記憶體經組態以儲存表示在複數個捕捉位置處捕捉的一聲場之音訊資料、使得待顯現之該音訊資料能夠支援N個自由度之後設資料及使得待顯現之該音訊資料能夠支援M個自由度的調適後設資料。該器件亦包括一或多個處理器，其耦接至該記憶體且經組態以基於該調適後設資料調適該音訊資料以提供該M個自由度，並基於該經調適音訊資料產生揚聲器饋送。

Description

六自由度及三自由度向後相容性

本揭示係關於媒體資料，諸如音訊資料之處理。

近年來，對擴充實境(AR)、虛擬實境(VR)及混合實境(MR)技術之關注在增加。在無線空間中之影像處理及電腦視覺技術的進步已產生經分配以改良此等技術之視覺品質及沉浸式視覺體驗的較佳顯現及計算資源。

在VR技術中，可使用頭戴式顯示器向使用者呈現虛擬資訊以使得使用者可在視覺上體驗在其眼睛前方之螢幕上的人工世界。在AR技術中，真實世界藉由視覺物件擴充，該等視覺物件經強加或疊對於真實世界中之實體物件上。該擴充可將新的視覺物件或遮蔽視覺物件插入至真實世界環境。在MR技術中，真實或合成/虛擬之物與使用者在視覺上所體驗之物之間的邊界變得難以辨別。

本揭示大體上係關於電腦媒介實境系統之使用者體驗的聽覺態樣，該電腦媒介實境系統包括虛擬實境(VR)、混合實境(MR)、擴充實境(AR)、計算機視覺及圖形系統。更特定言之，技術可使得能夠在支援少於五個自由度之器件或系統上顯現用於VR、MR、AR等之音訊資料(其考慮五個或超過五個自由度)。作為一個實例，技術可使得能夠在就頭部移動而言僅支援三個自由度(橫擺、俯仰及橫滾)之器件或系統上或在支援零自由度之器件或系統上顯現考慮六個自由度(橫擺、俯仰及橫滾加使用者在空間中之x、y及z平移)的音訊資料。

在一個實例中，一種器件包含：一記憶體，其經組態以儲存表示在複數個捕捉位置處捕捉之一聲場的音訊資料、使得待顯現之該音訊資料能夠支援N個自由度之後設資料及使得待顯現之該音訊資料能夠支援M個自由度的調適後設資料，其中N為一第一整數且M為不同於該第一整數之一第二整數；及一或多個處理器，其耦接至該記憶體且經組態以：基於該調適後設資料調適該音訊資料以提供該M個自由度；及基於該經調適音訊資料產生揚聲器饋送。

在另一實例中，一種方法包含儲存表示在複數個捕捉位置處捕捉之一聲場的音訊資料；儲存使得待顯現之該音訊資料能夠支援N個自由度之後設資料；儲存使得待顯現之該音訊資料能夠支援M個自由度的調適後設資料，其中N為一第一整數且M為不同於該第一整數之一第二整數；基於該調適後設資料調適該音訊資料以提供該M個自由度；及基於該經調適音訊資料產生揚聲器饋送。

在又一實例中，一種器件包含用於儲存表示在複數個捕捉位置處捕捉之一聲場的音訊資料的構件；用於儲存使得待顯現之該音訊資料能夠支援N個自由度之後設資料的構件；用於儲存使得待顯現之該音訊資料能夠支援M個自由度的調適後設資料的構件，其中N為一第一整數且M為不同於該第一整數之一第二整數；用於基於該調適後設資料調適該音訊資料以提供該M個自由度的構件；及用於基於該經調適音訊資料產生揚聲器饋送的構件。

在附圖及以下描述中闡述本發明的一或多個實例的細節。技術之各個態樣之其他特徵、目標及優點將自描述及圖式以及自申請專利範圍顯而易見。

本申請案主張2018年10月6日申請之美國臨時申請案第62 /742 , 324 號之權利，該申請案之全部內容特此以引用的方式併入本文中。

下文參考圖式描述本發明之特定實施。在描述中，貫穿圖式藉由共同附圖標號指示共同特徵。如本文所使用，僅僅出於描述特定實施之目的而使用各種術語，且該術語並不意欲為限制性的。舉例而言，單數形式「一」及「該」亦意欲包括複數形式，除非上下文另外清楚地指示。可進一步理解，術語「包含(comprise/comprises/comprising)」可與「包括(include/includes/including)」互換使用。另外，應理解，術語「其中(wherein)」可與「在…的情況下(where)」互換使用。如本文中所使用，「例示性」可指示實例、實施及/或態樣，且不應被視作限制或視為指示偏好或較佳實施。如本文所使用，用以修飾諸如結構、組件、操作等之元件之序數術語(例如，「第一」、「第二」、「第三」等)本身不指示元件關於另一元件之任何優先權或次序，而是僅將元件與具有相同名稱之另一元件區別開(除非使用序數術語)。如本文中所使用，術語「集合」係指一或多個元件之群組，且術語「複數個」係指多個元件。

如本文中所使用，「耦接」可包括「以通信方式耦接」、「電性耦接」或「實體耦接」，且亦可(或替代地)包括其任何組合。兩個器件(或組件)可經由一或多個其他器件、組件、電線、匯流排、網路(例如，有線網路、無線網路或其組合)等直接地或間接地耦接(例如，以通信方式耦接、電性耦接或實體耦接)。作為說明性非限制性實例，電性耦接之兩個器件(或組件)可包括於相同器件或不同器件中，且可經由電子件、一或多個連接器或電感性耦接連接。在一些實施中，諸如在電通信中以通信方式耦接之兩個器件(或組件)可諸如經由一或多個導線、匯流排、網路等直接或間接地發送及接收電信號(數位信號或類比信號)。如本文中所使用，「直接耦接」可包括在無介入組件之情況下耦接(例如，以通信方式耦接、電性耦接或實體耦接)的兩個器件。

如本文中所使用，「整合式」可包括「與…一起製造或出售」。若使用者購買捆綁或包括作為封裝之部分之器件的封裝，則該器件可為整合式的。在一些描述中，兩個器件可耦接，但未必係整合式的(例如，不同周邊器件可不整合至一命令器件中，但仍可「耦接」)。另一實例可為本文中描述之收發器或天線中之任一者，該等收發器或天線可「耦接」至處理器，但未必為包括AR、VR或MR器件之封裝的部分。在使用術語「整合」時，可自本文中所揭示之上下文(包括此段)推斷出其他實例。

如本文中所使用，器件之間的「無線」連接可基於各種無線技術，諸如藍芽、無線保真(Wi-Fi)或Wi-Fi之變體(例如Wi-Fi直連)。器件可基於不同蜂巢式通信系統「無線連接」，該等通信系統諸如長期演進(LTE)系統、分碼多重存取(CDMA)系統、全球行動通信系統(GSM)系統、無線局域網路(WLAN)系統或某一其他無線系統。CDMA系統可實施寬頻CDMA (WCDMA)、CDMA 1X、演進資料最佳化(EVDO)、分時同步CDMA (TD-SCDMA)，或某一其他版本之CDMA。另外，當兩個器件處於視線內時，「無線連接」亦可基於其他無線技術，諸如超音波、紅外線、脈衝射頻電磁能量、結構化光，或用於信號處理(例如，音訊信號處理或射頻處理)之定向到達技術。

如本文中所使用，A「及/或」B可意謂「A及B」或「A或B」或該兩者「A及B」及「A或B」均為可適用或可接受的。

術語「計算器件」在本文中一般用以指代伺服器、個人電腦、膝上型電腦、平板電腦、行動器件、蜂巢式電話、智慧筆記型電腦、超級本、掌上型電腦、個人資料助理(PDA)、無線電子郵件接收器、具多媒體網際網路功能之蜂巢式電話、全球定位系統(GPS)接收器、無線遊戲控制器及包括用於無線發送及/或接收資訊的可程式化處理器及電路之類似電子器件中之任一者或所有。

市場上存在各種基於「環繞聲」通道之格式，範圍例如自5.1家庭影院系統(就進軍客廳而言其已超過立體聲係最成功的)至藉由NHK (日本廣播協會或日本廣播公司)開發的22.2系統。內容創建者(例如，好萊塢工作室)將希望一次性產生影片之音軌，而不花費精力來針對每一潛在揚聲器組態對音軌進行重混。運動圖像專家組(MPEG)已發佈一標準，該標準允許聲場使用元素(例如，高階立體混響HOA係數)之階層集合來表示，對於大多數揚聲器組態(包括無論在由各種標準定義之位置中或在不均勻位置中的5.1及22.2組態)，該等元素之集合可顯現至揚聲器饋送。

MPEG發佈如MPEG-H 3D音訊標準(由ISO/IEC JTC 1/SC 29闡述，具有文件識別符ISO/IEC DIS 23008-3，正式地名為「Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio」，且日期為2014年7月25日)之標準。MPEG亦發佈3D音訊標準之第二版本，由ISO/IEC JTC 1/SC 29闡述，具有文件識別符ISO/IEC 23008-3:201x(E)，名為「Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio」，且日期為2016年10月12日。在本發明中對「3D音訊標準」之參考可指上述標準中之一者或兩者。

如上文所提及，元素之階層集合的一個實例為球狀和諧係數(SHC)之集合。以下表達式表明使用SHC對聲場之描述或表示：

表達式展示在時間t 處，聲場之任一點處的壓力p_i 可由SHC，即

，唯一地表示。此處，

，c 為聲音之速度(~343 m/s)，

為參考點(或觀測點)，

為階數n 之球狀貝塞爾函數，且

為階數n 及子階數m 之球狀和諧基底函數(其亦可被稱作球狀基底函數)。可認識到，方括弧中之項為信號之頻域表示(亦即，

)，其可藉由各種時間-頻率變換(諸如，離散傅立葉變換(DFT)、離散餘弦變換(DCT)或小波變換)來近似。階層集合之其他實例包括小波變換係數之集合及多解析度基底函數係數之其他集合。

圖1為說明自零階(n = 0)至四階(n = 4)之球狀和諧基底函數的圖。如可見，對於每一階數而言，存在子階數m 之擴展，出於易於說明之目的，在圖1之實例中展示了該等子階數但未顯式地註釋。

可由各種麥克風陣列組態實體地獲取(例如，記錄) SHC

，或替代地，其可自聲場之基於通道或基於物件之描述導出。SHC(其亦可被稱為高階立體混響HOA係數)表示基於場景之音訊，其中SHC可輸入至音訊編碼器以獲得可促進更高效傳輸或儲存的經編碼SHC。舉例而言，可使用涉及(1+4)² (25，且因此為四階)係數之四階表示。

如上文所提到，可使用麥克風陣列自麥克風記錄導出SHC。可如何自麥克風陣列導出SHC之各種實例描述於Poletti,M之「Three-Dimensional Surround Sound Systems Based on Spherical Harmonics」(J. Audio Eng. Soc., 第53卷, 第11期, 2005年11月，第1004-1025頁)中。

為了說明可如何自基於物件之描述導出SHC，考慮以下方程式。可將對應於個別音訊物件之聲場之係數

表達為：

其中i為

，

為n階之球面漢克函數(第二種類)，且

為物件之位置。知曉隨頻率變化之物件源能量

(例如，使用時間-頻率分析技術，諸如，對PCM串流執行快速傅立葉變換)允許吾人將每一PCM物件及對應位置轉換成SHC

。另外，可展示(由於上式為線性及正交分解)：每一物件之

係數為相加性的。以此方式，數個PCM物件可由

係數(例如，作為個別物件之係數向量的總和)來表示。基本上，該等係數含有關於聲場之資訊(作為3D座標之函數的壓力)，且上式表示在觀測點

附近自個別物件至總聲場之表示的變換。下文在基於SHC之音訊寫碼的上下文中描述剩餘圖。

圖2A及圖2B為說明可執行本發明中描述之技術的各種態樣之系統的圖式。如圖2A之實例中所展示，系統10包括源器件12及內容消費者器件14。雖然在源器件12及內容消費者器件14之上下文中描述，但技術可實施在其中聲場之任一表示(包括基於場景之音訊資料(諸如HOA係數)、基於物件之音訊資料及基於通道之音訊資料)經編碼以形成表示音訊資料之位元串流的任一上下文中。

此外，源器件12可表示能夠產生聲場表示之任何形式的計算器件。源器件12通常本文中在為VR內容創建者器件之上下文中描述，但源器件12可採取其他形式。同樣，內容消費者器件14可表示能夠實施本發明中描述之技術以及音訊播放之任何形式的計算器件。內容消費者器件14通常本文中在為VR用戶端器件之上下文中描述，但可採取其他形式。

源器件12可由娛樂公司或產生多通道音訊內容以供內容消費者器件(諸如內容消費者器件14)之操作者消費的其他實體來操作。在許多VR情境中，源器件12結合視訊內容產生音訊內容。源器件12包括內容捕捉器件300及內容捕捉輔助器件302。內容捕捉器件300可經組態以與麥克風5介接或以其他方式通信。麥克風5可表示Eigenmike®或能夠捕捉聲場且將聲場表示為音訊資料11之其他類型的3D音訊麥克風。

在一些實例中，內容捕捉器件300可包括整合至內容捕捉器件300之外殼中的整合式麥克風5。內容捕捉器件300可無線地或經由有線連接與麥克風5介接。替代經由麥克風5捕捉或結合捕捉音訊資料，在無線地經由某一類型之可移式儲存器及/或經由有線輸入程序輸入音訊資料11之後，內容捕捉器件300可處理音訊資料11。如此，根據本發明，內容捕捉器件300與麥克風5之各種組合係可能的。

內容捕捉器件300亦可經組態以與聲場表示產生器302介接或以其他方式通信。聲場表示產生器302可包括能夠與內容捕捉器件300介接之任何類型的硬體器件。聲場表示產生器302可使用藉由內容捕捉器件300提供之音訊資料11以產生由音訊資料11表示的同一聲場之各種表示。舉例而言，為使用音訊資料11產生聲場之不同表示，聲場表示產生器302可使用用於聲場之立體混響表示的寫碼方案，被稱作如在2017年8月8日申請之在2019年9月3日授予的名為「MIXED-ORDER AMBISONICS (MOA) AUDIO DATA FOR COMPUTER-MEDIATED REALITY SYSTEMS」之美國專利10,405,126中更詳細論述的混合階立體混響(MOA)。

為產生聲場之特定MOA表示，聲場表示產生器302可產生HOA係數之全集的部分子集。舉例而言，由聲場表示產生器302所產生之每一MOA表示可相對於聲場之一些區域提供精確度，但於其他區域中精確度較小。在一個實例中，聲場之MOA表示可包括八個(8)未經壓縮HOA係數，而同一聲場之三階HOA表示可包括十六個(16)未經壓縮HOA係數。如此，相較於自HOA係數所產生之同一聲場的對應三階HOA表示，產生為HOA係數之部分子集的聲場之每一MOA表示可為較低儲存器密集型且較低帶寬密集型(若且當作為位元串流21之部分在所說明傳輸同道上傳輸時)。

儘管參照MOA表示來描述，但本發明之技術亦可參照全階立體混響(FOA)表示來執行，在該全階立體混響表示中，所給階數N之所有HOA係數用以表示聲場。換言之，替代使用音訊資料11之部分非零子集來表示聲場，聲場表示產生器302可使用所給階數N之所有音訊資料11來表示聲場，產生等於(N+1)² 之總HOA係數。

就此而言，高階立體混響音訊資料11可包括與具有一或小於一之階數的球狀基底函數相關聯之高階立體混響係數11 (其可稱作「一階立體混響音訊資料11」)、與具有混合階數及子階數的球狀基底函數相關聯之高階立體混響係數(其可稱作上文所論述之「MOA表示」)，或與具有大於一之階數的球狀基底函數相關聯之高階立體混響係數(其在上文稱作「FOA表示」)。

在一些實例中，內容捕捉器件300可經組態以與聲場表示產生器302無線地通信。在一些實例中，內容捕捉器件300可經由無線連接或有線連接中之一者或兩者與聲場表示產生器302通信。經由內容捕捉器件300與聲場表示產生器302之間的連接，內容捕捉器件300可以各種內容形式提供內容，出於論述之目的該等形式本文中描述為音訊資料11之部分。

在一些實例中，內容捕捉器件300可充分利用聲場表示產生器302之各種態樣(就聲場表示產生器302之硬體或軟體能力而言)。舉例而言，聲場表示產生器302可包括專用硬體，該專用硬體經組態以(或專用軟體，其在執行時促使一或多個處理器)執行音質音訊編碼(諸如表示為由運動圖像專家組(MPEG)或MPEG-H 3D音訊寫碼標準闡述之「USAC」的通用語音及音訊寫碼器)。內容捕捉器件300可能不包括音質音訊編碼器專用硬體或專用軟體，且替代地以非音質音訊寫碼形式提供內容301之音訊態樣。聲場表示產生器302可藉由關於內容301之音訊態樣至少部分地執行音質音訊編碼來輔助內容301之捕捉。

聲場表示產生器302亦可藉由至少部分地基於由音訊資料11產生的音訊內容(例如MOA表示及/或三階HOA表示)產生一或多個位元串流21而輔助內容捕捉及傳輸。位元串流21可表示音訊資料11及任何其他不同類型的內容301之經壓縮版本(諸如球狀視訊資料、影像資料或文字資料之經壓縮版本)。

聲場表示產生器302可產生位元串流21以供(作為一個實例)跨越傳輸通道傳輸，該傳輸通道可為有線或無線通道、資料儲存器件或其類似者。位元串流21可表示音訊資料11之經編碼版本且可包括主位元串流及另一旁側位元串流，其可被稱作旁側通道資訊。在一些情況下，表示音訊資料之經壓縮版本的位元串流21可符合根據MPEG-H 3D音訊寫碼標準所產生之位元串流。

內容消費者器件14可由個人來操作且可表示VR用戶端器件。儘管參照VR用戶端器件來描述，但內容消費者器件14可表示其他類型之器件，諸如擴充實境(AR)用戶端器件、混合實境(MR)用戶端器件、標準電腦、頭戴裝置、頭戴式耳機或能夠追蹤操作用戶端消費者器件14之個人的頭部移動及/或一般平移移動之任何其他器件。如圖2A之實例中所展示，內容消費者器件14包括音訊播放系統16，其可指能夠顯現音訊資料(包括SHC (不論呈三階HOA表示及/或MOA表示之形式)、音訊物件及音訊通道中之一或多者)以作為多通道音訊內容播放的任何形式音訊播放系統。

雖然在圖2A中經展示為直接傳輸至內容消費者器件14，但源器件12可將位元串流21輸出至位於源器件12與內容消費者器件14之間的中間器件。該中間器件可儲存位元串流21以供稍後遞送至可能請求位元串流之內容消費者器件14。該中間器件可包含檔案伺服器、網頁伺服器、桌上型電腦、膝上型電腦、平板電腦、行動電話、智慧型手機，或能夠儲存位元串流21以供音訊解碼器稍後擷取之任何其他器件。該中間器件可駐留於能夠將位元串流21 (且可能結合傳輸對應視訊資料位元串流)串流傳輸至請求位元串流21之訂戶(諸如，內容消費者器件14)的內容遞送網路中。

可替代地，源器件12可將位元串流21儲存至儲存媒體，諸如緊密光碟、數位視訊光碟、高清晰度視訊光碟或其他儲存媒體，該等儲存媒體中之大多數能夠由電腦讀取且因此可稱作電腦可讀儲存媒體或非暫時性電腦可讀儲存媒體。在此上下文中，傳輸通道可指藉以傳輸儲存至該等媒體之內容的通道(且可包括零售商店及其他基於商店之遞送機構)。在任何情況下，本發明之技術因此就此而言不應限於圖2A之實例。

如上文所提及，內容消費者器件14包括音訊播放系統16。音訊播放系統16可表示能夠播放基於通道之音訊資料之任何系統。音訊播放系統16可包括數個不同顯現器22。顯現器22可各自提供不同形式之顯現，其中不同形式之顯現可包括執行基於向量之振幅移動(VBAP)之各種方式中的一或多者及/或執行聲場合成之各種方式中的一或多者。如本文中所使用，「A及/或B」意謂「A或B」，或「A及B」兩者。

音訊播放系統16可進一步包括音訊解碼器件24。音訊解碼器件24可表示經組態以解碼位元串流21以輸出音訊資料15 (作為一個實例，音訊資料再次可包括形成全三階HOA表示或其子集的HOA，該子集形成同一聲場之MOA表示或其分解，諸如主導音訊信號、環境HOA係數，及在MPEG-H 3D音訊寫碼標準中描述的基於向量之信號)的器件。如此，音訊資料15可類似於HOA係數之全集或部分子集，但可能由於有損操作(例如量化)及/或經由傳輸通道之傳輸而不同。音訊播放系統16可在解碼位元串流21以獲得音訊資料15之後顯現音訊資料15以輸出揚聲器饋送25。揚聲器饋送25可驅動一或多個揚聲器(出於易於說明之目的，其未在圖2A之實例中展示)。可以數種方式將聲場之立體混響表示標準化，該等方式包括N3D、SN3D、FuMa、N2D或SN2D。

為了選擇適當顯現器或在一些情況下產生適當顯現器，音訊播放系統16可獲得指示擴音器之數目及/或擴音器之空間幾何佈置的擴音器資訊13。在一些情況下，音訊播放系統16可使用參考麥克風且以使得動態地判定擴音器資訊13之方式驅動擴音器而獲得擴音器資訊13。在其他情況下或結合擴音器資訊13之動態判定，音訊播放系統16可提示使用者與音訊播放系統16介接且輸入擴音器資訊13。

音訊播放系統16可基於擴音器資訊13選擇音訊顯現器22中之一者。在一些情況下，當音訊顯現器22中無一者在與擴音器資訊13中所指定之擴音器幾何佈置處於某一臨限相似度量測(按照擴音器幾何佈置)內時，音訊播放系統16可基於擴音器資訊13產生音訊顯現器22中的一者。在一些情況下，音訊播放系統16可基於擴音器資訊13產生音訊顯現器22中之一者，而不會首先試圖選擇音訊顯現器22中之現有的一者。

在將揚聲器饋送25輸出至頭戴式耳機時，音訊播放系統16可利用顯現器22中之一者，該等顯現器使用頭相關變換函數(HRTF)或能夠顯現頭戴式耳機揚聲器播放之左側及右側揚聲器饋送25的其他函數來提供雙耳顯現。術語「揚聲器」或「換能器」一般可指任何揚聲器，包括擴音器、頭戴式耳機揚聲器等。一或多個揚聲器可隨後播放顯現之揚聲器饋送25。

儘管描述為自音訊資料11'顯現揚聲器饋送25，但對揚聲器饋送25之顯現的參考可指其他類型之顯現，諸如直接併入至自位元串流21對音訊資料15之解碼中的顯現。替代顯現之一實例可發現於MPEG-H 3D音訊寫碼標準之Annex G中，其中顯現發生於在聲場合成之前的主導信號形成及背景信號形成期間。如此，對音訊資料15之顯現的參考應理解為對實際音訊資料15之顯現或分解兩者或其音訊資料15(諸如上文所提及之主導音訊信號、環境HOA係數及/或基於向量之信號-其亦可稱作V向量)之表示的參考。

如上文所描述，內容消費者器件14可表示其中人類穿戴式顯示器安裝於操作VR器件之使用者的眼睛前方之VR器件。圖3為說明由使用者402穿戴之VR器件400之一實例的圖式。VR 器件400耦接至頭戴式耳機404或以其他方式包括頭戴式耳機404，頭戴式耳機可經由播放揚聲器饋送25而再現由音訊資料11'表示的聲場。揚聲器饋送25可表示能夠促使頭戴式耳機404之換能器內的膜以不同頻率振動之類比或數位信號，其中此程序通常稱作驅動頭戴式耳機404。

視訊、音訊及其他感官資料可於VR體驗中起重要作用。為參與VR體驗，使用者402可穿戴VR器件400 (其亦可稱作VR頭戴裝置400)或其他穿戴式電子器件。VR用戶端器件(諸如VR頭戴裝置400)可追蹤使用者402之頭部移動，並經由VR頭戴裝置400使所展示視訊資料適應頭部移動，提供其中使用者402可體驗到以視覺三維形式展示於視訊資料中之虛擬世界的沉浸式體驗。

當VR(及其他形式之AR及/或MR)可使得使用者402駐留於虛擬世界視覺中時，通常VR頭戴裝置400可能缺乏將使用者有聲地置於虛擬世界中之能力。換言之，VR系統(其可包括負責顯現視訊資料及音訊資料之電腦及VR頭戴裝置400-出於易於說明之目的，該電腦未展示於圖3之實例中)可能無法有聲地支援全三維沉浸。

音訊通常向使用者提供零自由度(0 DOF)，意謂使用者移動不改變音訊顯現。然而，VR可向使用者提供一些自由度，意謂音訊顯現可基於使用者移動而改變。VR之音訊態樣已經分為三種獨立之沉浸類別。第一類別提供最低水平之沉浸且稱作三個自由度(3DOF)。3DOF係指考慮頭部於三個自由度(橫擺、俯仰及橫滾)中之移動的音訊顯現，進而使得使用者在任何方向上自由環顧。然而，3DOF未能考慮到其中頭部並不以聲場之光學及聲學中心為中心的平移頭部移動。

由於遠離聲場內之光學中心及聲學中心的頭部移動，除受限空間平移移動以外，稱作3DOF加(3DOF+)之第二類別亦提供三個自由度(橫擺、俯仰及橫滾)。3DOF+可提供對諸如運動位差之知覺效應的支援，其可增強沉浸之感覺。

稱作六個自由度(6DOF)之第三類別以考慮頭部移動(橫擺、俯仰及橫滾)之三個自由度並且考慮使用者在空間中之平移(x平移、y平移及z平移)的方式顯現音訊資料。空間平移可藉由感測器追蹤使用者於實體世界中之位置或藉助於輸入控制器來誘導。

圖4為說明用於AVR及/或AR應用之六個自由度(6-DOF)頭部移動方案的圖式。如圖4中所示，除3-DOF方案以外，6-DOF方案還包括三條額外移動線。更特定言之，除了上文所論述之旋轉軸之外，圖4之6-DOF方案還包括使用者之頭部位置可以平移方式移動或致動所沿著的三條線。三個平移方向為左-右(L/R)、上-下(U/D)，及前-後(F/B)。源器件12之音訊編碼器件及/或音訊解碼器件24可實施位差處置，以處理三個平移方向。舉例而言，音訊解碼器件24可應用一或多個傳輸因數以調節各種前景音訊物件之能量及/或方向資訊以基於VR/AR使用者之運動的6-DOF範圍實施位差調節。

根據本發明之一個實例，源器件12可產生表示在複數個捕捉位置處捕捉的一聲場之音訊資料、使得待顯現之該音訊資料能夠支援至少五個自由度之後設資料，及使得待顯現之該音訊資料能夠支援少於五個自由度的調適後設資料。內容消費者器件14可接收並儲存表示在複數個捕捉位置處捕捉的該聲場之音訊資料、使得待顯現之該音訊資料能夠支援至少五個自由度之後設資料及使得待顯現之該音訊資料能夠支援少於五個自由度的調適後設資料。內容消費者器件14可基於該調適後設資料調適該音訊資料以提供少於五個自由度，且音訊顯現器22可基於該經調適音訊資料產生揚聲器饋送。

根據本發明之另一實例，源器件12可產生表示在複數個捕捉位置處捕捉的一聲場之音訊資料、使得待顯現之該音訊資料能夠支援六個自由度之後設資料，及使得待顯現之該音訊資料能夠支援少於六個自由度的調適後設資料。內容消費者器件14可接收並儲存表示在複數個捕捉位置處捕捉的該聲場之音訊資料、使得待顯現之該音訊資料能夠支援六個自由度之後設資料及使得待顯現之該音訊資料能夠支援少於六個自由度的調適後設資料。內容消費者器件14可基於該調適後設資料調適該音訊資料以提供少於六個自由度，且音訊顯現器22可基於該經調適音訊資料產生揚聲器饋送。

根據本發明之另一實例，內容消費者器件14可儲存表示在複數個捕捉位置處捕捉的一聲場之音訊資料；判定一使用者位置；基於該使用者位置調適該音訊資料以提供M個自由度，其中M包含整數值；及基於該經調適音訊資料產生揚聲器饋送。為判定該使用者位置，內容消費者器件14可顯示複數個使用者位置並自使用者接收指示該複數個位置中之一者的輸入。為判定使用者位置，內容消費者器件14可顯示一軌跡；自使用者接收指示該軌跡上之一位置的一輸入；及基於該軌跡之該位置選擇複數個位置中的一者作為該使用者位置。為判定使用者位置，內容消費者器件14可偵測使用者之一移動並基於該移動選擇一位置。內容消費者器件14可基於該移動自複數個位置中選擇該位置。

根據本發明之另一實例，內容消費者器件14可儲存表示在複數個捕捉位置處捕捉的一聲場之音訊資料；調適該音訊資料以提供M個自由度；基於具有該M個自由度之該經調適音訊資料產生揚聲器饋送；調適該音訊資料以提供N個自由度；及基於具有N個自由度之該經調適音訊資料產生揚聲器饋送。內容消費者器件14可經進一步組態以在基於具有M個自由度之經調適音訊資料及具有N個自由度之經調適音訊資料產生揚聲器饋送之間切換。舉例而言，內容消費者器件14可回應於使用者輸入或使用者移動而執行此切換。

儘管參照如圖3之實例中所示的VR器件來描述，但該等技術可藉由包括以下各者之其他類型的穿戴式器件來執行：手錶(諸如所謂「智慧型手錶」)、眼鏡(諸如所謂「智慧型眼鏡」)、頭戴式耳機(包括經由無線連接耦接之無線頭戴式耳機或經由有線或無線連接耦接之智慧型頭戴式耳機)及任何其他類型之穿戴式器件。如此，該等技術可藉由在由使用者穿戴時，使用者可藉以與穿戴式器件互動之任何類型的穿戴式器件來執行。

圖2B為說明經組態以執行本發明中描述之技術的各種態樣之另一實例系統100的方塊圖。除圖2A中所展示之音訊顯現器22藉由能夠使用一或多種HRTF或能夠顯現左側及右側揚聲器饋送103之其他功能來執行雙耳顯現的雙耳顯現器102替換以外，系統100類似於圖2A中所展示之系統10。

音訊播放系統16可將左側及右側揚聲器饋送103輸出至頭戴式耳機104，該頭戴式耳機可表示穿戴式器件之另一實例且其可經耦接至額外穿戴式器件以便於聲場之再現，諸如手錶、上文所提及之VR頭戴裝置、智慧型眼鏡、智慧型服飾、智慧型戒指、智慧型手鐲或任何其他類型之智慧型珠寶(包括智慧型項鏈)及其類似物。頭戴式耳機104可以無線方式或經由有線連接耦接至額外穿戴式器件。

另外，頭戴式耳機104可經由有線連接(諸如標準3.5 mm音訊插口、通用系統匯流排(USB)連接、光學音訊插口或其他形式之有線連接)或以無線方式(諸如藉助於Bluetooth™連接、無線網路連接及其類似者)耦接至音訊播放系統16。頭戴式耳機104可基於左側及右側揚聲器饋送103來重建由音訊資料11表示之聲場。頭戴式耳機104可包括由對應左側及右側揚聲器饋送103供電(或換言之驅動)之左側頭戴式耳機揚聲器及右側頭戴式耳機揚聲器。

圖5為更詳細說明圖2A及圖2B中所展示的音訊播放系統之方塊圖。如圖5之實例中所示，除上述音訊解碼器件24以外，音訊播放系統16亦包括效應單元510及顯現單元512。效應單元510表示經組態以獲得上文所描述之效應矩陣26 (於圖5之實例中展示為「EM 26」)的單元。顯現單元512表示經組態以判定及/或應用上文所描述的音訊顯現器22 (於圖5之實例中展示為「AR 22」)中之一或多者的單元。

如上文所提及，音訊解碼器件24可表示經組態以根據MPEG-H 3D音訊寫碼標準來解碼位元串流21之單元。音訊解碼器件24可包括位元串流提取單元500、反增益控制及再指派單元502、主導聲音合成單元504、環境合成單元506及複合單元508。關於前述單元500至單元508中之每一者的更多資訊可發現於MPEG-H 3D音訊寫碼標準中。

雖然詳細地描述於MPEG-H 3D音訊寫碼標準中，但在下文提供單元500至單元508中之每一者的簡要描述。位元串流提取單元500可表示經組態以提取音訊資料之分解以及構成由音訊資料11限定的聲場之表示所需要的其他語法元素或資料的單元。位元串流提取單元500可識別位元串流11中之一或多個輸送通道501，該等通道中之每一者可指定環境音訊信號或主導音訊信號。位元串流提取單元500可提取輸送通道501並將輸送通道501輸出至反增益控制及再指派單元502。

儘管出於易於說明之目的而未於圖5之實例中展示，但音訊解碼器件24可包括參照輸送通道501來執行音質音訊解碼(例如高級音訊寫碼-AAC)之音質音訊解碼器。此外，音訊解碼器件24可包括執行未展示於圖5之實例中之各種其他操作的其他單元，該等其他操作諸如輸送通道501之間的衰減及其類似者。

位元串流提取單元500可進一步提取限定語法元素及用於執行增益控制及指派之其他資料的旁側資訊521。位元串流提取單元500可將旁側資訊521輸出至反增益控制及再指派單元502。

位元串流提取單元500亦可提取限定語法元素及用於執行主導聲音合成之其他資料的旁側資訊523 (包括限定對應主導音訊信號之空間特性-諸如寬度、方向及/或形狀-的向量，該主導音訊信號限定於輸送通道501中)。另外，位元串流提取單元500可提取限定語法元素及用於執行環境合成之其他資料的旁側資訊525。位元串流提取單元500將旁側資訊523輸出至主導聲音合成單元504，且將旁側資訊525輸出至環境合成單元506。

反增益控制及再指派單元502可表示經組態以基於旁側資訊521參照輸送通道501執行反增益控制及再指派之單元。反增益控制及再指派單元502可基於旁側資訊521判定增益控制資訊，且將增益控制資訊應用於輸送通道501中之每一者，從而將應用於藉由聲場表示產生302所實施的音訊編碼器件處之增益控制反轉，以致力於降低輸送通道501之動態範圍。接下來，反增益控制及再指派單元502可基於旁側資訊523判定輸送通道501中之每一者係指定主導音訊信號503亦或環境音訊信號505。反增益控制及再指派單元502可將主導音訊信號503輸出至主導聲音合成單元504，且將環境音訊信號505輸出至環境合成單元506。

主導聲音合成單元504可表示經組態以基於旁側資訊523合成由音訊資料11所表示的聲場之主導音訊分量的單元。主導聲音合成單元504可將主導音訊信號503中之每一者與旁側資訊523中所指定之對應空間向量(其亦可稱作「基於向量之信號」)相乘。主導聲音合成單元504向複合單元508輸出乘積之結果作為主導聲音表示507。

環境合成單元506可表示經組態以基於旁側資訊525合成由音訊資料11所表示的聲場之環境分量的單元。環境合成單元506向複合單元508輸出合成之結果作為環境聲音表示509。

複合單元508可表示經組態以基於主導聲音表示507及環境聲音表示509構成音訊資料15之單元。在一些實例中，複合單元508可添加主導聲音表示507至環境聲音表示509以獲得音訊資料15。複合單元508可將音訊資料15輸出至效應單元510。

效應單元510可表示經組態以執行本發明中所描述之效應技術之各種態樣以基於平移距離17或(如下文更詳細描述)平移距離17及深度映射513來產生EM 26的單元。

圖5中所展示的深度映射513係由照片產生。深度映射513中之區域愈白，當拍攝照片時該區域距攝影機愈近。深度映射513中之區域愈暗，當拍攝照片時該區域離攝影機愈遠。效應單元510可將EM 26應用於音訊資料15以獲得經調適音訊資料511。經調適音訊資料511可經調適以提供於聲場中考慮由平移距離17所指示之平移頭部移動的三個自由度加效應。效應單元510可將經調適音訊資料511輸出至顯現單元512。

顯現單元512可表示經組態以將一或多個AR 22應用於經調適音訊資料511且藉此獲得揚聲器饋送25之單元。顯現單元512可將揚聲器饋送25輸出至圖3之實例中所展示的頭戴式耳機404。

儘管描述為獨立單元510及單元512，但效應單元510可併入顯現單元512內，其中以下文更詳細描述之方式將EM 26乘以AR 22中之所選定者。EM 26與AR 22中之所選定者的乘積可產生經更新之AR (其可表示為「經更新AR 22」)。顯現單元512可隨後將經更新AR 22應用於音訊資料15，從而調適音訊資料15以提供考慮平移距離17之3DOF+效應並顯現揚聲器饋送25。

圖6為更詳細說明展示於圖5之實例中之效應單元如何根據本發明中描述之技術的各種態樣獲得效應矩陣之圖式。如圖6之實例中所示，使用者402最初駐留於經重建聲場600中間，如在圖6左側所標示之「最初使用者位置(INITIAL USER LOCATION)」所展示。當展示為圓形時，經重建聲場600經模型化為以參考距離602環繞使用者402之球體。在一些實例中，使用者402可在對用於播放音訊資料之VR器件14進行組態時輸入參考距離602。在其他實例中，參考距離602為靜態的，或經限定為位元串流21之語法元素。當使用語法元素來限定時，參考距離602可為靜態(諸如單次發送且因此在體驗之持續時間中為靜態)或動態(諸如在體驗期間多次發送，例如每音訊訊框或每一些週期性或非週期性數目之音訊訊框)。

效應單元510可接收參考距離602並於平移頭部移動606之前判定位於離使用者402之頭部參考距離602處之錨點604。錨點604於圖6之實例中經展示為「X」標記。效應單元510可將錨點604判定為具有等於參考距離602之半徑的球體聲場600之表面上的複數個均勻分佈錨點。在其他實例中，錨點可由攝影機(圖中未示)判定且可經提供至效應單元510。

錨點604可表示藉以判定平移頭部移動606之參考點。換言之，錨點604可表示圍繞可藉以判定平移頭部移動606以便調適聲場之球體聲場600分佈的參考點。不應將錨點604與視覺影像搜尋演算法中所理解之錨點或關鍵點相混淆。再者，錨點604可表示離使用者402之頭部參考距離處的參考點，該參考點用於判定相對於錨點604中之每一者的平移頭部移動606。相對於錨點604中之每一者之平移頭部移動606的範圍可能影響對其中駐留有錨點604中之各別一者的聲場之部分的顯現。如此，錨點604亦可表示藉以判定平移頭部移動606並基於相對平移頭部移動606調適聲場之顯現的聲場採樣點。

在任何情況下，使用者402可隨後執行平移頭部移動606，如圖6於標題「在平移移動後的使用者位置(USER LOCATION AFTER TRANSLATIONAL MOVEMENT)」下之實例中所示使頭部向右側移動平移距離17。效應單元510可在平移頭部移動606之後判定相對於複數個錨點604中之每一者的經更新距離608。儘管僅單個經更新距離608展示於圖6之實例中，但效應單元510可判定相對於錨點604中之每一者的經更新距離608。效應單元510可接下來基於經更新距離608中之每一者判定EM 26。

效應單元510可計算每一平移錨定點之遠端依賴型響度調節(呈EM 26形式)。對每一參考點之計算可經表示為

，其中初始參考距離602經表示為dist_ref ，且經更新距離608可經表示為

。對於錨點604中之每一者，效應單元510可使用方程式

來計算

。distPow 參數可控制效應強度，該參數可由使用者402輸入以控制效應強度之幅值。當經描述為受控於使用者402之一變數時，distPow 參數亦可藉由內容創建者動態或靜態地指定。

數學上，環繞使用者402之聲場600可經表示為具有定位於使用者402之頭部處的中心之球體上的M個等距錨點604(其亦可稱作「空間點604」。可變「M」通常經選定以使得M大於或等於(N+1)² ，其中N表示與音訊資料15相關聯之最大階數。

M個等距空間點604產生自使用者402之頭部延伸至M個等距空間點604中之每一者的M個空間方向。M個空間方向可由

_m 表示。效應單元510可基於M個空間方向

_m 來獲得應用於顯現矩陣之EM 26。在一個實例中，效應單元510獲得根據與M個空間方向中之每一者相關聯之HOA係數計算的EM 26。效應單元510可隨後針對空間方向l =1…M中之每一者執行響度補償，該響度補償應用於EM 26以產生補償之EM 26。當經描述為M個等距空間點604時，點604亦可為非等距的，或換言之以非均勻方式圍繞球體分佈。

就由MPEG-H 3D音訊寫碼標準「DIS」版本之Annex F.1.5所使用的變量而言，當作為一個實例論述響度補償時，效應單元510可根據與M個空間方向相關聯之HOA係數按以下來計算EM 26：

其中

「

」符號可標示偽逆矩陣操作。

效應單元510可隨後針對每一空間方向l =1…M執行響度補償，根據以下將該響度補償應用於矩陣F：

其中

效應單元510可隨後將AR 22中之所選定者(下文由變量「 R 」標示)乘以EM 26 (上文及下文由變量「 F 」標示)以產生上文所論述且如下由變量「 D 」所標示之經更新AR 22。 D = RF

當禁用距離依賴型響度調節時，前述可在數學上表示經去除與g|之乘積的距離獨立型響度調節，產生以下：

在所有其他態樣中，當啟用距離獨立型響度調節時(或換言之，當禁用距離依賴型響度調節時)，數學表示不變。

以此方式，效應單元510可將EM 26提供至顯現單元512，該顯現單元使將音訊資料15自球狀和諧域轉換至空間域揚聲器信號25 (其在此情況下可為將音訊資料顯現為雙耳音訊頭戴式耳機揚聲器信號之雙耳顯現)之音訊顯現器22乘以經補償EM 26，以創建能夠考慮三個自由度及平移頭部移動606兩者之經調適空間顯現矩陣(其在本文中稱作「經更新AR 22」)。

在一些情況下，效應單元510可判定多個EM 26。舉例而言，效應單元510可判定第一頻率範圍之第一EM 26、第二頻率範圍之第二EM 26等。第一EM 26與第二EM 26之頻率範圍可重疊，或可能不重疊(或換言之可彼此不同)。如此，本發明中所描述之技術不應受限於單個EM 26，但應包括多個EM 26之應用，包括(但不限於)實例多個頻率依賴型EM 26。

如上文所論述，效應單元510亦可基於平移距離17及深度映射513來判定EM 26。位元串流21可包括與音訊資料16相對應之視訊資料，其中此類視訊資料與音訊資料16同步(使用例如訊框同步化資訊)。儘管未展示於圖2至圖4之實例中，但用戶端消費者器件14可包括解碼提供視訊資料之對應位元串流的視訊播放系統，該視訊資料可包括深度映射，諸如深度映射513。如上文所提及，深度映射513提供360度虛擬實境場景之灰階表示，其中黑色表示非常遠之距離，且白色表示具有指示黑色與白色之間的中間距離之各種灰度的較近距離。

視訊播放系統之視訊解碼器件可利用深度映射513以根據視訊位元串流中所指定之各別右眼視圖或左眼視圖來調配左眼或右眼的視圖。視訊解碼器件可基於深度映射來改變右眼視圖與左眼視圖之間橫向距離的量，基於較暗灰度按比例調小橫向距離。如此，在深度映射513中以白色或較淺灰度所表示之較近物件可具有左眼與右眼視圖之間的較大橫向距離，而在深度映射513中以黑色或較深灰度所標示之較遠物件可具有左眼與右眼視圖之間的較小橫向距離(藉此更接近類似於遠點)。

效應單元510可利用由深度映射513提供之深度資訊來調適錨點604相對於使用者402之頭部的位置。亦即，效應單元510可將錨點604映射至深度映射513，且利用深度映射513於深度映射513內之所映射位置處的深度資訊來識別錨點604中之每一者的更精確參考距離602。圖7為說明圖5中所示之深度映射已經更新以根據本發明中描述之技術的各種態樣反映錨點與深度映射之映射的圖式。

就此而言，替代假設單個參考距離602，效應單元510可利用深度映射513來估計錨點604中之每一者的個別參考距離602。如此，效應單元510可判定相對於錨點604之經個別判定之參考距離602中之每一者的經更新距離608。

雖然經描述為參照灰階深度映射513來執行，但該等技術可參照提供深度資訊之其他類型的資訊來執行，諸如色彩影像、色階或灰階立體影像、紅外攝影機影像等。換言之，該等技術可參照提供與對應音訊資料15相關聯之場景的深度資訊之任何類型的資訊來執行。

圖8為描繪根據本發明之技術的流程圖。音訊播放系統16可接收位元串流21且可將其中所含有的音訊資料儲存於記憶體中(202)。音訊播放系統16亦可將含於位元串流21中之後設資料儲存於記憶體中(204)。另外，音訊播放系統16可將調適後設資料儲存於記憶體中(206)。舉例而言，調適後設資料可包括使用者位置及使用者定向中之一或多者。在一些實例中，某些調適後設資料(諸如使用者位置及使用者定向)含於位元串流21中。在其他實例中，使用者位置及使用者定向不含於位元串流21中，但藉由使用者輸入接收。

音訊播放系統16可隨後基於調適後設資料調適音訊資料(208)。舉例而言，音訊播放系統16可調適音訊資料以提供比源器件12創建的更少之自由度。在一些實例中，音訊播放系統16可在調適音訊資料時將效應矩陣(諸如效應矩陣26)應用於音訊資料。在一些實例中，音訊播放系統16可基於使用者位置判定效應矩陣。在一些實例中，音訊播放系統16可將效應矩陣26乘以顯現矩陣以獲得經更新顯現矩陣。在一些實例中，音訊播放系統16可獲得指示使用者402之旋轉頭部移動的旋轉指示且可基於該旋轉指示及調適後設資料來調適音訊資料。

音訊播放系統16可根據經調適音訊資料產生揚聲器饋送(210)。揚聲器饋送可經組態用於與頭戴式耳機、擴音器或任何其他類型之揚聲器一起使用。在一些實例中，音訊播放系統16可將經更新顯現矩陣應用於音訊資料以產生揚聲器饋送。在一些實例中音訊播放系統16可將雙耳顯現應用於經調適高階立體混響音訊資料以產生揚聲器饋送。

在一些實例中，音訊播放系統16可輸出揚聲器饋送(212)至揚聲器。在一些實例中音訊播放系統可再現一或多個揚聲器(諸如頭戴式耳機或一或多個擴音器)上之聲場(214)。

圖9為展示圖2A及圖2B之系統可如何處理音訊資料之圖式。在圖9之實例中，源器件12編碼6DOF內容並傳輸位元串流21 (其包括6DOF內容)至音訊播放系統16。在圖9之實例中，音訊播放系統16支援6DOF內容，且因此顯現6DOF內容並基於6DOF內容產生揚聲器饋送。使用者可利用所有6DOF移動消費6DOF內容，意謂使用者可在3D空間中自由移動。位元串流21包括音訊及後設資料以解碼所有可能的使用者位置。

圖5、圖6、圖7及圖9已描述支援3DOF+及6DOF顯現的音訊播放系統16之實例實施。然而，圖10至圖13描述不支援3DOF+及6DOF顯現或禁用此類功能性的音訊播放系統16之實例實施。

圖10為說明圖2A及圖2B之系統可如何根據本發明之技術處理音訊資料的圖式。在圖10之實例中，源器件12編碼6DOF內容並傳輸位元串流21 (其包括6DOF內容)至音訊播放系統16。在圖10之實例中，音訊播放系統16僅僅支援3DOF內容。因此，音訊播放系統16使6DOF內容適應於3DOF內容並基於3DOF內容產生揚聲器饋送。使用者可利用3DOF移動(例如俯仰、橫擺及橫滾之變化)消費3DOF內容，意謂使用者無法以平移方式移動但可以旋轉方式移動。

在圖10之實例中，位元串流21包括音訊及後設資料以解碼所有可能的使用者位置。位元串流21亦包括調適包括使用者位置資訊之後設資料。音訊播放系統16 (其經假設在圖10之實例中不支援6DOF內容)使用使用者位置資訊以調適6DOF內容以提供3DOF並基於經調適音訊資料產生揚聲器饋送。當由支援6DOF之器件處理時，該器件可忽略包括使用者位置資訊之調適後設資料，意謂支援6DOF之器件可不需要此類資訊。

圖11為說明圖2A及圖2B之系統可如何根據本發明之技術處理音訊資料的圖式。在圖11之實例中，源器件12編碼6DOF內容並傳輸位元串流21 (其包括6DOF內容)至音訊播放系統16。在圖11之實例中，音訊播放系統16僅僅支援3DOF內容。因此，音訊播放系統16使6DOF內容適應於3DOF內容並基於經調適3DOF內容產生揚聲器饋送。使用者可利用3DOF移動(例如俯仰、橫擺及橫滾之變化)消費3DOF內容，意謂使用者無法以平移方式移動但可以旋轉方式移動。

在圖11之實例中，位元串流21包括音訊及後設資料以解碼所有可能的使用者位置。位元串流21亦包括調適包括用於多個位置之使用者位置資訊之後設資料。音訊播放系統16 (其經假設在圖11的實例中不支援6DOF內容)使用來自多個位置中之一者的使用者位置資訊以調適6DOF內容以提供3DOF內容。音訊播放系統16之使用者可選擇多個位置中之一者，且音訊播放系統16可基於所選擇位置之使用者位置資訊使6DOF內容適應於3DOF內容。當由支援6DOF之器件處理時，該器件可忽略包括用於多個位置之使用者位置資訊之調適後設資料，意謂支援6DOF之器件可不需要此類資訊。

圖12為說明圖2A及圖2B之系統可如何根據本發明之技術處理音訊資料的圖式。在圖12之實例中，源器件12編碼6DOF內容並傳輸位元串流21 (其包括6DOF內容)至音訊播放系統16。在圖12之實例中，音訊播放系統16僅僅支援3DOF內容。因此，音訊播放系統16使6DOF內容適應於3DOF內容並基於3DOF內容產生揚聲器饋送。使用者可利用3DOF移動(例如俯仰、橫擺及橫滾之變化)消費3DOF內容，意謂使用者無法以平移方式移動但可以旋轉方式移動。

在圖12之實例中，音訊播放系統16之使用者可自複數個位置中選擇一位置，且音訊播放系統16可傳輸使用者選擇至源器件12。基於使用者選擇，源器件12可產生位元串流21，以使得位元串流21不包括用於解碼所有可能的使用者位置之音訊及後設資料。在圖12之實例中，位元串流21可例如包括音訊及後設資料以解碼藉由使用者所選擇的使用者位置。位元串流21亦包括調適包括用於所選擇位置之使用者位置資訊之後設資料。音訊播放系統16 (其經假設在圖12之實例中不支援6DOF內容)使用使用者位置資訊以調適6DOF內容以提供3DOF並基於經調適音訊資料產生揚聲器饋送。

圖13為說明圖2A及圖2B之系統可如何根據本發明之技術處理音訊資料的圖式。在圖13之實例中，源器件12編碼6DOF內容並傳輸位元串流21 (其包括6DOF內容)至音訊播放系統16。在圖13之實例中，音訊播放系統16僅僅支援0DOF內容。因此，音訊播放系統16使6DOF內容適應於0DOF內容並基於0DOF內容產生揚聲器饋送。使用者可不使用6DOF移動中之任一者消費0DOF內容，意謂使用者無法以旋轉方式或以平移方式移動。

在圖13之實例中，位元串流21包括音訊及後設資料以解碼所有可能的使用者位置。位元串流21亦包括調適包括使用者位置資訊及使用者定向資訊之後設資料。音訊播放系統16 (其經假設在圖13之實例中不支援6DOF內容)使用使用者位置資訊以調適6DOF內容以提供0DOF並基於經調適音訊資料產生揚聲器饋送。當由支援6DOF之器件處理時，該器件可忽略包括使用者位置資訊及使用者定向資訊之調適後設資料，意謂支援6DOF之器件可不需要此類資訊。當由支援3DOF之器件處理時，該器件可基於使用者位置使6DOF內容適應於3DOF但忽略使用者定向資訊。

圖14為說明可根據本發明中所描述之技術的各個態樣來操作之穿戴式器件800之一實例的圖式。在各種實例中，穿戴式器件800可表示VR頭戴裝置(諸如上述VR頭戴裝置400)、AR頭戴裝置、MR頭戴裝置或擴展實境(XR)頭戴裝置。擴充實境「AR」可指重疊於使用者實際上所定位之真實世界上的電腦顯現影像或資料。混合實境「MR」可指鎖定於真實世界中之特定位置之世界的電腦顯現影像或資料，或可指其中部分電腦顯現3D元素及部分攝影真實元素經組合為模擬使用者於環境中之實體存在的沉浸式體驗之VR的變體。擴展實境「XR」可指VR、AR及MR之統稱術語。關於XR之術語的更多資訊可發現於由Jason Peterson之名為「Virtual Reality, Augmented Reality, and Mixed Reality Definitions」且日期為2017年7月7日的文件中。

穿戴式器件800可表示其他類型之器件，諸如手錶(包括所謂「智慧型手錶」)、眼鏡(包括所謂「智慧型眼鏡」)、頭戴式耳機(包括所謂「無線頭戴式耳機」及「智慧型頭戴式耳機」)、智慧型服飾、智慧型珠寶及其類似者。無論係表示VR器件、手錶、眼鏡及/或頭戴式耳機，穿戴式器件800可與經由有線連接或無線連接來支援穿戴式器件800之計算器件通信。

在一些情況下，支援穿戴式器件800之計算器件可經整合於穿戴式器件800內，且如此，穿戴式器件800可視為與支援穿戴式器件800之計算器件相同的器件。在其他情況下，穿戴式器件800可與可支援穿戴式器件800之獨立計算器件通信。就此而言，術語「支援」不應理解為需要獨立專用器件，而經組態以執行本發明中描述之技術之各種態樣的一或多個處理器可經整合於穿戴式器件800內或經整合於與穿戴式器件800分離之計算器件內。

舉例而言，當穿戴式器件800表示VR 器件400時，獨立專用計算器件(諸如包括一或多個處理器之個人電腦)可顯現音訊及視覺內容，而穿戴式器件800可判定平移頭部移動，接著專用計算器件可根據本發明中描述之技術之各種態樣基於平移頭部移動來顯現音訊內容(作為揚聲器饋送)。作為另一實例，當穿戴式器件800表示智慧型眼鏡時，穿戴式器件800可包括判定平移頭部移動(藉由介接於穿戴式器件800之一或多個感測器內)並且基於所判定平移頭部移動來顯現揚聲器饋送之一或多個處理器。

如所展示，穿戴式器件800包括後部攝影機、一或多個定向揚聲器、一或多個追蹤及/或記錄攝影機及一或多個發光二極體(LED)燈。在一些實例中，LED燈可稱作「超亮」LED燈。另外，穿戴式器件800包括一或多個眼睛追蹤攝影機、高靈敏度音訊麥克風及光學/投影硬體。穿戴式器件800之光學/投影硬體可包括持久半透明顯示技術及硬體。

穿戴式器件800亦包括連接性硬體，該連接性硬體可表示支援多模式連接性之一或多個網路介面，諸如4G通信、5G通信等。穿戴式器件800亦包括環境光感測器及骨傳導換能器。在一些情況下，穿戴式器件800亦可包括具有魚眼透鏡及/或攝遠透鏡之一或多個被動及/或主動攝影機。根據本揭示之各種技術，本發明諸如圖2A之內容消費者器件14的各種器件可使用穿戴式器件800之轉向角來選擇聲場之音訊表示(例如MOA表示中之一者)，從而經由穿戴式器件800之方向性揚聲器頭戴式耳機404輸出。將瞭解，穿戴式器件800可呈現多種不同形式因數。

此外，追蹤及記錄攝影機以及其他感測器可促進對平移距離606之判定。儘管未展示於圖14之實例中，但穿戴式器件800可包括上文所論述之MEMS或用於偵測平移距離606之其他類型的感測器。

儘管參照穿戴式器件(諸如上文參照圖3之實例所論述的VR器件400及闡述於圖2A及圖2B之實例中之其他器件)之特定實例來描述，但一般熟習此項技術者將瞭解與圖2A至圖3相關之描述可應用於穿戴式器件之其他實例。舉例而言，諸如智慧型眼鏡之其他穿戴式器件可包括藉以獲得平移頭部移動之感測器。作為另一實例，諸如智慧型手錶之其他穿戴式器件可包括藉以獲得平移移動之感測器。如此，本發明中所描述之技術不應受限於特定類型之穿戴式器件，而係任何穿戴式器件可經組態以執行本發明中所描述之技術。

圖15A及圖15B為說明可執行本發明中描述之技術的各種態樣之實例系統的圖式。圖15A說明其中源器件12進一步包括攝影機200之一實例。攝影機200可經組態以捕捉視訊資料，且提供所捕捉之原始視訊資料至內容捕捉器件300。內容捕捉器件300可將視訊資料提供至源器件12之另一組件，以供進一步處理為經視埠分割部分。

在圖15A之實例中，內容消費者器件14亦包括穿戴式器件800。將理解，在各種實施中，穿戴式器件800可包括於內容消費者器件14中或經外部耦接至該內容消費者器件。如上文參照圖14所論述，穿戴式器件800包括用於輸出視訊資料(例如如與各種視埠相關聯)及用於顯現音訊資料之顯示器硬體及揚聲器硬體。

圖15B說明除圖15A中所展示之音訊顯現器22藉由能夠使用一或多種HRTF或能夠顯現左側及右側揚聲器饋送103之其他功能來執行雙耳顯現的雙耳顯現器102替換以外，類似於由圖15A說明之系統的實例。音訊播放系統16可將左側及右側揚聲器饋送103輸出至頭戴式耳機104。

頭戴式耳機104可經由有線連接(諸如標準3.5 mm音訊插口、通用系統匯流排(USB)連接、光學音訊插口或其他形式之有線連接)或以無線方式(諸如藉助於Bluetooth™連接、無線網路連接及其類似者)耦接至音訊播放系統16。頭戴式耳機104可基於左側及右側揚聲器饋送103來重建由音訊資料表示之聲場。頭戴式耳機104可包括由對應左側及右側揚聲器饋送103供電(或換言之驅動)之左側頭戴式耳機揚聲器及右側頭戴式耳機揚聲器。

應認識到，取決於實例，本文中所描述之技術中之任一者的某些動作或事件可以不同序列被執行、可被添加、合併或完全省去(例如，並非所有所描述動作或事件為實踐該等技術所必要)。此外，在某些實例中，可例如經由多執行緒處理、中斷處理或多個處理器同時而非順序執行動作或事件。

在一些實例中，VR器件(或串流傳輸器件)可使用耦接至VR/串流傳輸器件之記憶體之網路介面將交換訊息傳達至外部器件，其中交換訊息與聲場之多個可用表示相關聯。在一些實例中，VR器件可使用耦接至網路介面之天線來接收包括資料封包、音訊封包、視訊封包之無線信號，或輸送與聲場之多個可用表示相關聯的協定資料。在一些實例中，一或多個麥克風陣列可捕捉聲場。

在一些實例中，儲存至記憶體器件之聲場的多個可用表示可包括聲場之複數個基於物件的表示、聲場之高階立體混響表示、聲場之混合階立體混響表示、聲場之基於物件的表示與聲場之高階立體混響表示之組合、聲場之基於物件的表示與聲場之混合階立體混響表示之組合，或聲場之混合階表示與聲場之高階立體混響表示之組合。

在一些實例中，聲場之多個可用表示的聲場表示中之一或多者可包括至少一個高解析度區及至少一個較低解析度區，且其中基於轉向角之所選呈現針對至少一個高解析度區提供較大空間精確度且針對較低解析度區提供較小空間精確度。

在一或多個實例中，所描述功能可以硬體、軟體、韌體或其任何組合來實施。若以軟體實施，則該等功能可作為一或多個指令或程式碼而儲存於電腦可讀媒體上或經由電腦可讀媒體傳輸，且由基於硬體之處理單元執行。電腦可讀媒體可包括電腦可讀儲存媒體(其對應於諸如資料儲存媒體之有形媒體)或通信媒體(其包括(例如)根據通信協定促進電腦程式自一處傳送至另一處的任何媒體)。以此方式，電腦可讀媒體通常可對應於(1)為非暫時性的有形電腦可讀儲存媒體，或(2)諸如信號或載波之通信媒體。資料儲存媒體可為可由一或多個電腦或一或多個處理器存取以擷取指令、程式碼及/或資料結構以用於實施本發明所描述之技術的任何可用媒體。電腦程式產品可包括電腦可讀媒體。

藉由實例而非限制，此等電腦可讀儲存媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器、磁碟儲存器或其他磁性儲存器件、快閃記憶體或可用於儲存呈指令或資料結構形式之所要程式碼且可由電腦存取的任何其他媒體。而且，任何連接被恰當地稱為電腦可讀媒體。舉例而言，若使用同軸纜線、光纜、雙絞線、數位用戶線(DSL)或無線技術(諸如紅外線、無線電及微波)自網站、伺服器或其他遠端源傳輸指令，則同軸纜線、光纜、雙絞線、DSL或無線技術(諸如紅外線、無線電及微波)包括於媒體之定義中。然而，應理解，電腦可讀儲存媒體及資料儲存媒體不包括連接、載波、信號或其他暫時性媒體，而實情為關於非暫時性有形儲存媒體。如本文中所使用，磁碟及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位多功能光碟(DVD)、軟性磁碟及藍光光碟，其中磁碟通常以磁性方式再現資料，而光碟用雷射以光學方式再現資料。以上之組合亦應包括於電腦可讀媒體之範疇內。

指令可由一或多個處理器執行，該一或多個處理器諸如一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化閘陣列(FPGA)或其他等效的整合或離散邏輯電路。因此，如本文所用之術語「處理器」可指前述結構或適用於實施本文中所描述之技術的任何其他結構中之任一者。另外，在一些態樣中，本文所描述之功能可經提供於經組態以供編碼及解碼或併入於經組合編碼解碼器中之專用硬體及/或軟體模組內。又，可在一或多個電路或邏輯元件中充分實施該等技術。

本發明之技術可實施於多種器件或裝置中，包括無線手機、積體電路(IC)或IC集合(例如晶片組)。在本發明中描述各種組件、模組或單元以強調經組態以執行所揭示技術之器件的功能態樣，但未必要求由不同硬體單元來實現。確切地說，如上文所描述，可將各種單元組合於編解碼器硬體單元中，或結合合適軟體及/或韌體藉由互操作性硬體單元(包括如上文所描述之一或多個處理器)之集合來提供該等單元。

各種實例已予以描述。此等及其他實例在以下申請專利範圍之範疇內。

5:麥克風 10:系統 11:音訊資料 12:源器件 13:擴音器資訊 14:內容消費者器件 15:音訊資料 16:音訊播放系統 17:平移距離 21:位元串流 22:音訊顯現器 24:音訊解碼器件 25:揚聲器饋送/空間域揚聲器信號 26:效應矩陣 100:系統 102:雙耳顯現器 103:左側及右側揚聲器饋送 104:頭戴式耳機 200:攝影機 202:步驟 204:步驟 206:步驟 208:步驟 210:步驟 212:步驟 214:步驟 300:內容捕捉器件 301:內容 302:內容捕捉輔助器件/聲場表示產生器 400:VR器件 402:使用者 404:頭戴式耳機 500:位元串流提取單元 501:輸送通道 502:反增益控制及再指派單元 503:主導音訊信號 504:主導聲音合成單元 505:環境音訊信號 506:環境合成單元 507:主導聲音表示 508:複合單元 509:環境聲音表示 510:效應單元 511:經調適音訊資料 512:顯現單元 513:深度映射 521:旁側資訊 523:旁側資訊 525:旁側資訊 600:經重建聲場 602:參考距離 602:參考距離 604:錨點 606:平移頭部移動 608:經更新距離 800:穿戴式器件

圖1為說明具有各種階數及子階數之球狀和諧基底函數之圖式。

圖2A及圖2B為說明可執行本發明中描述之技術的各種態樣之系統的圖式。

圖3為說明由使用者穿戴之VR器件之一實例的圖式。

圖4為說明六個自由度(6-DOF)頭部移動方案之圖式。

圖5為更詳細說明圖2A及圖2B中所展示之音訊播放系統在執行本發明中所描述之效應技術之各種態樣時的方塊圖。

圖6為更詳細說明展示於圖5之實例中之效應單元如何根據本發明中描述之技術的各種態樣獲得效應矩陣之圖式。

圖7為說明圖5中所示之深度映射已經更新以根據本發明中描述之技術的各種態樣反映錨點與深度映射之映射的圖式。

圖8為描繪根據本發明之技術的流程圖。

圖9為展示圖2A及圖2B之系統可如何處理音訊資料之圖式。

圖10為說明圖2A及圖2B之系統可如何根據本發明之技術處理音訊資料的圖式。

圖11為說明圖2A及圖2B之系統可如何根據本發明之技術處理音訊資料的圖式。

圖12為說明圖2A及圖2B之系統可如何根據本發明之技術處理音訊資料的圖式。

圖13為說明圖2A及圖2B之系統可如何根據本發明之技術處理音訊資料的圖式。

圖14為說明可根據本發明中所描述之技術的各種態樣來操作之穿戴式器件的一實例的圖式。

圖15A及圖15B為說明可執行本發明中描述之技術的各種態樣之其他實例系統的圖式。

202:步驟

204:步驟

206:步驟

208:步驟

210:步驟

212:步驟

214:步驟

Claims

一種器件，其包含：一記憶體，其經組態以儲存表示在複數個捕捉位置處捕捉之一聲場的音訊資料、使得待顯現之該音訊資料能夠支援N個自由度的後設資料，及使得待顯現之該音訊資料能夠支援M個自由度的調適後設資料，其中N為一第一整數且M為不同於該第一整數之一第二整數；及一個或多個處理器，其耦接至該記憶體，且經組態以：基於該調適後設資料調適該音訊資料以提供該M個自由度；及基於該經調適音訊資料產生揚聲器饋送。
如請求項1之器件，其中N=6且M小於N。
如請求項1之器件，其中該一或多個處理器經進一步組態以判定一使用者位置。
如請求項3之器件，其進一步包含一顯示器件，其中為判定該使用者位置，該一或多個處理器經組態以促使該顯示器件顯示複數個使用者位置並自一使用者接收指示該複數個位置中之一者的一輸入。
如請求項3之器件，其中為判定該使用者位置，該一或多個處理器經組態以：促使該顯示器件顯示一軌跡；自一使用者接收指示該軌跡上之一位置的一輸入；及基於該軌跡之該位置選擇複數個位置中的一者作為該使用者位置。
如請求項3之器件，其進一步包含一導航器件，其中為判定該使用者位置，該一或多個處理器經組態以自該導航器件接收指示該使用者位置之座標。
如請求項6之器件，其中該導航器件為經組態以提供該器件之移動資訊的一感測器，且該一或多個處理器經組態以接收該器件之該移動資訊，該器件之該移動資訊指示該使用者位置。
如請求項6之器件，其中該一或多個處理器經組態以基於移動資訊自複數個位置判定該使用者位置。
如請求項2之器件，其中該6個自由度包含在一二維空間座標空間或一三維空間座標空間中限定的橫擺、俯仰、橫滾及平移距離。
如請求項9之器件，其中該M個自由度包括三個自由度，該三個自由度包含橫擺、俯仰及橫滾。
如請求項9之器件，其中M=0。
如請求項1之器件，其中該調適後設資料包括一使用者位置及一使用者定向，且其中該一或多個處理器經組態以基於該使用者位置及該使用者定向調適該音訊資料以提供零自由度。
如請求項1之器件，其中該調適後設資料包括一使用者位置，且其中該一或多個處理器經組態以：基於該使用者位置判定提供該M個自由度之一效應矩陣；及將該效應矩陣應用於該音訊資料以調適該聲場。
如請求項13之器件，其中該一或多個處理器經進一步組態以將該效應矩陣乘以一顯現矩陣以獲得一經更新顯現矩陣，且其中該一或多個處理器經進一步組態以將該經更新顯現矩陣應用於該音訊資料以：提供該M個自由度；及產生該揚聲器饋送。
如請求項1之器件，其中該一或多個處理器經進一步組態以接收指示一使用者位置的一使用者輸入並將該使用者位置作為該調適後設資料儲存至該記憶體。
如請求項1之器件，其中該一或多個處理器經進一步組態以獲得指定該調適後設資料之一位元串流，該調適後設資料包括與該音訊資料相關聯之一使用者位置。
如請求項1之器件，其中該一或多個處理器經進一步組態以獲得指示與該器件介接的該使用者之一旋轉頭部移動的一旋轉指示，且其中該一或多個處理器經進一步組態以基於該旋轉指示及該調適後設資料調適該音訊資料以提供三個自由度。
如請求項1之器件，其中該一或多個處理器耦接至一穿戴式器件之揚聲器，其中該一或多個處理器經組態以將一雙耳顯現器應用於經調適高階立體混響音訊資料以產生該等揚聲器饋送，且其中該一或多個處理器經進一步組態以輸出該等揚聲器饋送至該等揚聲器。
如請求項18之器件，其中該穿戴式器件包含一手錶、眼鏡、頭戴式耳機、一擴充實境(AR)頭戴裝置、一虛擬實境(VR)頭戴裝置或一擴展實境(XR)頭戴裝置。
如請求項1之器件，其中該音訊資料包含與具有一或小於一之一階數的球狀基底函數相關聯之高階立體混響係數、與具有一混合階數及子階數之球狀基底函數相關聯之高階立體混響係數，或與具有大於一之一階數的球狀基底函數相關聯之高階立體混響係數。
如請求項1之器件，其中該音訊資料包含一或多個音訊物件。
如請求項1之器件，其進一步包含：一或多個揚聲器，其經組態以基於該等揚聲器饋送再現一聲場。
如請求項22之器件，其中該器件為一車輛、無人操縱車輛、一機器人或一手機中的一者。
如請求項1之器件，其中該一或多個處理器包含處理電路。
如請求項24之器件，其中該處理電路包含一或多個特殊應用積體電路。
一種方法，其包含：儲存表示在複數個捕捉位置處捕捉之一聲場的音訊資料；儲存使得待顯現之該音訊資料能夠支援N個自由度的後設資料；儲存使得待顯現之該音訊資料能夠支援M個自由度的調適後設資料，其中N為一第一整數且M為不同於該第一整數之一第二整數；基於該調適後設資料調適該音訊資料以提供該M個自由度；及基於該經調適音訊資料產生揚聲器饋送。
如請求項26之方法，其進一步包含：在一顯示器件上顯示複數個使用者位置；自一使用者接收指示該複數個使用者位置中之一者的一輸入；及基於該輸入判定一使用者位置。
如請求項26之方法，其進一步包含：在一顯示器件上顯示一軌跡；自一使用者接收指示該軌跡上之一位置的一輸入；及基於該輸入判定一使用者位置。
如請求項26之方法，其進一步包含：自一導航器件接收座標；及基於該等座標判定一使用者位置。
一種器件，其包含：用於儲存表示在複數個捕捉位置處捕捉之一聲場的音訊資料的構件；用於儲存使得待顯現之該音訊資料能夠支援N個自由度的後設資料的構件；用於儲存使得待顯現之該音訊資料能夠支援M個自由度的調適後設資料的構件，其中N為一第一整數且M為不同於該第一整數之一第二整數；用於基於該調適後設資料調適該音訊資料以提供該M個自由度的構件；及用於基於該經調適音訊資料產生揚聲器饋送的構件。