TWI713017B

TWI713017B - 用於處理媒介資料之器件及方法與其之非暫時性電腦可讀儲存媒體

Info

Publication number: TWI713017B
Application number: TW107136061A
Authority: TW
Inventors: 尼爾斯彼得斯; ＳＭ艾卡姆斯薩利赫; 仕瓦帕山卡爾薩格德; 金墨永; 迪潘強森
Original assignee: 美商高通公司
Priority date: 2017-10-12
Filing date: 2018-10-12
Publication date: 2020-12-11
Also published as: EP3695624C0; EP3695624A1; CN111183658A; TW201923745A; CN111183658B; US20190116440A1; US10469968B2; WO2019075425A1; EP3695624B1

Abstract

大體而言，本發明描述用於將高階立體混響音訊資料調適為包括三自由度加效應之技術。經組態以執行該等技術之一實例器件包括一記憶體及耦接至該記憶體之一處理器。該記憶體可經組態以儲存表示一音場之高階立體混響音訊資料。該處理器可經組態以獲取表示與該器件介接之一使用者之一平移頭部移動的一平移距離。該處理器可進一步經組態以基於該平移距離調適高階立體混響音訊資料，以提供使該音場適應該平移頭部移動之三自由度加效應，且基於經調適高階環境音訊資料生成揚聲器饋送。

Description

用於處理媒介資料之器件及方法與其之非暫時性電腦可讀儲存媒體

本發明係關於媒介資料，諸如音訊資料之處理。

高階立體混響(HOA)信號(常常由複數個球諧係數(SHC)或其他階層元素來表示)為音場之三維表示。HOA或SHC表示可按獨立於用以播放自SHC信號呈現之多聲道音訊信號的本端揚聲器幾何佈置之方式來表示音場。SHC信號亦可促進回溯相容性，此係因為可將SHC信號呈現為熟知且經高度採用之多聲道格式，諸如5.1音訊聲道格式或7.1音訊聲道格式。因此，SHC表示可實現對音場之較佳表示，其亦適應回溯相容性。

本發明大體上係關於電腦媒介實境系統之使用者體驗的聽覺態樣，該等電腦媒介實境系統包括虛擬實境(VR)、混合實境(MR)、擴增實境(AR)、電腦視覺及圖形系統。該等技術可實現對考慮頭部移動之三自由度(橫擺、俯仰及偏轉)及受限之頭部的平移移動的VR、MR、AR等高階立體混響(HOA)音訊資料之呈現，其為稱作三自由度加(3DOF+)音訊呈現之音訊呈現的形式。

在一個實例中，該等技術係針對一種器件，其包含：一記憶體，其經組態以儲存表示一音場之高階立體混響音訊資料；及一處理器，其耦接至該記憶體且經組態以獲取表示與該器件介接之一使用者的一平移頭部移動的一平移距離。該處理器可進一步經組態以基於該平移距離調適高階立體混響音訊資料，以提供使該音場適應該平移頭部移動之三自由度加效應，且基於經調適高階環境音訊資料生成揚聲器饋送。

在另一實例中，該等技術係針對一種方法，其包含獲取表示與器件介接之一使用者之一平移頭部移動的一平移距離。方法可進一步包含：基於該平移距離調適高階立體混響音訊資料，以提供使由該高階立體混響音訊資料表示之一音場適應該平移頭部移動的三自由度加效應；以及基於經調適高階環境音訊資料生成揚聲器饋送。

在另一實例中，該等技術係針對一種器件，其包含用於獲取表示與該器件介接之一使用者之一平移頭部移動的一平移距離的構件。器件可進一步包含：用於基於該平移距離調適高階立體混響音訊資料，以提供使由該高階立體混響音訊資料表示之一音場適應該平移頭部移動的三自由度加效應的構件；以及用於基於經調適高階環境音訊資料生成揚聲器饋送的構件。

在另一實例中，技術係針對一種非暫時性電腦可讀儲存媒體，其上已儲存有指令，該等指令在執行時，促使一或多個處理器：獲取表示與器件介接之一使用者之一平移頭部移動的一平移距離；基於該平移距離調適高階立體混響音訊資料，以提供使由該高階立體混響音訊資料表示之一音場適應該平移頭部移動的三自由度加效應；且基於經調適高階環境音訊資料生成揚聲器饋送。

在隨附圖式及以下描述中闡述本發明之一或多個實例的細節。技術之各個態樣之其他特徵、目標及優點將自描述及圖式以及自申請專利範圍顯而易見。

5:麥克風

10:系統

11:HOA係數/高階立體混響音訊資料

11':HOA係數/音訊資料

12:源器件

13:擴音器資訊

14:消費者器件

15:HOA音訊資料

16:音訊播放系統

17:頭部追蹤資訊/平移距離

21:位元串流

22:呈現器

24:音訊解碼器件

25:揚聲器饋送

26:效應矩陣

100:實例系統

102:雙耳呈現器

103:左側及右側揚聲器饋送

104:頭戴式耳機

200:攝影機

300:內容捕獲器件

301:內容

302:內容捕獲輔助器件/音場表示生成

306:追蹤器件

400:VR器件

402:使用者

404:頭戴式耳機

500:位元串流提取單元

501:傳輸聲道

502:反增益控制及再指派單元

503:主導音訊信號

504:主導聲音合成單元

505:環境音訊信號

506:環境合成單元

507:主導聲音表示

508:複合單元

509:環境HOA係數/深度映射

510:效應單元

511:經調適HOA音訊資料

512:呈現單元

521:旁側資訊

523:旁側資訊

525:旁側資訊

600:經重建音場

602:參考距離

604:錨點

606:平移頭部移動

608:經更新距離

700:實例過程

702:過程

704:過程

706:過程

708:過程

800:可穿戴式器件

圖1為說明具有各種階數及子階數之球諧基函數的圖。

圖2A及圖2B為說明可執行本發明中所描述之技術的各個態樣之系統的圖。

圖3為說明由使用者穿戴之VR器件之一實例的圖。

圖4為更詳細地說明圖2A及圖2B中所示之音訊播放系統在執行本發明中所描述之效應技術之各個態樣時的方塊圖。

圖5為更詳細地說明圖4之實例中所示之效應單元如何根據本發明中所描述之技術之各個態樣獲取效應矩陣的圖。

圖6為說明圖4中所示之深度映射已經更新以根據本發明中所描述之技術的各個態樣反映錨點與深度映射之映射的圖。

圖7為說明可根據本發明中所描述之技術的各個態樣來操作之可穿戴式器件的一實例的圖。

圖8A及圖8B為說明可執行本發明中所描述之技術的各個態樣之其他實例系統的圖。

圖9為說明音訊播放器件可根據本發明之各個態樣執行之實例過程的流程圖。

本申請案主張2017年10月12日申請之美國專利申請案第15/782,252號之權益，該專利申請案之全部內容以引用的方式併入本文中。

在市場中存在各種基於「環場音效」聲道之格式。舉例而言，其範圍自5.1家庭影院系統(其在使起居室享有立體聲方面已獲得最大成功)至由NHK(Nippon Hoso Kyokai或Japan Broadcasting Corporation)所開發之22.2系統。內容創建者(例如好萊塢(Hollywood)工作室)將希望一次性產生影片之音軌，且不花費精力來針對每一揚聲器組態對其進行重混。運動圖像專家組(MPEG)已發佈一標準，該標準允許使用元素(例如高階立體混響HOA係數)之階層集合來表示音場，對於大多數揚聲器組態(包括無論在由各種標準定義之位置中或在不均勻位置中的5.1及22.2組態)，該等元素之集合可呈現至揚聲器饋送。

MPEG發佈如MPEG-H 3D音訊標準之標準，該標準正式標題為「Information technology-High efficiency coding and media delivery in heterogeneous environments-Part 3：3D audio」，由ISO/IEC JTC 1/SC 29闡述，具有文件標識符ISO/IEC DIS 23008-3，且日期為2014年7月25日。MPEG亦發佈3D音訊標準之第二版本，該標準標題為「Information technology-High efficiency coding and media delivery in heterogeneous environments-Part 3：3D audio」，由ISO/IEC JTC 1/SC 29闡述，具有文件標識符ISO/IEC 23008-3：201x(E)，且日期為2016年10月12日。在本發明中對「3D音訊標準」之參考可指以上標準中之一者或兩者。

如上文所指出，元素之階層集合的一個實例為球諧係數(SHC)之集合。以下表達式表明使用SHC對音場之描述或表示：

表達式展示在時間t處，音場之任一點{r _r,θ _r,φ _r}處的壓力p _i可由SHC

唯一地表示。此處，

，c為聲音之速度(約343m/s)， {r _r,θ _r,φ _r}為參考點(或觀測點)，j _n(．)為階數n之球貝塞爾(Bessel)函數，且

為階數n及子階數m之球諧基函數(其亦可稱作球基函數)。可認識到，方括弧中之項為信號之頻域表示(亦即S(ω,r _r,θ _r,φ _r))，其可藉由各種時間-頻率變換(諸如離散傅立葉變換(DFT)、離散餘弦變換(DCT)或小波變換)來近似。階層集合之其他實例包括小波變換係數之集合及多解析度基函數之係數的其他集合。

圖1為說明自零階(n=0)至四階(n=4)之球諧基函數的圖。如可見，對於每一階，存在子階m之展開，出於易於說明之目的，在圖1之實例中展示該等子階但未明確地指出。

可由各種麥克風陣列組態實體地獲取(例如記錄)SHC

，或可替代地，其可自音場之基於聲道或基於對象的描述導出。SHC(其亦可稱作高階立體混響HOA係數)表示基於場景之音訊，其中可將SHC輸入至音訊編碼器以獲取可促進更高效傳輸或儲存之經編碼SHC。舉例而言，可使用涉及(1+4)²(25，且因此為四階)個係數之四階表示。

如上文所指出，可使用麥克風陣列自麥克風記錄導出SHC。可如何自麥克風陣列導出SHC之各種實例描述於Poletti,M.，之「Three-Dimensional Surround Sound Systems Based on Spherical Harmonics」,J.Audio Eng.Soc.，第53卷，第11期，2005年11月，第1004至1025頁)中。

為說明可如何自基於對象之描述導出SHC，考慮以下等式。可將與單個音訊對象相對應之音場的係數

表達為：

其中i為

，

為n階之球漢克爾(Hankel)函數(第二種類)，且 {r _s,θ _s,φ _s}為對象之位置。知曉作為頻率變化之函數的對象源能量g(ω)(例如使用時間-頻率分析技術，諸如對PCM串流執行快速傅立葉變換)允許吾等將每一PCM對象及相應位置轉換為SHC

。此外，可展示(由於以上為線性及正交分解)：每一對象之

係數為附加性的。以此方式，數個PCM對象可由

係數(例如作為單個對象之係數向量的總和)來表示。基本上，該等係數含有關於音場之資訊(作為3D座標之函數的壓力)，且以上表示在觀測點{r _r,θ _r,φ _r}附近自單個對象至總音場之表示的變換。下文在基於SHC之音訊寫碼的上下文中描述剩餘附圖。

圖2A及圖2B為說明可執行本發明中所描述之技術的各個態樣之系統的圖。如圖2A之實例中所展示，系統10包括源器件12及內容消費者器件14。雖然在源器件12及內容消費者器件14之上下文中描述，但該等技術可實施於其中音場之任何階層表示經編碼以形成表示音訊資料之位元串流的任何上下文中。此外，源器件12可表示能夠生成音場之階層表示的任何形式之計算器件，且本文中一般在為VR內容創建者器件之上下文中描述。同樣，內容消費者器件14可表示能夠實施本發明中所描述之音場表示選擇技術以及音訊播放的任何形式之計算器件，且本文中一般在為VR用戶端器件之上下文中描述。

源器件12可由娛樂公司或可生成多聲道音訊內容以供內容消費者器件(諸如內容消費者器件14)之操作者消耗的其他實體來操作。在許多VR情境中，源器件12結合視訊內容生成音訊內容。源器件12包括內容捕獲器件300及內容捕獲輔助器件302。內容俘獲器件300可經組態以與麥克風5介接或以其他方式通信。麥克風5可表示Eigenmike®或能夠捕獲音場且將音場表示為HOA係數11之其他類型的3D音訊麥克風。

在一些實例中，內容捕獲器件300可包括整合至內容捕獲器件300之殼體中的整合式麥克風5。內容捕獲器件300可以無線方式或經由有線連接與麥克風5介接。替代經由麥克風5捕獲或結合捕獲音訊資料，在以無線方式經由一些類型之可移式儲存器及/或經由有線輸入過程輸入HOA係數11之後，內容捕獲器件300可處理HOA係數11。如此，根據本發明，內容捕獲器件300與麥克風5之各種組合為可能的。

內容捕獲器件300亦可經組態以與音場表示生成器302介接或以其他方式通信。音場表示生成器302可包括能夠與內容捕獲器件300介接之任何類型的硬體器件。音場表示生成器302可使用由內容捕獲器件300提供之HOA係數11來生成由HOA係數11所表示之相同音場的不同表示。舉例而言，為使用HOA係數11生成音場之不同表示，音場表示生成器302可使用稱作混合階數立體混響(MOA)的音場之立體混響表示的寫碼方案，如在標題為「MIXED-ORDER AMBISONICS(MOA)AUDIO DATA FO COMPUTER-MEDIATED REALITY SYSTEMS」且於2017年8月8日申請之美國申請案第15/672,058號中更詳細地論述。

為生成音場之特定MOA表示，音場表示生成器302可生成HOA係數11之全集的部分子集。舉例而言，由音場表示生成器302所生成之每一MOA表示可相對於音場之一些區域提供精確度，但於其他區域中精確度較小。在一個實例中，音場之MOA表示可包括HOA係數11之八(8)個未經壓縮HOA係數，而相同音場之三階HOA表示可包括HOA係數11之十六(16)個未經壓縮HOA係數。如此，相較於自HOA係數11生成之相同音場的相應三階HOA表示，生成為HOA係數11之部分子集的音場之每一MOA表示可為較低儲存器密集型及較低帶寬密集型(若且當作為位元串流 21之部分在所說明傳輸聲道上傳輸時)。

雖然參照MOA表示來描述，但本發明之技術亦可參照全階立體混響(FOA)表示來執行，在該全階立體混響表示中，所給階數N之所有HOA係數用以表示音場。換言之，替代使用HOA係數11之部分非零子集來表示音場，音場表示生成器302可使用所給階數N之所有HOA係數11來表示音場，產生等於(N+1)²之總HOA係數。

就此而言，高階立體混響音訊資料11可包括與具有一或小於一之階數的球基函數相關聯之高階立體混響係數11(其可稱作「第一階立體混響音訊資料11」)、與具有混合階數及子階數的球基函數相關聯之高階立體混響係數(其可稱作上文所論述之「MOA表示」)，或與具有大於一之階數的球基函數相關聯之高階立體混響係數(其在上文稱作「FOA表示」)。

在一些實例中，內容捕獲器件300可經組態以與音場表示生成器302無線通信。在一些實例中，內容捕獲器件300可經由無線連接或有線連接中之一者或兩者與音場表示生成器302通信。經由內容捕獲器件300與音場表示生成器302之間的連接，內容捕獲器件300可以各種內容形式來提供內容，其在本文中出於論述之目的而描述為HOA係數11之部分。

在一些實例中，內容捕獲器件300可充分利用音場表示生成器302之各種態樣(就音場表示生成器302之硬體或軟體能力而言)。舉例而言，音場表示生成器302可包括專用硬體，該專用硬體經組態以(或專用軟體，其在執行時促使一或多個處理器)執行音質音訊編碼(諸如表示為由運動圖像專家組(MPEG)或MPEG-H 3D音訊寫碼標準闡述之「USAC」的通用語音及音訊寫碼器)。內容捕獲器件300可能不包括音質音訊編碼器專用硬體或專用軟體，且替代地以非音質音訊寫碼形式提供內容301之音訊態樣。音場表示生成器302可藉由關於內容301之音訊態樣至少部分地執行音質音訊編碼來輔助對內容301之捕獲。

音場表示生成器302亦可藉由至少部分地基於自HOA係數11生成之音訊內容(例如MOA表示及/或三階HOA表示)生成一或多個位元串流21來輔助內容捕獲及傳輸。位元串流21可表示HOA係數11之經壓縮版本(及/或其用以形成音場之MOA表示的部分子集)及任何其他不同類型之內容301(諸如球視訊資料、影像資料或文本資料之經壓縮版本)。

音場表示生成器302可生成位元串流21以供(作為一個實例)跨傳輸聲道傳輸，該傳輸聲道可為有線或無線聲道、資料儲存器件或其類似者。位元串流21可表示HOA係數11之經編碼版本(及/或其用以形成音場之MOA表示的部分子集)且可包括主位元串流及另一側位元串流，其可稱作旁側通道資訊。在一些情況下，表示HOA係數之經壓縮版本的位元串流21可符合根據MPEG-H 3D音訊寫碼標準所產生之位元串流。

內容消費者器件14可由個人操作，且可表示VR用戶端器件。雖然參照VR用戶端器件來描述，但內容消費者器件14可表示其他類型之器件，諸如擴增實境(AR)用戶端器件、混合實境(MR)用戶端器件、標準電腦、耳機、頭戴式耳機或能夠追蹤操作用戶端消費者器件14之個人的頭部移動及/或一般平移移動之任何其他器件。如圖2A之實例中所示，內容消費者器件14包括音訊播放系統16，該音訊播放系統可指能夠呈現用於作為多聲道音訊內容播放之SHC(無論呈三階HOA表示及/或MOA表示之形式)的任何形式之音訊播放系統。

雖然於圖2中展示為直接傳輸至內容消費者器件14，但源器件12可將位元串流21輸出至定位於源器件12與內容消費者器件14之間的中間器件。中間器件可儲存位元串流21以供稍後傳遞至可能請求位元串流之內容消費者器件14。中間器件可包含檔案伺服器、網頁伺服器、桌上型電腦、膝上型電腦、平板電腦、行動電話、智慧型手機，或能夠儲存位元串流21以供由音訊解碼器稍後擷取之任何其他器件。中間器件可駐留於能夠將位元串流21(且可能結合傳輸對應視訊資料位元串流)串流傳輸至請求位元串流21之訂戶(諸如內容消費者器件14)的內容傳遞網路中。

可替代地，源器件12可將位元串流21儲存至儲存媒體，諸如緊密光碟、數位視訊光碟、高清晰度視訊光碟或其他儲存媒介，該等儲存媒介中之大多數能夠由電腦讀取且因此可稱作電腦可讀儲存媒介或非暫時性電腦可讀儲存媒介。在此上下文中，傳輸聲道可指藉以傳輸儲存至該等媒體之內容的聲道(且可包括零售商店及其他基於商店之傳遞機構)。在任何情況下，本發明之技術因而就此而言不應限於圖2A之實例。

如上文所指出，內容消費者器件14包括音訊播放系統16。音訊播放系統16可表示能夠播放多聲道音訊資料之任何系統。音訊播放系統16可包括數個不同呈現器22。呈現器22可各自提供不同形式之呈現，其中不同形式之呈現可包括執行基於向量之振幅移動(VBAP)之各種方式中的一或多者及/或執行音場合成之各種方式中的一或多者。如本文中所使用，「A及/或B」意謂「A或B」，或「A及B」兩者。

音訊播放系統16可進一步包括音訊解碼器件24。音訊解碼器件24可表示經組態以解碼位元串流21從而輸出HOA音訊資料15(其可形成全三階HOA表示或其子集，該子集形成相同音場之MOA表示或其分解，諸如主導音訊信號、環境HOA係數及描述於MPEG-H 3D音訊寫碼標準中之基於向量的信號)之器件。如此，HOA音訊資料15可類似於HOA係數11之全集或部分子集，但可能由於有損操作(例如量化)及/或經由傳輸聲道之傳輸而不同。音訊播放系統16可在解碼位元串流21以獲取HOA音訊資料15之後呈現HOA音訊資料15以輸出揚聲器饋送25。揚聲器饋送25可驅動一或多個揚聲器(出於易於說明之目的，其未在圖2A之實例中展示)。可以數種方式將音場之立體混響表示標準化，該等方式包括N3D、SN3D、FuMa、N2D或SN2D。

為選擇適當呈現器，或在一些情況下生成適當顯現器，音訊播放系統16可獲取指示擴音器之數目及/或擴音器之空間幾何佈置的擴音器資訊13。在一些情況下，音訊播放系統16可使用參考麥克風且以使得動態地確定擴音器資訊13之方式驅動擴音器而獲得擴音器資訊13。在其他情況下，或結合擴音器資訊13之動態確定，音訊播放系統16可提示使用者與音訊播放系統16介接且輸入擴音器資訊13。

音訊播放系統16可基於擴音器資訊13選擇音訊呈現器22中之一者。在一些情況下，在音訊呈現器22中無一者處於對擴音器資訊13中所指定之擴音器幾何佈置的一些臨限值類似性量測(就擴音器幾何佈置而言)內時，音訊播放系統16可基於擴音器資訊13生成音訊呈現器22中之一者。在一些情況下，音訊播放系統16可基於擴音器資訊13生成音訊呈現器22中之一者，而並不首先嘗試選擇音訊呈現器22中的現有一者。

在將揚聲器饋送25輸出至頭戴式耳機時，音訊播放系統16可利用呈現器22中之一者，該等呈現器使用頭部相關變換函數(HRTF)或能夠呈現頭戴式耳機揚聲器播放之左側及右側揚聲器饋送25的其他函數來提供雙耳呈現。術語「揚聲器」或「換能器」一般可指任何揚聲器，包括擴音器、頭戴式耳機揚聲器等。一或多個揚聲器可隨後播放呈現之揚聲器饋送25。

雖然描述為自HOA音訊資料11'呈現揚聲器饋送25，但對揚聲器饋送25之呈現的參考可指其他類型之呈現，諸如直接併入至對來自位元串流21的HOA音訊資料15之解碼中的呈現。替代呈現之一實例可發現於MPEG-H 3D音訊寫碼標準之Annex G中，其中呈現在音場複合之前發生於主導信號形成及背景信號調配期間。如此，對HOA音訊資料15之呈現的參考應理解為係指實際HOA音訊資料15之呈現或HOA音訊資料15之分解或其表示兩者(諸如上文所指出之主導音訊信號、環境HOA係數及/或基於向量之信號，其亦可稱作V向量)。

如上文所描述，內容消費者器件14可表示其中人類可穿戴式顯示器安裝於操作VR器件之使用者的眼部前方之VR器件。圖3為說明由使用者402穿戴之VR器件400之一實例的圖。VR器件400耦接至或另外包括頭戴式耳機404，該頭戴式耳機可經由對揚聲器饋送25之播放而重現由HOA音訊資料11'(其為對HOA係數11'之參考的另一路徑)表示之音場。揚聲器饋送25可表示能夠促使頭戴式耳機404之換能器內的膜以不同頻率振動之類比或數位信號，其中此種過程通常稱作驅動頭戴式耳機404。

視訊、音訊及其他感測資料可於VR體驗中發揮重要角色。為參與VR體驗，使用者402可穿戴VR器件400(其亦可稱作VR耳機400)或其他可穿戴式電子器件。VR用戶端器件(諸如VR耳機400)可追蹤使用者402之頭部移動，並經由VR耳機400使所展示視訊資料適應頭部移動，提供其中使用者402可體驗到以視覺三維形式展示於視訊資料中之虛擬世界的身歷其境體驗。

當VR(及其他形成之AR及/或MR)可使得使用者402以視覺方式駐留於虛擬世界中時，通常VR耳機400可能缺乏將使用者有聲地置於虛擬世界中之能力。換言之，VR系統(其可包括負責呈現視訊資料及音訊資料之電腦及VR耳機400，出於易於說明之目的，該電腦未展示於圖3之實例中)可能無法有聲地支持全三維身歷其境。

VR之音訊態樣已經分為三種獨立的身歷其境類別。第一類別提供最低水平之身歷其境且稱作三自由度(3DOF)。3DOF係指考慮頭部於三個自由度(橫擺、俯仰及偏轉)中之移動的音訊呈現，進而使得使用者在任何方向上自由環顧。然而，3DOF未能考慮到其中頭部並不以音場之光學及聲學中心為中心的平移頭部移動。

除因遠離音場內之光學中心及聲學中心之頭部移動而受限的空間平移移動以外，稱作3DOF加(3DOF+)之第二類別亦提供三個自由度(橫擺、俯仰及偏轉)。3DOF+可提供對諸如運動視差之知覺效應的支持，其可增強身歷其境之感覺。

稱作六自由度(6DOF)之第三類別以考慮頭部移動(橫擺、俯仰及偏轉)之三個自由度並且考慮使用者在空間中之平移(x平移、y平移及z平移)的方式呈現音訊資料。空間平移可藉由感測器追蹤使用者於實體世界中之位置或藉助於輸入控制器來誘導。

3DOF呈現為VR領域之現行狀態。如此，VR之音訊態樣相較於視訊態樣為較低身歷其境的，因而潛在地降低由使用者所體驗到之整體沉浸。

根據本發明中所描述之技術，藉以調節高階立體混響 (HOA)音訊資料之不同方式可實現3DOF+音訊呈現。如上文所指出，3DOF+呈現藉由以考慮頭部移動之三個自由度(橫擺、俯仰及偏轉)及因頭部移動並不以光學及聲學中心為中心而受限的平移移動(在空間二維座標系統x、y，或空間三維座標系統x、y、z)中兩者之方式呈現HOA音訊資料來提供更身歷其境的聽覺體驗。

在操作中，音訊播放系統16可首先獲取頭部追蹤資訊17。頭部追蹤資訊17可包括表示與內容消費者器件14介接之使用者之平移頭部移動的平移距離、指示與內容消費者器件14介接之使用者之旋轉頭部移動的旋轉指示，或平移頭部移動及旋轉指示兩者。音訊播放系統16可以多種不同方式獲取頭部追蹤資訊17。如圖2A之實例中所示，內容消費者器件14與追蹤器件306介接。追蹤器件306可表示以下各者之任何組合：用於感測及視訊顯示之微機電系統(MEMS)、攝影機或其他視覺感測器，或能夠提供支持頭部及/或身體追蹤之資訊的任何其他類型之感測器。

在一個實例中，追蹤器件306可表示用於感測及視訊顯示之MEMS，類似於用於諸如所謂「智慧型電話」之蜂巢式電話中的彼等。音訊播放器件16可使用包括於感測平移頭部移動之追蹤器件306之MEMS中的運動感測器來獲取頭部追蹤資訊17。關於用於執行頭部追蹤的感測及視訊顯示之MEMS的更多資訊可於LaValle等人的在2017年8月17日以msl.cs.illinois.edu/~lavalle/papers/LavYerKatAnt14.pdf之URL存取之標題為「Head Tracking for the Oculus Rift」的論文中發現。

在另一實例中，音訊播放系統16可與追蹤器件306介接以標識頭部追蹤資訊17，該追蹤器件可表示攝影機(包括紅外攝影機)或其他視覺感測器。音訊播放系統16可參照由追蹤器件306捕獲之影像執行影像分析。關於使用攝影機及各種其他感測器之頭部及身體追蹤的更多資訊可發現於Jesper Tingvall的日期為2015年11月1日標題為「Interior Design and Navigation in Virtual Reality」之論文中。

當展示為與內容消費者器件14分離時，可將追蹤器件306整合至內容消費者器件14中。換言之，諸如當追蹤器件306表示MEMS時，內容消費者器件14可包括追蹤器件306，該追蹤器件為能夠整合於內容消費者器件14中之小型半導體晶片。

在確定頭部追蹤資訊17之後，音訊播放系統16可基於頭部追蹤資訊17調適HOA音訊資料15，以提供使由HOA音訊資料15表示之音場適應平移頭部移動、旋轉頭部移動或平移頭部移動及旋轉頭部移動兩者的三自由度加(3DOF+)效應。

在一個實例中，為調適HOA音訊資料15，音訊播放系統16確定效應矩陣26。效應矩陣26可類似於論述於用於響度補償及/或螢幕調適之MPEG-H 3D音訊寫碼標準中的初始效應矩陣。

然而，在使用初始效應矩陣執行響度補償及/或螢幕調適時，音訊播放系統16並不基於使用者402之任何平移移動來調適初始效應矩陣。根據本文中所描述之技術，音訊播放系統16可基於如下文更詳細論述的頭部追蹤資訊17之平移距離來確定效應矩陣26。

當於本發明中描述為基於頭部追蹤資訊17之平移距離來確定效應矩陣26時，音訊播放系統16可基於頭部追蹤資訊17之旋轉指示或基於平移距離及頭部追蹤資訊17之旋轉指示兩者來確定效應矩陣26。換言之，3DOF+效應併有3DOF之旋轉態樣且進一步考慮平移頭部移動。就此而言，音訊播放系統16可獲取指示與器件介接之使用者之旋轉頭部移動的旋轉指示，且基於平移頭部距離及旋轉指示，獲取高階立體混響音訊資料，以提供使音場適應平移頭部移動及旋轉頭部移動之三自由度加效應。

雖然可參照旋轉指示來執行該等技術，但在下文中參照平移距離來描述該等技術。如此，為易於解釋，下文將頭部追蹤資訊17稱作平移距離17。

在生成效應矩陣26之後，音訊播放系統16可將效應矩陣26應用於音訊呈現器22中之所選一者(其在具有整合式頭戴式耳機404之VR器件400的上下文中可指本文中所表示為雙耳呈現器22之物)。音訊播放系統16可經由將效應矩陣26應用於雙耳呈現器22來生成經更新雙耳呈現器22。隨後，音訊播放系統16可將經更新雙耳呈現器22應用於HOA音訊資料15，以基於平移距離17來調適HOA音訊資料15以提供3DOF+效應，並且基於經調適HOA音訊資料15來生成揚聲器饋送25。

就此而言，音訊播放系統16可執行本發明中所描述之技術的各個態樣以提供3DOF+呈現，相較於3DOF呈現產生較多沉浸。相對於3DOF+之經增加沉浸可提昇由使用者402所體驗到之整體沉浸，且有可能提供等於或超過藉由視訊體驗所提供沉浸水平之沉浸水平。

雖然參照如圖3之實例中所示的VR器件來描述，但該等技術可藉由包括以下各者之其他類型的穿戴式器件來執行：手錶(諸如所謂「智慧型手錶」)、眼鏡(諸如所謂「智慧型眼鏡」)、頭戴式耳機(包括經由無線連接耦接之無線頭戴式耳機或經由有線或無線連接耦接之智慧型頭戴式耳機)及任何其他類型之可穿戴式器件。如此，該等技術可藉由在由使用者穿戴時，使用者可藉以與可穿戴式器件交互之任何類型的可穿戴式器件來執行。

圖2B為說明經組態以執行本發明中所描述之技術的各個態樣之另一實例系統100的方塊圖。除圖2A中所展示之音訊呈現器22藉由能夠使用一或多種HRTF或能夠呈現左側及右側揚聲器饋送103之其他函數來執行雙耳呈現的雙耳呈現器102替換以外，系統100類似於圖2A中所展示之系統10。

音訊播放系統16可將左側及右側揚聲器饋送103輸出至頭戴式耳機104，該頭戴式耳機可表示可穿戴式器件之另一實例且其可耦接至額外穿戴式器件以便於音場之重現，諸如手錶、上文所指出之VR耳機、智慧型眼鏡、智慧型服飾、智慧型戒指、智慧型手鐲或任何其他類型之智慧型珠寶(包括智慧型項鏈)及其類似者。頭戴式耳機104可以無線方式或經由有線連接耦接至額外穿戴式器件。

另外，頭戴式耳機104可經由有線連接(諸如標準3.5mm音訊插口、通用系統匯流排(USB)連接、光學音訊插口或其他形式之有線連接)或以無線方式(諸如藉助於Bluetooth^TM連接、無線網路連接及其類似者)耦接至音訊播放系統16。頭戴式耳機104可基於左側及右側揚聲器饋送103來重建由HOA係數11表示之音場。頭戴式耳機104可包括由相應左側及右側揚聲器饋送103供電(或換言之驅動)之左側頭戴式耳機揚聲器及右側頭戴式耳機揚聲器。

圖4為更詳細地說明圖2A及圖2B中所示之音訊播放系統在執行本發明中所描述之效應技術之各個態樣時的方塊圖。如圖4之實例中所示，除上述音訊解碼器件24以外，音訊播放系統16亦包括效應單元510及呈現單元512。效應單元510表示經組態以獲取上文所描述之效應矩陣26(於圖4之實例中展示為「EM 26」)的單元。呈現單元512表示經組態以確定且/或應用上述音訊呈現器22(於圖4之實例中展示為「AR 22」)中之一或多者的單元。

如上文所指出，音訊解碼器件24可表示經組態以根據MPEG-H 3D音訊寫碼標準來解碼位元串流21之單元。音訊解碼器件24可包括位元串流提取單元500、反增益控制及再指派單元502、主導聲音合成單元504、環境合成單元506及複合單元508。關於前述單元500至單元508中之每一者的更多資訊可發現於MPEG-H 3D音訊寫碼標準中。

儘管詳細地描述於MPEG-H 3D音訊寫碼標準中，但在下文提供單元500至單元508中之每一者的簡要描述。位元串流提取單元500可表示經組態以提取對HOA係數11連同構成由HOA係數11所定義音場之表示所需的其他語法元素或資料之分解的單元。位元串流提取單元500可標識位元串流11中各自可指定環境音訊信號(其可指一或多個環境HOA係數11)或主導音訊信號(其可指自HOA係數11經由線性可逆變換之應用所分解的U向量與S向量之乘積，諸如奇異值分解、特徵值分解、KLT等)之一或多個傳輸聲道501。位元串流提取單元500可提取傳輸聲道501並將傳輸聲道501輸出至反增益控制及再指派單元502。

儘管出於易於說明之目的而未於圖4之實例中展示，但音訊解碼器件24可包括參照傳輸聲道501來執行音質音訊解碼(例如高級音訊寫碼AAC)之音質音訊解碼器。此外，音訊解碼器件24可包括執行未展示於圖4之實例中之各種其他操作的其他單元，該等其他操作諸如傳輸聲道501之間的衰減及其類似者。

位元串流提取單元500可進一步提取限定語法元素及用於執行增益控制及指派之其他資料的旁側資訊521。位元串流提取單元500 可將旁側資訊521輸出至反增益控制及再指派單元502。

位元串流提取單元500亦可提取限定語法元素及用於執行主導聲音合成之其他資料的旁側資訊523(包括限定相應主導音訊信號之空間特徵的向量，該等空間特徵諸如寬度、方向及/或形狀，該主導音訊信號限定於傳輸聲道501中)。另外，位元串流提取單元500可提取限定語法元素及用於執行環境合成之其他資料的旁側資訊525。位元串流提取單元500將旁側資訊523輸出至主導聲音合成單元504，且將旁側資訊525輸出至環境合成單元506。

反增益控制及再指派單元502可表示經組態以基於旁側資訊521參照傳輸聲道501執行反增益控制及再指派之單元。反增益控制及再指派單元502可基於旁側資訊521確定增益控制資訊，且將增益控制資訊應用於傳輸聲道501中之每一者，從而將應用於藉由音場表示生成302所實施的音訊編碼器件處之增益控制反轉，以致力於降低傳輸聲道501之動態範圍。隨後，反增益控制及再指派單元502可基於旁側資訊523確定傳輸聲道501中之每一者指定主導音訊信號503亦或指定環境音訊信號505。反增益控制及再指派單元502可將主導音訊信號503輸出至主導聲音合成單元504，且將環境音訊信號505輸出至環境合成單元506。

主導聲音合成單元504可表示經組態以基於旁側資訊523合成由HOA係數11所表示音場之主導音訊分量的單元。主導聲音合成單元504可將主導音訊信號503中之每一者與旁側資訊523中所指定之相應空間向量(其亦可稱作「基於向量之信號」)相乘。主導聲音合成單元504向複合單元508輸出乘積之結果作為主導聲音表示507。

環境合成單元506可表示經組態以基於旁側資訊525合成由 HOA係數11所表示音場之環境分量的單元。環境合成單元506向複合單元508輸出合成之結果作為環境HOA係數509。

複合單元508可表示經組態以基於主導聲音表示507及環境HOA係數509構成HOA音訊資料15之單元。在一些實例中，複合單元508可將主導聲音表示507(其可限定描述最初由HOA係數11所表示音場之主導聲音的主導HOA係數)添加至環境HOA係數509以獲取HOA音訊資料15。複合單元508可將HOA音訊資料15輸出至效應單元510。

效應單元510可表示經組態以執行本發明中所描述之效應技術之各個態樣以基於平移距離17或(如下文更詳細描述)平移距離17及深度映射509來生成EM 26的單元。效應單元510可將EM 26應用於HOA音訊資料15以獲取經調適HOA音訊資料511。經調適HOA音訊資料511可經調適以提供於音場中考慮由平移距離17所指示之平移頭部移動的三自由度加效應。效應單元510可將經調適HOA音訊資料511輸出至呈現單元512。

呈現單元512可表示經組態以將一或多個AR 22應用於經調適HOA音訊資料511且從而獲取揚聲器饋送25之單元。呈現單元512可將揚聲器饋送25輸出至圖3之實例中所示的頭戴式耳機404。

雖然描述為獨立單元510與單元512，但效應單元510可併入呈現單元512內，其中以下文更詳細描述之方式將EM 26乘以AR 22中之所選一者。EM 26與AR 22中之所選一者的乘積可產生經更新之AR(其可表示為「經更新AR 22」)。呈現單元512可隨後將經更新AR 22應用於HOA音訊資料15，從而調適HOA音訊資料15以提供考慮平移距離17之3DOF+效應並且呈現揚聲器饋送25。

圖5為更詳細地說明圖4之實例中所示之效應單元如何根據本發明中所描述之技術之各個態樣獲取效應矩陣的圖。如圖5之實例中所示，使用者402最初駐留於經重建音場600中間，如在圖5左側所表示之「初始使用者位置(INITIAL USER LOCATION)」所示。當展示為圓形時，經重建音場600經模型化為以參考距離602環繞使用者402之球體。在一些實例中，使用者402可在對用於播放音訊資料之VR器件14進行組態時輸入參考距離602。在其他實例中，參考距離602為靜態的，或經限定為位元串流21之語法元素。當使用語法元素來限定時，參考距離602可為靜態的(諸如單次發送且因此靜態持續體驗之時間)或動態的(諸如在體驗期間多次發送，例如每音訊訊框或每一些週期性或非週期性數目之音訊訊框)。

效應單元510可接收參考距離602並於平移頭部移動606之前確定定位於離使用者402之頭部參考距離602處之錨點604。錨點604於圖5之實例中經展示為「X」標記。效應單元510可將錨點604確定為具有等於參考距離602之半徑的球體音場600之表面上的複數個均勻分佈錨點。

錨點604可表示藉以確定平移頭部移動606之參考點。換言之，錨點604可表示圍繞可藉以確定平移頭部移動606以便調適音場之球體音場600分佈的參考點。不應將錨點604與視覺影像搜索算法中所理解之錨點或關鍵點相混淆。再者，錨點604可表示離使用者402之頭部參考距離處的參考點，該等參考點用於確定相對於錨點604中之每一者的平移頭部移動606。相對於錨點604中之每一者之平移頭部移動606的範圍可能影響對其中駐留有錨點604中之各別一者的音場之部分的呈現。如此，錨點604亦可表示藉以確定平移頭部移動606並基於相對平移頭部移動606調適音場之呈現的音場採樣點。

在任何情況下，使用者402可隨後執行平移頭部移動606，如圖5於標題「USER LOCATION AFTER TRANSLATIONAL MOVEMENT」下之實例中所示，使頭部向右側移動平移距離17。效應單元510可在平移頭部移動606之後確定相對於多個錨點604中之每一者的經更新距離608。雖然僅單個經更新距離608展示於圖5之實例中，但效應單元510可確定相對於錨點604中之每一者的經更新距離608。效應單元510可隨後基於經更新距離608中之每一者確定EM 26。

效應單元510可計算每一平移錨定點之距離依賴型響度調節(呈EM26之形式)。對每一參考點之計算可經表示為g _｜，其中初始參考距離602經表示為dist _ref，且經更新距離608可經表示為dist _new,｜。對於錨點604 中之每一者，效應單元510可使用等式

來計算g _｜。distPow 參數可控制效應強度，該參數可由使用者402輸入以控制效應強度之幅值。當描述為可變目標以藉由使用者402控制時，distPow參數亦可藉由內容創建者動態或靜態地指定。

數學上，環繞使用者402之音場600可經表示為具有定位於使用者402之頭部處的中心之球體上的M個等距錨點604(其亦可稱作「空間點604」。可變「M」典型地經選擇以使得M大於或等於(N+1)²，其中N表示與HOA音訊資料15相關聯之最大階數。

M等距空間點604產生自使用者402之頭部延伸至M個等距空間點604中之每一者的M個空間方向。M個空間方向可由

表示。效應單元510可基於M個空間方向

來獲取應用於呈現矩陣之EM 26。在一個實例中，效應單元510獲取根據與M個空間方向中之每一者相關聯之HOA 係數計算的EM 26。效應單元510可隨後針對空間方向l=1...M中之每一者執行響度補償，該響度補償應用於EM 26以生成補償EM 26。當描述為M個等距空間點604時，點604亦可為非等距的，或換言之以非均勻方式圍繞球體分佈。

就由MPEG-H 3D音訊寫碼標準「DIS」版本之Annex F.1.5所使用的變量而言，當作為一個實例論述響度補償時，效應單元510可根據與M個空間方向相關聯之HOA係數按以下來計算EM 26：

其中

「†」符號可表示偽逆矩陣操作。

效應單元510可隨後執行每一空間方向l=1...M之響度補償，根據以下將該響度補償應用於矩陣F：

其中

。

效應單元510可隨後將AR 22中之所選一者(下文由變量「 R 」表示)乘以EM 26(上文及下文由變量「 F 」表示)以生成上文所論述且如下由變量「 D 」所表示之經更新AR 22。

D = RF

當禁用距離依賴型響度調節時，前述可在數學上表示經去除與g _｜之乘積的距離獨立型響度調節，得到以下：

在所有其他方面中，當啟用距離獨立型響度調節時(或換言之，當禁用距離依賴型響度調節時)，數學表示不變。

以此方式，效應單元510可將EM 26提供至呈現單元512，該呈現單元使將HOA音訊資料15自球諧域轉換至空間域揚聲器信號25(其在此情況下可為將HOA音訊資料呈現為雙耳音訊頭戴式耳機揚聲器信號之雙耳呈現)之音訊轉譯器22乘以經補償EM 26，以創建能夠考慮三個自由度及平移頭部移動606兩者之經調適空間呈現矩陣(其在本文中稱作「經更新AR 22」)。

在一些情況下，效應單元510可確定多個EM 26。舉例而言，效應單元510可確定第一頻率範圍之第一EM 26、第二頻率範圍之第二EM 26等。第一EM 26與第二EM 26之頻率範圍可重疊，或可能不重疊(或換言之，可彼此不同)。如此，本發明中所描述之技術不應受限於單個EM 26，但應包括多個EM 26之應用，包括(但不限於)實例多個頻率依賴型EM 26。

如上文所論述，效應單元510亦可基於平移距離17及深度映射509來確定EM 26。位元串流21可包括與HOA音訊資料16相對應之視訊資料，其中此種視訊資料與HOA音訊資料16同步(使用例如訊框同步化資訊)。雖然未展示於圖2至圖4之實例中，但用戶端消費者器件14可包括解碼提供視訊資料之相應位元串流的視訊播放系統，該視訊資料可包括深度映射，諸如深度映射509。深度映射509提供360度虛擬實境場景之灰階表示，其中黑色表示非常遠之距離，且白色表示具有指示黑色與白色之間的中間距離之各種灰度的較近距離。

視訊播放系統之視頻解碼器件可利用深度映射509以根據視訊位元串流中所指定之各別右眼視圖或左眼視圖來調配左眼或右眼的視圖。視頻解碼器件可基於深度映射來改變右眼視圖與左眼視圖之間橫向距離的量，基於較深灰度按比例將橫向距離調整為較小。如此，在深度映射509中以白色或較淺灰度所表示之較近對象可具有左眼與右眼視圖之間的較大橫向距離，而在深度映射509中以黑色或較深灰度所表示之較遠目標可具有左眼與右眼視圖之間的較小橫向距離(藉此更接近類似於遠點)。

效應單元510可利用由深度映射509提供之深度資訊來調適錨點604相對於使用者402之頭部的位置。亦即，效應單元510可將錨點604映射至深度映射509，且利用深度映射509於深度映射509內之所映射位置處的深度資訊來標識錨點604中之每一者的更精確參考距離602。圖6為說明圖4中所示之深度映射已經更新以根據本發明中所描述之技術的各個態樣反映錨點與深度映射之映射的圖。

就此而言，替代假設單個參考距離602，效應單元510可利用深度映射509來估計錨點604中之每一者的單個參考物距離602。如此，效應單元510可確定相對於錨點604之經單個確定之參考距離602中之每一者的經更新距離608。

當描述為參照灰階深度映射509來執行時，該等技術可參照提供深度資訊之其他類型的資訊來執行，諸如色彩影像、色階或灰階立體聲影像、紅外攝影機影像等。換言之，該等技術可參照提供與相應HOA音訊資料15相關聯之場景的深度資訊之任何類型的資訊來執行。

圖7為說明可根據本發明中所描述之技術的各個態樣來操作之可穿戴式器件800之一實例的圖。在各種實例中，可穿戴式器件800可表示VR耳機(諸如上述VR耳機400)、AR耳機、MR耳機或擴展實境(XR)耳機。擴增實境「AR」可指重疊於使用者實際上所定位之真實世界上的電腦呈現影像或資料。混合實境「MR」可指鎖定於真實世界中之特定位置之世界的電腦呈現影像或資料，或可指其中部分電腦呈現3D元素及部分攝影真實元素經組合為模擬用戶於環境中之實體存在的身歷其境體驗之VR的變型。擴展實境「XR」可指VR、AR及MR之統稱術語。關於XR之術語的更多資訊可發現於Jason Peterson之標題為「Virtual Reality,Augmented Reality,and Mixed Reality Definitions」且日期為2017年7月7日的文件中。

可穿戴式器件800可表示其他類型之器件，諸如手錶(包括所謂「智慧型手錶」)、眼鏡(包括所謂「智慧型眼鏡」)、頭戴式耳機(包括所謂「無線頭戴式耳機」及「智慧型頭戴式耳機」)、智慧型服飾、智慧型珠寶及其類似者。無論表示VR器件、手錶、眼鏡及/或頭戴式耳機，可穿戴式器件800可與經由有線連接或無線連接來支持可穿戴式器件800之計算器件通信。

在一些情況下，支持可穿戴式器件800之計算器件可經整合於可穿戴式器件800內，且如此，可穿戴式器件800可視為與支持可穿戴式器件800之計算器件相同的器件。在其他情況下，可穿戴式器件800可與能夠支持可穿戴式器件800之獨立計算器件通信。就此而言，術語「支持」不應理解為需要獨立專用器件，而為經組態以執行本發明中所描述之技術之各個態樣的一或多個處理器可經整合於可穿戴式器件800內或經整合於與可穿戴式器件800分離之計算器件內。

舉例而言，當可穿戴式器件800表示VR器件400時，獨立專用計算器件(諸如包括一或多個處理器之個人電腦)可呈現音訊及視覺內容，而可穿戴式器件800可確定平移頭部移動，接著專用計算器件可根據本發明中所描述之技術之各個態樣基於平移頭部移動來呈現音訊內容(作為揚聲器饋送)。作為另一實例，當可穿戴式器件800表示智慧型眼鏡時，可穿戴式器件800可包括確定平移頭部移動(藉由介接於可穿戴式器件800之一或多個感測器內)並且基於所確定平移頭部移動來呈現揚聲器饋送之一或多個處理器。

如所展示，可穿戴式器件800包括後部攝影機、一或多個定向揚聲器、一或多個追蹤及/或記錄攝影機及一或多個發光二極體(LED)燈。在一些實例中，該(或該等)LED燈可稱作「超亮」LED燈。另外，可穿戴式器件800包括一或多個眼部追蹤攝影機、高靈敏度音訊麥克風及光學/投影硬體。可穿戴式器件800之光學/投影硬體可包括持久半透明顯示技術及硬體。

可穿戴式器件800亦包括連接硬體，該連接硬體可表示支持多模式連接之一或多個網路介面，諸如4G通信、5G通信等。可穿戴式器件800亦包括環境光感測器及骨傳導換能器。在一些情況下，可穿戴式器件800亦可包括具有魚眼透鏡及/或攝遠透鏡之一或多個被動及/或主動攝影機。根據本發明之各種技術，本發明諸如圖2A之內容消費者器件14的各種器件可使用可穿戴式器件800之轉向角來選擇音場之音訊表示(例如MOA表示中之一者)，從而經由可穿戴式器件800之定向揚聲器頭戴式耳機404輸出。將瞭解，可穿戴式器件800可呈現多種不同形式因數。

此外，追蹤及記錄攝影機以及其他感測器可促進對平移距離606之確定。雖然未展示於圖7之實例中，但可穿戴式器件800可包括上文所論述之MEMS或用於偵測平移距離606之其他類型的感測器。

雖然參照穿戴式器件(諸如上文參照圖3之實例所論述的VR 器件400及闡述於圖2A及圖2B之實例中之其他器件)之特定實例來描述，但一般熟習此項技術者將瞭解與圖2A至圖3相關之描述可應用於穿戴式器件之其他實例。舉例而言，諸如智慧型眼鏡之其他穿戴式器件可包括藉以獲取平移頭部移動之感測器。作為另一實例，諸如智慧型手錶之其他穿戴式器件可包括藉以獲取平移移動之感測器。如此，本發明中所描述之技術不應受限於特定類型之可穿戴式器件，而為任何可穿戴式器件可經組態以執行本發明中所描述之技術。

圖8A及圖8B為說明可執行本發明中所描述之技術的各個態樣之實例系統的圖。圖8A說明其中源器件12進一步包括攝影機200之一實例。攝影機200可經組態以捕獲視訊資料，且提供所捕獲之內容捕獲器件300的原始視訊資料。內容捕獲器件300可將視訊資料提供至源器件12之另一組件，以供進一步處理為經視埠分割部分。

在圖8A之實例中，內容消費者器件14亦包括可穿戴式器件800。將理解，在各種實施方案中，可穿戴式器件800可包括於內容消費者器件14中或經外部耦接至內容消費者器件14。如上文參照圖7所論述，可穿戴式器件800包括用於輸出視訊資料(例如如與各種視埠相關聯)及用於呈現音訊資料之顯示器硬體及揚聲器硬體。

除圖8A中所展示之音訊呈現器22藉由能夠使用一或多種HRTF或能夠呈現左側及右側揚聲器饋送103之其他函數來執行雙耳呈現的雙耳呈現器102替換以外，圖8B說明由圖8A說明之類似實例的一實例。音訊播放系統16可將左側及右側揚聲器饋送103輸出至頭戴式耳機104。

頭戴式耳機104可經由有線連接(諸如標準3.5mm音訊插口、通用系統匯流排(USB)連接、光學音訊插口或其他形式之有線連接) 或以無線方式(諸如藉助於Bluetooth^TM連接、無線網路連接及其類似者)耦接至音訊播放系統16。頭戴式耳機104可基於左側及右側揚聲器饋送103來重建由HOA係數11表示之音場。頭戴式耳機104可包括由相應左側及右側揚聲器饋送103供電(或換言之驅動)之左側頭戴式耳機揚聲器及右側頭戴式耳機揚聲器。

圖9為說明音訊播放器件可根據本發明之各個態樣執行之實例過程700的流程圖。最初，如上文所描述，圖2A之音訊播放器件16可獲取表示與圖5之實例中所示的器件14介接之使用者之平移頭部移動606的平移距離17(702)。

在接收平移距離17之後及在上述方式中，音訊播放器件16可基於平移距離17調適HOA音訊資料15以提供使音場600適應平移頭部移動306之三自由度加(3DOF+)效應(704)。再如上文所描述，音訊播放器件16可隨後基於經調適HOA音訊資料511生成揚聲器饋送25(706)。音訊播放器件16可隨後輸出揚聲器饋送25以供頭戴式耳機404播放(708)。

如上文所指出，在將揚聲器饋送25輸出至頭戴式耳機時，音訊播放系統16可利用使用頭部相關變換函數或其他函數提供雙耳呈現的呈現器22中之一者。術語「揚聲器」或「換能器」一般可指任何揚聲器，包括擴音器、頭戴式耳機揚聲器等。一或多個揚聲器可隨後播放呈現之揚聲器饋送25。

將認識到，取決於實例，本文中所描述之技術中之任一者的某些動作或事件可以不同次序經執行、可經添加、合併或完全省去(例如並非全部所描述動作或事件均為實踐該等技術所必要)。此外，在某些實例中，可例如經由多線程處理、中斷處理或多個處理器同時而非依序執行動作或事件。

在一些實例中，VR器件(或串流傳輸器件)可使用耦接至VR/串流傳輸器件之記憶體之網路介面將交換訊息傳送至外部器件，其中交換訊息與音場之多個可用表示相關聯。在一些實例中，VR器件可使用耦接至網路介面之天線來接收包括資料封包、音訊封包、視訊封包之無線信號，或傳輸與音場之多個可用表示相關聯的協定資料。在一些實例中，一或多個麥克風陣列可捕獲音場。

在一些實例中，儲存至記憶體器件之音場的多個可用表示可包括音場之複數個基於對象的表示、音場之高階立體混響表示、音場之混合階數立體混響表示、音場之基於對象的表示與音場之高階立體混響表示之組合、音場之基於對象的表示與音場之混合階數立體混響表示之組合，或音場之混合階數表示與音場之高階立體混響表示之組合。

在一些實例中，音場之多個可用表示的音場表示中之一或多個可包括至少一個高解析度區域及至少一個較低解析度區域，且其中基於轉向角之所選呈現針對至少一個高解析度區域提供較大空間精確度且針對較低解析度區域提供較小空間精確度。

在一或多個實例中，所描述功能可以硬體、軟體、韌體或其任何組合來實施。若以軟體實施，則該等功能可作為一或多個指令或代碼儲存於電腦可讀媒體上或於電腦可讀媒體上傳輸，且由基於硬體之處理單元執行。電腦可讀媒介可包括電腦可讀儲存媒介或通信媒介，該電腦可讀儲存媒介與諸如資料儲存媒介之有形媒體相對應，該通信媒介包括例如根據通信協定促進電腦程式自一處傳送至另一處的任何媒體。以此方式，電腦可讀媒介通常可與(1)作為非暫時性之有形電腦可讀儲存媒介相對應，或與(2)諸如信號或載波之通信媒體相對應。資料儲存媒介可為可藉由一或多個電腦或一或多個處理器存取以擷取指令、代碼及/或資料結構以用於實施本發明中所描述之技術的任何可用媒介。電腦程式產品可包括電腦可讀媒體。

藉由實例而非限制，此類電腦可讀儲存媒介可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器、磁碟儲存器或其他磁性儲存器件、快閃記憶體或可用以儲存呈指令或資料結構形式之所要代碼且可由電腦存取的任何其他媒體。而且，將任何連接恰當地稱為電腦可讀媒體。舉例而言，若使用同軸纜線、光纖纜線、雙絞線、數位訂戶線(DSL)或諸如紅外線、無線電及微波之無線技術自網站、伺服器或其他遠端源來傳輸指令，則同軸纜線、光纖纜線、雙絞線、DSL或諸如紅外線、無線電及微波之無線技術包括於媒體之定義中。然而，應理解，電腦可讀儲存媒介及資料儲存媒介不包括連接、載波、信號或其他暫時性媒介，而實情為關於非暫時性有形儲存媒介。如本文中所使用，碟片及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位影音光碟(DVD)、軟碟及藍光光碟，其中碟片通常以磁性方式重現資料，而光碟藉由雷射以光學方式重現資料。以上之組合亦應包括於電腦可讀媒介之範圍內。

指令可由一或多個處理器執行，該一或多個處理器諸如一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化閘陣列(FPGA)或其他等效之積體或離散邏輯電路。因此，如本文中所使用之術語「處理器」可指上述結構或適合於實施本文中所描述之技術之任何其他結構中的任一者。另外，在一些態樣中，本文中所描述之功能可提供於經組態以供編碼及解碼或併入於經組合編解碼器中之專用硬體及/或軟體模組內。此外，該等技術可完全實施於一或多個電路或邏輯元件中。

本發明之技術可實施於包括無線手持機、積體電路(IC)或IC集合(例如晶片集合)之廣泛多種器件或裝置中。在本發明中描述各種組件、模組或單元以強調經組態以執行所揭示技術之器件的功能態樣，但未必要求由不同硬體單元來實現。相反，如上文所描述，各種單元可經組合於編解碼器硬體單元中，或藉由互操作性硬體單元(包括如上文所描述之一或多個處理器)之集合結合合適的軟體及/或韌體來提供。

各種實例已予以描述。此等及其他實例在以下申請專利範圍之範圍內。

700:實例過程

702:過程

704:過程

706:過程

708:過程

Claims

一種用於處理媒介資料之器件，其包含：一記憶體，其經組態以儲存表示一音場之高階立體混響音訊資料；及一或多個處理器，其耦接至該記憶體且經組態以：接收一初始參考距離；判定參考點，其中該等參考點係錨點，且在與該器件介接之一使用者之一平移移動之前定位於相對於該使用者之頭部之該初始參考距離處；獲取表示與該器件介接之該使用者之一平移頭部移動的一平移距離；在該平移距離已經獲取之後，判定定位於該初始參考距離處之該等錨點之每一者與該使用者之該頭部之間的經更新距離；在一呈現器之應用之前，基於該等經更新距離之每一者來判定一效應矩陣；基於該效應矩陣來生成高階立體混響音訊資料，以使該音場適應所獲取之該平移距離；且基於經調適生成之高階立體混響音訊資料生成揚聲器饋送。
如請求項1之器件，其中表示該平移頭部移動之該平移距離限定於一二維空間座標空間或一三維空間座標空間中。
如請求項1之器件，其中該一或多個處理器進一步經組態以將該效應矩陣乘以一呈現矩陣來獲取一經更新呈現矩陣，其中該一或多個處理器經組態以將該經更新呈現矩陣應用於該高階立體混響音訊資料，從而1)提供使該音場適應該平移距離之一或多個效應，且2)生成該等揚聲器饋送。
如請求項1之器件，其中該複數個錨點均勻分佈於具有等於該初始參考距離之一半徑的一球體之一表面上。
如請求項1之器件，其中包括一深度映射之三維視訊資料與該高階立體混響音訊資料相關聯，且其中該一或多個處理器經組態以在確定定位於該初始參考距離處之該等錨點之每一者與該使用者之該頭部之間之該等經更新距離的每一者之前，基於該深度映射來判定該等錨點中之每一者的該參考距離。
如請求項1之器件，其中包括一深度映射之三維視訊資料與該高階立體混響音訊資料相關聯，且其中該一或多個處理器經組態以基於該深度映射來獲取定位於該初始參考距離處之該等錨點之每一者與該使用者之該頭部之間之該等經更新距離。
如請求項1之器件，其中該一或多個處理器耦接至該器件之揚聲器，其中該器件係一可穿戴式器件，其中該一或多個處理器經組態以將該呈現器應用於該經調適高階立體混響音訊資料以生成該等揚聲器饋送，其中該呈現器係一雙耳呈現器，且其中該一或多個處理器進一步經組態以將該等揚聲器饋送輸出至該等揚聲器。
如請求項7之器件，其中該可穿戴式器件為一手錶、眼鏡、頭戴式耳機、一擴增實境(AR)耳機、一虛擬實境(VR)耳機或一擴展實境(XR)耳機。
如請求項1之器件，其中該一或多個處理器進一步經組態以獲取指示與該器件介接之該使用者的一旋轉頭部移動之一旋轉指示，且其中該一或多個處理器經組態以基於該平移距離及該旋轉指示，以使該音場適應該平移移動及該旋轉指示。
如請求項1之器件，其中該一或多個處理器經組態以使用感測該平移頭部移動之運動感測器來獲取該平移距離。
如請求項1之器件，其中該一或多個處理器經組態以基於由耦接至該一或多個處理器之一攝影機捕獲的影像來獲取該平移距離。
如請求項1之器件，其中該高階立體混響音訊資料包含與具有一或小於一之一階數的球基函數相關聯之高階立體混響係數、與具有一混合階數及子階數之球基函數相關聯之高階立體混響係數，或與具有大於一之一階數的球基函數相關聯之高階立體混響係數。
如請求項1之器件，其中該接收該初始參考距離係可組態用於高階立體混響音訊資料之播放，且係基於一使用者輸入。
如請求項1之器件，其中該初始參考距離係靜態。
如請求項1之器件，其中該初始參考距離係動態。
如請求項1之器件，其中該接收該初始參考距離係接收作為將由一播放器件解碼之一位元串流之一語法元素。
一種用於處理媒介資料之方法，其包含：接收一初始參考距離；判定參考點，其中該等參考點係錨點，且在與一器件介接之一使用者之一平移移動之前定位於相對於該使用者之頭部之該初始參考距離處；獲取表示與器件介接之該使用者之一平移頭部移動的一平移距離；在該平移距離已經獲取之後，判定定位於該初始參考距離處之該等錨點之每一者與該使用者之該頭部之間的經更新距離；在一呈現器之應用之前，基於該等經更新距離之每一者來判定一效應矩陣；基於該效應矩陣來生成高階立體混響音訊資料，以使由該高階立體混響音訊資料表示之一音場適應所獲取之該平移距離；以及基於經生成之高階立體混響音訊資料生成揚聲器饋送。
如請求項17之方法，其中表示該平移頭部移動之該平移距離限定於一二維空間座標空間或一三維空間座標空間中。
如請求項17之方法，其進一步包含將該效應矩陣乘以一呈現矩陣來獲取一經更新呈現矩陣，生成該等揚聲器饋送包含將該經更新呈現矩陣應用於該高階立體混響音訊資料，從而1)提供使該音場適應該平移距離之一或多個效應，且2)生成該等揚聲器饋送。
如請求項17之方法，其中該複數個錨點均勻分佈於具有等於該初始參考距離之一半徑的一球體之一表面上。
如請求項17之方法，其中包括一深度映射之三維視訊資料與該高階立體混響音訊資料相關聯，且其中該判定該等錨點之每一者之該初始參考距離係基於該深度映射，在判定定位於該初始參考距離處之該等錨點之每一者與該使用者之該頭部之間之該等經更新距離的每一者之前。
如請求項17之方法，其中包括一深度映射之三維視訊資料與該高階立體混響音訊資料相關聯，且其中基於該深度映射來獲取定位於該該初始參考距離處之該等錨點之每一者與該使用者之該頭部之間之該等經更新距離。
如請求項17之方法，其中生成該等揚聲器饋送包含將該呈現器應用於該經調適高階立體混響音訊資料以生成該等揚聲器饋送，其中該呈現器係一雙耳呈現器，且其中該方法進一步包含將該等揚聲器饋送輸出至頭戴式耳機揚聲器。
如請求項17之方法，其進一步包含獲取指示與該器件介接之該使用者的一旋轉頭部移動之一旋轉指示，且其中基於該平移距離及該旋轉指示，以使該音場適應該平移移動及該旋轉指示。
如請求項17之方法，其中獲取該平移距離包含使用感測該平移頭部移動之運動感測器獲取該平移距離。
如請求項17之方法，其中基於由耦接至該器件之一攝影機捕獲的影像來獲取該平移距離。
如請求項17之方法，其中該方法藉由一虛擬實境耳機、一擴增實境耳機或一混合實境耳機來執行。
如請求項17之方法，其中該高階立體混響音訊資料包含與具有一或小於一之一階數的球基函數相關聯之高階立體混響係數、與具有一混合階數及子階數之球基函數相關聯之高階立體混響係數，或與具有大於一之一階數的球基函數相關聯之高階立體混響係數。
一種用於處理媒介資料之器件，其包含：用於接收一初始參考距離的構件；用於判定參考點的構件，其中該等參考點係錨點，且在與該器件介接之一使用者之一平移移動之前定位於相對於該使用者之頭部之該初始參考距離處；用於獲取表示與該器件介接之該使用者之一平移頭部移動的一平移距離的構件；在該平移距離已經獲取之後，用於判定定位於該初始參考距離處之該等錨點之每一者與該使用者之該頭部之間的經更新距離的構件；在一呈現器之應用之前，用於基於該等經更新距離之每一者來判定一效應矩陣的構件；用於基於該效應矩陣來生成高階立體混響音訊資料以使由該高階立體混響音訊資料表示之一音場適應所獲取之該平移距離的構件；以及用於基於該用於生成高階立體混響音訊資料的構件而生成揚聲器饋送的構件。
一種非暫時性電腦可讀儲存媒體，其上已儲存有指令，該等指令在執行時，促使一或多個處理器：接收一初始參考距離；判定參考點，其中該等參考點係錨點，且在與該器件介接之一使用者之一平移移動之前定位於相對於該使用者之頭部之該初始參考距離處；獲取表示與一器件介接之該使用者之一平移頭部移動的一平移距離；在該平移距離已經獲取之後，判定定位於該初始參考距離處之該等錨點之每一者與該使用者之該頭部之間的經更新距離；在一呈現器之應用之前，基於該等經更新距離之每一者來判定一效應矩陣；基於該效應矩陣來生成高階立體混響音訊資料，以使由該高階立體混響音訊資料表示之一音場適應所獲取之該平移距離；且基於經生成之高階立體混響音訊資料生成揚聲器饋送。