TW202133625A

TW202133625A - 基於運動選擇音訊串流

Info

Publication number: TW202133625A
Application number: TW109144064A
Authority: TW
Inventors: Ｓｍ阿克拉姆斯薩拉興; 悉達多高塔姆斯瓦米納坦; 迪潘簡森
Original assignee: 美商高通公司
Priority date: 2019-12-13
Filing date: 2020-12-14
Publication date: 2021-09-01
Also published as: CN114747231A; US11089428B2; US20210185470A1; EP4074076A1; WO2021119492A1; KR20220113938A

Abstract

大體而言，技術的各態樣被描述用於基於運動選擇音訊串流。一種包含處理器和記憶體的設備可以被配置成執行該等技術。該處理器可以被配置成獲得該設備的當前位置，並獲得擷取位置。該等擷取位置中的每一者可以辨識擷取音訊串流中的相應一者的位置。該處理器亦可以被配置成基於該當前位置和該擷取位置來選擇該等音訊串流的子集，其中該等音訊串流的該子集具有比該等音訊串流少的音訊串流。該處理器可以亦被配置成基於該等音訊串流的該子集來再現聲場。該記憶體可以被配置成儲存該複數個音訊串流的該子集。

Description

基於運動選擇音訊串流

本專利申請案主張2019年12月13日提出申請的題為「SELECTING AUDIO STREAMS BASED ON MOTION」的第16/714,150號非臨時申請案的優先權，該申請案被轉讓給本發明的受讓人，並在此經由引用明確併入本文。

本案係關於音訊資料的處理。

正在開發以電腦為媒介的現實系統，以允許計算設備增強或增加、移除或減少或通常修改使用者所體驗的現有現實。以電腦為媒介的現實系統（亦可以稱為「擴展現實系統」或「XR系統」）可以包括例如，虛擬實境（VR）系統、增強現實（AR）系統和混合現實（MR）系統。以電腦為媒介的現實系統的感知成功通常與此類以電腦為媒介的現實系統在視訊和音訊體驗態樣提供逼真的沉浸式體驗的能力相關，其中視訊和音訊體驗以使用者期望的方式對準。儘管人類視覺系統比人類聽覺系統更敏感（例如，就場景內各種物件的感知定位而言），但確保充分的聽覺體驗在確保逼真的沉浸式體驗態樣是越來越重要的因素，尤其是隨著視訊體驗改良以允許更好地定位視訊物件，從而使使用者能夠更好地辨識音訊內容的源。

本發明大體而言係關於用於基於使用者運動來從一或多個現有音訊串流中選擇音訊串流的技術。由於所選擇的音訊串流可以更好地反映聽者相對於現有音訊串流的位置，因此該等技術可以改良聽者體驗，同時亦減少聲場再現定位誤差，從而改良重播設備（其執行再現聲場的技術）自身的操作。

在一個實例中，該等技術係關於一種被配置成處理一或多個音訊串流的設備，該設備包含：一或多個處理器，被配置成：獲得該設備的當前位置；獲得複數個擷取位置，該複數個擷取位置中的每一者辨識複數個音訊串流中的相應一者被擷取的位置；基於該當前位置和該複數個擷取位置來選擇該複數個音訊串流的子集，該複數個音訊串流的該子集具有比該複數個音訊串流少的音訊串流；及基於該複數個音訊串流的該子集來再現聲場；及耦合到該處理器的記憶體，且被配置成儲存該複數個音訊串流的該子集。

在另一實例中，該等技術係關於一種處理一或多個音訊串流的方法，該方法包含以下步驟：獲得設備的當前位置；獲得複數個擷取位置，該複數個擷取位置中的每一者辨識複數個音訊串流中的相應一者被擷取的位置；基於該當前位置和該複數個擷取位置來選擇該複數個音訊串流的子集，該複數個音訊串流的該子集具有比該複數個音訊串流少的音訊串流；及基於該複數個音訊串流的該子集來再現聲場。

在另一實例中，該等技術係關於一種其上儲存有指令的非暫時性電腦可讀取儲存媒體，該等指令在被執行時使得設備的一或多個處理器：獲得設備的當前位置；獲得複數個擷取位置，該複數個擷取位置中的每一者辨識複數個音訊串流中的相應一者被擷取的位置；基於該當前位置和該複數個擷取位置來選擇該複數個音訊串流的子集，該複數個音訊串流的該子集具有比該複數個音訊串流少的音訊串流；及基於該複數個音訊串流的該子集來再現聲場。

在另一實例中，該等技術係關於一種被配置成處理一或多個音訊串流的設備，該設備包含：用於獲得設備的當前位置的構件；用於獲得複數個擷取位置的構件，該複數個擷取位置中的每一者辨識複數個音訊串流中的相應一者被擷取的位置；用於基於該當前位置和該複數個擷取位置來選擇該複數個音訊串流的子集的構件，該複數個音訊串流的該子集具有比該複數個音訊串流少的音訊串流；及用於基於該複數個音訊串流的該子集來再現聲場的構件。

在附圖和下文描述中陳述本案的一或多個實例的細節。該等技術的各態樣的其他特徵、目標和優點將從描述和附圖以及從請求項而顯而易見。

存在許多不同的方式來表示聲場。示例性格式包括基於通道的音訊格式、基於物件的音訊格式和基於場景的音訊格式。基於通道的音訊格式是指5.1環繞聲格式、7.1環繞聲格式、22.2環繞聲格式或任何其他基於通道的格式，該格式將音訊通道定位到聽者周圍的特定位置以重建聲場。

基於物件的音訊格式可以指其中指定音訊物件以便表示聲場的格式，該等音訊物件通常使用脈衝碼調制（PCM）進行編碼並被稱作PCM音訊物件。此類音訊物件可以包括辨識音訊物件相對於聽者或聲場中的其他參考點的位置的中繼資料，使得音訊物件可以被渲染給一或多個用於重播的揚聲器通道，以努力重建聲場。本案中描述的技術可以適用於任何前述格式，包括基於場景的音訊格式、基於通道的音訊格式、基於物件的音訊格式或其任何組合。

基於場景的音訊格式可以包括定義三維聲場的元素的分層集。元素的分層集的一個實例是球諧係數（SHC）集。以下運算式演示了使用SHC對聲場的描述或表示：

運算式展示，在時間t ，在聲場的任一點

的壓力

可以由SHC

唯一地表示。此處，

，其中c 是聲速（約343 m/s），

是參考點（或觀測點），

是n 階的球面貝塞爾函數，並且

是n 階和m 次階的球諧基函數（亦可以稱作球面基函數）。可以認識到，方括號中的項是信號（亦即

）的頻域表示，其可以經由各種時頻變換來近似，諸如離散傅裡葉變換（DFT）、離散餘弦變換（DCT）或小波變換。分層集的其他實例包括小波變換係數集和多解析度基函數的其他係數集。

SHC

可以經由各種麥克風陣列配置而被實體地獲取（例如，記錄），或替代地，可以從聲場的基於通道或基於物件的描述中匯出。SHC（亦可以稱作環境聲係數）表示基於場景的音訊，其中SHC可以被輸入到音訊編碼器，以獲得可以促進更有效傳輸或儲存的編碼SHC。例如，可以使用涉及(1+4)² （25，且因此是四階）係數的四階表示。

如前述，SHC可以從使用麥克風陣列的麥克風記錄中匯出。Poletti, M.的「Three-Dimensional Surround Sound Systems Based on Spherical Harmonics」（J. Audio Eng. Soc.，第53卷，第11期，2005年11月，第1004-1025頁）中描述了如何從麥克風陣列實體地獲取SHC的各種實例。

以下等式可以說明如何從基於物件的描述中匯出SHC。對應於單個音訊物件的聲場的係數

可以表示為：

其中i是

，

是n階球面漢克爾（Hankel）函數（第二類），並且

是物件的位置。已知物件源能量

是頻率的函數（例如，使用時頻分析技術，諸如對脈衝碼調制（PCM）串流執行快速傅裡葉變換），可能能夠將每一PCM物件和對應的位置轉換成SHC

。此外，可以展示（因為以上是線性和正交分解），每一物件的

係數是相加的。以此方式，許多PCM物件可以由

係數來表示（例如，作為單個物件的係數向量的總和)。係數可以包含關於聲場的資訊（作為3D座標的函數的壓力），並且以上表示在觀測點

附近從單個物件到整體聲場的表示的變換。

以電腦為媒介的現實系統（亦可以稱為「擴展現實系統」或「XR系統」）正在被開發，以利用由環境聲係數提供的許多潛在益處。例如，環境聲係數可以以潛在地實現聲場內聲源的精確三維（3D）定位的方式來表示三維聲場。因此，XR設備可以將環境聲係數渲染給揚聲器饋送，當經由一或多個揚聲器播放時，揚聲器饋送精確地再現聲場。

將環境聲係數用於XR可以實現依賴於由環境聲係數提供的更加沉浸式的聲場的許多用例的開發，特別是對於電腦遊戲應用程式和即時視訊串流應用程式。在該等依賴於聲場的低延時再現的高動態的用例中，XR設備可能更偏好環境聲係數，而不是較難操縱或涉及複雜渲染的其他表示。下文參考圖1A和圖1B來提供關於該等用例的更多資訊。

儘管在本案中是關於VR設備進行描述的，但該等技術的各態樣可以在其他設備的上下文中執行，諸如行動設備。在此情況下，行動設備（諸如所謂的智慧型電話）可以經由螢幕呈現所顯示的世界，該螢幕可以安裝在使用者102的頭部，或者如正常使用行動設備時一般被觀看。因而，螢幕上的任何資訊皆可以是行動設備的一部分。行動設備可以能夠提供追蹤資訊41，從而允許VR體驗（當為頭戴式時）和正常體驗來觀看所顯示的世界，其中正常體驗仍可以允許使用者觀看所顯示的世界，從而檢驗VR-精簡-類型的體驗（例如，舉起設備並旋轉或平移設備來觀看所顯示世界的不同部分）。

圖1A和圖1B是圖示可以執行本案中描述的技術的各態樣的系統的圖。如圖1A的實例中所示，系統10包括源設備12和內容消費者設備14。儘管在源設備12和內容消費者設備14的上下文中進行描述，但該等技術可以在聲場的任何分層表示被編碼，以形成表示音訊資料的位元串流的任何上下文中實現。此外，源設備12可以表示能夠產生聲場的分層表示的任何形式的計算設備，並且在本文通常在作為VR內容建立者設備的上下文中進行描述。同樣地，內容消費者設備14可以表示能夠實現本案中描述的音訊串流內插技術以及音訊重播的任何形式的計算設備，並且在本文通常在作為VR客戶端設備的上下文中進行描述。

源設備12可以由娛樂公司或其他實體操作，該源設備可以產生多通道音訊內容以供內容消費者設備（諸如內容消費者設備14）的服務供應商消費。在許多VR場景中，源設備12產生與視訊內容結合的音訊內容。源設備12包括內容擷取設備300和內容聲場表示產生器302。

內容擷取設備300可以被配置成與一或多個麥克風5A-5N（「麥克風5」）對接或以其他方式通訊。麥克風5可以表示Eigenmike®或其他類型的3D音訊麥克風，其能夠擷取聲場並將聲場表示為對應的基於場景的音訊資料11A-11N（其亦可以被稱為環境聲係數11A-11N或「環境聲係數11」）。在基於場景的音訊資料11（該方式是另一方式來代表環境聲係數11」)的上下文中，每一麥克風5可以表示根據促進產生環境聲係數11的設定幾何形狀而被佈置在單個殼體內的一組麥克風。因此，術語麥克風可以指一組麥克風（其實際上是幾何佈置的換能器）或單個麥克風（可以稱作點麥克風）。

環境聲係數11可以表示音訊串流的一個實例。因而，環境聲係數11亦可以被稱作音訊串流11。儘管主要關於環境聲係數11進行了描述，但該等技術可以關於其他類型的音訊串流來執行，包括脈衝碼調制（PCM）音訊串流、基於通道的音訊串流、基於物件的音訊串流等。

在一些實例中，內容擷取設備300可以包括整合到內容擷取設備300的殼體中的整合麥克風。內容擷取設備300可以無線地或經由有線連接與麥克風5對接。並非經由麥克風5擷取或結合擷取音訊資料，而是在輸入環境聲係數11經由某些類型的可移除儲存體、無線地，及/或經由有線輸入過程而被輸入，或者替代地或結合前述被產生或以其他方式被建立（從儲存的聲音取樣，諸如在遊戲應用程式中常見的）之後，內容擷取設備300可以處理環境聲係數11。因而，內容擷取設備300和麥克風5的各種組合是可能的。

內容擷取設備300亦可以被配置成與聲場表示產生器302對接或以其他方式通訊。聲場表示產生器302可以包括能夠與內容擷取設備300對接的任何類型的硬體設備。聲場表示產生器302可以使用內容擷取設備300提供的環境聲係數11來產生由環境聲係數11表示的相同聲場的各種表示。

例如，為了使用環境聲係數（環境聲係數亦是音訊串流的一個實例）來產生聲場的不同表示，聲場表示產生器24可以使用用於聲場的環境聲表示的編碼方案，該編碼方案被稱作混合階環境聲學（MOA），如在2017年8月8日提出申請的美國申請案序號15/672,058中更詳細論述的，該申請案題為「MIXED-ORDER AMBISONICS (MOA) AUDIO DATA FO COMPUTER-MEDIATED REALITY SYSTEMS」，並於2019年1月3日作為美國專利公開案號20190007781公佈。

為了產生聲場的特定MOA表示，聲場表示產生器24可以產生完整環境聲係數集的部分子集。例如，由聲場表示產生器24產生的每一MOA表示可以提供關於聲場的一些區域的精度，但是少有其他區域中的精度。在一個實例中，聲場的MOA表示可以包括八（8）個未壓縮的環境聲係數，而相同聲場的三階環境聲表示可以包括十六（16）個未壓縮的環境聲係數。因而，作為環境聲係數的部分子集產生的聲場的每一MOA表示可以比從環境聲係數產生的相同聲場的對應三階環境聲表示更少儲存密集和更少頻寬密集（若並且當作為位元串流27的一部分在所示傳輸通道上傳輸時）。

儘管關於MOA表示進行了描述，但是本案的技術亦可以關於一階環境聲學（FOA）表示來執行，其中與一階球面基函數和零階球面基函數相關聯的所有環境聲係數皆用於表示聲場。換言之，聲場表示產生器302可以使用針對給定階數N的所有環境聲係數（而不是使用環境聲係數的部分非零子集）來表示聲場，結果是環境聲係數的總數等於(N+1)² 。

在該態樣，環境聲音訊資料（該方式是在MOA表示或全階表示中代表環境聲係數的另一方式，諸如上述一階表示）可以包括：與具有一階或更低階的球面基函數相關聯的環境聲係數（其可以稱作「一階環境聲音訊資料」）；與具有混合階和次階的球面基函數相關聯的環境聲係數（其可以稱作上文論述的「MOA表示」)；或與階數大於1的球面基函數相關聯的環境聲係數（在上文稱作「全階表示」）。

在一些實例中，內容擷取設備300可以被配置成與聲場表示產生器302無線地通訊。在一些實例中，內容擷取設備300可以經由無線連接或有線連接中的一者或兩者來與聲場表示產生器302通訊。經由內容擷取設備300與聲場表示產生器302之間的連接，內容擷取設備300可以提供各種形式的內容，為了論述的目的，該內容在本文被描述為環境聲係數11的一部分。

在一些實例中，內容擷取設備300可以利用聲場表示產生器302的各態樣（就聲場表示產生器302的硬體或軟體能力而言）。例如，聲場表示產生器302可以包括專用硬體，其被配置成（或專業軟體，其在被執行時使得一或多個處理器）：執行心理聲學音訊編碼（諸如由運動圖像專家組（MPEG）提出的表示為「USAC」的統一語音和音訊編碼器、MPEG-H 3D音訊編碼標準、MPEG-I沉浸式音訊標準或專有標準，諸如AptX^™ （包括AptX的各種版本，諸如增強型AptX–E-AptX、AptX即時、APTx身歷聲和APTx高清–AptX-HD）、高級音訊編碼（AAC）、音訊轉碼器3（AC-3）、蘋果無損音訊轉碼器（ALAC）、MPEG-4音訊無損串流（ALS）、增強AC-3、自由無損音訊轉碼器（FLAC）、猴子音訊（Monkey’s Audio）、MPEG-1音訊第二層（MP2）、MPEG-1音訊第三層（MP3）、Opus和訊窗媒體音訊（WMA）。

內容擷取設備300可以不包括心理聲學音訊編碼器專用硬體或專業軟體，而是以非心理聲學音訊編碼形式提供內容301的音訊態樣。聲場表示產生器302可以至少部分地經由執行關於內容301的音訊態樣的心理聲學音訊編碼來幫助內容301的擷取。

聲場表示產生器302亦可以經由至少部分地基於從環境聲係數11產生的音訊內容（例如，MOA表示、三階環境聲表示及/或一階環境聲表示）而產生一或多個位元串流21來幫助內容擷取和傳輸。位元串流21可以表示環境聲係數11的壓縮版本（及/或其用以形成聲場的MOA表示的部分子集）和任何其他不同類型的內容301（諸如球面視訊資料、影像資料或文字資料的壓縮版本）。

作為一個實例，聲場表示產生器302可以產生位元串流21以用於跨傳輸通道傳輸，該傳輸通道可以是有線或無線通道、資料儲存設備等。位元串流21可以表示環境聲係數11的編碼版本（及/或其用以形成聲場的MOA表示的部分子集），並且可以包括主位元串流和另一副位元串流（其可以稱作副通道資訊）。在一些情況下，表示環境聲係數11的壓縮版本的位元串流21可以符合根據MPEG-H 3D音訊編碼標準產生的位元串流。

內容消費者設備14可以由個人操作，並且可以表示VR客戶端設備。儘管關於VR客戶端設備進行了描述，但是內容消費者設備14可以表示其他類型的設備，諸如增強現實（AR）客戶端設備、混合現實（MR）客戶端設備（或任何其他類型的頭戴式顯示設備或擴展現實–XR–設備）、標準電腦、耳機、頭戴式耳機或能夠追蹤操作客戶端消費者設備14的個人的頭部移動及/或一般平移移動的任何其他設備。如圖1A的實例中所示，內容消費者設備14包括音訊重播系統16A，其可以指任何形式的音訊重播系統，該音訊重播系統能夠渲染環境聲係數（無論是一階、二階及/或三階環境聲表示及/或MOA表示的形式）以用於作為多通道音訊內容進行重播。

內容消費者設備14可以直接從源設備12取得位元串流21。在一些實例中，內容消費者設備12可以與網路對接，包括第五代（5G）蜂巢式網路，以取得位元串流21或以其他方式使得源設備12將位元串流21傳輸到內容消費者設備14。

儘管在圖1A中圖示為被直接傳輸到內容消費者設備14，但源設備12可以將位元串流21輸出到定位在源設備12與內容消費者設備14之間的中介設備。中介設備可以儲存位元串流21用於稍後遞送到可以請求該位元串流的內容消費者設備14。中介設備可以包含檔案伺服器、網頁伺服器、桌上型電腦、膝上型電腦、平板電腦、行動電話、智慧型電話，或能夠儲存位元串流21用於稍後由音訊解碼器取得的任何其他設備。中介設備可以常駐在內容遞送網路中，該內容遞送網路能夠將位元串流21（並可能結合傳輸對應的視訊資料位元串流）串流到請求該位元串流21的用戶，諸如內容消費者設備14。

或者，源設備12可以將位元串流21儲存到儲存媒體，諸如壓縮光碟、數位視訊光碟、高清視訊光碟或其他儲存媒體，大部分儲存媒體能夠由電腦讀取且因此可以被稱作電腦可讀取儲存媒體或非暫時性電腦可讀取儲存媒體。在此上下文中，傳輸通道可以指傳輸儲存到媒體的內容的通道（並且可以包括零售商店和其他基於商店的遞送機制）。在任何情況下，本案的技術因此不應在此態樣限於圖1A的實例。

如前述，內容消費者設備14包括音訊重播系統16。音訊重播系統16可以表示能夠重播多通道音訊資料的任何系統。音訊重播系統16A可以包括許多不同的音訊渲染器22。渲染器22可以各自提供不同形式的音訊渲染，其中不同形式的渲染可以包括執行基於向量的振幅平移（VBAP）的各種方式中的一者或多者，及/或執行聲場合成的各種方式中的一者或多者。如本文所使用，「A及/或B」意味著「A或B」，或「A和B」兩者。

音訊重播系統16A可以亦包括音訊解碼設備24。音訊解碼設備24可以表示被配置成解碼位元串流21，以輸出重建的環境聲係數11A'-11N'的設備（該等環境聲係數可以形成完整的一階、二階及/或三階環境聲表示或其子集，該子集形成相同聲場或其分解的MOA表示，諸如主要音訊信號、周圍環境聲係數和在MPEG-H 3D音訊編碼標準及/或MPEG-I沉浸式音訊標準中描述的基於向量的信號）。

因而，環境聲係數11A'-11N'（「環境聲係數11'」）可以類似於環境聲係數11的全部集合或部分子集，但是可能因有損操作（例如，量化）及/或經由傳輸通道的傳輸而異。音訊重播系統16可以在解碼位元串流21以獲得環境聲係數11'之後，從環境聲係數11'的不同串流中獲得環境聲音訊資料15，並且渲染環境聲音訊資料15以輸出揚聲器饋送25。揚聲器饋送25可以驅動一或多個揚聲器（為了便於說明，在圖1A的實例中未圖示）。聲場的環境聲表示可以用多種方式標準化，包括N3D、SN3D、FuMa、N2D或SN2D。

為了選擇適當的渲染器，或者在一些情況下，產生適當的渲染器，音訊重播系統16A可以獲得指示擴音器數量及/或擴音器空間幾何形狀的擴音器資訊13。在一些情況下，音訊重播系統16A可以使用參考麥克風獲得擴音器資訊13，並且以經由參考麥克風動態決定擴音器資訊13的方式輸出信號來啟用（或者換言之，驅動）擴音器。在其他情況下，或者結合擴音器資訊13的動態決定，音訊重播系統16A可以提示使用者與音訊重播系統16A對接並輸入擴音器資訊13。

音訊重播系統16A可以基於擴音器資訊13來選擇音訊渲染器22中的一者。在一些情況下，當沒有音訊渲染器22在與擴音器資訊13中指定的擴音器幾何形狀的某個閾值相似性度量（就擴音器幾何形狀而言）內時，音訊重播系統16A可以基於擴音器資訊13產生音訊渲染器22中的一者。在一些情況下，音訊重播系統16A可以基於擴音器資訊13產生音訊渲染器22中的一者，而無需首先嘗試選擇音訊渲染器22中的現有一者。

當將揚聲器饋送25輸出到頭戴式耳機時，音訊重播系統16A可以利用渲染器22中的一者，該等渲染器使用頭部相關傳遞函數（HRTF）或能夠渲染到左和右揚聲器饋送25用於頭戴式耳機揚聲器重播的其他函數來提供雙聲道渲染。術語「揚聲器」或「換能器」通常可以指任何揚聲器，包括擴音器、頭戴式耳機揚聲器等。隨後一或多個揚聲器可以重播渲染的揚聲器饋送25。

儘管被描述為渲染來自環境聲音訊資料15的揚聲器饋送25，但是對揚聲器饋送25的渲染的引用可以指其他類型的渲染，諸如直接併入到來自位元串流21的環境聲音訊資料15的解碼中的渲染。在MPEG-H 3D音訊編碼標準的附錄G中可以找到替代渲染的實例，其中渲染發生在聲場合成之前的主要信號形成和背景信號形成期間。因而，對環境聲音訊資料15的渲染的引用應被理解為既指實際環境聲音訊資料15的渲染，亦指環境聲音訊資料15的分解或其表示（諸如上述主要音訊信號、周圍環境聲係數及/或基於向量的信號——其亦可以被稱為V向量）。

如前述，內容消費者設備14可以表示VR設備，其中人類可穿戴顯示器安裝在操作VR設備的使用者的眼睛前方。圖5A和圖5B是圖示VR設備400A和400B的實例的圖。在圖5A的實例中，VR設備400A耦合到或以其他方式包括頭戴式耳機404，該等頭戴式耳機可以經由揚聲器饋送25的重播來再現由環境聲音訊資料15（環境聲音訊資料15是代表環境聲係數15的另一方式）表示的聲場。揚聲器饋送25可以表示能夠使頭戴式耳機404的換能器內的薄膜以各種頻率振動的類比或數位信號。此類過程通常被稱作驅動頭戴式耳機404。

視訊、音訊和其他感官資料可以在VR體驗中發揮重要作用。為了參與VR體驗，使用者402可以穿戴VR設備400A（亦可以稱作VR耳機400A）或其他可穿戴電子設備。VR客戶端設備（諸如VR耳機400A）可以追蹤使用者402的頭部移動，並且調適經由VR耳機400A圖示的視訊資料以考慮頭部移動，從而提供沉浸式體驗，其中使用者402可以以視覺三維體驗視訊資料中展示的虛擬世界。

儘管VR（以及其他形式的AR及/或MR，通常可以被稱作以電腦為媒介的現實設備）可以允許使用者402在視覺上常駐在虛擬世界中，但是VR耳機400A通常可能缺乏將使用者可聽地放置在虛擬世界中的能力。換言之，VR系統（其可以包括負責渲染視訊資料和音訊資料的電腦——為了便於說明在圖5A的實例中未圖示，以及VR耳機400A)可能無法可聽地支援全三維沉浸。

圖5B是圖示可以根據本案中描述的技術的各態樣操作的可穿戴設備400B的實例的圖。在各種實例中，可穿戴設備400B可以表示VR耳機（諸如上文所描述的VR耳機400A）、AR耳機、MR耳機或任何其他類型的XR耳機。增強現實「AR」可以指覆加在使用者實際所在的真實世界上的電腦渲染影像或資料。混合現實「MR」可以指鎖定在真實世界中特定位置的電腦渲染影像或資料，或者可以指VR的變體，其中部分電腦渲染的3D元素和部分拍攝的真實元素被組合成模擬使用者在環境中的實體存在的沉浸式體驗。擴展現實「XR」可以表示VR、AR和MR的總稱。關於XR術語的更多資訊可以在Jason Peterson的文件中找到，該文件題為「Virtual Reality, Augmented Reality, and Mixed Reality Definitions」，並且日期為2017年7月7日。

可穿戴設備400B可以表示其他類型的設備，諸如手錶（包括所謂的「智慧手錶」）、眼鏡（包括所謂的「智慧眼鏡」）、頭戴式耳機（包括所謂的「無線頭戴式耳機」和「智慧頭戴式耳機」）、智慧服裝、智慧首飾等。無論表示VR設備、手錶、眼鏡及/或頭戴式耳機，可穿戴設備400B皆可以經由有線連接或無線連接與支援可穿戴設備400B的計算設備通訊。

在一些情況下，支援可穿戴設備400B的計算設備可以整合在可穿戴設備400B內，正因如此，可穿戴設備400B可以被認為是與支援可穿戴設備400B的計算設備相同的設備。在其他情況下，可穿戴設備400B可以與可以支援可穿戴設備400B的單獨計算設備通訊。在此態樣，術語「支援」不應被理解為需要單獨的專用設備，而是被配置成執行本案中描述的技術的各態樣的一或多個處理器可以被整合在可穿戴設備400B內，或者被整合在與可穿戴設備400B分離的計算設備內。

例如，當可穿戴設備400B表示VR設備400B的實例時，單獨的專用計算設備（諸如包括一或多個處理器的個人電腦）可以渲染音訊和視訊內容，而可穿戴設備400B可以決定平移頭部移動，該專用計算設備可以根據本案中描述的技術的各態樣基於該平移頭部移動來渲染音訊內容（如揚聲器饋送）。作為另一實例，當可穿戴設備400B表示智慧眼鏡時，可穿戴設備400B可以包括一或多個處理器，該等處理器既決定平移頭部移動（經由在可穿戴設備400B的一或多個感測器內對接），又基於所決定的平移頭部移動來渲染揚聲器饋送。

如圖所示，可穿戴設備400B包括一或多個定向揚聲器以及一或多個追蹤及/或記錄攝像機。另外，可穿戴設備400B包括一或多個慣性、觸覺及/或健康感測器、一或多個眼睛追蹤攝像機、一或多個高靈敏度音訊麥克風以及光學/投影硬體。可穿戴設備400B的光學/投影硬體可以包括耐用的半透通顯示技術和硬體。

可穿戴設備400B亦包括連接硬體，其可以表示支援多模式連接的一或多個網路介面，諸如4G通訊、5G通訊、藍芽等。可穿戴設備400B亦包括一或多個周圍光感測器以及骨傳導換能器。在一些情況下，可穿戴設備400B亦可以包括一或多個帶有魚眼鏡頭及/或長焦鏡頭的被動及/或主動攝像機。儘管在圖5B中未圖示，可穿戴設備400B亦可以包括一或多個發光二極體（LED）燈。在一些實例中，LED燈可以被稱作「超亮」LED燈。在一些實現方式中，可穿戴設備400B亦可以包括一或多個後置攝像機。將瞭解，可穿戴設備400B可以展現多種不同的形狀因素。

此外，追蹤和記錄攝像機以及其他感測器可以促進決定平移距離。儘管在圖5B的實例未圖示，可穿戴設備400B可以包括其他類型的感測器用於偵測平移距離。

儘管關於可穿戴設備的特定實例進行了描述，諸如上文參考圖5B的實例論述的VR設備400B以及在圖1A和圖1B的實例中闡述的其他設備，但是一般技術者將瞭解，與圖1A-圖4B相關的描述可以適用於可穿戴設備的其他實例。例如，諸如智慧眼鏡的其他可穿戴設備可以包括感測器，經由該等感測器可以獲得平移頭部移動。作為另一實例，諸如智慧手錶的其他可穿戴設備可以包括感測器，經由該等感測器可以獲得平移移動。因而，本案中描述的技術不應限於特定類型的可穿戴設備，但任何可穿戴設備可以被配置成執行本案中描述的技術。

在任何情況下，VR的音訊態樣已被分類為三個單獨的沉浸類別。第一類別提供最低程度的沉浸，並且被稱為三自由度（3DOF）。3DOF是指考慮頭部在三個自由度（偏航、俯仰和滾動）上的行動的音訊渲染，從而允許使用者自由地向任何方向環顧。然而，3DOF不能考慮頭部不在聲場的光學和聲學中心的平移頭部移動。

第二類別被稱作3DOF加（3DOF+），除了由於頭部在聲場內遠離光學中心和聲學中心的移動而導致的有限空間平移移動之外，亦提供三個自由度（偏航、俯仰和滾動）。3DOF+可以為諸如運動視差等感知效應提供支援，可以加強沉浸感。

第三類別被稱作六自由度（6DOF），以一種方式渲染音訊資料，該方式考慮了頭部移動態樣的三個自由度（偏航、俯仰和滾動），而且考慮了使用者在空間中的平移（x、y和z平移）。空間平移可以由追蹤使用者在實體世界中的位置的感測器或者借助於輸入控制器來引發。

3DOF渲染是VR的音訊態樣的當前技術水平。因而，VR的音訊態樣不如視訊態樣沉浸感強，從而潛在地降低了使用者體驗的整體沉浸感，並引入了定位誤差（例如，諸如當聽覺重播與視覺場景不匹配或不精確相關時）。

根據本案中描述的技術，描述了各種方式來選擇現有音訊串流11的子集，並從而允許6DOF沉浸。如下文描述，由於音訊串流11的選定子集可以更好地反映聽者相對於現有音訊串流的位置，因此技術可以改良聽者體驗，同時亦減少聲場再現定位誤差，從而改良重播設備（其執行再現聲場的技術）自身的操作。此外，經由僅選擇可用音訊串流11的子集，技術可以減少資源利用（就處理器週期、記憶體和匯流排頻寬消耗而言），因為不是所有的音訊串流11皆需要被渲染以便以足夠的解析度再現聲場。

如圖1A的實例所示，音訊重播系統16A可以包括內插設備30（「INT設備30」），其可以被配置成處理一或多個音訊串流11'，以獲得內插音訊串流15（內插音訊串流15是代表環境聲音訊資料15的另一方式）。儘管被圖示為單獨的設備，內插設備30可以整合或以其他方式併入到音訊解碼設備24中的一者內。

內插設備30可以由一或多個處理器實現，包括固定功能處理電路系統及/或可程式設計處理電路系統，諸如一或多個數位信號處理器（DSP）、通用微處理器、特殊應用積體電路（ASIC）、現場可程式設計閘陣列（FPGA）或其他等效的整合或離散邏輯電路系統。

內插設備30可以首先獲得一或多個麥克風位置，一或多個麥克風位置中的每一者辨識擷取一或多個音訊串流11'的相應一或多個麥克風的位置。參考圖3A-圖3C的實例來描述關於內插設備30的操作的更多資訊。

然而，並非處理音訊串流11'中的每一者，而是內插設備30可以引動串流選擇單元32（「SSU 32」），該串流選擇單元32可以選擇音訊串流11'的非零子集，其中音訊串流11'的非零子集可以包括比作為音訊串流11'提供的音訊串流總數更少的音訊串流。經由減少由內插設備30內插的音訊串流11'的數量，SSU 32可以減少資源利用（在處理週期、記憶體和匯流排頻寬態樣），同時亦潛在地保持聲場的精確再現。

在操作中，SSU 32可以獲得內容消費者設備14的當前位置17（亦可以稱作聽者位置17）（例如，經由追蹤設備306）。在一些實例中，SSU 32可以將內容消費者設備14的當前位置17轉化成不同的座標系，諸如從真實世界座標系到虛擬座標系。亦即，可以相對於虛擬座標系來定義音訊串流11'的一或多個擷取位置，使得音訊串流11'可以由音訊重播系統16B正確地渲染，以反映消費者在使用內容消費者設備14（例如，VR設備14）時所體驗的虛擬世界。

SSU 32亦可以獲得指示相應音訊串流11'被擷取的位置的擷取位置。在一些實例中，擷取位置在虛擬座標系中定義，其中虛擬座標系可以反映與內容消費者設備14所常駐的實體世界相對的虛擬世界中的位置。因而，如前述，音訊重播系統16A可以在選擇音訊串流11'的子集之前，將當前位置17從真實世界座標系轉換為虛擬座標系。

在任何情況下，SSU 32可以基於當前位置17和音訊串流11'的擷取位置來選擇音訊串流11'的子集，其中音訊串流11'的子集可以再次具有比音訊串流11'少的音訊串流。在一些情況下，SSU 32可以決定當前位置17與音訊串流11'的擷取位置之間的距離，以獲得許多（或複數個）距離。SSU 32可以基於距離選擇音訊串流11'的子集，諸如具有小於閾值距離的對應距離的音訊串流11'的子集。

結合或作為前述基於距離的選擇的替代，SSU 32可以決定每一擷取位置相對於當前位置的角位置（其可以包括定義零度或前向角度的視角)。當執行基於距離的選擇並且基於角位置時，SSU 32可以從最近的音訊串流11'的數量（其可以是使用者、應用程式或作業系統定義的，舉例而言）中進行選擇，該等音訊串流在操作內容消費者設備14的聽者周圍提供了音訊串流11'的充分分佈（如參考圖2A-圖2G中所示的實例更詳細描述的）。當沒有音訊串流11'在閾值距離內時，基於角度位置，SSU 32可以選擇音訊串流11'的子集，該子集在操作內容消費者設備14的聽者周圍提供音訊串流11'的充分分佈。

在一些實例中，SSU 32可以對每一擷取位置相對於當前位置的角位置進行一些分析。例如，SSU 32可以決定每一擷取位置相對於當前位置的角位置的熵。SSU 32可以選擇音訊串流11'的子集，以便最大化角位置的熵，其中相對較高的熵指示擷取位置在球體中均勻散佈，而相對較低的熵指示擷取位置在球體中不均勻散佈。

SSU 32可以將音訊串流11'的選定子集輸出到內插設備30，該內插設備可以執行上述關於音訊串流11'的子集的內插。考慮到音訊串流11'的子集不包括所有的音訊串流11'，內插設備30可以消耗較少的資源（諸如處理週期、記憶體和匯流排頻寬）來執行內插，從而潛在地改良內插設備自身的操作。

內插設備30可以輸出音訊串流11'的內插子集作為環境聲音訊資料15。音訊重播系統16A可以引動渲染器22，以基於環境聲音訊資料15再現由環境聲音訊資料15表示的聲場。亦即，渲染器22可以應用一或多個渲染演算法來將環境聲音訊資料15從環境聲（或者換言之，球面諧波）域變換到空間域，產生被配置成驅動一或多個揚聲器（在圖1A的實例中未圖示）或其他類型的換能器（包括骨傳導換能器）的一或多個揚聲器饋送25。參考圖2A-圖2G的實例來描述關於音訊串流11'的子集的選擇的更多資訊。

圖2A-圖2G是更詳細地圖示圖1A的實例中所示的串流選擇單元在執行本案中描述的串流選擇技術的各態樣時的示例性操作的圖。在圖2A的實例中，使用者52可以穿戴VR設備（諸如內容消費者設備14）以在虛擬世界49中導航，其中音訊串流11經由擷取位置51A-51F（「擷取位置51」）處的麥克風50A-50F（「麥克風50」）擷取。

如關於示例性麥克風50A所示，麥克風50A可以被併入或以其他方式包括在一或多個設備中，諸如VR耳機60、蜂巢式電話（包括所謂的智慧型電話）62、攝像機64等。儘管僅關於麥克風50A圖示，但每一麥克風50皆可以被包括在VR設備60、智慧型電話62、攝像機64或能夠包括用於擷取音訊串流11的麥克風的任何其他類型的設備內。麥克風50可以表示上文參考圖1A的實例論述的麥克風5的實例。儘管圖示三個示例性設備60-64，但麥克風50可以僅包括在設備60-64中的單個設備內，或者包括在設備60-64中的多個設備內。

在任何情況下，當使用者52在開始位置55A操作內容消費者設備14時，SSU 32可以選擇麥克風50的第一子集54A（其包括具有少於所有麥克風50的麥克風50A-50D）。SSU 32可以經由決定與內容消費者設備14的當前位置55A和複數個擷取位置51中的每一者的距離60A-60F來選擇麥克風50的第一子集54A（其中為了便於說明，在圖2A的實例中僅圖示距離60A，儘管可以決定從當前位置55A到擷取位置51B的單獨距離60B，可以決定從當前位置55A到擷取位置51C的距離60C等）。

SSU 32接著可以基於距離60A-60F（「距離60」）選擇音訊串流11'的子集54A。作為一個實例，SSU 32可以計算總距離作為距離60的總和，並且隨後計算每一距離60的反距離以獲得反距離。SSU 32接著可以將每一距離60的比率決定為反距離中的對應一者除以總距離，以獲得多個對應的比率。在本案中，該比率亦可以被稱作權重。此外，參考圖3A-圖6B提供了如何計算權重的進一步論述。

SSU 32可以基於該等比率來選擇音訊串流11'的子集54A。在此實例中，當比率之一超過閾值時，SSU 32可以將音訊串流11'中對應的一者指派給音訊串流11'的子集54A。換言之，當內容消費者設備14與擷取位置51之間的距離是較小距離時（因為反距離導致較多數量的較小距離），SSU 32可以選擇更靠近使用者52/內容消費者設備14的彼等音訊串流11'。因而，對於開始位置55A，SSU 32可以選擇麥克風50A-50D，將麥克風50A-50D指派到子集54A。

使用者52可以沿著移動路徑53從左向右移動（其中凹口指示使用者52面對的方向）。隨著使用者52沿著移動路徑53移動，SSU 32可以更新麥克風的子集，以從麥克風50的子集54A轉變到子集54B。亦即，在使用者52到達移動路徑53末端的末端位置55B之後，SSU 32可以為每一麥克風50重新計算前述比率（或者換言之，權重），選擇麥克風50的子集54B（亦即，圖2A的實例中的麥克風50C-50F）和對應的音訊串流11'。

接著參考圖2B的實例，使用者52正在虛擬世界68A中操作內容消費者設備14，其中麥克風70A-70G（「麥克風70」）位於擷取位置71A-71G（「擷取位置71」）。麥克風70可以再次表示圖1A的實例中所示的麥克風5。

在此實例中，SSU 32可以選擇麥克風70的子集以包括麥克風70A、70B、70C和70E，其中該選擇基於麥克風70相對於使用者52的當前位置75的距離和角位置兩者而發生。儘管被描述為距離和角位置兩者，SSU 32可以基於距離、角位置或距離和角位置的組合來執行該選擇。當使用距離和角位置兩者來執行選擇時，在一些實例中，SSU 32可以首先基於距離來選擇麥克風70的子集，並且隨後細化麥克風70的子集，以獲得最大（或至少閾值）角度分集（或者，在下文更詳細描述的一些實例中，方差及/或熵）。

舉例而言，SSU 32可以首先形成貢獻（或者換言之，具有計算的權重）高於閾值的音訊串流11'的子集，例如，僅選擇貢獻合計值的10%以上的串流。SSU 32隨後可以執行音訊串流11'的末端子集的選擇，使得末端子集提供定義的或閾值角度擴展。

因而，SSU 32可以決定每一擷取位置71相對於當前位置的角位置，以獲得角位置。在圖2B的實例中，假設使用者52的凹口（notch）定義零度角，並且SSU 32決定相對於零度角的角位置，零度角由使用者52正在看的方向或者換言之面向的方向定義。角位置亦可以被稱作方位。在任何情況下，SSU 32接著可以基於角位置選擇麥克風70的子集（其再次包括麥克風70A、70B、70C和70E），以獲得音訊串流11'的對應子集。

在一個實例中，SSU 32可以決定角位置的不同子集的方差以獲得方差。SSU 32可以基於方差來將音訊串流11'指派給音訊串流11'的子集。SSU 32可以選擇提供最高角度（或者換言之，方位）方差（或者至少超過某一方差閾值的方差）的音訊串流11'的子集，以便提供360度聲場的完整（就角度方差而言）再現。

作為上述基於方差的選擇的替代或結合，SSU 32可以決定角位置的不同子集的熵以獲得熵。SSU 32可以基於熵將來自音訊串流11'的對應音訊串流11'指派給音訊串流11'的子集。此外，SSU 32可以選擇提供最高角度（或者換言之，方位）熵（或者至少超過某一熵閾值的熵）的音訊串流11'的子集，以便提供360度聲場的完整（就角度方差而言）再現。

如圖2C的實例所示，使用者52正在虛擬世界68B中操作內容消費者設備14，虛擬世界68B類似於虛擬世界68B，除了麥克風70A-70C已經被移除。麥克風70可以再次表示圖1A的實例中所示的麥克風5。

在此實例中，SSU 32可以選擇麥克風70的子集以包括麥克風70C、70D、70E和70G，其中該選擇基於麥克風70相對於使用者52的當前位置75的距離和角位置兩者而發生。儘管被描述為距離和角位置兩者，SSU 32可以如先前述基於距離、角位置或距離和角位置的組合來執行該選擇。

因而，SSU 32可以決定每一擷取位置71相對於當前位置的角位置，以獲得角位置。在圖2B的實例中，假設使用者52的凹口定義零度角，並且SSU 32決定相對於由使用者52正在看的方向或者換言之面向的方向定義的零度角的角位置。角位置亦可以被稱作方位。在任何情況下，以類似於前述的方式，SSU 32接著可以基於角位置選擇麥克風70的子集（其再次包括麥克風70A、70B、70C和70E），以獲得音訊串流11'的對應子集。

儘管關於選擇包括四個音訊串流11'的音訊串流11'的子集進行了描述，但是可以針對具有比音訊串流11'的總數少的任意數量的音訊串流的音訊串流11'的子集應用該等技術，其中該數量可以由使用者52、內容建立者來定義，根據處理器、記憶體或其他資源利用來動態地定義，通常根據一些其他準則來動態地定義等。因此，該等技術不應限於僅包括四個音訊串流11'的靜態定義的音訊串流11'的子集。

另外，使用者52可以選擇或以其他方式輸入各種偏置，以偏向於由不同的麥克風70擷取的音訊串流11'。隨後，使用者52可以基於所感知的麥克風70的重要性來預調諧不同的麥克風70。例如，麥克風70之一可以在較多音訊源附近，並且使用者52可以偏置音訊串流選擇，使得選擇與較多音訊源相關聯的麥克風70。在此態樣，使用者52可以使用偏置在不同程度上覆蓋距離及/或角位置選擇過程，以將一些使用者偏好插入到音訊串流選擇過程中。

接著參考圖2D-圖2E所示的實例，如圖2D所示，使用者52可以常駐在由麥克風80A、80B和80C辨識的第一音訊分區80A中（其中麥克風80A-80D表示圖1的實例中所示的麥克風5）。在此實例中（亦即，當使用者52常駐在第一音訊分區82A中時），SSU 32選擇麥克風80A、80B和80C所擷取的音訊串流11'作為音訊串流11'的子集。因而，SSU 32可以基於使用者位置85A和麥克風80的擷取位置來選擇有效區域（或者換言之，分區）（ROV），基於ROV移除麥克風80D（在此實例中）。

在圖2E的實例中，使用者52已從第一音訊分區82A移動到當前位置85B。內插單元30可以引動SSU 32，以基於當前位置85B和麥克風80的擷取位置來決定新的ROV（亦即，圖2E的實例中的第二音訊分區82B）。隨後，SSU 32可以基於第二音訊分區82B的辨識來決定由麥克風80A、80B和80D擷取的音訊串流11'的子集，移除由麥克風80C擷取的音訊串流11'。

接著參考圖2F和圖2G的實例，附加的麥克風80E和80F被添加到虛擬世界，建立三個音訊分區82C、82D和82E。使用者52正在當前位置85C操作內容消費者設備14。內插單元30可以引動SSU 32，以基於當前位置85C和麥克風80的擷取位置來選擇音訊分區82D。基於音訊分區82D，SSU 32可以選擇音訊串流11'的子集來包括由麥克風80B-80E擷取的音訊串流11'，移除由麥克風80A和80F擷取的任何音訊串流11'。

在圖2G的實例中，使用者52正在當前位置85D操作內容消費者設備14。內插單元30可以引動SSU 32，以基於當前位置85D和麥克風80的擷取位置來選擇音訊分區82G。基於音訊分區82G，SSU 32可以選擇音訊串流11'的子集來包括由麥克風80A、80B、80D和80F擷取的音訊串流11'，移除由麥克風80C和80E擷取的任何音訊串流11'。

前述音訊串流選擇技術在多種情況下可以有許多不同的用途。例如，該等技術可以應用於現場事件的記錄，例如音樂會，其中聽者（例如，使用者52）可以在不同的指令附近並在場景周圍移動。作為另一實例，該等技術可以適用於AR，在AR中存在即時內容和合成（或所產生）內容的混合物。

另外，該等技術可以促進低成本設備，因為音訊串流選擇技術可以減少滯後和複雜性（因為選擇了較少的可用音訊串流11'）。此外，使用者52可以根據技術的各態樣使用視訊串流來偏置權重或適應使用者偏好以建立空間效應，同時該等技術亦可以使使用者52能夠基於使用者52的位置和潛在的時間來預設對藝術效果的權重的偏置。

圖3A-圖3C是圖示圖1A和圖1B的內插設備30在執行本案中描述的音訊串流內插技術的各態樣時的示例性操作的方塊圖。在圖3A的實例中，內插設備30從SSU 32接收由麥克風5（如前述，其可以表示麥克風的集群或陣列）擷取的環境聲音訊串流11'（圖示為「環境聲串流11'」）的子集。如前述，麥克風5輸出的信號可以經歷從麥克風格式到HOA格式的轉換，此情形由標記為「麥克風環境聲（MicAmbisonics）」的方塊圖示，從而產生環境聲音訊串流11'。

內插設備30亦可以接收音訊中繼資料511A-511N（「音訊中繼資料511」），其可以包括辨識擷取音訊串流11'中的對應一者的對應麥克風5A-5N的位置的麥克風位置。麥克風5可以提供麥克風位置，麥克風5的操作者可以輸入麥克風位置，耦合到麥克風的設備（例如，內容擷取設備300）可以指定麥克風位置，或前述的一些組合。內容擷取設備300可以將音訊中繼資料511指定為內容301的部分。在任何情況下，SSU 32可以從表示內容301的位元串流21中剖析音訊中繼資料511。

SSU 32亦可以獲得辨識聽者的位置的聽者位置17，諸如圖5A的實例中所示。音訊中繼資料可以指定麥克風的位置和定向，如圖3A的實例中所示，或者僅指定麥克風位置。此外，聽者位置17可以包括聽者位置（或者換言之，位置）和定向，或者僅包括聽者位置。簡要返回參考圖1A，音訊重播系統16A可以與追蹤設備306對接以獲得聽者位置17。追蹤設備306可以表示能夠追蹤聽者的任何設備，且可以包括全球定位系統（GPS）設備、攝像機、聲納設備、超聲波設備、紅外線發射和接收設備或能夠獲得聽者位置17的任何其他類型設備中的一者或多者。

SSU 32接著可以執行前述音訊串流選擇，以獲得音訊串流11'的子集。SSU 32可以將音訊串流11'的子集輸出到內插設備30。

內插設備30接著可以基於一或多個麥克風位置和聽者位置17，執行關於音訊串流11'的子集的內插，以獲得內插的音訊串流15。音訊串流11'可以最初儲存在內插設備30的記憶體中，並且SSU 32可以使用指標或其他資料結構來引用音訊串流11'的子集，而不是取得音訊串流11'的子集並將其發送到內插設備30。為了執行內插，內插設備30可以從記憶體讀取音訊串流11'的子集，並且基於一或多個麥克風位置和聽者位置17（亦可以儲存在記憶體中）來決定每一音訊串流的權重（被圖示為權重(1)…權重(n)）。

如前述，當辨識音訊串流11'的子集時，此SSU 32可以利用此權重。在一些實例中，SSU 32可以決定權重，並且將權重提供給內插設備30以便執行內插。

在任何情況下，為了決定權重，內插設備30可以將每一權重計算為音訊串流11'中對應一者到聽者位置17的反距離與所有其他音訊串流11'的總反距離的比率，除了當聽者位於與虛擬世界中表示的麥克風5中的一者相同的位置時的邊緣情況。亦即，對於聽者而言，導航虛擬世界或者在設備的顯示器上表示的真實世界位置是可能的，該真實世界位置具有與麥克風5中的一者擷取音訊串流11'的位置相同的位置。當聽者位於與麥克風5中的一者相同的位置時，內插單元30可以計算由麥克風5中的一者擷取的音訊串流11'之一的權重，其中聽者位於與麥克風5中的一者相同的位置，並且剩餘音訊串流11'的權重被設置為零。

否則，內插設備30可以將每一權重計算如下：權重(n)=(1/(麥克風n到聽者位置的距離))/(1/(麥克風1到聽者位置的距離)+…+1/(麥克風n到聽者位置的距離))，在上文，聽者位置指的是聽者位置17，權重(n)指的是音訊串流11N'的權重，並且麥克風＜數值＞到聽者位置的距離指的是對應麥克風位置與聽者位置17之間的差值的絕對值。

內插設備30接著可以將權重乘以音訊串流11'的子集中的對應一者，以獲得一或多個加權的音訊串流，內插設備30可以將該等加權的音訊串流相加，以獲得內插的音訊串流15。上述內容可以用以下等式進行數學表示：權重(1)*音訊串流1+…+權重(n)*音訊串流n=內插的音訊串流，其中權重(＜數值＞)表示對應音訊串流＜數值＞的權重，並且內插的環境聲音訊資料是指內插的音訊串流15。內插的音訊串流可以被儲存在內插設備30的記憶體中，並且亦可以可用於由擴音器（例如，VR或AR設備或聽者佩戴的耳機）播放。內插等式表示圖3A的實例中所示的加權平均環境聲音訊。應注意，在一些配置中，有可能內插非環境聲音訊串流；然而，若不對環境聲音訊資料執行內插，可能會損失音訊品質或解析度。

在一些實例中，內插設備30可以逐訊框地決定前述權重。在其他實例中，內插設備30可以較頻繁地（例如，基於某個子訊框）或較不頻繁地（例如，在某個設置數量的訊框之後）決定前述權重。在該等和其他實例中，內插設備30可以僅回應於偵測到聽者位置及/或定向的一些改變或者回應於基礎環境聲音訊串流的一些其他特性（此舉可以啟用和禁用本案中描述的內插技術的各態樣）來計算權重。

在一些實例中，可以僅針對具有特定特性的音訊串流11'來實現上述技術。例如，當由音訊串流11'表示的音訊源位於不同於麥克風5的位置時，內插設備30可以僅對音訊串流11'進行內插。下文參考圖4A和圖4B來提供有關此技術態樣的更多資訊。

圖4A是更詳細地圖示圖1A、圖1B和圖3A的內插設備如何可以執行本案中描述的技術的各態樣的圖。如圖4A所示，聽者52可以在由麥克風（圖示為「麥克風陣列」）5A-5E限定的區域94內前進。在一些實例中，麥克風5（包括當麥克風5表示集群，或者換言之麥克風陣列時）可以定位在彼此相距大於5英尺的距離。在任何情況下，當聲源90A-90D（「聲源90」或「音訊源90」，如圖4A所示）在由麥克風5A-5E限定的區域94外部時，給定由上述等式施加的數學約束，內插設備30（參考圖3A）可以執行內插。

返回圖4A的實例，聽者52可以輸入或以其他方式發出一或多個導航命令（潛在地經由步行或經由使用控制器或其他介面設備，包括智慧型電話等），以在區域94內導航（沿著線96）。追蹤設備（諸如圖3A實例中所示的追蹤設備306）可以接收該等導航命令並產生聽者位置17。

當聽者52從開始位置開始導航時，內插設備30可以產生內插音訊串流15，以對麥克風5C擷取的音訊串流11C'進行重加權（heavily weight），並且對麥克風5B擷取的音訊串流11B'和麥克風5D擷取的音訊串流11D'指派相對較小的權重，並且對相應麥克風5A和5E擷取的音訊串流11A'和11E'（根據上述音訊串流選擇技術，SSU 32可以從音訊串流11'的子集中排除該音訊串流）指派相對更小的權重（並且可能沒有權重）。

當聽者52沿著麥克風5B的位置旁的線96導航時，內插設備30可以對音訊串流11B'指派較多的權重，對音訊串流11C'指派相對較少的權重，並且對音訊串流11A'、11D'和11E'指派更少的權重（並且可能沒有權重）。隨著聽者52朝向線96的末端導航（其中凹口指示聽者52正在移動的方向）更靠近麥克風5E的位置，內插設備30可以對音訊串流11E'指派較多的權重，對音訊串流11A'指派相對較少的權重，並且對音訊串流11B'、11C'和11D'指派相對更少的權重（並且可能沒有權重，因為SSU 32可能排除該等音訊串流）。

在此態樣，內插設備30可以基於聽者32發出的導航命令基於聽者位置17的改變來執行內插，從而為音訊串流11A'-11E'指派隨時間變化的權重。改變的聽者位置17可以導致內插音訊串流15內的不同強調，從而促進區域94內更好的聽覺定位。

儘管沒有在上述實例中描述，但是該等技術亦可以適應麥克風位置的改變。換言之，麥克風可以在記錄期間被操縱，從而改變位置和定向。因為上述等式僅關於麥克風位置與聽者位置17之間的差異，所以即使麥克風已經被操縱以改變位置及/或定向，內插設備30亦可以繼續執行內插。

圖4B是更詳細地圖示圖1A、圖1B和圖3A的內插設備如何可以執行本案中描述的技術的各態樣的方塊圖。圖4B中所示的實例類似於圖4A中所示的實例，除了麥克風5被可穿戴設備500A-500E（其可以表示可穿戴設備400A及/或400B的實例）代替。可穿戴設備500A-500E可以各自包括擷取上文更詳細描述的音訊串流的麥克風。

圖3B是圖示圖1A和圖1B的內插設備在執行本案中描述的音訊串流內插技術的各態樣時的其他示例性操作的方塊圖。圖3B的實例中所示的內插設備30A類似於圖3A的實例中所示的內插設備，除了圖3A中所示的內插設備30接收並非從麥克風擷取的音訊串流11'（並且該等音訊串流是預擷取及/或混合的）。圖3A的實例中所示的內插設備30表示在即時擷取（用於即時事件，如體育事件、音樂會、演講等）期間的示例性使用，而圖3B的實例中所示的內插設備30A表示在預燒錄或產生的事件（諸如視訊遊戲、電影等）期間的示例性使用。內插設備30A可以包括用於儲存如圖3B中所示的音訊串流的記憶體。

圖3C是圖示圖1A和圖1B的內插設備在執行本案中描述的音訊串流內插技術的各態樣時的其他示例性操作的方塊圖。圖3C所示的實例類似於圖3B所示的實例，除了可穿戴設備500A-500N可以擷取音訊串流11A-11N（其被壓縮並解碼為音訊串流11A'-11N'）。內插設備30B可以包括用於儲存如圖3B中所示的音訊串流的記憶體。

圖1B是圖示被配置成執行本案中描述的技術的各態樣的另一示例性系統100的方塊圖。系統100類似於圖1A所示的系統10，除了圖1A所示的音訊渲染器22被雙聲道渲染器102替代，該雙聲道渲染器能夠使用一或多個HRTF或能夠渲染到左和右揚聲器饋送103的其他功能來執行雙聲道渲染。

音訊重播系統16B可以輸出左和右揚聲器饋送103到頭戴式耳機104，該等頭戴式耳機可以表示可穿戴設備的另一實例，並且可以耦合到附加可穿戴設備以促進聲場的再現，諸如手錶、上述VR耳機、智慧眼鏡、智慧服裝、智慧戒指、智慧手鐲或任何其他類型的智慧首飾（包括智慧項鍊）等。頭戴式耳機104可以無線地或經由有線連接耦合到附加可穿戴設備。

另外，頭戴式耳機104可以經由有線連接（諸如標準3.5 mm音訊插孔、通用系統匯流排（USB）連接、光學音訊插孔或其他形式的有線連接）或無線地（諸如借助於Bluetooth^™ 連接、無線網路連接等）耦合到音訊重播系統16。頭戴式耳機104可以基於左和右揚聲器饋送103來重建環境聲係數11所表示的聲場。頭戴式耳機104可以包括左頭戴式耳機揚聲器和右頭戴式耳機揚聲器，左頭戴式耳機揚聲器和右頭戴式耳機揚聲器由對應的左和右揚聲器饋送103供電（或者換言之，被驅動）。

儘管參考圖7A和圖7B的實例中所示的VR設備進行了描述，但是該等技術可以由其他類型的可穿戴設備來執行，包括手錶（諸如所謂的「智慧手錶」）、眼鏡（諸如所謂的「智慧眼鏡」）、頭戴式耳機（包括經由無線連接耦合的無線頭戴式耳機，或者經由有線或無線連接耦合的智慧頭戴式耳機）以及任何其他類型的可穿戴設備。因而，該等技術可以由任何類型的可穿戴設備來執行，經由該可穿戴設備，使用者可以與可穿戴設備（在被使用者穿戴時）進行互動。

圖6A和圖6B是圖示可以執行本案中描述的技術的各態樣的示例性系統的圖。圖6A圖示源設備12亦包括攝像機200的實例。攝像機200可以被配置成擷取視訊資料，並且將所擷取的原始視訊資料提供給內容擷取設備300。內容擷取設備300可以將視訊資料提供給源設備12的另一元件，用於進一步處理為以視埠劃分的部分。

在圖6A的實例中，內容消費者設備14亦包括可穿戴設備800。將理解，在各種實現方式中，可穿戴設備800可以包括在內容消費者設備14中，或者外部耦合到內容消費者設備14。如上文參考圖5A和圖5B論述，可穿戴設備800包括用於輸出視訊資料（例如，與各種視埠相關聯）和用於渲染音訊資料的顯示硬體和揚聲器硬體。

圖6B圖示類似於圖6A所示的實例，除了圖6A所示的音訊渲染器22被雙聲道渲染器102替代，該雙聲道渲染器能夠使用一或多個HRTF或能夠渲染到左和右揚聲器饋送103的其他功能來執行雙聲道渲染。音訊重播系統16可以輸出左和右揚聲器饋送103到頭戴式耳機104。

頭戴式耳機104可以經由有線連接（諸如標準3.5 mm音訊插孔、通用系統匯流排（USB）連接、光學音訊插孔或其他形式的有線連接）或無線地（諸如借助於Bluetooth^™ 連接、無線網路連接等）耦合到音訊重播系統16。頭戴式耳機104可以基於左和右揚聲器饋送103來重建環境聲係數11所表示的聲場。頭戴式耳機104可以包括左頭戴式耳機揚聲器和右頭戴式耳機揚聲器，左頭戴式耳機揚聲器和右頭戴式耳機揚聲器由對應的左和右揚聲器饋送103供電（或者換言之，被驅動）。

圖7是圖示圖1A-圖6B的音訊重播系統在執行本案中描述的音訊內插技術的各態樣時的示例性操作的流程圖。圖1A的實例中所示的SSU 32可以首先獲得一或多個擷取位置（950），一或多個擷取位置中的每一者辨識擷取對應一或多個音訊串流11'中的每一者的相應一或多個麥克風的位置（在虛擬座標系中）。SSU 32接著可以獲得內容消費者設備14的當前位置17（952）。

如上文更詳細所述，SSU 32可以基於當前位置17和該複數個擷取位置來選擇該複數個音訊串流11'的子集（954）。音訊重播系統16接著可以引動音訊渲染器22，以基於複數個音訊串流11'的子集（例如，環境聲音訊資料15）而獲得一或多個揚聲器饋送25。音訊重播系統16可以輸出一或多個揚聲器饋送25以驅動或以其他方式給換能器（例如，揚聲器）供電。以此方式，音訊重播系統16可以基於複數個音訊串流11'的子集來再現聲場（956）。

圖8是圖1A和圖1B的實例中所示的音訊重播設備在執行本案中描述的技術的各態樣時的方塊圖。音訊重播設備16可以表示音訊重播設備16A及/或音訊重播設備16B的實例。音訊重播系統16可以包括與6DOF音訊渲染器22A組合的音訊解碼設備24，該6DOF音訊渲染器可以表示圖1A的實例中所示的音訊渲染器22的一個實例。

音訊解碼設備24可以包括低延遲解碼器900A、音訊解碼器900B和本端音訊緩衝器902。低延遲解碼器900A可以處理XR音訊位元串流21A以獲得音訊串流901A，其中低延遲解碼器900A可以執行相對低複雜性的解碼（與音訊解碼器900B相比），以促進音訊串流901A的低延遲重建。音訊解碼器900B可以執行相對較高複雜性的關於音訊位元串流21B的解碼（與音訊解碼器900A相比），以獲得音訊串流901B。音訊解碼器900B可以執行符合MPEG-H 3D音訊編碼標準的音訊解碼。本端音訊緩衝器902可以表示被配置成緩衝本端音訊內容的單元，本端音訊緩衝器902可以將其作為音訊串流903輸出。

位元串流21（包含XR音訊位元串流21A及/或音訊位元串流21B中的一者或多者）亦可以包括XR中繼資料905A（其可以包括上述麥克風位置資訊）和6DOF中繼資料905B（其可以指定與6DOF音訊渲染相關的各種參數）。6DOF音訊渲染器22A可以獲得音訊串流901A、901B及/或903以及XR中繼資料905A和6DOF中繼資料905B，並且基於聽者位置和麥克風位置來渲染揚聲器饋送25及/或103。在圖8的實例中，6DOF音訊渲染器22A包括內插設備30，該內插設備可以執行上文更詳細描述的音訊串流選擇及/或內插技術的各態樣，以促進6DOF音訊渲染。

圖9圖示根據本案各態樣的支援音訊串流的無線通訊系統100的實例。無線通訊系統100包括基地站105、UE 115和核心網路130。在一些實例中，無線通訊系統100可以是長期進化（LTE）網路、LTE高級（LTE-A）網路、LTE-A專業網路或新無線電（NR）網路。在一些情況下，無線通訊系統100可以支援增強的寬頻通訊、超可靠（例如，任務關鍵型）通訊、低延時通訊或與低成本和低複雜性設備的通訊。

基地站105可以經由一或多個基地站天線與UE 115無線地通訊。本文描述的基地站105可以包括或者可以被熟習此項技術者稱為基地站收發器、無線電基地站、存取點、無線電收發器、NodeB、eNodeB（eNB）、下一代NodeB或千兆NodeB（其中任一者皆可以被稱為gNB）、家庭NodeB、家庭eNodeB或一些其他合適的術語。無線通訊系統100可以包括不同類型的基地站105（例如，巨集或小細胞基地站）。本文描述的UE 115可以能夠與各種類型的基地站105和網路設備通訊，包括巨集eNB、小細胞eNB、gNB、中繼基地站等。

每一基地站105可以與其中支援與各種UE 115通訊的特定地理覆蓋區域110相關聯。每一基地站105可以經由通訊鏈路125為相應的地理覆蓋區域110提供通訊覆蓋，並且基地站105與UE 115之間的通訊鏈路125可以利用一或多個載波。無線通訊系統100中所示的通訊鏈路125可以包括從UE 115到基地站105的上行鏈路傳輸，或從基地站105到UE 115的下行鏈路傳輸。下行鏈路傳輸亦可以稱為前向鏈路傳輸，而上行鏈路傳輸亦可以稱為反向鏈路傳輸。

基地站105的地理覆蓋區域110可以被劃分成構成地理覆蓋區域110的一部分的扇區，並且每一扇區可以與細胞相關聯。例如，每一基地站105可以為巨集細胞、小細胞、熱點或其他類型的細胞或其各種組合提供通訊覆蓋。在一些實例中，基地站105可以是可移動的，並因此為移動的地理覆蓋區域110提供通訊覆蓋。在一些實例中，與不同技術相關聯的不同地理覆蓋區域110可以重疊，並且與不同技術相關聯的重疊地理覆蓋區域110可以由相同的基地站105或由不同的基地站105支援。無線通訊系統100可以包括例如異構LTE/LTE-A/LTE-A專業或NR網路，其中不同類型的基地站105為各種地理覆蓋區域110提供覆蓋。

UE 115可以分散在整個無線通訊系統100中，並且每一UE 115可以是固定的或行動的。UE 115亦可以被稱作行動設備、無線設備、遠端設備、掌上型設備或用戶設備，或者一些其他合適的術語，其中「設備」亦可以被稱作單元、站、終端或客戶端。UE 115亦可以是個人電子設備，諸如蜂巢式電話、個人數位助理（PDA）、平板電腦、膝上型電腦或個人電腦。在本案的實例中，UE 115可以是本案中描述的任何音訊源，包括VR耳機、XR耳機、AR耳機、車輛、智慧型電話、麥克風、麥克風陣列，或者包括麥克風或能夠傳輸所擷取的及/或合成的音訊串流的任何其他設備。在一些實例中，合成的音訊串流可以是儲存在記憶體中或先前建立或合成的音訊串流。在一些實例中，UE 115亦可以指無線區域迴路（WLL）站、物聯網路（IoT）設備、萬物聯網路（IoE）設備或MTC設備等，其可以在諸如電器、車輛、儀錶等各種物品中實現。

一些UE 115（諸如MTC或IoT設備）可以是低成本或低複雜性設備，並且可以提供機器之間的自動通訊（例如，經由機器對機器（M2M）通訊）。M2M通訊或MTC可以指允許設備在沒有人為幹預的情況下相互通訊或與基地站105通訊的資料通訊技術。在一些實例中，M2M通訊或MTC可以包括來自交換及/或使用指示隱私限制的音訊中繼資料及/或基於密碼的隱私資料來切換、遮罩及/或消除各種音訊串流及/或音訊源的設備的通訊，如下文將更詳細描述。

在一些情況下，UE 115亦可以能夠直接與其他UE 115通訊（例如，使用同級間型（P2P）或設備到設備（D2D）協定）。利用D2D通訊的一組UE 115中的一者或多者可以在基地站105的地理覆蓋區域110內。此類群組中的其他UE 115可能在基地站105的地理覆蓋區域110外部，或者以其他方式不能從基地站105接收傳輸。在一些情況下，經由D2D通訊進行通訊的多組UE 115可以利用一對多（1:M）系統，其中每一UE 115向該群組中的每隔一個UE 115進行傳輸。在一些情況下，基地站105促進D2D通訊的資源排程。在其他情況下，在沒有基地站105參與的情況下，在UE 115之間進行D2D通訊。

基地站105可以與核心網路130以及與彼此通訊。例如，基地站105可以經由回載鏈路132（例如，經由S1、N2、N3或其他介面）與核心網路130對接。基地站105可以直接地（例如，在基地站105之間直接地）或間接地（例如，經由核心網路130）經由回載鏈路134（例如，經由X2、Xn或其他介面）彼此通訊。

在一些情況下，無線通訊系統100可以利用經授權和未授權的無線電頻譜帶兩者。例如，無線通訊系統100可以在諸如5 GHz ISM頻帶的未授權頻帶中採用授權輔助存取（LAA）、LTE未授權（LTE-U）無線電存取技術或NR技術。當在未授權的無線電頻譜帶中操作時，諸如基地站105和UE 115的無線設備可以採用先聽後說（LBT）程序來確保在傳輸資料之前頻道是暢通的。在一些情況下，在未授權頻帶中的操作可以基於與在經授權頻帶（例如，LAA）中操作的分量載波相結合的載波聚合配置。未授權頻譜中的操作可以包括下行鏈路傳輸、上行鏈路傳輸、同級間型傳輸或該等傳輸的組合。未授權頻譜中的雙工可以基於分頻雙工（FDD）、分時雙工（TDD）或兩者的組合。

在此態樣，描述了實現一或多個以下實例的技術的各態樣：

實例1。一種被配置成處理一或多個音訊串流的設備，該設備包含：被配置成儲存一或多個音訊串流的記憶體；及耦合到記憶體的處理器，並且被配置成：獲得一或多個麥克風位置，一或多個麥克風位置中的每一者辨識擷取對應的一或多個音訊串流中的每一者的相應一或多個麥克風的位置；獲得辨識聽者的位置的聽者位置；基於一或多個麥克風位置和聽者位置來執行關於音訊串流的內插，以獲得內插音訊串流；基於內插音訊串流獲得一或多個揚聲器饋送；及輸出一或多個揚聲器饋送。

實例2。實例1的設備，其中一或多個處理器被配置成：基於一或多個麥克風位置和聽者位置來決定音訊串流中的每一者的權重；及基於權重來獲得內插音訊串流。

實例3。實例1的設備，其中一或多個處理器被配置成：基於一或多個麥克風位置和聽者位置來決定音訊串流中的每一者的權重；及將權重乘以一或多個音訊串流中的對應一者以獲得一或多個加權音訊串流；及基於一或多個加權音訊串流來獲得內插音訊串流。

實例4。實例1的設備，其中一或多個處理器被配置成：基於一或多個麥克風位置和聽者位置來決定音訊串流中的每一者的權重；及將權重乘以一或多個音訊串流中的對應一者以獲得一或多個加權音訊串流；及將一或多個加權音訊串流相加在一起以獲得內插音訊串流。

實例5。實例2-4的任何組合的設備，其中一或多個處理器被配置成：決定一或多個麥克風位置中的每一者與聽者位置之間的差異；及基於一或多個麥克風位置中的每一者與聽者位置之間的差異來決定音訊串流中的每一者的權重。

實例6。實例2-5的任何組合的設備，其中一或多個處理器被配置成決定一或多個音訊串流的每一音訊訊框的權重。

實例7。實例1-6的任何組合的設備，其中由音訊串流表示的音訊源常駐在一或多個麥克風外部。

實例8。實例1-7的任何組合的設備，其中一或多個處理器被配置成從以電腦為媒介的現實設備獲得聽者位置。

實例9。實例8的設備，其中以電腦為媒介的現實設備包含頭戴式顯示設備。

實例10。實例1-9的任何組合的設備，其中一或多個處理器被配置成從包括音訊串流的位元串流中獲得辨識一或多個麥克風位置的音訊中繼資料。

實例11。實例1-10的任何組合的設備，其中一或多個麥克風位置中的至少一者改變，以反映一或多個麥克風中對應一者的移動。

實例12。實例1-11的任何組合的設備，其中一或多個音訊串流包括環境聲音訊串流（包括高階、混合階、一階、二階），並且其中內插音訊串流包括內插環境聲音訊串流（包括高階、混合階、一階、二階）。

實例13。請求項1-11的任何組合的設備，其中一或多個音訊串流包括環境聲音訊串流，並且其中內插音訊串流包括內插環境聲音訊串流。

實例14。實例1-13的任何組合的設備，其中聽者位置基於聽者發出的導航命令而改變。

實例15。實例1-14的任何組合的設備，其中一或多個處理器被配置成接收指定麥克風位置的音訊中繼資料，麥克風位置中的每一者辨識擷取對應的一或多個音訊串流的麥克風集群的位置。

實例16。實例15的任何組合的設備，其中麥克風集群各自定位在彼此相距大於5英尺的距離。

實例17。實例1-14的任何組合的設備，其中麥克風各自定位在彼此相距大於5英尺的距離。

實例18。一種用於處理一或多個音訊串流的方法，該方法包含以下步驟：獲得一或多個麥克風位置，一或多個麥克風位置中的每一者辨識擷取對應的一或多個音訊串流中的每一者的相應一或多個麥克風的位置；獲得辨識聽者的位置的聽者位置；基於一或多個麥克風位置和聽者位置來執行關於音訊串流的內插，以獲得內插音訊串流；基於內插音訊串流獲得一或多個揚聲器饋送；及輸出一或多個揚聲器饋送。

實例19。實例18的方法，其中執行內插包含：基於一或多個麥克風位置和聽者位置來決定音訊串流中的每一者的權重；及基於權重來獲得內插音訊串流。

實例20。實例18的方法，其中執行內插包含：基於一或多個麥克風位置和聽者位置來決定音訊串流中的每一者的權重；及將權重乘以一或多個音訊串流中的對應一者以獲得一或多個加權音訊串流；及基於一或多個加權音訊串流來獲得內插音訊串流。

實例21。實例18的方法，其中執行內插包含：基於一或多個麥克風位置和聽者位置來決定音訊串流中的每一者的權重；及將權重乘以一或多個音訊串流中的對應一者以獲得一或多個加權音訊串流；及將一或多個加權音訊串流相加在一起以獲得內插音訊串流。

實例22。實例19-21的任何組合的方法，其中決定權重包含：決定一或多個麥克風位置中的每一者與聽者位置之間的差異；及基於一或多個麥克風位置中的每一者與聽者位置之間的差異來決定音訊串流中的每一者的權重。

實例23。實例19-22的任何組合的方法，其中決定權重包含決定一或多個音訊串流的每一音訊訊框的權重。

實例24。實例18-23的任何組合的方法，其中由音訊串流表示的音訊源常駐在一或多個麥克風外部。

實例25。實例18-24的任何組合的方法，其中獲得聽者位置包含從以電腦為媒介的現實設備獲得聽者位置。

實例26。實例25的方法，其中以電腦為媒介的現實設備包含頭戴式顯示設備。

實例27。實例18-26的任何組合的方法，其中獲得一或多個麥克風位置包含從包括音訊串流的位元串流中獲得辨識一或多個麥克風位置的音訊中繼資料。

實例28。實例18-27的任何組合的方法，其中一或多個麥克風位置中的至少一者改變，以反映一或多個麥克風中對應一者的移動。

實例29。實例18-28的任何組合的方法，其中一或多個音訊串流包括環境聲音訊串流（包括高階、混合階、一階、二階），並且其中內插音訊串流包括內插環境聲音訊串流（包括高階、混合階、一階、二階）。

實例30。實例18-28的任何組合的方法，其中一或多個音訊串流包括環境聲音訊串流，並且其中內插音訊串流包括內插環境聲音訊串流。

實例31。實例18-30的任何組合的方法，其中聽者位置基於聽者發出的導航命令而改變。

實例32。實例18-31的任何組合的方法，其中獲得麥克風位置包含接收指定麥克風位置的音訊中繼資料，麥克風位置中的每一者辨識擷取對應的一或多個音訊串流的麥克風集群的位置。

實例33。實例32的方法，其中麥克風集群各自定位在彼此相距大於5英尺的距離。

實例34。實例18-31的任何組合的方法，其中麥克風各自定位在彼此相距大於5英尺的距離。

實例35。一種被配置成處理一或多個音訊串流的設備，該設備包含：用於獲得一或多個麥克風位置的構件，一或多個麥克風位置中的每一者辨識擷取對應的一或多個音訊串流中的每一者的相應一或多個麥克風的位置；用於獲得辨識聽者的位置的聽者位置的構件；用於基於一或多個麥克風位置和聽者位置來執行關於音訊串流的內插以獲得內插音訊串流的構件；用於基於內插音訊串流獲得一或多個揚聲器饋送的構件；及用於輸出一或多個揚聲器饋送的構件。

實例36。實例35的設備，其中用於執行內插的構件包含：用於基於一或多個麥克風位置和聽者位置來決定音訊串流中的每一者的權重的構件；及用於基於權重而獲得內插音訊串流的構件。

實例37。實例35的設備，其中用於執行內插的構件包含：用於基於一或多個麥克風位置和聽者位置來決定音訊串流中的每一者的權重的構件；及用於將權重乘以一或多個音訊串流中的對應一者以獲得一或多個加權音訊串流的構件；及用於基於一或多個加權音訊串流來獲得內插音訊串流的構件。

實例38。實例35的設備，其中用於執行內插的構件包含：用於基於一或多個麥克風位置和聽者位置來決定音訊串流中的每一者的權重的構件；及用於將權重乘以一或多個音訊串流中的對應一者以獲得一或多個加權音訊串流的構件；及用於將一或多個加權音訊串流相加在一起以獲得內插音訊串流的構件。

實例39。實例36-38的任何組合的設備，其中用於決定權重的構件包含：用於決定一或多個麥克風位置中的每一者與聽者位置之間的差異的構件；及用於基於一或多個麥克風位置中的每一者與聽者位置之間的差異來決定音訊串流中的每一者的權重的構件。

實例40。實例36-39的任何組合的設備，其中用於決定權重的構件包含用於決定一或多個音訊串流的每一音訊訊框的權重的構件。

實例41。實例35-40的任何組合的設備，其中由音訊串流表示的音訊源常駐在一或多個麥克風外部。

實例42。實例35-41的任何組合的設備，其中用於獲得聽者位置的構件包含用於從以電腦為媒介的現實設備獲得聽者位置的構件。

實例43。實例42的設備，其中以電腦為媒介的現實設備包含頭戴式顯示設備。

實例44。實例35-43的任何組合的設備，其中用於獲得一或多個麥克風位置的構件包含用於從包括音訊串流的位元串流中獲得辨識一或多個麥克風位置的音訊中繼資料的構件。

實例45。實例35-44的任何組合的設備，其中一或多個麥克風位置中的至少一者改變，以反映一或多個麥克風中對應一者的移動。

實例46。實例35-45的任何組合的設備，其中一或多個音訊串流包括環境聲音訊串流（包括高階、混合階、一階、二階），並且其中內插音訊串流包括內插環境聲音訊串流（包括高階、混合階、一階、二階）。

實例47。實例35-44的任何組合的設備，其中一或多個音訊串流包括環境聲音訊串流，並且其中內插音訊串流包括內插環境聲音訊串流。

實例48。實例35-47的任何組合的設備，其中聽者位置基於聽者發出的導航命令而改變。

實例49。實例35-48的任何組合的設備，其中用於獲得麥克風位置的構件包含用於接收指定麥克風位置的音訊中繼資料的構件，麥克風位置中的每一者辨識擷取對應的一或多個音訊串流的麥克風集群的位置。

實例50。實例49的任何組合的設備，其中麥克風集群各自定位在彼此相距大於5英尺的距離。

實例51。實例35-48的任何組合的設備，其中麥克風各自定位在彼此相距大於5英尺的距離。

實例52。一種其上儲存有指令的非暫時性電腦可讀取儲存媒體，該等指令在被執行時使得一或多個處理器：獲得一或多個麥克風位置，一或多個麥克風位置中的每一者辨識擷取對應的一或多個音訊串流中的每一者的相應一或多個麥克風的位置；獲得辨識聽者的位置的聽者位置；基於一或多個麥克風位置和聽者位置來執行關於音訊串流的內插，以獲得內插音訊串流；基於內插音訊串流獲得一或多個揚聲器饋送；及輸出一或多個揚聲器饋送。

應認識到，根據實例，本文所述的任何技術的某些動作或事件可以以不同的順序執行，可以被添加、合併或一起省略（例如，並非所有描述的動作或事件對於技術的實踐皆是必要的）。此外，在某些實例中，動作或事件可以同時執行，例如，經由多執行緒處理、中斷處理或多個處理器，而不是依序執行。

在一些實例中，VR設備（或串流設備）可以使用耦合到VR/串流設備的記憶體的網路介面向外部設備傳達交換訊息，其中交換訊息與聲場的多個可用表示相關聯。在一些實例中，VR設備可以使用耦合到網路介面的天線來接收無線信號，該等無線信號包括與聲場的多個可用表示相關聯的資料封包、音訊封包、視訊封包或傳送協定資料。在一些實例中，一或多個麥克風陣列可以擷取聲場。

在一些實例中，儲存到記憶體設備的聲場的多個可用表示可以包括聲場的複數個基於物件的表示、聲場的高階環境聲表示、聲場的混合階環境聲表示、聲場的基於物件的表示與聲場的高階環境聲表示的組合、聲場的基於物件的表示與聲場的混合階環境聲表示的組合，或者聲場的混合階表示與聲場的高階環境聲表示的組合。

在一些實例中，聲場的多個可用表示中的一或多個聲場表示可以包括至少一個高解析度區域和至少一個低解析度區域，並且其中基於轉向角的所選呈現相對於至少一個高解析度區域提供較大的空間精度，並且相對於低解析度區域提供較小的空間精度。

在一或多個實例中，所描述的功能可以硬體、軟體、韌體或其任何組合來實現。若以軟體實現，則可以將功能作為一或多個指令或代碼儲存在電腦可讀取媒體上或在其上傳輸，並由基於硬體的處理單元執行。電腦可讀取媒體可以包括對應於諸如資料儲存媒體的有形媒體的電腦可讀取儲存媒體，或包括促進例如根據通訊協定將電腦程式從一處傳送到另一處的任何媒體的通訊媒體。以此方式，電腦可讀取媒體通常可以對應於：(1)有形電腦可讀取儲存媒體，其為非暫時性的；或(2)通訊媒體，諸如信號或載波。資料儲存媒體可以是可由一或多個電腦或一或多個處理器存取以取得用於實現本案中描述的技術的指令、代碼及/或資料結構的任何可用媒體。電腦程式產品可以包括電腦可讀取媒體。

舉例而言（且非限制），此類電腦可讀取儲存媒體可以包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存體、磁碟儲存體，或其他磁性儲存設備、快閃記憶體，或可以用以儲存呈指令或資料結構形式的所要程式碼且可以由電腦存取的任何其他媒體。而且，任何連接皆被適當地稱為電腦可讀取媒體。例如，若使用同軸電纜、光纖電纜、雙絞線、數位用戶線（DSL）或諸如紅外線、無線電和微波的無線技術從網站、伺服器或其他遠端源傳輸指令，則同軸電纜、光纖電纜、雙絞線、DSL或諸如紅外線、無線電和微波的無線技術包括在媒體的定義中。然而，應理解，電腦可讀取儲存媒體和資料儲存媒體不包括連接、載波、信號或其他暫時性媒體，而是關於非暫時性有形儲存媒體。如本文所使用，磁碟和光碟包括壓縮光碟（CD）、鐳射光碟、光學光碟、數位多功能光碟（DVD）、軟碟和藍光光碟，其中磁碟通常磁性地再現資料，而光碟使用鐳射光學地再現資料。上文的組合亦應包括在電腦可讀取媒體的範疇內。

指令可以由一或多個處理器執行，包括固定功能處理電路系統及/或可程式設計處理電路系統，諸如一或多個數位信號處理器（DSP）、通用微處理器、特殊應用積體電路（ASIC）、現場可程式設計閘陣列（FPGA）或其他等效的整合或離散邏輯電路系統。因此，如本文中所使用的術語「處理器」可以代表上述結構中的任一者或適於實現本文所描述的技術的任何其他結構。另外，在一些態樣中，可以將本文中所描述的功能性提供於被配置成用於編碼和解碼的專用硬體及/或軟體模組內，或併入組合的轉碼器中。而且，可以將該等技術充分實現在一或多個電路或邏輯元件中。

本案的技術可以實現在廣泛多種設備或裝置中，包括無線手機、積體電路（IC）或一組IC（例如，晶片組）。在本案中描述各種元件、模組或單元以強調被配置成執行所揭示的技術的設備的功能態樣，但未必需要經由不同的硬體單元來實現。相反，如前述，各種單元可以組合在轉碼器硬體單元中，或由互通性硬體單元的集合（包括如前述的一或多個處理器）結合合適的軟體及/或韌體來提供。

已描述各種實例。該等和其他實例在隨附請求項的範疇內。

5A:麥克風 5B:麥克風 5N:麥克風 10:系統 11A:環境聲係數 11A':環境聲係數 11N:環境聲係數 11N':環境聲係數 12:源設備 13:擴音器資訊 14:內容消費者設備 15:環境聲音訊資料 16:音訊重播系統 16A:音訊重播系統 16B:音訊重播系統 17:當前位置/聽者位置 21:位元串流 21A:XR音訊位元串流 21B:音訊位元串流 22:音訊渲染器 22A:6DOF音訊渲染器 24:音訊解碼設備 25:揚聲器饋送 30:內插設備 30A:內插設備 30B:內插設備 32:SSU 49:虛擬世界 50A:麥克風 50B:麥克風 50C:麥克風 50D:麥克風 50E:麥克風 50F:麥克風 51A:擷取位置 51B:擷取位置 51C:擷取位置 51D:擷取位置 51E:擷取位置 51F:擷取位置 52:使用者 53:移動路徑 54A:子集 54B:子集 55A:開始位置 55B:末端位置 60:VR耳機 60A:距離 62:蜂巢式電話 64:攝像機 68A:虛擬世界 68B:虛擬世界 70A:麥克風 70B:麥克風 70C:麥克風 70D:麥克風 70E:麥克風 70F:麥克風 70G:麥克風 71A:擷取位置 71B:擷取位置 71C:擷取位置 71D:擷取位置 71E:擷取位置 71F:擷取位置 71G:擷取位置 75:當前位置 80A:麥克風 80B:麥克風 80C:麥克風 80D:麥克風 80E:麥克風 80F:麥克風 82A:音訊分區 82B:音訊分區 82C:音訊分區 82D:音訊分區 82E:音訊分區 82F:音訊分區 82G:音訊分區 82H:音訊分區 85A:使用者位置 85B:當前位置 85C:當前位置 85D:當前位置 90A:聲源 90B:聲源 90C:聲源 90D:聲源 94:區域 96:線 100:系統 102:雙聲道渲染器 103:左和右揚聲器饋送 104:頭戴式耳機 105:基地站 110:地理覆蓋區域 115:UE 125:通訊鏈路 130:核心網路 132:回載鏈路 134:回載鏈路 200:攝像機 300:內容擷取設備 301:內容 302:聲場表示產生器 306:追蹤設備 400A:VR耳機/可穿戴設備 400B:VR設備/可穿戴設備 402:使用者 404:頭戴式耳機 500A:可穿戴設備 500B:可穿戴設備 500C:可穿戴設備 500D:可穿戴設備 500E:可穿戴設備 500N:可穿戴設備 511A:音訊中繼資料 511N:音訊中繼資料 800:可穿戴設備 900A:低延遲解碼器 900B:音訊解碼器 901A:音訊串流 901B:音訊串流 902:本端音訊緩衝器 903:音訊串流 905A:XR中繼資料 905B:6DOF中繼資料 950:步驟 952:步驟 954:步驟 956:步驟

圖1A和圖1B是圖示可以執行本案中描述的技術的各態樣的系統的圖。

圖2A-圖2G是更詳細地圖示圖1A的實例中所示的串流選擇單元在執行本案中描述的串流選擇技術的各態樣時的示例性操作的圖。

圖3A是圖示圖1A和圖1B的內插設備在執行本案中描述的音訊串流內插技術的各態樣時的其他示例性操作的方塊圖。

圖3B是圖示圖1A和圖1B的內插設備在執行本案中描述的音訊串流內插技術的各態樣時的其他示例性操作的方塊圖。

圖3C是圖示圖1A和圖1B的內插設備在執行本案中描述的音訊串流內插技術的各態樣時的其他示例性操作的方塊圖。

圖4A是更詳細地圖示圖1A-圖2的內插設備如何可以執行本案中描述的技術的各態樣的圖。

圖4B是更詳細地圖示圖1A-圖2的內插設備如何可以執行本案中描述的技術的各態樣的方塊圖。

圖5A和圖5B是圖示VR設備的實例的圖。

圖6A和圖6B是圖示可以執行本案中描述的技術的各態樣的示例性系統的圖。

圖7是圖示圖1A、圖1B-圖6B的系統在執行本案中描述的音訊內插技術的各態樣時的示例性操作的流程圖。

圖8是圖1A和圖1B的實例中所示的音訊重播設備在執行本案中描述的技術的各態樣時的方塊圖。

圖9圖示根據本案各態樣的支援音訊串流的無線通訊系統的實例。

國內寄存資訊(請依寄存機構、日期、號碼順序註記) 無國外寄存資訊(請依寄存國家、機構、日期、號碼順序註記) 無

5A:麥克風

5B:麥克風

5C:麥克風

5D:麥克風

5E:麥克風

52:使用者

90A:聲源

90B:聲源

90C:聲源

90D:聲源

94:區域

Claims

一種被配置成處理一或多個音訊串流的設備，該設備包含：一或多個處理器，被配置成：獲得該設備的一當前位置；獲得複數個擷取位置，該複數個擷取位置中的每一者辨識複數個音訊串流中的一相應一者被擷取的一位置；基於該當前位置和該複數個擷取位置來選擇該複數個音訊串流的一子集，該複數個音訊串流的該子集具有比該複數個音訊串流少的音訊串流；及基於該複數個音訊串流的該子集來再現一聲場；及一記憶體，耦合到該處理器，並且被配置成儲存該複數個音訊串流的該子集。
根據請求項1之設備，其中該一或多個處理器被配置成：決定該當前位置與該複數個擷取位置中的每一者之間的一距離，以獲得複數個距離；及基於該複數個距離來選擇該複數個音訊串流的該子集。
根據請求項2之設備，其中該一或多個處理器被配置成：將一總距離決定為該複數個距離的一總和；決定該複數個距離中的每一者的一反距離，以獲得複數個反距離；將該複數個反距離中的每一者的一比率決定為該複數個反距離中的一對應一者除以該總距離，以獲得複數個比率；及基於該複數個比率來選擇該複數個音訊串流的該子集。
根據請求項3之設備，其中該一或多個處理器被配置成：當該複數個比率中的一者超過一閾值時，將該複數個音訊串流中的一對應一者指派給該複數個音訊串流的該子集。
根據請求項1之設備，其中該一或多個處理器被配置成：決定該當前位置與該複數個擷取位置中的每一者之間的一相對位置，以獲得複數個相對位置；及基於該複數個相對位置和一閾值來選擇該複數個音訊串流的該子集。
根據請求項1之設備，其中該當前位置是在一第一時間擷取的一第一位置；其中該複數個音訊串流的該子集是該複數個音訊串流的一第一子集；其中該一或多個處理器亦被配置成：在該第一時間之後的一第二時間更新該當前位置，所更新後的該當前位置是在該第二時間擷取的一第二位置；基於所更新後的該當前位置和該複數個位置來選擇該複數個音訊串流的一第二子集；及基於該複數個音訊串流的該第二子集來再現該聲場。
根據請求項1之設備，其中該一或多個處理器被配置成：決定該複數個擷取位置中的每一者相對於該當前位置的一角位置，以獲得複數個角位置；及基於該複數個角位置來選擇該複數個音訊串流的該子集。
根據請求項7之設備，其中該一或多個處理器被配置成：決定該複數個角位置的不同子集的一方差，以獲得一或多個方差；及基於該一或多個方差來將該複數個音訊串流中的對應音訊串流指派給該複數個音訊串流的該子集。
根據請求項7之設備，其中該一或多個處理器被配置成：決定該複數個角位置的不同子集的一熵，以獲得一或多個熵；及基於該一或多個熵來將該複數個音訊串流中的對應音訊串流指派給該複數個音訊串流的該子集。
根據請求項1之設備，其中該設備包括一頭戴式顯示器、一虛擬實境（VR）耳機、一增強現實（AR）耳機和一混合現實（MR）耳機中的一者。
一種處理一或多個音訊串流的方法，該方法包含以下步驟：獲得一設備的一當前位置；獲得複數個擷取位置，該複數個擷取位置中的每一者辨識複數個音訊串流中的一相應一者被擷取的一位置；基於該當前位置和該複數個擷取位置來選擇該複數個音訊串流的一子集，該複數個音訊串流的該子集具有比該複數個音訊串流少的音訊串流；及基於該複數個音訊串流的該子集來再現一聲場。
根據請求項11之方法，其中選擇該複數個音訊串流的該子集之步驟包含以下步驟：決定該當前位置與該複數個擷取位置中的每一者之間的一距離，以獲得複數個距離；及基於該複數個距離來選擇該複數個音訊串流的該子集。
根據請求項12之方法，其中選擇該複數個音訊串流的該子集之步驟包含以下步驟：將一總距離決定為該複數個距離的一總和；決定該複數個距離中的每一者的一反距離，以獲得複數個反距離；將該複數個反距離中的每一者的一比率決定為該複數個反距離中的一對應一者除以該總距離，以獲得複數個比率；及基於該複數個比率來選擇該複數個音訊串流的該子集。
根據請求項13之方法，其中選擇該複數個音訊串流的該子集之步驟包含以下步驟，當該複數個比率中的一者超過一閾值時，將該複數個音訊串流中的一對應一者指派給該複數個音訊串流的該子集。
根據請求項11之方法，其中選擇該複數個音訊串流的該子集之步驟包含以下步驟：決定該當前位置與該複數個擷取位置中的每一者之間的一相對位置，以獲得複數個相對位置；及基於該複數個相對位置和一閾值來選擇該複數個音訊串流的該子集。
根據請求項11之方法，其中該當前位置是在一第一時間擷取的一第一位置；其中該複數個音訊串流的該子集是該複數個音訊串流的一第一子集；其中該方法亦包含以下步驟：在該第一時間之後的一第二時間更新該當前位置，所更新後的該當前位置是在該第二時間擷取的一第二位置；基於所更新後的該當前位置和該複數個位置來選擇該複數個音訊串流的一第二子集；及基於該複數個音訊串流的該第二子集來再現該聲場。
根據請求項11之方法，其中選擇該複數個音訊串流的該子集之步驟包含以下步驟：決定該複數個擷取位置中的每一者相對於該當前位置的一角位置，以獲得複數個角位置；及基於該複數個角位置來選擇該複數個音訊串流的該子集。
根據請求項17之方法，其中選擇該複數個音訊串流的該子集之步驟包含以下步驟：決定該複數個角位置的不同子集的一方差，以獲得一或多個方差；及基於該一或多個方差來將該複數個音訊串流中的對應音訊串流指派給該複數個音訊串流的該子集。
根據請求項17之方法，其中選擇該複數個音訊串流的該子集之步驟包含以下步驟：決定該複數個角位置的不同子集的一熵，以獲得一或多個熵；及基於該一或多個熵來將該複數個音訊串流中的對應音訊串流指派給該複數個音訊串流的該子集。
根據請求項11之方法，其中該設備包括一頭戴式顯示器、一虛擬實境（VR）耳機、一增強現實（AR）耳機和一混合現實（MR）耳機中的一者。
一種其上儲存有指令的電腦可讀取媒體，該等指令在被執行時使得一設備的一或多個處理器：獲得該設備的一當前位置；獲得複數個擷取位置，該複數個擷取位置中的每一者辨識複數個音訊串流中的一相應一者被擷取的一位置；基於該當前位置和該複數個擷取位置來選擇該複數個音訊串流的一子集，該複數個音訊串流的該子集具有比該複數個音訊串流少的音訊串流；及基於該複數個音訊串流的該子集來再現一聲場。
一種被配置成處理一或多個音訊串流的設備，該設備包含：用於獲得一設備的一當前位置的構件；用於獲得複數個擷取位置的構件，該複數個擷取位置中的每一者辨識複數個音訊串流中的一相應一者被擷取的一位置；用於基於該當前位置和該複數個擷取位置來選擇該複數個音訊串流的一子集的構件，該複數個音訊串流的該子集具有比該複數個音訊串流少的音訊串流；及用於基於該複數個音訊串流的該子集來再現一聲場的構件。