TW201907707A

TW201907707A - 音訊驅動之視埠選擇

Info

Publication number: TW201907707A
Application number: TW107118458A
Authority: TW
Inventors: 尼爾斯古恩瑟彼得斯; 山卡爾薩格德希瓦帕; 迪潘強森
Original assignee: 美商高通公司
Priority date: 2017-06-30
Filing date: 2018-05-30
Publication date: 2019-02-16
Also published as: US20190005986A1; EP3646609B1; US11164606B2; CN110786016B; CN110786016A; EP3646609A1; WO2019005325A1

Abstract

本發明提供一種實例裝置，其包括一記憶體裝置及耦接至該記憶體裝置之一處理器。該記憶體裝置經組態以儲存與一音場相關聯之音訊空間後設資料以及視訊資料。該處理器經組態以使用儲存至該記憶體裝置之該音訊空間後設資料來識別該音場之一或多個前景音訊物件，且基於經識別之一或多個前景音訊物件而選擇與該視訊資料相關聯之一或多個視埠。耦接至該處理器及該記憶體裝置之顯示器硬體經組態以輸出與由該處理器選擇之該一或多個視埠相關聯的該視訊資料之一部分。

Description

音訊驅動之視埠選擇

本發明係關於處理諸如音訊資料及/或視訊資料之媒體資料。

高階立體混響(HOA)信號(常常藉由複數個球諧係數(SHC)或其他階層元素表示)係音場之三維表示。HOA或SHC表示可按獨立於用以播放自SHC信號顯現之多聲道音訊信號的本端揚聲器幾何佈置之方式來表示音場。SHC信號亦可促進回溯相容性，此係因為可將SHC信號顯現為熟知且係被高度採用之多聲道格式，諸如5.1音訊聲道格式或7.1音訊聲道格式。SHC表示因此可實現對音場之更好表示，其亦適應回溯相容性。

另外，數位視訊能力可併入至廣泛範圍之裝置中，包括數位電視、數位直播系統、無線廣播系統、個人數位助理(PDA)、膝上型或桌上型電腦、平板電腦、電子書閱讀器、數位攝影機、數位記錄裝置、數位媒體播放器、視訊遊戲裝置、視訊遊戲控制台、蜂巢式或衛星無線電電話(所謂的「智慧型手機」)、視訊電話會議裝置、視訊串流裝置及其類似者。數位視訊裝置實施視訊寫碼技術，諸如在由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分進階視訊寫碼(AVC)、ITU-T H.265 (亦被稱作高效視訊寫碼(HEVC))所定義之標準及此等標準之擴展中所描述的彼等視訊寫碼技術。視訊裝置可藉由實施此等視訊寫碼技術而更高效地傳輸、接收、編碼、解碼及/或儲存數位視訊資訊。

視訊寫碼技術包括空間(圖像內)預測及/或時間(圖像間)預測以減少或移除視訊序列中所固有的冗餘。對於基於區塊之視訊寫碼，視訊圖塊(例如，視訊圖像或視訊圖像的一部分)可分割成視訊區塊，視訊區塊亦可被稱作寫碼樹型單元(CTU)、寫碼單元(CU)及/或寫碼節點。使用相對於同一圖像中之相鄰區塊中之參考樣本的空間預測來編碼圖像之經框內寫碼(I)圖塊中的視訊區塊。圖像之經框間寫碼(P或B)圖塊中的視訊區塊可使用相對於同一圖像中之相鄰區塊中的參考樣本的空間預測或相對於其他參考圖像中之參考樣本的時間預測。圖像可被稱作圖框，且參考圖像可被稱作參考圖框。

本發明大體上係關於使用電腦介導式(computer-mediated)實境系統之使用者體驗之聽覺態樣來增強使用者體驗之視覺態樣，該等實境系統包括虛擬實境(VR)、混合實境(MR)、擴增實境(AR)、電腦視覺及圖形系統。在一些特定實例中，本發明之態樣係有關使用音訊資料之方向性來預測待以較大解析度輸出(或「經增加取樣」)之對應視訊資料的特定部分，從而增強由電腦介導式實境系統提供之使用者體驗。

在一個實例中，一種裝置包括：一記憶體裝置，其經組態以儲存與一音場相關聯之音訊空間後設資料以及視訊資料；及一處理器，其耦接至該記憶體裝置。在此實例中，該處理器經組態以使用儲存至該記憶體裝置之該音訊空間後設資料來識別該音場之一或多個前景音訊物件，且基於經識別之一或多個前景音訊物件而選擇與該視訊資料相關聯之一或多個視埠。在此實例中，該裝置亦包括耦接至該處理器及該記憶體裝置之顯示器硬體，且該顯示器硬體經組態以輸出與由該處理器選擇之該一或多個視埠相關聯的該視訊資料之一部分。

在另一實例中，一種方法包括藉由耦接至記憶體裝置之一處理器使用儲存至該記憶體裝置之音訊空間後設資料來識別一音場之一或多個前景音訊物件。在此實例中，該方法進一步包括藉由該處理器且基於經識別之一或多個前景音訊物件而選擇與儲存至該記憶體裝置之視訊資料相關聯的一或多個視埠。在此實例中，該方法進一步包括藉由耦接至該處理器及該記憶體裝置之顯示器硬體輸出與由該處理器選擇之該一或多個視埠相關聯的該視訊資料之一部分。

在另一實例中，一種設備包括：用於使用音訊空間後設資料來識別一音場之一或多個前景音訊物件的構件；用於基於經識別之一或多個前景音訊物件而選擇與視訊資料相關聯之一或多個視埠的構件；及用於輸出與由處理器選擇之選定的一或多個視埠相關聯的該視訊資料之一部分的構件。

在另一實例中，一種電腦可讀儲存媒體經編碼有指令，該等指令在經執行時使一處理器進行以下操作：使用儲存至記憶體裝置之音訊空間後設資料來識別音場之一或多個前景音訊物件；及基於經識別之一或多個前景音訊物件而選擇與視訊資料相關聯之一或多個視埠。在此實例中，該等指令在經執行時進一步使該處理器經由顯示器硬體輸出與由該處理器選擇之該一或多個視埠相關聯的該視訊資料之一部分。

本發明之一或多個實例之細節闡述於隨附圖式及以下描述中。其他特徵、目標及優點將自實施方式及圖式以及自申請專利範圍而顯而易見。

本申請案主張2017年6月30日申請的美國臨時申請案第62/527,794號之權利，該申請案之全部內容特此以引用之方式併入。

一般而言，本發明係有關用於預測性地選擇一或多個觀看區域(或「視埠」)之技術，在該等觀看區域處，對待在電腦介導式實境系統之使用者體驗期間顯示的視訊資料進行增加取樣。電腦介導實境技術包括各種類型之內容產生及內容消費(content-consuming)系統，諸如虛擬實境(VR)、混合實境(MR)、擴增實境(AR)、電腦視覺及圖形系統。雖然為易於論述，藉助於實例關於虛擬實境系統來描述本發明之若干態樣，但將瞭解，本發明之技術亦適用於其他類型之電腦介導實境技術，諸如混合實境、擴增實境、電腦視覺及圖形系統。

虛擬實境系統可充分利用使用者之視場(FOV)資訊來編輯及輸出經訂製以服務使用者之FoV的球面視訊資料。球面視訊資料係指部分或完全環繞觀看者之頭部的視訊資料，例如用於虛擬實境應用或使用者可移動其頭部以查看在將焦點引向畫布之單一點時無法看到的影像畫布之不同部分的其他類似情境。特定而言，可在觀看者將視覺焦點引向大型畫布(諸如，部分或完全包封觀看者之頭部的三維畫布)之特定部分時應用此等技術。可使用螢幕之組合(例如，環繞使用者之螢幕的集合)或經由頭戴式光學件提供包封使用者之頭部的球面視訊資料。

可提供頭戴式光學件之硬體之實例包括VR耳機、MR耳機、AR耳機及各種其他耳機。感測資料及/或測試資料可用以判定使用者之FoV。作為感測資料之一個實例，與VR耳機之定位相關聯的一或多個角度可指示使用者之FoV，該一或多個角度形成耳機之「轉向角」。作為感測資料之另一實例，使用者之凝視角度(例如經由虹膜偵測來感測)可指示使用者之FoV。

可使用特性之集合來編碼及準備球面視訊資料及對應音訊資料(例如，用於儲存及/或傳輸)。關於球面視訊資料，可使用諸如畫布之不同區的空間解析度、3D畫布(其可使用各種量化參數來實現)之不同區的位元速率或其類似者的特性來編碼及準備資料。舉例而言，可在3D畫布的處於使用者之FoV中的一或多個表面處對球面視訊資料進行增加取樣以增強使用者體驗之視覺態樣。3D畫布之每一表面在本文中被稱作各別「視埠」。

現有的VR系統選擇視埠用於以反應方式進行增加取樣。亦即，現有的VR系統首先判定使用者之FoV (例如，藉由辨別VR耳機之轉向角，藉由追蹤使用者之眼睛凝視等)且接著對正顯示於FoV視埠處之視訊資料進行增加取樣。因而，現有的VR系統提供如下使用者體驗：在顯示於FoV視埠處之視訊正等待或經受增加取樣時，使用者在FoV視埠處觀看低於全解析度視訊持續某時間長度。因此，根據現有的VR系統，在FoV視埠經增加取樣時，使用者可經歷某滯後時間。

關於使用者體驗之聽覺分量，許多目前先進技術VR系統貫穿VR體驗顯現及播放3D音場之完整HOA表示。因而，在許多狀況下，VR系統用完全定向音訊物件播放環繞聲音訊。因此，根據此等VR系統，音訊播放不會經歷品質波動，如在3D畫布之包括任何新指定FoV視埠的各種視埠處所顯示的視訊資料之狀況下。

本發明係有關用於在使用者之凝視移位至新FoV視埠之前預測視埠將係FoV視埠的技術。本發明之技術使用在HOA表示音場中表示之各種音訊物件的方向性及能量來預測FoV視埠轉變。因為VR系統先前已存取音場表示之全部內容，所以本發明之VR系統可充分利用已可用之音訊資料來預測FoV視埠之指定，而不必依賴於使用者之凝視已移位至新FoV視埠的事後判定。以此方式，本發明之VR系統可藉由在一或多個所預測FoV視埠候選者處預先對視訊資料進行增加取樣來減少或潛在地消除現有系統之滯後時間。

舉例而言，音場之HOA表示可判定用於最具能量主導性的(「前景」)音訊物件之部位資訊傾向於與VR故事所聚焦之視埠部位一致或接近。部位資訊表示關於前景音訊物件之「空間後設資料」或「音訊空間後設資料」。因而，本發明描述使用能量主導音訊物件之部位資訊來預測FoV視埠轉變的VR系統。

舉例而言，本發明之VR用戶端裝置可充分利用音場之HOA表示中的前景音訊物件之空間後設資料來在一個可能的後續FoV視埠處或在複數個可能的後續視埠處預測性地對視訊饋入進行增加取樣。亦即，本發明之VR用戶端可使用音訊空間後設資料來預測將吸引使用者之注意力的可能的後續視埠。在音訊空間後設資料與橫跨多個可能的後續視埠之視訊資料相關聯的狀況下，VR用戶端亦可使用音場之音訊空間後設資料來預測數個可能的後續視埠。

在使用者將其視野移位至後續FoV視埠或移位至兩個或多於兩個可能的後續視埠之介接區域之前，本發明之VR用戶端裝置可開始且可能甚至結束增加取樣。以此方式，本發明之VR用戶端裝置可增強由VR系統提供之使用者體驗，此係因為在使用者將其凝視移位至FoV視埠之前，FoV視埠經部分或完全增加取樣。因為音場之HOA表示係先前使用場景分析而產生，所以本發明之預測性視埠選擇態樣不介紹可潛在地消耗計算資源之額外場景分析程序。

儘管上文關於音場之HOA表示的音訊空間後設資料來進行描述，但本發明之預測性視埠選擇技術亦可基於音場之其他表示而執行。舉例而言，VR用戶端可實施本發明之技術以藉由使用音場之基於物件之表示的物件後設資料來預測性地選擇一或多個可能的後續視埠。因而，本發明之VR系統可基於各種格式之音訊饋入中的前景音訊物件之空間後設資料而執行用於視訊饋入之預測性視埠選擇。

本發明之技術可結合關於傳輸(例如，發送及/或接收)針對媒體資料(諸如，視訊資料及音訊資料)待播放所在之不同區以各種品質等級寫碼的媒體資料的技術來使用。舉例而言，本發明之技術可由包括全景顯示器(例如，部分或完全包封觀看者之顯示器)及環繞聲揚聲器之用戶端裝置使用。一般而言，顯示器經組態使得使用者之視覺焦點在給定時間僅引向顯示器之一部分。本發明之系統可經由環繞聲揚聲器顯現及輸出音訊資料，使得與顯示器上之目前焦點區域相關聯的音訊物件係以比其餘音訊物件大的方向性來輸出。

圖1係說明自零階(n = 0)至四階(n = 4)之球諧基底函數的圖。如可見，對於每一階，存在m 子階之擴展，為易於說明之目的，在圖1之實例中展示該等子階但未顯式地註釋。

可由各種麥克風陣列組態實體地獲取(例如，記錄)或替代地自音場之基於聲道或基於物件之描述導出SHC。SHC表示基於場景之音訊，其中可將SHC輸入至音訊編碼器以獲得可促成更高效傳輸或儲存之經編碼SHC。舉例而言，可使用涉及(1+4)² (25，且因此為四階)係數之四階表示。

如上文所提到，可使用麥克風陣列自麥克風記錄導出SHC。可如何自麥克風陣列導出SHC之各種實例描述於Poletti, M之「Three-Dimensional Surround Sound Systems Based on Spherical Harmonics」(J. Audio Eng. Soc.，第53卷，第11期，2005年11月，第1004至1025頁)中。

為說明可如何自基於物件之描述導出SHC，考慮以下等式。可將對應於個別音訊物件之音場之係數表達為：，其中i係，係n階之球面漢克(Hankel)函數(第二種類)，且係物件之部位。知曉依據頻率變化之物件源能量(例如，使用時間-頻率分析技術，諸如對PCM串流執行快速傅立葉變換)允許吾人將每一PCM物件及對應部位轉換成SHC。另外，可展示(由於上式為線性及正交分解)每一物件之係數為相加性的。以此方式，許多PCM物件可由係數(例如，作為個別物件之係數向量的總和)來表示。基本上，該等係數含有關於音場之資訊(作為3D座標之函數的壓力)，且上式表示在觀測點附近自個別物件至總音場之表示的變換。下文在基於物件及基於SHC之音訊寫碼的內容脈絡中描述其餘諸圖。

圖2係說明可執行本發明中所描述之技術之各種態樣的系統10的圖。如圖2之實例中所展示，系統10包括源裝置12及內容消費者裝置14。雖然在源裝置12及內容消費者裝置14之內容脈絡中描述，但技術可實施於音場之任何階層式表示經編碼以形成表示音訊資料之位元串流的任何內容脈絡中。此外，源裝置12可表示能夠產生音場之階層式表示的任何形式之計算裝置，且本文中一般在係VR內容建立者裝置之內容脈絡中描述。同樣地，內容消費者裝置14可表示能夠實施本發明中所描述之音場表示選擇技術以及音訊播放的任何形式之計算裝置，且本文中一般在係VR用戶端裝置之內容脈絡中描述。

源裝置12可由娛樂公司或可產生多聲道音訊內容以供內容消費者裝置(諸如，內容消費者裝置14)之操作者消費的其他實體來操作。在許多VR情境中，源裝置12產生音訊內容連同視訊內容。源裝置12包括內容擷取裝置300及內容擷取輔助裝置302。內容擷取裝置300可經組態以與麥克風5介接或以其他方式通信。麥克風5可表示Eigenmike®或能夠擷取音場及將音場表示為HOA係數11之其他類型之3D音訊麥克風。在一些實例中，內容擷取裝置300可包括整合至內容擷取裝置300之外殼中的整合式麥克風5。在一些實例中，內容擷取裝置300可以無線方式或經由有線連接與麥克風5介接。在其他實例中，內容擷取裝置300可在HOA係數11經由某類型之抽取式儲存器輸入之後處理HOA係數11。根據本發明，內容擷取裝置300與麥克風5之各種組合係可能的。

內容擷取裝置300亦可經組態以與音場表示產生器302介接或以其他方式通信。音場表示產生器302可包括能夠與內容擷取裝置300介接之任何類型之硬體裝置。音場表示產生器302可使用由內容擷取裝置300提供之HOA係數11以使用HOA係數11之完整集合產生音場之完整HOA表示。

在一些實例中，內容擷取裝置300可經組態以與音場表示產生器302無線通信。在一些實例中，內容擷取裝置300可經由無線連接或有線連接中之一者或兩者通信，與音場表示產生器302通信。經由內容擷取裝置300與音場表示產生器302之間的連接，內容擷取裝置300可以各種內容形式來提供內容，其在本文中出於論述之目的而描述為係HOA係數11之部分。

在一些實例中，內容擷取裝置300可充分利用音場表示產生器302之各種態樣(就音場表示產生器302之硬體或軟體能力而言)。舉例而言，音場表示產生器302可包括經組態以執行音質音訊編碼之專用硬體(或在經執行時使一或多個處理器執行音質音訊編碼之專門軟體)(諸如，標示為由動畫專家組(MPEG)提出之「USAC」的統一話音及音訊寫碼器)。內容擷取裝置300可能不包括音質音訊編碼器專用硬體或專門軟體，而替代地以一非音質音訊寫碼形式提供內容301之音訊態樣。音場表示產生器302可藉由關於內容301之音訊態樣至少部分地執行音質音訊編碼來輔助內容301之擷取。

音場表示產生器302亦可藉由至少部分地基於自HOA係數11產生之音訊內容而產生一或多個位元串流21來輔助內容擷取及傳輸。位元串流21可表示HOA係數11之經壓縮版本(例如，作為一完全定向的3D音訊音場)及任何其他不同類型之內容301 (諸如，球面視訊資料、影像資料或文字資料之經壓縮版本)。音場表示產生器302可產生位元串流21以供跨越傳輸通道(作為一個實例)傳輸，該傳輸通道可係一有線或無線通道、一資料儲存裝置或其類似者。位元串流21可表示HOA係數11之經編碼版本，且可包括一主要位元串流及另一旁側位元串流，其可被稱作旁側通道資訊。

在許多實例中，內容消費者裝置14可由個人操作且可代表一VR用戶端裝置。內容消費者裝置14可包括一音訊播放系統16，其可指能夠顯現SHC (不管呈三階HOA表示及/或MOA表示之形式)以作為多聲道音訊內容播放的任何形式之音訊播放系統。

雖然在圖2中經展示為直接傳輸至內容消費者裝置14，但源裝置12可將位元串流21輸出至定位於源裝置12與內容消費者裝置14之間的一中間裝置。該中間裝置可儲存位元串流21以供稍後遞送至可能請求位元串流之內容消費者裝置14。該中間裝置可包含一檔案伺服器、一網頁伺服器、一桌上型電腦、一膝上型電腦、一平板電腦、一行動電話、一智慧型手機，或能夠儲存位元串流21以供音訊解碼器稍後檢索之任何其他裝置。該中間裝置可駐留於內容遞送網路中，該內容遞送網路能夠將位元串流21串流傳輸(且可能結合傳輸對應的視訊資料位元串流)至請求位元串流21之諸如內容消費者裝置14的用戶。

替代地，源裝置12可將位元串流21儲存至儲存媒體，諸如緊密光碟、數位視訊光碟、高清晰度視訊光碟或其他儲存媒體，該等儲存媒體中之大多數能夠由電腦讀取且因此可被稱作電腦可讀儲存媒體或非暫時性電腦可讀儲存媒體。在此內容脈絡中，傳輸通道可指藉以傳輸儲存至該等媒體之內容的通道(且可包括零售商店及其他基於商店之遞送機構)。在任何情況下，本發明之技術因此就此而言不應限於圖2之實例。

如圖2之實例中進一步展示，內容消費者裝置14包括音訊播放系統16。音訊播放系統16可表示能夠播放多聲道音訊資料之任何音訊播放系統。音訊播放系統16可包括數個不同顯現器22。顯現器22可各自提供不同形式之顯現，其中不同形式之顯現可包括執行基於向量之振幅平移(VBAP)之各種方式中的一或多者及/或執行音場合成之各種方式中的一或多者。如本文中所使用，「A及/或B」意謂「A或B」，或「A及B」兩者。

音訊播放系統16可進一步包括音訊解碼裝置24。音訊解碼裝置24可表示經組態以自位元串流21解碼立體混響係數15之裝置。因而，立體混響係數15可類似於HOA係數11之完整集合或部分子集，但可能由於有損操作(例如，量化)及/或經由傳輸通道之傳輸而不同。音訊播放系統16可在解碼位元串流21以獲得立體混響係數15之後，且顯現立體混響係數15以輸出擴音器饋入25。擴音器饋入25可驅動一或多個擴音器(為易於說明之目的，其未在圖2之實例中展示)。

為選擇適當顯現器或在一些情況下為產生適當顯現器，音訊播放系統16可獲得指示擴音器之數目及/或擴音器之空間幾何佈置的擴音器資訊13。在一些情況下，音訊播放系統16可使用參考麥克風且以使得動態地判定擴音器資訊13之方式驅動擴音器而獲得擴音器資訊13。在其他情況下或結合擴音器資訊13之動態判定，音訊播放系統16可提示使用者與音訊播放系統16介接且輸入擴音器資訊13。

音訊播放系統16可接著基於擴音器資訊13而選擇音訊顯現器22中之一者。在一些情況下，在音訊顯現器22中無一者處於擴音器資訊13中所指定之擴音器幾何佈置之某臨限類似性度量(就擴音器幾何佈置而言)內時，音訊播放系統16可基於擴音器資訊13而產生音訊顯現器22中之一者。在一些情況下，音訊播放系統16可基於擴音器資訊13而產生音訊顯現器22中之一者，而不首先嘗試選擇音訊顯現器22中現有的一者。一或多個揚聲器可接著播放顯現之擴音器饋入25。

圖3A及圖3B係說明用以呈現全景視訊資料之顯示器的模型之表示的圖。圖3A說明立方體貼圖投影100之實例，而圖3B說明等矩形投影110。

在圖3A中，立方體(cube或cuboid) 104之六個面102A至102F (面102)中之每一者被劃分成四個影像塊(總計24個影像塊)。面102在概念上可表示立方體104之內表面。可見面(亦即，面102A、102B及102C)之影像塊標記為影像塊106A至106L。特定而言，面102C被劃分成影像塊106A至106D，面102B被劃分成影像塊106E至106H，且面102A被劃分成影像塊106I至106L。出於可讀性之目的，在圖3A中未標記隱藏面(亦即，面102D、102E及102F)之影像塊，但應理解，面102D至102F亦被劃分成影像塊。「影像塊」亦可被稱作區。圖3A中之立方體面102中之每一者對應於90度乘90度視場(FoV)。球面之任何任意的90×90度影像塊可能需要以高解析度解碼1/3全景。FoV很少橫跨多於八個影像塊。因此，在不損失視覺品質之情況下，高解析度解碼之跨度可限於八個影像塊或少於八個影像塊。

圖3B說明被劃分成八個影像塊116A至116H之畫布118。在此實例中，當使用者正觀察球體之「極點」(例如，北極112，其中在觀察北極112時使用者之視場由灰色陰影區域114表示)時，將需要以高解析度解碼畫布118之整個上半部分(亦即，影像塊116A至116D)。將影像塊116A至116D分成更多豎直影像塊將無助於解決問題。因此，在此實例中，將需要以高解析度解碼全景的一半。此係相比圖3A之實例中解析度顯著更高的資料。因此，本發明之技術可使用立方體貼圖投影模型100以供顯示。

參考上文關於圖1所論述之實例，在該實例中，以包括6k、4k、HD (1080p)及720p之解析度寫碼視訊資料，在圖3A中，可以6k解析度解碼正面四個影像塊106A至106D (亦被稱作「區」)，可以4k解析度解碼相鄰的八個影像塊(例如，影像塊106E、106G、106K及106L以及面102D及102F之相鄰於影像塊106A、106C及106D的未標記影像塊)，可以HD (1080p)解析度解碼相鄰於此等八個影像塊的八個影像塊(亦即，影像塊106F、106H、106I、106J及相鄰於影像塊106A、106C及106D所相鄰之影像塊的其他未標記影像塊)，且可以720p解碼四個背面影像塊。在此實例中，此視訊資料之總頻寬要求將係每圖框6.5 MP。在跨越遞減次序之解析度存在影像塊之8-4-4-8分佈的更壞狀況下，總頻寬要求將係每圖框8.17 MP。將瞭解，上文所描述之視訊解析度/速率係非限制性實例，且其他視訊解析度/速率亦與本發明之各種態樣相容。亦將瞭解，隨著技術及標準演進，視訊解析度/速率經歷改變。

圖4係說明柱面全景視訊資料120之實例的圖。柱面全景視訊資料120被分割成影像塊122至130。相比解碼器複雜度之降低，位元速率降低對於某些用途係同等重要的(若並非更重要)。舉例而言，相較於習知的高品質全景視訊資料之30 mbps要求，一些報告指示平均美國網際網路連接速度係5 mbps。自全景切分多個小影像塊可降低壓縮效率。亦即，可存在時間預測效率之一些損失。

在圖4之實例中，伺服器(例如，圖2之源裝置12)可儲存12×90度影像塊122至130 (其等效於全景之三個複本)。此實例可用以避免小影像塊，此意謂壓縮效率未受損。此外，亦可儲存12×30度影像塊。一任意的90度視圖因而將需要最多四個30度影像塊，其中一個30度影像塊及一個90度影像塊可用以組成一任意的90度視圖。

可使用本發明之技術實現球面全景視訊資料120之位元速率最佳化。折衷儲存空間以節省位元速率之想法可推廣至其他狀況。舉例而言，相同影像塊粒度在所有視角下可用係不必要的。不同於柱面全景狀況，對於球面全景而言，用相等的影像塊粒度覆蓋所有視點係重要的。

一般而言，圖2之源裝置12可以多個影像塊粒度保存球面全景視訊資料120之複本。比影像塊122至130大之影像塊(未圖示)之間在一些地方可具有重疊的視場以用於更好的覆蓋。舉例而言，源裝置12可以較大影像塊大小編碼最感興趣的視點(如由正準備內容之諸如管理員的使用者判定)。以此方式，源裝置12可發送多種大小影像塊之組合，例如，針對使用者之視覺焦點所引向的區的大影像塊(例如，影像塊122至130中之一者的影像塊大小的四倍)及針對其他其餘區的較小影像塊(關於圖3A之實例，總計21個影像塊)。

立方體投影中之實例影像塊寫碼可如下：立方體面可係形成水平環之A、B、C及D，用於頂部之E及用於底部之F。最小影像塊可係A1、A2、A3、A4、B1、B2、......、F1、F2、F3及F4 (總計24個影像塊)。較大影像塊可係A、B、C、D、E及F (其中影像塊A覆蓋由影像塊A1、A2、A3及A4橫跨之區域，B覆蓋由影像塊B1、B2、B3及B4橫跨之區域，對於影像塊C至F中之每一者，情況如此)。在一些實例中，將以較大影像塊大小僅寫碼更可能被觀看之彼等視點。因此，若使用者將不太可能向上看或向下看，則僅A、B、C及D可寫碼為大影像塊。視情況，此等影像塊中之每一者可具有用於立體視訊資料之左方及右方視圖。

源裝置12可準備用於立體視訊狀況之視訊資料以改良在目的地裝置14自低解析度串流切換至高解析度串流時的潛時。本發明之技術可避免引入額外的光子運動(m2p)潛時。一般而言，在自例如低解析度轉變至高解析度期間(當使用者移動其頭部時)的潛時可係大的。最大潛時等於自抬頭顯示器(HUD)至伺服器及返回之潛時(例如，目的地裝置14與伺服器裝置12之間的往返潛時)加上直至下一I圖框經解碼為止的GOP結構或時間之長度。然而，在不同解析度下之內容可用於HUD處(在本端儲存於檔案中或經串流傳輸)的情境致使網路延遲部分在上文的最大潛時計算中係0。

圖5係說明劃分成區142A至142F (區142)之實例畫布140的圖。出於論述之目的，將畫布140作為矩形劃分成多個矩形區142，但應理解，此論述可適用於類似於如圖3A中所展示之立方體貼圖投影100的立方體貼圖投影。

根據本發明之技術，可針對區142中之每一者提供視訊資料之各種集合。在圖5之實例中，針對區142A提供視訊資料144A，針對區142B提供視訊資料144B，針對區142C提供視訊資料144C，針對區142D提供視訊資料144D，針對區142E提供視訊資料144E，且針對區142F提供視訊資料144F。視訊資料144A至144F中之每一者可包括以多種品質等級(例如，空間解析度)編碼之視訊資料。舉例而言，視訊資料144A至144F中之每一者可包括以成比例的6K解析度(亦即，具有6K解析度之像素密度)、4K解析度、1080P解析度及720P解析度編碼之視訊資料。

在一些實例中，可提供覆蓋複數個區142之視訊資料。在圖5之實例中，提供覆蓋區142A、142B、142D及142E之視訊資料146。因此，若使用者之焦點引向包括區142A、142B、142D及142E之視場，則目的地裝置14可簡單地檢索視訊資料146而非自視訊資料144A、144B、144D、144E檢索視訊資料之個別集合。在一些實例(諸如，圖5中所展示之實例)中，僅提供覆蓋多個區之單一品質(例如，空間解析度)，但在其他實例中，可針對多個區提供多個品質。

圖6係說明實例畫布180與對應立方體貼圖視圖182A、182B之間的對應關係的圖。特定而言，畫布180包括以不同方式加陰影之複數個影像塊，其中不同陰影表示所請求之不同品質等級(例如，空間解析度)。立方體貼圖視圖182A、182B表示畫布180之影像塊中之每一者將顯示於何處。立方體貼圖視圖182A展示立方體貼圖之正視圖的正面透視圖，而立方體貼圖視圖182B展示立方體貼圖之後部影像塊的剖視正面透視圖。白色影像塊表示最高品質等級(例如，最高空間解析度)，對角線陰影影像塊表示第二最高品質等級，交叉影線陰影影像塊表示第三最高品質等級，且純黑色陰影影像塊表示最低品質等級。品質等級亦可被稱作「層」。

在一個實例中，為達成較低品質等級，空間解析度經減少取樣。舉例而言，層1可係全空間解析度，層2可沿水平及垂直方向在空間上減半(總計四分之一空間解析度)，層3可沿水平及垂直方向在空間上減少為三分之一(總計九分之一空間解析度)，且層4可沿水平及垂直方向在空間上減少為四分之一(總計十六分之一空間解析度)。

圖7係說明串流伺服器可將音場之HOA表示提供至串流用戶端所根據的本發明之態樣的圖。圖7之串流伺服器係圖2之源裝置12的實例，而圖7之串流用戶端係圖2之內容消費者裝置14的實例。

聽覺態樣形成VR故事之使用者體驗的顯著部分。一些研究已得出結論：音訊形成關於VR故事之呈現的使用者體驗之六十百分比(60%)。VR故事之音訊資料常常以全360º音訊解析度儲存及/或串流傳輸。因而，串流用戶端之使用者可自任何(或潛在地所有)聲源部位感知聲音。因為音訊空間後設資料在VR敘事之內容脈絡中描述音訊資料之音訊物件，所以定向音訊常常用以導引使用者經歷VR故事。VR敘事體驗之音訊部分的態樣描述於在http://digital-library.theiet.org/content/conferences/ 10.1049/ibc.2016.0029處可得的「Directing Attention in 360º Video」中。

根據現有VR技術，用於VR視訊串流傳輸之一種常見的方法係將視訊編碼至不同視埠中。使用者通常僅可看到視訊資料之大約120º部分。因此，串流用戶端(例如，VR用戶端)可以諸如6K解析度之最高可用解析度輸出FOV視埠。同時，VR用戶端可以較低解析度並行地輸出其餘視埠(其不在FOV中)。舉例而言，VR用戶端可將諸如4K或1080p之中間解析度用於鄰近於FOV視埠之視埠。VR用戶端可將最低可用解析度(例如，720p)用於定位成與當前FOV視埠相對的視埠。在偵測到耳機之轉向角的改變後，VR用戶端可在視埠當中重新指派解析度以較好地符合新FOV資訊。如上文所描述，根據現有VR技術，解析度重新指派一般帶來滯後時間，在此期間FOV視埠經歷增加取樣。

圖8係說明FoV視埠(針對「正面」標記為「F」)、鄰近於FoV之視埠(針對「右方」標記為「R」)及與FoV視埠相對之視埠(針對「背面」標記為「B」)之間的視訊解析度之比較的曲線圖。如上文所描述，目前先進技術的VR串流方法係基於使用VR耳機之轉向角識別FoV資訊。為節省頻寬及計算資源，VR用戶端裝置可在FoV視埠處提供最高可用視訊品質，而在VR用戶端判定在使用者之FoV外的其餘視埠處提供較低視訊品質。當使用者改變觀看方向(VR用戶端可使用使用者之VR耳機的轉向角或藉由使用對使用者虹膜之凝視追蹤來偵測該觀看方向)時，處理及傳輸潛時可切換至新視埠串流。在此轉變時間期間，使用者察看較低品質的視訊品質(例如，由於視訊包括相對較大像素而呈塊狀或經像素化)。

自使用者之觀點，本發明之技術減少或潛在地消除在切換使用者之FoV後察看降級之視訊品質的轉變時間。在一些實例中，本發明之技術使得VR用戶端能夠預測一或多個可能的後續FoV視埠，且藉此預提取經由可能的後續視埠顯示之視訊資料且預先對其進行增加取樣。將瞭解，本發明之技術支援基於音訊分析或亦基於音訊分析與一或多個其他準則之組合而選擇可能的後續視埠。

換言之，本發明之VR用戶端可基於VR視聽資料之3D音訊音場中的聽覺線索而預測使用者可將FoV移位至的一或多個可能的後續視埠。本發明之VR用戶端可基於使用者可能注意(例如，將注意力移向)匹配對應場景中之能量主導聲音之方向性的視訊部位的理論或假設而預測可能的後續視埠。舉例而言，使用者可朝向接下來場景中之能量主導聲音之部位旋轉或以其他方式移動其凝視。

基於場景之HOA目前係用於VR技術之常用音訊格式。各種HOA寫碼技術將音訊場景分解成主導的前景及背景分量。因而，VR用戶端裝置之音訊解碼器藉助於描述聲音之方向性的音訊空間後設資料而可能已具有主導聲音之方向資訊。因而，VR用戶端可充分利用音訊解碼器(例如，圖2之音訊解碼裝置24)之功能性來預測使用者消費之VR視訊的可能的後續視埠。

在其他實例中，除一或多個音訊物件外，本發明之VR用戶端亦可充分利用基於場景之音訊(亦即，HOA)。亦即，本發明之技術使得本發明之VR用戶端能夠使用各種類型之音訊格式(包括基於物件之格式)的空間資訊來預測VR視訊輸出之可能的後續視埠。在音場之基於物件之表示的狀況下，本發明之VR用戶端可使用音訊物件之後設資料以用於視埠預測。

在給定視訊圖框內，視訊物件可基於其與對應音訊訊框之前景或背景音訊物件的關聯而區別。在此說明中，「原始」圖框可以相等解析度展示視訊場景之所有物件。然而，「經分解之主導聲音+後設資料」圖框可僅展示自「原始」圖框提取的與音場表示之對應音訊訊框之能量主導音訊物件同置的彼等視訊物件。另外，「背景」圖框可展示「原始」圖框，其中「主導聲音+後設資料」圖框之彼等視訊物件經移除且其餘視訊物件在較低解析度下。亦即，「背景」圖框可僅包括與音場表示之對應音訊訊框中之背景或環境音訊物件同置的視訊物件。「經壓縮」圖框可以高解析度展示「主導聲音+後設資料」圖框之視訊物件視訊物件，且其中「背景」圖框之視訊物件在較低解析度下。

圖9係說明本發明之一或多個電腦介導式實境系統可使用的耳機200之實例的圖。在各種實例中，耳機200可表示VR耳機、AR耳機、MR耳機或擴展實境(XR)耳機。如所展示，耳機200包括一後視攝影機、一或多個定向揚聲器、一或多個追蹤及/或記錄攝影機及一或多個發光二極體(LED)燈。在一些實例中，LED光可被稱作「超亮」LED光。此外，耳機200包括一或多個眼睛追蹤攝影機、高靈敏度音訊麥克風及光學件/投影硬體。耳機200之光學件/投影硬體可包括耐久的半透明顯示器技術及硬體。

耳機200亦包括連接性硬體，其可代表支援多模式連接性之一或多個網路介面，諸如4G通信、5G通信等。耳機200亦包括環境光感測器及骨傳導傳感器。在一些情況下，耳機200亦可包括具有魚眼鏡頭及/或望遠鏡頭之一或多個被動及/或主動攝影機。根據本發明之各種技術，本發明之各種裝置(諸如，圖2之內容消費者裝置14)可使用耳機200之轉向角選擇音場之音訊表示以經由耳機200之定向揚聲器輸出。應瞭解，耳機200可展現多種不同的外觀尺寸。

圖10A係說明本發明之串流用戶端可藉以基於對音訊空間後設資料之分析而在逐視埠基礎上請求視訊資料之解析度特定串流傳輸的機制的圖。串流伺服器係圖2之源裝置12的一個實例，且串流用戶端係圖2之內容消費者裝置14的一個實例。串流用戶端可實施預測演算法以請求待自串流伺服器串流傳輸的「N」個最可能的後續視埠(其由音訊空間後設資料判定)。串流用戶端可基於各種準則執行預測，各種準則包括自串流伺服器接收到之音訊位元串流中的主導音訊分量之方向以及當前FoV。

根據本發明之各種態樣，圖10A之串流用戶端可判定經由音訊串流接收之音場表示的前景音訊物件之部位。舉例而言，串流用戶端可使用音場之各種物件的能量來判定哪些物件合格作為前景音訊物件。串流用戶端又可將音場中之前景音訊物件的位置映射至對應視訊資料中之對應位置，諸如映射至圖3B中所說明之影像塊116中之一或多者。若串流用戶端判定即將播放之前景音訊物件映射至不同於當前FoV視埠(或影像塊)之視埠(或影像塊)中的位置，則串流用戶端可預測使用者之FoV將改變以追蹤映射至很快將顯現之前景音訊物件之位置的視埠位置。

基於上文所描述之音訊驅動預測，串流用戶端可在FoV實際上改變至所預測視埠中之任一者之前向串流伺服器請求所預測視埠之高解析度視訊資料。以此方式，圖10A之串流用戶端可預測性地請求及獲得高解析度視訊資料以用於未來FoV視埠，同時減少或潛在地消除在將FoV改變至不同視埠或不同視埠群組時使用者所經歷的滯後時間。

圖10B係說明播放裝置可藉以基於對音訊空間後設資料之分析而在逐視埠基礎上實施解析度特定視訊資料之本端選擇的機制的圖。圖10B之播放裝置可包括、可係可實施本發明之技術的任何電腦介導式實境裝置，諸如圖2之播放裝置14，或可係任何電腦介導式實境裝置之部分。可在逐視埠基礎上實施解析度特定視訊資料之本端選擇的其他裝置之實例包括虛擬實境(VR)、擴增實境(AR)、混合實境(MR)或擴展實境(XR)裝置。

圖10B之播放裝置可實施預測演算法以識別待自本端儲存器檢索且經由顯示器硬體(例如，圖9中所說明之耳機200)播放的「N」個最可能的後續視埠(如自音訊空間後設資料判定)。播放裝置可基於各種準則執行預測，各種準則包括經播放以用於電腦介導實境(例如，VR)體驗之音場表示中的主導音訊分量之方向以及當前FoV。

根據本發明之各種態樣，圖10B之播放裝置可判定待顯現或當前正顯現以用於電腦介導實境(例如，VR)體驗之音場表示之前景音訊物件的部位。舉例而言，播放裝置可使用音場之各種物件的能量來判定哪些物件合格作為前景音訊物件。又，播放裝置可將音場中之前景音訊物件的位置映射至對應視訊資料中之對應位置，諸如映射至圖3B中所說明之影像塊116中之一或多者。若播放裝置判定即將播放之前景音訊物件映射至不同於當前FoV視埠(或影像塊)之視埠(或影像塊)中的位置，則播放裝置可預測使用者之FoV將改變以追蹤映射至很快顯現之前景音訊物件之位置的視埠位置。

基於上文所描述之音訊驅動預測，播放裝置可在FoV實際上改變至所預測視埠中之任一者之前自本端儲存之視訊資料選擇所預測視埠之高解析度視訊資料。以此方式，圖10B之播放裝置可預測性地選擇高解析度視訊資料以用於未來FoV視埠且準備選定的高解析度視訊資料以供經由對應視埠輸出，同時減少或潛在地消除在將FoV改變至不同視埠或不同視埠群組時使用者所經歷的滯後時間。

圖11係說明本發明之串流用戶端可實施以執行視埠預測的實例工作流程的圖。音訊解碼裝置24可使用自3D HOA音場表示獲得之後設資料(例如，音訊空間後設資料)以判定3D HOA音場之主導聲音。舉例而言，音訊解碼裝置24可使用音訊物件之V向量主方向。在串流情境中，音訊解碼裝置24可使用在位元串流21中接收之音訊空間後設資料。在本端儲存情境中，音訊解碼裝置24可使用來自在本端儲存於內容消費者裝置14處之3D HOA音場表示的音訊空間後設資料。音訊解碼裝置24亦可使用與音訊物件相關聯之後設資料(例如，方向、距離及優先權資訊)以判定音場之能量主導聲音。又，音訊解碼裝置24可計算3D音場之主導聲音方向的時間平均(及視情況，後設資料加權)直方圖。

內容消費者裝置14可實施臨限值偵測以判定定位於當前FoV視埠外之聲音的數目。若所偵測到之聲音的數目超過臨限值，則內容消費者裝置14可判定「N」個最可能的後續視埠。「N」表示整數值。又，若超出當前視埠外之聲音的數目超過臨限值，則內容消費者裝置14可獲得經增加取樣之視訊資料以用於所有「N」個最可能的後續視埠。在串流情境中，內容消費者裝置14可向源裝置12請求經增加取樣之視訊資料以用於所有「N」個最可能的後續視埠。在本端儲存情境中，內容消費者裝置14可自內容消費者裝置14之本端儲存器檢索經增加取樣之視訊資料以用於所有「N」個最可能的後續視埠。

然而，若內容消費者裝置14判定無聲音(或不超過臨限數目個聲音)位於當前視埠外，則內容消費者裝置14可獲得經增加取樣之視訊資料僅用於當前FoV視埠。如圖11中所展示，為判定正由使用者觀看之當前視埠(亦即，當前FoV視埠)，內容消費者裝置14可使用VR耳機之當前轉向角。在串流情境中，內容消費者裝置14可向源裝置12請求經增加取樣之視訊資料以僅用於當前FoV視埠。在本端儲存情境中，內容消費者裝置14可自內容消費者裝置14之本端儲存器檢索經增加取樣之視訊資料以僅用於當前FoV視埠。

如上文關於圖11所描述，內容消費者裝置14可包括各種構件以追蹤使用者之頭部運動，諸如VR耳機追蹤、凝視追蹤等。內容消費者裝置14可使用所追蹤之頭部運動以便顯現音訊及視訊，從而適應使用者之當前觀看凝視(例如，凝視角度或轉向方向)。又，內容消費者裝置14可獲得經增加取樣之視訊資料以用於當前觀看凝視之適當視埠。作為實例，內容消費者裝置14可自本端儲存器檢索經增加取樣之視訊資料或向源裝置12請求經增加取樣之視訊資料。又，內容消費者裝置14可輸出所獲得的經增加取樣之視訊資料以用於選定視埠，而不管選擇係僅針對當前FoV視埠抑或針對一或多個所預測視埠。

實施選擇可用視埠中之哪一者的決策由來自伴隨的空間音訊內容判定之資訊(例如，部分地)判定，內容消費者裝置14裝置可使該決策基於對來自經壓縮HOA位元串流(使用主導聲音之方向及/或HOA V向量之方向)或音場表示之物件相關後設資料(例如，方向、距離、物件優先權)的定向音訊參數之剖析。內容消費者裝置14可使用上文所列出之資訊預測可能的後續視埠，作為內容消費者裝置14可能需要獲得以供在不久的將來播放的資料。在一些實例中，替代使決策基於可獲自音場表示之定向音訊參數，內容消費者裝置14可計算及使用經解碼空間音訊內容之空間能量分佈以用於視埠預測。

舉例而言，內容消費者裝置14可基於所追蹤之轉向角判定使用者正觀看正向方向。在此實例中，對於相對於使用者之位置而定位於正向方向上的視埠，內容消費者裝置14可獲得經增加取樣之視訊資料以實現具有最好視訊品質之視埠。又，在此實例中，內容消費者裝置14可判定音場表示包括即將與使用者右側同置(例如，在大約一秒內)之響亮音訊物件。基於即將播放響亮音訊物件(例如，顯示較大能量之音訊物件)之判定，內容消費者裝置14可基於待顯現之響亮音訊元件/物件之方向而預測使用者可能即將向右方觀看。內容消費者裝置14可實施本發明之技術以充分利用定位於使用者右方之響亮聲音的基於音訊之判定來預提取經增加取樣之視訊資料以用於右方視埠，此係因為用於右方視埠之經增加取樣之視訊資料表示具有最好的可用視訊品質的響亮音訊物體之方向。

圖12係說明根據本發明之一或多個態樣的裝置(例如，圖10B之播放裝置)可執行的實例程序220之流程圖。程序220可在播放裝置使用耦接至記憶體之處理器、使用儲存至記憶體之音訊空間後設資料識別音場之一或多個前景音訊物件時開始(222)。又，播放裝置之處理器可基於經識別之一或多個前景音訊物件而選擇與儲存至記憶體裝置之視訊資料相關聯一或多個視埠(224)。播放裝置可包括耦接至處理器及記憶體之顯示器硬體，或可耦接至此顯示器硬體，諸如耳機200之顯示器硬體。顯示器硬體可輸出視訊資料(其儲存至記憶體)之一部分，該部分與由處理器選擇之一或多個視埠相關聯(226)。

在一些實例中，播放裝置之處理器可與經識別之一或多個前景音訊物件能量關聯。在一些實例中，播放裝置之處理器可基於經識別之一或多個前景音訊物件而判定與經識別之一或多個視埠相關聯的視埠數目。在一些實例中，播放裝置之處理器可對與經識別之一或多個前景音訊物件相關聯的所儲存視訊資料之一部分進行增加取樣。在此等實例中，顯示器硬體可輸出視訊資料之經增加取樣之部分。

在一些實例中，一或多個擴音器(例如，耳機200之揚聲器硬體)可輸出表示音場之音訊資料格式。在一些實例中，處理器播放裝置可偵測已更新之視場(FoV)資訊，且可基於已更新之FoV資訊更新經識別之一或多個視埠。在一些實例中，顯示器硬體可僅輸出視訊資料的與選定的一或多個視埠相關聯之部分，而不輸出視訊資料的不與一或多個視埠相關聯之其餘部分。

在一些實例中，播放裝置之記憶體裝置可儲存音場之複數個表示，該複數個表示包括音場之複數個基於物件之表示、音場之高階立體混響表示、音場之混合階立體混響表示、音場之基於聲道之表示、音場之基於物件之表示與音場之高階立體混響表示的組合、音場之基於物件之表示與音場之混合階立體混響表示的組合，或音場之混合階表示與音場之高階立體混響表示的組合。在一些實例中，播放裝置之記憶體裝置可儲存與音場相關聯之空間音訊內容，且播放裝置之處理器可進一步基於與音場相關聯之空間音訊內容的空間能量分佈而選擇一或多個視埠。

在一些實例中，播放裝置之處理器可進一步基於與音場相關聯之空間音訊內容的空間能量分佈而選擇一或多個視埠。在一些實例中，播放裝置之記憶體裝置可儲存包括空間後設資料之音場的HOA表示，且播放裝置之處理器可剖析HOA表示以獲得主導聲音之方向。在此等實例中，播放裝置之記憶體裝置可進一步基於主導聲音之方向而選擇一或多個視埠。

在一些實例中，播放裝置之記憶體裝置可儲存包括空間後設資料之音場的基於物件之表示，且播放裝置之處理器可剖析基於物件之表示以獲得物件相關後設資料，其包括方向、距離或物件優先權中之一或多者。在此等實例中，播放裝置之處理器可基於物件相關後設資料而選擇一或多個視埠。

在一些實例中，播放裝置之處理器可追蹤由與裝置(例如，耳機200)相關聯之一或多個角度提供的轉向角，該裝置與播放裝置配對及/或包括處理器及記憶體裝置。在此等實例中，播放裝置之處理器可進一步基於轉向角而選擇一或多個視埠。在一些實例中，播放裝置之處理器可基於轉向角而選擇一或多個視埠中之當前視埠，且可基於經識別之一或多個前景音訊物件而選擇一或多個視埠中之所預測視埠。

應認識到，取決於實例，本文中所描述之技術中之任一者的某些動作或事件可按不同序列執行、可經添加、合併或完全省去(例如，並非所有所描述動作或事件對於該等技術之實踐係必要的)。此外，在某些實例中，可例如經由多執行緒處理、中斷處理或多個處理器同時而非依序執行動作或事件。

在一或多個實例中，所描述之功能可以硬體、軟體、韌體或其任何組合實施。若以軟體實施，則該等功能可作為一或多個指令或程式碼而儲存於電腦可讀媒體上或經由電腦可讀媒體進行傳輸，且藉由基於硬體之處理單元執行。電腦可讀媒體可包括電腦可讀儲存媒體，其對應於諸如資料儲存媒體之有形媒體，或包括有助於例如根據通信協定將電腦程式自一處傳送至另一處之任何媒體的通信媒體。以此方式，電腦可讀媒體通常可對應於(1)非暫時性之有形電腦可讀儲存媒體，或(2)諸如信號或載波之通信媒體。資料儲存媒體可係可藉由一或多個電腦或一或多個處理器存取以檢索指令、程式碼及/或資料結構以用於實施本發明中所描述之技術的任何可用媒體。電腦程式產品可包括電腦可讀媒體。

藉助於實例而非限制，此等電腦可讀儲存媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器、磁碟儲存器或其他磁性儲存裝置、快閃記憶體或可用於儲存呈指令或資料結構形式之所要程式碼且可由電腦存取的任何其他媒體。又，任何連接被恰當地稱為電腦可讀媒體。舉例而言，若使用同軸纜線、光纖纜線、雙絞線、數位用戶線(DSL)或諸如紅外線、無線電及微波之無線技術而自網站、伺服器或其他遠端源傳輸指令，則同軸纜線、光纖纜線、雙絞線、DSL或諸如紅外線、無線電及微波之無線技術包括於媒體之定義中。然而，應理解，電腦可讀儲存媒體及資料儲存媒體不包括連接、載波、信號或其他暫時性媒體，而實情為關於非暫時性有形儲存媒體。如本文中所使用，磁碟及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位影音光碟(DVD)、軟碟及藍光光碟，其中磁碟通常以磁性方式再現資料，而光碟藉由雷射以光學方式再現資料。以上各者的組合亦應包括於電腦可讀媒體之範疇內。

指令可由一或多個處理器執行，該一或多個處理器諸如一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化閘陣列(FPGA)或其他等效的積體或離散邏輯電路。因此，如本文中所使用之術語「處理器」可指上述結構或適合於實施本文中所描述之技術的任何其他結構中之任一者。此外，在一些態樣中，本文中所描述之功能可提供於經組態以用於編碼及解碼或併入於組合式編解碼器中之專用硬體及/或軟體模組內。又，該等技術可完全實施於一或多個電路或邏輯元件中。

本發明之技術可實施於包括無線手機、積體電路(IC)或IC集合(例如，晶片組)之廣泛多種裝置或設備中。在本發明中描述各種組件、模組或單元以強調經組態以執行所揭示技術之裝置的功能態樣，但未必要求由不同硬體單元來實現。確切而言，如上文所描述，各種單元可結合合適的軟體及/或韌體而組合於編解碼器硬體單元中或由互操作性硬體單元之集合提供，該等硬體單元包括如上文所描述之一或多個處理器。

各種實例已予以描述。此等及其他實例在以下申請專利範圍之範疇內。

5‧‧‧麥克風

10‧‧‧系統

11‧‧‧高階立體混響(HOA)係數

12‧‧‧源裝置

13‧‧‧擴音器資訊

14‧‧‧內容消費者裝置/目的地裝置

15‧‧‧立體混響係數

16‧‧‧音訊播放系統

21‧‧‧位元串流

22‧‧‧音訊顯現器

24‧‧‧音訊解碼裝置

25‧‧‧擴音器饋入

100‧‧‧立方體貼圖投影/立方體貼圖投影模型

102‧‧‧立方體面

102A‧‧‧面

102B‧‧‧面

102C‧‧‧面

102D‧‧‧面

102E‧‧‧面

102F‧‧‧面

104‧‧‧立方體

106A‧‧‧影像塊

106B‧‧‧影像塊

106C‧‧‧影像塊

106D‧‧‧影像塊

106E‧‧‧影像塊

106F‧‧‧影像塊

106G‧‧‧影像塊

106H‧‧‧影像塊

106I‧‧‧影像塊

106J‧‧‧影像塊

106K‧‧‧影像塊

106L‧‧‧影像塊

110‧‧‧等矩形投影

112‧‧‧北極

114‧‧‧灰色陰影區域

116A‧‧‧影像塊

116B‧‧‧影像塊

116C‧‧‧影像塊

116D‧‧‧影像塊

116E‧‧‧影像塊

116F‧‧‧影像塊

116G‧‧‧影像塊

116H‧‧‧影像塊

118‧‧‧畫布

120‧‧‧柱面全景視訊資料/球面全景視訊資料

122‧‧‧影像塊

124‧‧‧影像塊

126‧‧‧影像塊

128‧‧‧影像塊

130‧‧‧影像塊

140‧‧‧畫布

142‧‧‧區

142A‧‧‧區

142B‧‧‧區

142C‧‧‧區

142D‧‧‧區

142E‧‧‧區

142F‧‧‧區

144A‧‧‧視訊資料

144B‧‧‧視訊資料

144C‧‧‧視訊資料

144D‧‧‧視訊資料

144E‧‧‧視訊資料

144F‧‧‧視訊資料

146‧‧‧視訊資料

180‧‧‧畫布

182A‧‧‧立方體貼圖視圖

182B‧‧‧立方體貼圖視圖

200‧‧‧耳機

220‧‧‧實例程序

222‧‧‧步驟

224‧‧‧步驟

226‧‧‧步驟

300‧‧‧內容擷取裝置

301‧‧‧內容

302‧‧‧內容擷取輔助裝置/音場表示產生器

圖1係說明具有各種階數及子階數之球諧基底函數的圖。

圖2係說明可執行本發明中所描述之技術之各種態樣的系統的圖。

圖3A及圖3B係說明用以呈現全景視訊資料之顯示器的模型之表示的圖。

圖4係說明柱面全景視訊資料之實例的圖。

圖5係說明劃分成多個區之實例3D畫布的圖。

圖6係說明實例3D畫布與對應立方體貼圖(cube map)視圖之間的對應關係的圖。

圖7係說明串流伺服器可將音場之HOA表示提供至串流用戶端所根據的本發明之態樣的圖。

圖8係說明視場(FoV)視埠、鄰近於FoV之視埠及與FoV視埠相對之視埠之間的視訊解析度之比較的曲線圖。

圖9係說明本發明之一或多個電腦介導式實境系統可使用的耳機之實例的圖。

圖10A係說明本發明之串流用戶端可藉以基於對音訊空間後設資料之分析而在逐視埠基礎上請求視訊資料之解析度特定串流傳輸的機制的圖。

圖10B係說明播放裝置可藉以基於對音訊空間後設資料之分析而在逐視埠基礎上實施解析度特定視訊資料之本端選擇的機制的圖。

圖11係說明本發明之串流用戶端可實施以執行視埠預測的實例工作流程的圖。

圖12係說明根據本發明之一或多個態樣的裝置(例如，圖10B之播放裝置)可執行之實例程序的流程圖。

Claims

一種裝置，其包含：一記憶體裝置，其經組態以儲存與一音場相關聯之音訊空間後設資料以及視訊資料；一處理器，其耦接至該記憶體裝置，該處理器經組態以使用儲存至該記憶體裝置之該音訊空間後設資料來識別該音場之一或多個前景音訊物件，且基於經識別之一或多個前景音訊物件而選擇與該視訊資料相關聯之一或多個視埠；及顯示器硬體，其耦接至該處理器及該記憶體裝置，該顯示器硬體經組態以輸出與由該處理器選擇之該一或多個視埠相關聯的該視訊資料之一部分。
如請求項1之裝置，其中該處理器經進一步組態以判定與該經識別之一或多個前景音訊物件相關聯的一能量。
如請求項1之裝置，其中該處理器經進一步組態以基於該經識別之一或多個前景音訊物件而判定與經識別之一或多個視埠相關聯的一視埠數目。
如請求項1之裝置，其中該處理器經進一步組態以對儲存至該記憶體裝置之與該經識別之一或多個前景音訊物件相關聯的該視訊資料之一部分進行增加取樣，且其中該顯示器硬體經組態以輸出該視訊資料之經增加取樣之部分。
如請求項1之裝置，其進一步包含經組態以輸出表示該音場之一音訊資料格式的一或多個擴音器。
如請求項1之裝置，其中該處理器經組態以偵測一已更新之視場(FoV)資訊且基於該已更新之FoV資訊而更新經識別之一或多個視埠。
如請求項1之裝置，其中該顯示器硬體經組態以僅輸出該視訊資料的與該一或多個視埠相關聯的該部分，而不輸出該視訊資料的不與由該處理器選擇之該一或多個視埠相關聯的一其餘部分。
如請求項1之裝置，其中該記憶體裝置經進一步組態以儲存該音場之複數個表示，該複數個表示包含該音場之複數個基於物件之表示、該音場之高階立體混響表示、該音場之混合階立體混響表示、該音場之基於聲道之表示、該音場之基於物件之表示與該音場之高階立體混響表示的一組合、該音場之基於物件之表示與該音場之混合階立體混響表示的一組合，或該音場之混合階表示與該音場之高階立體混響表示的一組合。
如請求項1之裝置，其中該記憶體裝置經組態以儲存與該音場相關聯之空間音訊內容，且其中該處理器經組態以進一步基於與該音場相關聯之空間音訊內容的一空間能量分佈而選擇該一或多個視埠。
如請求項1之裝置，其中該處理器經組態以進一步基於與該音場相關聯之空間音訊內容的一空間能量分佈而選擇該一或多個視埠。
如請求項1之裝置，其中該記憶體裝置經組態以儲存包括空間後設資料之該音場的一高階立體混響(HOA)表示，且其中該處理器經組態以剖析該HOA表示以獲得一主導聲音之一方向並基於該主導聲音之該方向而選擇該一或多個視埠。
如請求項1之裝置，其中該記憶體裝置經組態以儲存包括空間後設資料之該音場的一基於物件之表示，且其中該處理器經組態以剖析該基於物件之表示以獲得包括一方向、一距離或一物件優先權中之一或多者的物件相關後設資料，且基於該物件相關後設資料而選擇該一或多個視埠。
如請求項1之裝置，其中該處理器經組態以追蹤由與該裝置相關聯之一或多個角度提供的一轉向角。
如請求項13之裝置，其中該處理器經組態以進一步基於該轉向角而選擇該一或多個視埠。
如請求項14之裝置，其中該處理器經組態以基於該轉向角而選擇該一或多個視埠中之一當前視埠，且基於該經識別之一或多個前景音訊物件而選擇該一或多個視埠中之一所預測視埠。
一種方法，其包含：藉由耦接至記憶體裝置之一處理器使用儲存至該記憶體裝置之音訊空間後設資料來識別一音場之一或多個前景音訊物件；藉由該處理器且基於經識別之一或多個前景音訊物件而選擇與儲存至該記憶體裝置之視訊資料相關聯的一或多個視埠；及藉由耦接至該處理器及該記憶體裝置之顯示器硬體輸出與由該處理器選擇之該一或多個視埠相關聯的該視訊資料之一部分。
如請求項16之方法，其進一步包含藉由該處理器判定與該經識別之一或多個前景音訊物件相關聯的一能量。
如請求項16之方法，其進一步包含藉由該處理器基於該經識別之一或多個前景音訊物件而判定與經識別之一或多個視埠相關聯的一視埠數目。
如請求項16之方法，其進一步包含：藉由該處理器對儲存至該記憶體裝置的與該經識別之一或多個前景音訊物件相關聯的該視訊資料之一部分進行增加取樣；及藉由該顯示器硬體輸出該視訊資料之經增加取樣之部分。
如請求項16之方法，其進一步包含藉由一或多個擴音器輸出表示該音場之一音訊資料格式。
如請求項16之方法，其進一步包含：偵測一已更新之視場(FoV)資訊；及基於該已更新之FoV資訊而更新經識別之一或多個視埠。
如請求項16之方法，其進一步包含：藉由該顯示器硬體僅輸出該視訊資料的與選定的一或多個視埠相關聯之該部分，而不輸出該視訊資料的不與該一或多個視埠相關聯之一其餘部分。
如請求項16之方法，其進一步包含將該音場之複數個表示儲存至該記憶體裝置，該複數個表示包含該音場之複數個基於物件之表示、該音場之高階立體混響表示、該音場之混合階立體混響表示、該音場之基於聲道之表示、該音場之基於物件之表示與該音場之高階立體混響表示的一組合、該音場之基於物件之表示與該音場之混合階立體混響表示的一組合，或該音場之混合階表示與該音場之高階立體混響表示的一組合。
如請求項16之方法，其進一步包含：將與該音場相關聯之空間音訊內容儲存至該記憶體裝置；及藉由該處理器進一步基於與該音場相關聯之空間音訊內容的一空間能量分佈而選擇該一或多個視埠。
如請求項16之方法，其進一步包含進一步基於與該音場相關聯之空間音訊內容的一空間能量分佈而選擇該一或多個視埠。
如請求項16之方法，其進一步包含：將包括空間後設資料之該音場的一高階立體混響(HOA)表示儲存至該記憶體裝置；藉由該處理器剖析該HOA表示以獲得一主導聲音之一方向；及藉由該處理器進一步基於該主導聲音之該方向而選擇該一或多個視埠。
如請求項16之方法，其進一步包含：將包括空間後設資料之該音場的一基於物件之表示儲存至該記憶體裝置；藉由該處理器剖析該基於物件之表示以獲得物件相關後設資料，其包括一方向、一距離或一物件優先權中之一或多者；及藉由該處理器基於該物件相關後設資料而選擇該一或多個視埠。
如請求項16之方法，其進一步包含追蹤由與包括該處理器及該記憶體裝置之一裝置相關聯之一或多個角度提供的一轉向角。
如請求項28之方法，其進一步包含進一步基於該轉向角而選擇該一或多個視埠。
如請求項29之方法，其進一步包含：藉由該處理器基於該轉向角而選擇該一或多個視埠中之一當前視埠；及基於該經識別之一或多個前景音訊物件而選擇該一或多個視埠中之一所預測視埠。