TWI793602B

TWI793602B - 用以傳訊沉浸式媒體中多種類型視域的方法和裝置

Info

Publication number: TWI793602B
Application number: TW110117067A
Authority: TW
Inventors: 新王; 魯林陳
Original assignee: 新加坡商聯發科技（新加坡）私人有限公司
Priority date: 2020-05-13
Filing date: 2021-05-12
Publication date: 2023-02-21
Also published as: US11818326B2; US20210360219A1; TW202203651A

Abstract

這裡描述的技術涉及被配置為編碼和/或解碼視訊資料的方法、裝置和計算機可讀介質。沉浸式媒體資料包括一組一個或多個軌道，每個軌道包括對應於沉浸式媒體內容的關聯空間部分的關聯沉浸式媒體資料和指定沉浸式媒體內容中的六自由度 (6DoF) 視域的元資料，其中元資料包括指示視域類型的視域類型資料。基於一個或多個軌道的集合和視域元資料執行編碼和/或解碼操作以生成編碼和/或解碼的沉浸式媒體資料。可以通過指定視域的元資料的資料結構屬性和/或指定視域的元資料的屬性來指定視域類型資料。

Description

用以傳訊沉浸式媒體中多種類型視域的方法和裝置

這裡描述的技術一般涉及視訊編解碼，並且特別涉及用於在沉浸式媒體(immersive media)中傳訊(signaling)多種類型的視域(viewing region)的方法和裝置。

存在多種類型的視訊內容，例如2D內容、3D內容和多方向內容。例如，全向視訊(omnidirectional video)是使用一組相機捕獲的一種視訊，與傳統的單向視訊的只有一個相機相反。例如，可以將相機放置在特定的中心點周圍，以便每個相機在場景的球形覆蓋範圍內捕獲一部分視訊，以捕獲360度視訊。來自多個相機的視訊可以拼接(stitched)、可能旋轉(rotated)和投影，以生成表示球形內容(spherical content)的投影二維圖片。例如，可以使用等距的矩形投影(equal rectangle projection)將球面圖(spherical)放入二維圖像中。這可以例如使用二維編碼和壓縮技術來實現。最終，使用期望的傳送機制(例如，拇指驅動器、數位視碟(DVD)和/或在線流)來存儲和傳送編碼和壓縮的內容。此類視訊可用於虛擬實境(VR)和/或3D視訊。

在客戶端，當客戶端處理內容時，視訊解碼器對編碼和壓縮的視訊進行解碼，然後執行反向投影以將內容放回球形。然後，用戶可以例如使用頭戴式觀看設備來觀看渲染的內容。通常根據用戶的視埠(viewport)渲染內容，該視埠表示用戶觀看內容的角度。視埠還可以包括代表觀察區域的組件，該組件可以描述觀察者正在以特定角度觀察的區域的大小和形狀。

當沒有以視埠相關的方式進行視訊處理時，視訊編碼器和/或解碼器不知道用戶實際觀看的內容，則整個編碼和解碼過程將處理整個球形內容。例如，由於所有球形內容都被傳遞和解碼，因此這可以允許用戶在任何特定的視埠和/或區域觀看內容。

但是，處理所有球形內容可能需要大量計算，並且會佔用大量帶寬。例如，對於在綫流應用程式，處理所有球形內容可能會給網路帶寬帶來除必不可少之外的更大負擔。因此，當帶寬資源和/或計算資源受到限制時，可能難以保證用戶的體驗。一些技術僅處理用戶正在查看的內容。例如，如果用戶正在觀看頂部區域(例如，北極)，則無需遞送內容的底部部分(例如，南極)。如果用戶更改了視埠，則可以為新視埠相應地傳遞內容。作為另一個示例，對於免費視點電視(free viewpoint TV，簡寫為FTV)應用程式(例如，使用多個相機捕獲場景的視訊)，可以根據用戶查看場景的角度來傳遞內容。例如，如果用戶正在從一個視埠(例如，相機和/或相鄰相機)觀看內容，則可能不需要為其他視埠傳遞內容。

根據所公開的主題，提供了用於為沈浸式媒體的多種類型的視域傳訊的裝置、系統和方法。

一些方面涉及用於對三維(3D)沉浸式媒體的視訊資料進行解碼的解碼方法，該方法包括訪問沉浸式媒體資料，該沉浸式媒體資料包括一個或多個軌道的集合，其中該集合的每個軌道包括相關聯的待解碼沉浸式媒體資料，對應於沉浸式媒體內容的關聯空間部分，該空間部分不同於軌道集中其他軌道的關聯空間部分；元資料指定沉浸式媒體內容中的六自由度(6DoF)視域，其中元資料包括指示視域類型的第一視域類型資料；基於一個或多個軌道的集合和視域元資料執行解碼操作以生成用於視域的解碼沉浸式媒體資料。

在一些實施例中，視域包括小於沉浸式媒體資料的全可見部分的可觀看沉浸式媒體資料的子部分。

在一些實施例中，視域包括視埠。

在一些實施例中，執行解碼操作還包括基於第一視域類型資料確定視域的類型。

在一些實施例中，第一視域類型資料由指定視域的元資料的資料結構屬性指定；確定視域的類型包括讀取資料結構屬性。

在一些實施例中，視域類型資料由指定視域的元資料的屬性指定；確定視域的類型包括讀取元資料的屬性。

在一些實施例中，元資料還包括指示第二視域的第二類型的第二視域類型資料。

在一些實施例中，第一視域類型資料和第二視域類型由指定視域的元資料的第一資料結構屬性和指定第二視域的元資料的第二資料結構屬性指定。確定視域的類型包括讀取第一資料結構屬性，確定第二視域的第二類型包括讀取第二資料結構屬性。

在一些實施例中，第一視域類型由指定視域的元資料的資料結構屬性指定；第二視域類型資料由指定視域的元資料的屬性指定；確定視域的類型包括讀取資料結構屬性，確定第二視域的第二類型包括讀取元資料的屬性。

在一些實施例中，執行解碼操作還包括確定第二視域的第二類型。

在一些實施例中，確定視域的類型包括確定推薦類型的視域。

在一些實施例中，確定視域的類型包括確定初始類型的視域，該初始類型指示視埠是用於回放的初始視埠。

在一些實施例中，確定視域的類型包括確定受歡迎類型的視域。

在一些實施例中，確定視域的類型包括確定指示視埠被觀看者選擇的用戶選擇類型的視域。

一些方面涉及一種用於對三維(3D)沉浸式媒體的視訊資料進行編碼的方法，該方法包括對沉浸式媒體資料進行編碼，包括對至少一組一個或多個軌道進行編碼，其中該組中的每個軌道包括相關聯的待解碼的沉浸式媒體資料，其對應於沉浸式媒體內容的關聯空間部分，該空間部分不同於該組軌道中其他軌道的關聯空間部分；元資料指定沉浸式媒體內容中的六自由度(6DoF)視域，其中元資料包括指示視域類型的第一視域類型資料，其中待解碼的沉浸式媒體資料可用於基於一個或多個軌道的集合和視域元資料執行解碼操作以生成用於視域的解碼的沉浸式媒體資料。

一些方面涉及一種被配置為對三維(3D)沉浸式媒體的視訊資料進行解碼的裝置，該裝置包括與記憶體通信的處理器，該處理器被配置為執行存儲在該記憶體中的指令，該指令使該處理器執行：訪問沉浸式媒體資料包括：一組一個或多個軌道，其中該組的每個軌道包括關聯的待解碼沉浸式媒體資料，該資料對應於沉浸式媒體內容的關聯空間部分，該關聯空間部分不同於該組軌道中其他軌道的關聯空間部分；元資料指定沉浸式媒體內容中的六自由度(6DoF)視域，其中元資料包括指示視域類型的第一視域類型資料；基於一個或多個軌道的集合和視域元資料執行解碼操作以生成用於視域的解碼沉浸式媒體資料。

因此，已經相當廣泛地概述了所公開主題的特徵，以便可以更好地理解其隨後的詳細描述，並且可以更好地理解本發明對本領域的貢獻。當然，所公開的主題的附加特徵將在下文中描述並且將形成所附申請專利範圍的主題。應當理解，本文所採用的措辭和術語是為了描述的目的，不應被視為限制。

100:視訊編解碼配置

102A-102N:相機

104:編碼設備

106:視訊處理器

108:編碼器

110:解碼設備

112:解碼器

114:渲染器

116:顯示器

200:流程

201:球形視埠

202~212:框

302:客戶端

304:點雲媒體內容文件

306:解析器模塊

308:位元流

310:2D視訊解碼器

312:元資料

314:2D視訊到3D點雲轉換器模塊

316:渲染器

318:顯示器

320:用戶交互資訊

400:自由視野路徑

402:場景

500:點雲圖塊的圖

502:框

504:3D點雲內容

506、508、510:3D邊界框

512、514、516:2D邊界框

518、600、620、640:視埠

700:示例圖

702:近視圖形狀

704:遠視圖形狀

706:位置

710:zFar

708:zNear

810、820、830、840、1210、1230、1310、1330、1410、1430、1510、1530:元資料資料結構

811、812、813、821、822、823、832、833、835、837、838、841~857、1011~1021、1031~1046、1211~1226、1231~1235、1311~1325、1331~1334、1411~1426、1431~1435、1511~1525、1531~1534、1610、1710:字段

831、834、836:shape_type值

1010、1030、1600、1620、1700、1720、1800、1802~1812、1900、1910~1960、 2000、2010~2030、2100、2110~2130:語法

1630、1730、1807:類型化視埠結構

2300:方法

2302~2308:步驟

在附圖中，在各個圖中示出的每個相同或幾乎相同的部件由相同的附圖標記表示。為清楚起見，並非每個組件都可以在每張圖中標出。附圖不一定按比例繪製，而是重點放在說明這裡描述的技術和設備的各個方面。

第1圖示出了根據一些實施例的示例性視訊編解碼配置。

第2圖示出了根據一些示例的用於VR內容的視埠相關內容流過程。

第3圖示出了根據一些示例的用於點雲內容的示例性處理流程。

第4圖示出了根據一些示例的自由視野路徑的示例。

第5圖是示出根據一些示例的示例性點雲圖塊的圖，包括3D和2D邊界框。

第6圖示出了根據一些實施例的體積視埠的示例性示意圖。

第7圖是示出根據一些實施例的近視圖形狀和遠視圖形狀的示例圖。

第8A圖是示出根據一些實施例的3D位置的視埠元資料資料結構的示例圖。

第8B圖是示出根據一些實施例的用於3D取向的視埠元資料資料結構的示例圖。

第8C圖是示出根據一些實施例的2D範圍視埠元資料資料結構的示例圖。

第8D圖是示出根據一些實施例的6DoF視埠元資料資料結構的示例圖。

第9圖是示出根據一些實施例的對應於2D或3D表面區域的形狀類型的值的表格。

第10A圖示出了根據一些實施例的可用於指定外在相機資訊的傳訊的示例性語法。

第10B圖示出了根據一些實施例的可用於指定固有相機資訊的傳訊的示例性語法。

第11圖是示出根據一些實施例的可用於指定視埠類型的值的表格。

第12A圖是示出根據一些實施例的用於傳訊不同類型的視埠的視埠元資料結構的示例圖。

第12B圖是示出根據一些實施例的用於傳訊不同類型的視埠的視埠元資料結構的示例圖。

第13A圖是示出根據一些實施例的推薦視埠類型的元資料資料結構的示例圖。

第13B圖是示出根據一些實施例的推薦視埠類型的元資料資料結構的示例圖。

第14A圖是示出根據一些實施例的具有主要類型和次要類型的視埠的元資料資料結構的示例圖。

第14B圖是示出根據一些實施例的具有主要類型和次要類型的視埠的元資料資料結構的示例圖。

第15A圖是示出根據一些實施例的具有主要類型和次要類型的視埠的元資料資料結構的示例圖。

第15B圖是示出根據一些實施例的具有主要類型和次要類型的視埠的元資料資料結構的示例圖。

第16圖示出了根據一些實施例的可用於在媒體軌道的樣本條目中傳訊靜態視埠的示例性語法。

第17圖示出了根據一些實施例的可用於在媒體軌道的軌道組內的每個媒體軌道的軌道分組框中傳訊靜態的示例性語法。

第18圖示出了根據一些實施例的示例性示例條目語法，其可用於傳訊定時媒體軌道中的動態視埠。

第19圖示出了根據一些實施例的可用於在定時媒體軌道中傳訊動態視埠的示例性示例格式語法。

第20圖示出了根據一些實施例的可以使用基於相機參數的元資料來指定的示例性樣本條目語法。

第21圖示出了根據一些實施例的可以使用基於相機參數的元資料來指定的示例性示例格式語法。

第22圖是示出根據一些實施例的用於傳訊用戶選擇的視埠的視埠參數的表格。

第23圖是根據一些實施例的用於對沉浸式媒體的視訊資料進行編碼或解碼的示例性過程的流程圖。

點雲資料或其他沉浸式媒體，例如基於視訊的點雲壓縮(V-PCC)資料，可為多種類型的3D多媒體應用提供壓縮點雲資料。與通常顯示整個視訊內容的傳統2D視訊內容相比，在任何特定時間，只有一部分3D沉浸式媒體內容可以在用戶設備上觀看。這部分3D沉浸式媒體內容可以指定為視域。例如，視域可以是在3D空間內具有六個自由度(6DoF)的視埠，使得該視埠表示紋理在全向(onmidirecitonal)或3D圖像或視訊的視場(field of view)的平面表面上的投影，用戶可以從特定的觀看方向和觀看位置觀看该投影。通常，用於為3D內容指定6DoF視域的方法不允許傳訊視域的類型。結果，發明人已經意識到，傳統技術不提供不同類型的視域的傳訊，例如初始視埠、推薦視埠、可選視埠、受歡迎視埠和/或其他類型的視埠。因此可能需要提供可用於指定特定類型的視域或視埠的技術。

在此描述的技術提供了可以支持多種類型的視域(包括3D內容中的6DoF視埠)的傳訊的元資料(metadata)資料結構。一些實施例提供包括視埠標識符(ID)、視埠類型和/或視埠描述的元資料結構。在一些實施例中，合併的元資料結構可用於提供單個元資料結構，該元資料結構可用於指定不同類型的6DoF視埠(例如，利用結構內的viewport_type字段，其可指定不同的視埠類型)。在一些實施例中，該技術包括擴展常規元資料結構以包括這樣的視埠資訊以便添加對不同類型的視埠的支持。在一些實施例中，該技術為特定視埠(例如，推薦視埠、受歡迎視埠等)提供元資料結構。因此，例如，不是在類型字段中指定視埠的類型，而是結構本身可以指示視埠的類型。在一些實施例中，該技術提供具有多種類型(例如，主視埠和次要視埠)的傳訊視埠。該技術還可以提供以不同方式來傳訊視埠，例如在樣本條目(sample entry)和/或大頭針組框(tack group box)(例如，對於不隨時間改變的靜態視埠)、定時元資料軌道(timed metadata track)(例如，對於隨時間變化的動態視埠)、使用擴展的元資料結構(例如，擴展的樣本條目和樣本格式結構)，和/或在客戶端反饋消息中傳訊用戶選擇的視埠。

如這裡所描述的，3D沉浸式媒體內容的特徵是在任何時間在用戶設備上僅查看一部分內容(而不是全部內容)，這是使用視埠控制的。因此，6DoF視埠類型的傳訊對於實現觀眾沉浸式3D媒體內容的體驗非常重要。無法如本文所述傳訊不同類型的6DoF視埠，3D沉浸式媒體內容的應用在用戶體驗、視埠的目的(例如，能夠提供某些感興趣的內容以供觀看)，和/或類似的方面受到顯著限制。例如，這些技術可用於提供可由用戶隨時間改變的初始推薦視埠。作為說明性示例，編輯器可以具有推薦的視埠，例如公園中的特定路徑、博物館中的路徑或樓層等。該技術可以向用戶提供這樣的推薦視埠，並且還允許用戶改變觀看體驗期間的視埠。結果，本文描述的技術提供顯著改進的用戶體驗，並且還改進了編碼和解碼3D沉浸式媒體的靈活性。

在以下描述中，闡述了關於所公開主題的系統和方法以及此類系統和方法可以在其中操作的環境等的許多具體細節，以便提供對所公開主題的透徹理解。另外，將理解的是，下面提供的示例是示例性的，並且可以想到，在所公開的主題的範圍內，還有其他系統和方法。

第1圖示出了根據一些實施例的示例性視訊編碼配置100。相機102A-102N是N個相機，並且可以是任何類型的相機(例如，包括音訊記錄功能和/或分開相機和音訊記錄功能的相機)。編碼設備104包括視訊處理器106和編碼器108。視訊處理器106處理從相機102A-102N接收的視訊，諸如拼接、投影和/或映射。編碼器108對二維視訊資料進行編碼和/或壓縮。解碼設備110接收經編碼資料。解碼設備110可以通過廣播網路、通過移動網路(例如，蜂窩網路)和/或通過互聯網接收作為視訊產品的視訊(例如，數位視訊碟或其他計算機可讀介質)。解碼設備110可以是例如計算機、頭戴式顯示器的一部分或具有解碼能力的任何其他設備。解碼設備110包括解碼器112，其被配置為對編碼的視訊進行解碼。解碼設備110還包括渲染器114，用於將二維內容渲染回用於回放的格式。顯示器116顯示來自渲染器114的渲染內容。

通常，可以使用球形內容來表示3D內容，以提供場景的360度視圖(例如，有時稱為全向媒體內容)。儘管使用3D球形可以支持許多視圖，但終端用戶通常只觀看3D球形上的一部分內容。傳輸整個3D球形所需的帶寬可能給網路造成沉重負擔，並且可能不足以支持球形內容。因此，期望使3D內容傳遞更加有效。可以執行視埠相關處理以改善3D內容傳遞。可以將3D球形內容劃分為區域/圖塊/子圖片，並且只有那些與查看屏幕(例如，視埠)相關的內容可以發送並傳遞給終端用戶。

第2圖示出了根據一些示例的用於VR內容的視埠相關的內容流過程200。如圖所示，在框202處對球形視埠201(例如，其可以包括整個球形)進行拼接、投影、映射(以生成投影和映射區域)，在框204處對其進行編碼(以生成多種品質的編碼/轉碼圖塊)在框206處將其(作為圖塊)傳遞，在框208處進行解碼(以生成解碼的圖塊)，在框210處構造(以構造球形渲染的視埠)，並在框212處進行渲染。框214處的用戶交互可以選擇一個視埠，該視埠將啟動多個“實時”處理步驟，如虛線箭頭所示。

在過程200中，由於當前網路帶寬限制和各種適應性要求(例如，關於不同的品質、編解碼器和保護方案)，首先將3D球形VR內容處理(拼接、投影和映射)到2D平面上(通過框202)，然後封裝在多個基於圖塊(或基於子圖片)和分段的文件中(在框204)，以進行傳遞和回放。在這種基於圖塊的分段文件中，通常將2D平面中的空間圖塊(例如，代表空間部分，通常為2D平面內容的矩形)封裝為其變體的集合，例如不同的品質和位元率，或不同的編解碼器和保護方案(例如，不同的加密演算法和模式)。在一些示例中，這些變體對應於MPEG DASH中的適應集中的表示。在一些示例中，基於用戶在視埠上的選擇，這些不同圖塊的這些變體中的一些變體在放在一起時提供了所選視埠的覆蓋範圍，由接收者擷取或傳遞給接收者(通過傳遞框206)，然後解碼(在框208處)以構造和渲染所需視埠(在框210和212處)。

如第2圖所示，視埠概念是終端用戶所觀看的內容，它涉及球形上區域的角度和大小。通常，對於360度內容，該技術將所需的圖塊/子圖片內容傳遞給客戶端，以覆蓋用戶將觀看的內容。此過程取決於視埠，因為該技術僅提供覆蓋當前感興趣視埠的內容，而不是整個球形內容。視埠(例如，球形區域的一種)可以改變，因此不是靜態的。例如，當用戶移動其頭部時，系統需要獲取相鄰的圖塊(或子圖片)以覆蓋用戶接下來要查看的內容。

感興趣區域(ROI)在概念上與視埠有些相似。例如，ROI可以表示全向視訊的3D或2D編碼中的區域。ROI可以具有不同的形狀(例如，正方形或圓形)，可以相對於3D或2D視訊(例如，基於位置、高度等)進行指定。例如，感興趣區域可以表示圖片中可以放大的區域，並且可以針對放大的視訊內容顯示相應的ROI視訊。在一些實現中，ROI視訊已經準備好了。在這樣的實現中，感興趣的區域通常具有攜帶ROI內容的單獨視訊軌道。因此，編碼視訊指定了ROI，以及ROI視訊如何與底層視訊相關聯。這裡描述的技術是根據區域來描述的，該區域可以包括視埠、ROI和/或視訊內容中的其他感興趣區域。

ROI或視埠軌道可以與主視訊相關聯。例如，ROI可以與主視訊相關聯以促進放大和縮小操作，其中ROI用於為放大區域提供內容。例如，2016年6月2日的MPEG-B，第10部分，標題為“Carriage of Timed Metadata Metrics of Media in ISO Base Media File Format”(w16191，也稱為ISO/IEC 23001-10：2015)，特此通過在此整體引用併入，描述了ISO基本媒體文件格式(ISO Base Media File Format，簡寫為ISOBMFF)文件格式，該文件格式使用定時元資料軌道來傳訊主2D視訊軌道具有2D ROI軌道。作為另一個示例，基於HTTP的動態自適應流媒體(Dynamic Adaptive Streaming over HTTP，簡寫為DASH)包括空間關係描述符，以發訊主要2D視訊表示與其相關聯的2D ROI視訊表示之間的空間關係。ISO/IEC 23009-1，第三版草案(w10225)，2016年7月29日，針對DASH，在此通過引用整體併入。作為進一步的示例，全向媒體格式(OMAF)在ISO/IEC 23090-2中被指定，其全部內容通過引用合併於此。OMAF規定了全向媒體的編碼、存儲、傳送和渲染的全向媒體格式。OMAF指定了一個坐標系，這樣用戶的觀察視角是從球體的中心向外看球體的內表面。OMAF包括對ISOBMFF的全向媒體擴展以及球體區域的定時元資料。

當傳訊ROI時，可以生成各種資訊，包括與ROI的特性(例如，標識、類型(例如，位置、形狀、大小)、目的、品質、評級等)相關的資訊。可以生成資訊以將內容與ROI相關聯，包括與視覺(3D)球形內容和/或球形內容的投影和映射(2D)幀相關聯。ROI可以通過許多屬性來表徵，例如其標識、與其相關聯的內容內的位置以及其形狀和大小(例如，與球形和/或3D內容相關)。如這裡進一步討論的，還可以添加附加屬性，例如區域的品質和速率等級。

點雲資料可以包括場景中的一組3D點。可以基於(x，y，z)位置和顏色資訊(例如(R，V，B)、(Y，U，V)、反射率、透明度等)指定每個點。點雲點通常沒有排序，並且通常不包括與其他點的關係(例如，在不參考其他點的情況下指定每個點)。點雲資料可用於許多應用程式，例如提供6DoF的3D沉浸式媒體體驗。但是，點雲資訊會消耗大量資料，如果通過網路連接在設備之間傳輸，這些資料又會消耗大量帶寬。例如，如果未壓縮，場景中的800,000個點可以消耗1Gbps。因此，通常需要壓縮以使點雲資料對基於網路的應用程式有用。

MPEG一直致力於點雲壓縮，以減少點雲資料的大小，從而可以實時流式傳輸點雲資料，以便在其他設備上使用。第3圖示出了根據一些示例的用於作為通用視埠/ROI(例如，3DoF/6DoF)處理模型的特定實例的點雲內容的示例性處理流程300。處理流程300在例如N17771，“PCC WD V-PCC(基於視訊的PCC)”，2018年7月，盧布爾雅那，SI中被更詳細地描述，其通過引用整體併入本文。客戶端302接收點雲媒體內容文件304，其由兩個2D平面視訊位元流和指定2D平面視訊到3D體積(volumetric)視訊轉換的元資料組成。內容2D平面視訊到3D體積視訊轉換元資料可以位於文件級別作為定時元資料軌道或位於2D視訊位元流內部作為SEI消息。

解析器模塊306讀取點雲內容304。解析器模塊306將兩個2D視訊位元流308傳送到2D視訊解碼器(圖中標示為2視訊解碼器)310。解析器模塊306將2D平面視訊到3D體積視訊轉換元資料312傳送到2D視訊到3D點雲轉換器模塊(圖中標示為視訊到點雲轉換器)314。本地客戶端的解析器模塊306可以將一些需要遠程渲染(例如，具有更多計算能力、專用渲染引擎等)的資料傳送到遠程渲染模塊(未示出)用於部分渲染。2D視訊解碼器模塊310解碼2D平面視訊位元流308以生成2D像素資料。如果需要，2D視訊到3D點雲轉換器模塊314使用從解析器模塊306接收的元資料312將來自2D視訊解碼器310的2D像素資料轉換為3D點雲資料。

渲染器模塊316接收有關用戶六度視埠資訊的資訊並確定要渲染的點雲媒體部分。如果使用遠程渲染器，也可以將用戶的6DoF視埠資訊傳遞給遠程渲染模塊。渲染器模塊316通過使用3D資料或3D資料和2D像素資料的組合來生成點雲媒體。如果存在來自遠程渲染器模塊的部分渲染的點雲媒體資料，則渲染器316還可以將此類資料與本地渲染的點雲媒體組合以生成最終點雲視訊以在顯示器318上顯示。用戶交互資訊320，例如用戶在3D空間中的位置或用戶的方向和視點，可以傳遞給處理點雲媒體所涉及的模塊(例如，解析器306、2D視訊解碼器310和/或視訊到點雲轉換器314)以根據用戶交互資訊320動態地改變資料的一部分，用於內容的自適應呈現。

為了實現這種基於用戶交互的渲染，需要提供點雲媒體的用戶交互資訊。特別地，需要指定和傳訊用戶交互資訊320以便客戶端302與渲染模塊316通信，包括提供用戶選擇的視埠的資訊。點雲內容可以通過編輯器剪輯呈現給用戶，也可以作為推薦或引導視圖或視埠呈現給用戶。第4圖示出了根據一些示例的自由視野路徑(free-view path)400的示例。自由視野路徑400允許用戶圍繞路徑移動以從不同視點觀看場景402。

視埠，例如推薦的視埠(例如，基於視訊的點雲壓縮(Video-based Point Cloud Compression，簡寫為V-PCC)視埠)，可以發訊用於點雲內容。點雲視埠，例如PCC(例如，V-PCC或G-PCC(Geometry based Point Cloud Compressio，基於幾何的點雲壓縮))視埠，可以是適合用戶顯示和查看的點雲內容區域。根據用戶的查看設備，視埠可以是2D視埠或3D視埠。例如，視埠可以是3D空間中的3D球形區域或2D平面區域，具有六個自由度(6 DoF)。這些技術可以利用6D球面坐標(例如，“6dsc”)和/或6D笛卡爾坐標(例如，“6dcc”)來提供點雲視埠。包括利用“6dsc”和“6dcc”在內的視埠傳訊技術在共同擁有的申請號為16/738,387的美國專利申請中有所描述，其標題為“Methods and Apparatus for Signaling Viewports and Regions of Interest for Point Cloud Multimedia Data”，該專利申請在此通過引用整體併入本文。該技術可以包括6D球面坐標和/或6D笛卡爾坐標作為定時元資料，例如ISOBMFF中的定時元資料。這些技術可以使用6D球面坐標和/或6D笛卡爾坐標來指定2D點雲視埠和3D點雲視埠，包括存儲在ISOBMFF文件中的V-PCC內容。“6dsc”和“6dcc”可以是2D空間中平面區域的2D笛卡爾坐標“2dcc”的自然擴展，如MPEG-B第10部分所述。

在V-PCC中，基於視訊的點雲的幾何和紋理資訊被轉換為2D投影幀，然後壓縮為一組不同的視訊序列。視訊序列可以是三種類型：一種表示佔用圖資訊，第二種表示幾何資訊，第三種表示點雲資料的紋理資訊。幾何軌道可以包含例如點雲資料的一個或多個幾何方面，例如點雲的形狀資訊、大小資訊和/或位置資訊。紋理軌道可以包含例如點雲資料的一個或多個紋理方面，例如顏色資訊(例如，RGB(紅、綠、藍)資訊)、不透明度資訊、反射資訊和/或反射率資訊點雲。這些軌道可用於重建點雲的3D點集。解釋幾何和視訊序列所需的額外元資料，例如輔助補丁資訊，也可以單獨生成和壓縮。雖然本文提供的示例是在V-PCC的上下文中解釋的，但應當理解，此類示例旨在用於說明目的，並且本文描述的技術不限於V-PCC。

V-PCC尚未最終確定軌道結構。在N18059，“WD of Storage of V-PCC in ISOBMFF Files”(2018年10月，中國澳門，在此通過引用併入其整體)中描述了ISOBMFF中V-PCC的工作草案中正在考慮的示例性軌道結構。軌道結構可以包括一個軌道，該軌道包括一組補丁流(patch stream)，其中每個補丁流本質上是用於查看3D內容的不同視圖。作為說明性示例，如果將3D點雲內容視為包含在3D立方體內，則可以有六個不同的補丁，每個補丁是從立方體外部看到的3D立方體一側的視圖。軌道結構還包括定時元資料軌道和一組用於幾何、屬性(例如紋理)和占用地圖資料的受限視訊方案軌道。定時元資料軌道包含V-PCC指定的元資料(例如，參數集、輔助資訊等)。該組受限視訊方案軌道可以包括一個或多個包含用於幾何資料的視訊編碼基本流的受限視訊方案軌道，一個或多個包含用於紋理資料的視訊編碼基本流的受限視訊方案軌道，以及包含用於佔用地圖資料(occupancy map data)的視訊編碼基本流的受限視訊方案軌道。V-PCC軌道結構可以允許改變和/或選擇不同的幾何和紋理資料，連同定時元資料和占用地圖資料，用於視埠內容的變化。對於各種場景，可能需要包含多個幾何和/或紋理軌道(track)。例如，點雲可以以全品質和一種或多種降低的品質進行編碼，例如為了自適應流的目的。在這樣的示例中，編碼可能導致多個幾何/紋理軌道以捕獲點雲的3D點集合的不同採樣。對應於更精細採樣的幾何/紋理軌道可以比對應於更粗採樣的幾何/紋理軌道具有更好的品質。在流式傳輸點雲內容的會話期間，客戶端可以選擇以靜態或動態方式(例如，根據客戶端的顯示設備和/或網路帶寬)在多個幾何/紋理軌道中檢索內容。

點雲圖塊可以表示點雲資料的3D和/或2D方面。例如，如N18188中所述，標題為“Description of PCC Core Experiment 2.19 on V-PCC tiles”，馬拉喀什，馬薩諸塞州(2019年1月)，V-PCC塊可用於基於視訊的PCC。N18180中描述了基於視訊的PCC的示例，題為“ISO/IEC 23090-5：Study of CD of Video-based Point Cloud Compression(V-PCC)”，馬薩諸塞州馬拉喀什 (2019年1月)。N18188和N18180均通過引用整體併入本文。點雲圖塊可以包括邊界區域或框來表示內容或其部分，包括3D內容的邊界框和/或2D內容的邊界框。在一些示例中，點雲圖塊包括3D邊界框、相關聯的2D邊界框和2D邊界框中的一個或多個獨立編碼單元(independent coding unit，簡寫為ICU)。例如，3D邊界框可以是三個維度的給定點集的最小包圍框。3D邊界框可以具有各種3D形狀，例如可以由兩個3元組(3-tuple)(例如，每個邊在三個維度中的原點和長度)表示的矩形平行管(rectangular parallel-piped)的形狀。2D邊界框可以是例如對應於3D邊界框(例如，在3D空間中)的最小包圍框(例如，在給定的視訊幀中)。2D邊界框可以具有各種2D形狀，例如可以由兩個2元組(2-tuple)(例如，二維中每條邊的原點和長度)表示的矩形形狀。視訊幀的2D邊界框中可以有一個或多個ICU(例如，視訊圖塊)。獨立編碼單元可以在不依賴相鄰編碼單元的情況下被編碼和/或解碼。

第5圖是示出根據一些示例的示例性點雲圖塊的圖500，包括3D和2D邊界框。點雲內容通常僅包括圍繞3D內容的單個3D邊界框，在第5圖中作為圍繞3D點雲內容504的大框502。如上所述，點雲圖塊可以包括3D邊界框、相關聯的2D邊界框和2D邊界框內的一個或多個獨立編碼單元(ICU)。為了支持視埠(例如視埠518)相關處理，通常需要將3D點雲內容細分為更小的片段或圖塊。例如，第5圖示出了3D邊界框502可以被分成更小的3D邊界框506、508和510，它們分別具有相關聯的2D邊界框512、514和516。

3D沉浸式媒體內容的一個顯著特徵是在任何特定時間在用戶設備上僅查看視埠內容的一部分而非全部，這與通常顯示整個視訊的傳統2D視訊內容形成對比。該部分內容通常稱為視埠，例如，m52974，標題為“On Metadata for Immersive Media Content for Viewport Dependent Media Processing”，奧地利阿爾卑巴赫(虛擬會議)(2020年4月)，以及m53395，標題為“On Definition of Viewports and their Signaling in ISOBMFF for Viewport Dependent Media Processing”，奧地利阿爾卑巴赫(虛擬會議)(2020年4月)和M53044，題為“Signaling of Camera Information in V-PCC Carriage Format”，奧地利阿爾卑巴赫(虛擬)(2020年4月)，其全部內容通過引用併入本文。

視埠相關媒體處理就是利用這個特性來提高底層媒體處理系統或應用程式的端到端性能，因為只處理覆蓋用戶視埠的部分內容，例如，傳遞和渲染。

m52974和m53395中提供了許多視埠規範，以及相應的元資料結構，用於在沈浸式媒體內容(如V-PCC(基於視訊的點雲壓縮)和MIV(MPEG沉浸式視訊))的ISOBMFF中為傳訊視埠。V-PCC的示例在題為“Text of ISO/IEC DIS 23090-5 Video-based Point Cloud Compression”，瑞典哥德堡(2019年7月)的N18670中進行了描述，在此通過引用將其全文併入。MIV的一個示例在N19001中進行了描述，標題為“Working Draft 4 ISO/IEC 23090-12 on Immersive Video”，比利時布魯塞爾(2020年1月)。N18670和N19001均通過引用整體併入本文。替代地或附加地，可以在3D(虛擬)相機的參數和/或ISOBMFF中的傳訊視埠方面指定類似的元資料結構(例如，如M53044中所述)。提出的相機參數語法和語義可以與V-PCC和MIV規範中的那些兼容(例如，如N18670和N19001中所述)。

一些方面涉及用於擴展沉浸式資料視埠的規範的資料結構和字段。在一些實施例中，觀看取向可以包括表徵用戶正在消費視聽內容的取向的方位角、仰角和傾斜角的三元組。在圖像或視訊的情況下，觀看取向可以包括表徵視埠取向的方位角、仰角和傾斜角的三元組。在一些實施例中，觀看位置可以包括表徵正在消費視聽內容的用戶在全局參考坐標系中的位置的三元組x、y、z。在圖像或視訊的情況下，觀看位置可以包括表徵視埠位置的x、y、z的三元組。

根據一些實施例，視埠可以被指定為紋理在全向或3D圖像的視場的平面、球面或空間體積上的投影，或者適合於用戶使用特定的查看方向和查看位置展示或查看的視訊(例如，如m52974中所述)。

根據一些實施例，視埠可以被指定為平面、全向或3D圖像或視訊的區域，該區域適合於由具有特定觀看方向和觀看位置的用戶顯示和觀看(例如，如m53395中所述)。

根據一些實施例，視埠可以是表面視埠。在一些示例中，表面視埠可以包括其視野是表面的那些。例如，視訊紋理可以被投影到矩形平面、圓形平面和/或矩形球面(rectangular spherical surface)。

根據一些實施例，視埠可以是體積視埠(volumetric viewport)。在一些示例中，體積視埠可以包括那些視場是體積的視埠。在一些示例中，視訊紋理可以被投影到矩形視錐體體積(rectangular frustum volume)(例如，作為笛卡爾坐標中的差分(differential)矩形體積部分)、圓形視錐體體積(例如，作為笛卡爾坐標中的差分圓形體積部分)和/或矩形視錐體體積(例如，作為球坐標中的差分矩形體積部分)。

第6圖示出了根據一些實施例的體積視埠的示例性示意圖。第6圖示出了三個示例性體積視埠：具有以笛卡爾坐標指定的矩形視錐體體積的視埠600、具有以笛卡爾坐標指定的圓視錐體體積的視埠620以及具有以球坐標指定的矩形體積(rectangular volume)的視埠640。這樣的體積視埠可以被指定為以一沿著觀看取向(viewing orientation)有(例如，平面的)觀看深度(viewing depth)，例如用於視埠640的dr 642的差分體積膨脹(differential volume expansion)。根據一些實施例，體積視埠是其平面部分以沿觀察方向、有一定的觀察深度差分(例如，640中的dr)的體積膨脹。如本文所述，體積視埠可以是以一觀看深度沿著觀看取向的不同體積膨脹。在一些實施例中，體積視埠可以包括遠側視圖銳度(view sharp)範圍規範。在一些實施例中，可以傳訊觀看深度。例如，可以傳訊距離r(例如結合第6圖中的dr 642討論的距離r)。作為另一個示例，可以傳訊近視圖形狀和遠視圖形狀(near and far view shapes)的範圍之間的比率。第7圖是根據一些實施例的示出近視圖形狀702和遠視圖形狀704的示例圖700。用戶/觀看者眼睛(或相機)在位置706處，因此到近視圖形狀702和遠視圖形狀704的距離可以基於位置706使用近視圖形狀702的zNear 708以及遠視圖形狀704的zFar 710發訊。近側視圖形狀702和遠視圖形狀704的對應範圍之間的比率也可以傳訊(例如，作為zFar 710/zNear 708)。在一些實施例中，widthNear/zNear=widthFar/zFar→widthNear/widthFar=zNear/zFar，並且heightNear/zNear=heightFar/zFar→heightNear/heightFar=zNear/zFar。因此，在一些實施例中，widthNear/widthFar=heightNear/heightFar=zNear/zFar。

第8A-8D圖是示出根據一些實施例的用於視埠的元資料資料結構的示例圖。除了表面視埠之外，為了支持體積視埠，可以使用字段“volumetric_flag”和“viewing_depth”擴展表面視埠元資料結構。

第8A圖示出了示例性元資料資料結構810。第8A圖中的示例性3D位置元資料資料結構810的center_x字段811、center_y字段812和center_z字段813可以分別指定球體區域中心的x、y和z軸值，例如，相對於基礎坐標系(underlying coordinate system)的原點。

第8B圖示出示例性元資料資料結構820。以2^-16度為單位，center_azimuth字段821和center_elevation字段822分別指定球體區域的中心的方位角和仰角值。在一些示例中，center_azimuth字段821應在-180*2¹⁶到180*2¹⁶-1的範圍內，包括端點。在一些示例中，center_elevation字段822應在 -90*2¹⁶到90*2¹⁶的範圍內，包括端點。center_tilt字段823以2^-16度為單位指定球體區域的傾斜角。在一些示例中，center_tilt字段823被限制在-180*2¹⁶到180*2¹⁶-1的範圍內，包括端點。

第8C圖示出了示例性元資料資料結構830。根據第9圖中的表，shape_type字段可以指定2D或3D表面區域的形狀類型。在一些示例中，0的shape_type值可以指示2D矩形的形狀。在一些示例中，1的shape_type值可以指示2D圓的形狀。在一些示例中，2的shape_type值可以指示3D球體區域的形狀。在一些示例中，可以為其他形狀保留其他shape_type值。

如果shape_type值指示2D矩形的形狀(例如在831中)，則該形狀可以由range_width字段832和range_height字段833指定。range_width字段832和range_height字段833可以分別指定2D或3D矩形區域的寬度和高度範圍。它們通過矩形區域的參考點指定範圍，該參考點可以是左上點或中心點，根據包含這些元資料實例的結構的語義進行推斷。如果shape_type值指示2D圓的形狀(例如，如在834中)，則該形狀可以由range_radius字段835指定。range_radius字段835可以指定圓形區域的半徑範圍。如果shape_type值指示3D球形區域的形狀(例如在836中)，則該形狀可以由range_azimuth字段837和range_elevation字段838指定。在一些示例中，range_azimuth 837可以在0到360 * 2¹⁶的範圍內，含端點。在一些示例中，range_elevation 838可以在0到180*2¹⁶的範圍內，包括端點。

第8D圖示出了根據一些實施例的示例性視埠結構840。具有6DoF結構的視埠840將以下標誌作為輸入：position_included_flag 841、orientation_included_flag 842、range_included_flag 843、shape_type 844、volumetric_flag 845和interpolate_included_flag 846。

根據一些實施例，當位置、方向、範圍、形狀和互操作元資料中的任何一個不存在於6DoF視埠元資料資料結構的實例中時，如在包含該實例的結構的語義中指定的那樣推斷它們。如果podition_included_flag 841為真，則結構840包括3DPositionStruct 848(例如，如847中)。如果orientation_included_flag 842為真，則結構841包括3DOrientationStruct 850(例如，如在849中)。如果range_included_flag 843為真，則結構841包括採用shape_type 844的2DRangeStruct 852(例如，如在851中)。如果volumetric_flag 845為真，則結構841包括整數字段(integer field)viewing_depth 854(例如，如在853中)。在一些示例中，內插(interpolate)的語義由包含它的這個實例的結構的語義指定。如果interpolate_included_flag 846為真，則結構841包括內插字段856和保留字段(reserved field)857(例如，如在855中)。

某些方面可能涉及相機資訊的元資料。例如，此處描述了V-PCC載運格式(carriage format)的相機資訊的元資料(例如，如M53044中所述)。

第10A-10B圖示出了根據一些實施例的可用於指定外在和內在相機資訊的傳訊的示例性語法。在一些實施例中，語法可用於指定V-PCC載運格式的內在和外在相機資訊的傳訊。使用該資訊，接收器可以基於傳訊的真實或虛擬相機位置和方向來呈現V-PCC內容。

第10A圖示出了根據一些實施例的可用於指定外在相機資訊的傳訊的示例性語法1010。camera_id字段1011包含用於識別給定(真實或虛擬)攝像機的識別號。

camera_pos_present字段1012可以具有不同的值。例如，等於1的值可以指示存在攝像機位置參數。等於0的camera_pos_present字段1012可以指示不存在相機位置參數。如果該字段的值為1，則camera_pos_x字段1015、camera_pos_y字段1016和camera_pos_z字段1017分別表示全局參考坐標系(global reference coordinate system)中以米為單位的相機位置的x、y和z坐標。該值應以2^-16米為單位。

camera_ori_present字段1013可以具有不同的值。等於1的值可以指示存在相機方向參數。camera_ori_present字段1013等於0，這可以指示不存在相機方向參數。如果字段的值為1，camera_quat_x字段1019、camera_quat_y字段1020和camera_quat_z字段1021分別表示使用四元數表示(quaternion representation)的相機方向的x、y和z分量。這些值可以是在-1到1(含-1和1)範圍內的浮點(floating-point)值。這些值可以指定x、y和z分量，即qX、qY和qZ，用於使用四元數表示應用旋轉將全局坐標軸轉換為相機的局部坐標軸(local coordinate axe)。四元數qW的第四個分量計算如下：qW=sqrt(1-(qX²+qY²+qZ²))

点(w,x,y,z)可以表示绕向量(x,y,z)所指向的轴旋转角度2*cos^{-1}(w)=2*sin^{-1}(sqrt(x^{2}+y^{2}+z^{2}))。

第10B圖示出了根據一些實施例的可用於指定固有相機資訊的傳訊的示例性語法1030。camera_id字段1031包含用於識別給定(真實或虛擬)攝像機的識別號。camera_type字段1032表示相機的投影方法。例如，camera_type等於0指定ERP投影，camera_type等於1可以指定透視投影。在一些示例中，camera_type等於2指定正交投影，並且範圍3到255中的camera_type值保留供ISO/IEC將來使用。

等於1的camera_proj_params_present字段1033指示存在相機投影參數。等於0的camera_proj_params_present字段1033指示不存在相機投影參數。camera_depth_present字段1034可以指示相機深度參數是否存在。例如，等於1的camera_depth_present字段1034值指示存在相機深度參數。例如，等於0的camera_depth_present字段1034值可以指示不存在相機深度參數。根據一些實施例，如果camera_type字段值等於0並且camera_proj_params_present值等於1，則該結構還可以包括erp_horizontal_fov字段1036和erp_vertical_fov字段1037。字段erp_horizontal_fov 1036可以指定ERP投影的經度範圍，其中ERP投影對應於與相機相關的視錐體的水平尺寸，以弧度為單位。例如，該值可以在0到2π的範圍內。字段erp_vertical_fov 1037可以以弧度為單位指定對應於與相機相關聯的視錐體的垂直尺寸的ERP投影的緯度範圍。例如，該值可能在0到π的範圍內。

根據一些實施例，如果camera_type字段值等於1並且camera_proj_params_present值等於1，則該結構還可以包括perspective_horizo ntal_fov字段1039和perspective_verical_fov字段1040。字段perspective_horizo ntal_fov 1039可以指定用於以弧度為單位的透視投影(perspective projection)的水平視場(horizontal field)。例如，該值可能在0和π的範圍內。字段perspective_vertical_fov 1040可以指定用於以弧度為單位的透視投影的垂直視場。例如，該值可能在0和π的範圍內。替代地或附加地，perspective_aspect_ratio字段可以指定與用於透視投影(水平/垂直)的相機相關聯的視錐體的相對縱橫比(aspect ratio)。

根據一些實施例，如果camera_type字段值等於2並且camera_proj_params_present值等於1，則該結構還可以包括ortho_aspect_ratio字段1042和ortho_horizontal_size字段1043。ortho_aspect_ratto字段1042可以指定與用於正交投影(水平/垂直)的相機相關聯的視錐體的相對縱橫比。ortho_horizontal_size可以以米為單位指定與相機相關聯的視錐體的正交部分的水平尺寸。

根據一些實施例，如果camera_depth_present字段值等於1，則該結構還可以包括ortho_aspect_ratto字段1045和ortho_horizontal_size字段1046。 camera_near_depth字段1045和camers_far_depth字段1046可以基於與相機相關聯的視錐體的近和遠平面來指示近和遠的深度(或距離)。這些值可能以2^-16米為單位。

這裡描述的技術提供基於元資料結構的多種類型的視埠的傳訊。例如，m52974、m53395和M53044中描述了一些元資料結構。當沉浸式媒體內容在ISOBMFF中承載時，視埠的類型可以包括諸如推薦的、初始的、受歡迎的和用戶選擇的視埠(例如，如N19066中提供的，標題為“Draft text of ISO/IEC DIS 23090-10 Carriage of Video-based Point Cloud Compression Data”的基於視訊的點雲壓縮資料”，比利時布魯塞爾(2020年1月)，其全文以引用方式併入本文中)。

相機參數元資料結構可以很好地與MIV對齊(例如，如N19001中所述)。然而，發明人已經意識到，當相機參數元資料結構在(a)傳訊相機參數和(b)傳訊多種類型的各種視埠之間存在間隙(gap)時，能夠傳訊不同視埠類型尤為重要(例如，甚至對於可能具有相似的屬性和具有不同但一一對應的屬性名稱的構建塊)。

一般而言，發明人已經意識到，視埠類型的傳訊對於實現觀眾對沉浸式媒體內容的體驗可能很重要。如果不能夠支持穩健的視埠類型傳訊，則可能難以指示例如視埠如何在體驗中發揮作用、視埠的目的等。根據一些實施例，例如，推薦視埠可以是由內容提供者或編輯者建議為編輯者剪輯的視埠。這種類型的視埠可以是靜態的，也可以是隨時間動態變化的。推薦的視埠可能對講故事很有用，例如，無需用戶與沈浸式媒體內容進行任何交互。在一些示例中，如果推薦的視埠也很受歡迎(popular)，則將視埠編碼為獨立的位元流並在其自己的一個或多個軌道中攜帶可能更有效。

根據一些實施例，初始視埠可以是當觀看者開始回放沉浸式媒體內容時最初為他們設置的視埠，以引導觀看者關於在哪裡開始回放沉浸式媒體內容。在一些示例中，初始視埠很可能是靜態的，直到它被用戶的交互改變。在一些示例中，這種類型的視埠可以是推薦的視埠。當視埠的其他屬性被省略或不存在時，初始視埠可用於指示視埠的初始方向、初始位置等。

根據一些實施例，受歡迎視埠可以是基於其觀看受歡迎度或由觀看者而非由內容編輯者推薦的視埠。例如，可以基於觀看統計的測量來選擇受歡迎的視埠。

根據一些實施例，當觀看者與沈浸式媒體內容交互時，用戶選擇的視埠可以是由觀看者選擇的視埠。例如，用戶選擇的視埠可以基於另一個用戶的選擇的視埠。

因此希望能夠傳訊這樣的多種類型的視埠，包括推薦的視埠、初始視埠、受歡迎的視埠、用戶選擇的視埠和/或其他視埠。在此描述的技術提供了各種元資料結構，這些元資料結構可以用來傳訊不同的視埠類型和相關聯的資訊。如本文所述，一些實施例提供包括視埠標識符(ID)、視埠類型和/或視埠描述的元資料結構。例如，可以使用元資料結構來指定6DoF視埠，該元資料結構包括可以提供視埠類型的類型字段(例如，與對不同視埠類型使用單獨的元資料規範相比，這可以導致更簡潔的元資料結構)。在一些實施例中，合併的元資料結構可用於提供單個元資料結構，其可用於指定不同類型的6DoF視埠。在一些實施例中，該技術包括擴展常規元資料結構以包括增強的視埠資訊，例如視埠類型。在一些實施例中，該技術為特定視埠(例如，推薦視埠、受歡迎視埠等)提供元資料結構。在一些實施例中，該技術提供具有多種類型的視埠(例如，主視埠和次要視埠)的發訊。

根據一些實施例，根據視埠的方面，例如視埠是靜態的、動態的還是用戶選擇的，可以以不同的方式傳訊視埠。例如，當視埠是靜態的時，元資料可以在媒體軌道中傳訊。例如，可以在為視埠提供媒體內容的每個媒體軌道的樣本條目內對元資料資料進行簽名。作為另一個例子，可以在文件格式軌道分組級別傳訊元資料。在這一級別，媒體軌道可以通過讓每個軌道包括一個或多個具有相同標識符的軌道分組框來分組在一起，這些軌道分組框包含一個或多個視埠元資料資料結構，媒體軌道共同攜帶覆蓋視埠的媒體內容，例如，在m50606中提供的，標題為“Evaluation Results for CE on Partial Access of Point Cloud Data”，瑞士日內瓦(2019年10月)，其全文以引用方式併入本文。

如這裡所描述的，取決於視埠是靜態的、動態的還是用戶選擇的，視埠可以以不同的方式傳訊。在視埠是動態的情況下，可以在樣本條目和定時元資料軌道的樣本中傳訊元資料。在定時元資料軌道級別，用於指定視埠的定時元資料軌道可以引用共同承載覆蓋視埠的媒體內容的一個或多個軌道，例如，如在m52494中提供的，題為“On Surface and Volumetric Viewports for Immersive Media，”比利時布魯塞爾(2020年1月)，其全文以引用方式併入本文。

根據一些實施例，如果視埠是用戶選擇的，則元資料可以在客戶端反饋消息中傳訊，例如SAND消息(例如，如m50655中提供的，標題為“Dynamic Signaling of User-Selected and Recommended Viewports for PC Data”，瑞士日內瓦(2019年10月)，其全部內容通過引用併入本文)。

一些方面涉及通過使用新的元資料結構和字段來指定不同類型的視埠的方法。在一些實施例中，該技術可用於擴展元資料資料結構(例如，m52974、m53395、M53044中的那些)。在一些實施例中，可以通過添加屬性來擴展元資料資料結構。例如，新屬性可以包括視埠ID(例如，viewport_id)、視埠類型(例如，viewport_type)和/或視埠描述(例如，viewport_description)。

viewport_id可以指定標識視埠的視埠標識符。viewport_id可以是無符號(unsigned)int(32)。viewport_type字段可以指定在第11圖的表中列出的視埠的類型。viewport_type可以指示一種或多種類型，例如主視埠類型和可選的次要視埠類型。可以使用主視埠類型和次要視埠類型來支持，例如，被“推薦”為主類型和“初始”為次要類型的視埠，或者是“受歡迎”作為主類型和“用戶選擇”作為次要類型的視埠。視埠不必總是包括主要和次要類型。例如，視埠只能是主要類型或次要類型中的一種(例如，沒有任何次要類型的主要類型)，並且並非所有主要類型和次要類型視埠的組合在實踐中都有意義。viewport_type可以是無符號的int(8)。viewport_description可以是一個以空字符結尾的UTF-8字符串(string)，它提供了視埠的文本描述。

如本文所述，第11圖是viewport_type的示例值的表，每個值指示視埠的類型。例如，viewport_type值為0可以指示未指定的(主)視埠，供應用程式使用。viewport_type值為1可以指示推薦的(主)視埠，這可以是根據導演的剪輯或推薦(即，根據內容作者或內容提供者的創作意圖)選擇的視埠。值為2的viewport_type值可以指示初始(主)視埠，其可以是當沒有選擇其他視埠時為沈浸式內容的初始回放而選擇的視埠。viewport_type值為3可以指示受歡迎(主)視埠，該視埠可以是基於其觀看受歡迎度選擇的或由觀看者而不是由內容編輯者推薦的視埠。值為4的viewport_type值可以指示用戶選擇的(主)視埠，其可以是觀看者在與沈浸式媒體內容交互時選擇的視埠。5到239之間的viewport_type值可以保留用於未來的主要視埠類型。viewport_type值240可以指示未指定的(次要)視埠。viewport_type值241可以指示推薦的(次要)視埠。viewport_type值242可以指示初始(次要)視埠。viewport_type值243可能表示受歡迎(次要)視埠。viewport_type值244可以指示用戶選擇的(次要)視埠。245和255之間的viewport_type值可以保留用於將來的次要視埠類型。在一些實施例中，有鑒於可用於 viewport_type的位元數，可以根據需要將該類型分成多個部分。

附加地或替代地，在一些實施例中，可以為主要類型和次要類型的每個視埠類型或視埠組合單獨指定特定類型的視埠。這種方法可導致如本文所述的不同類型視埠的各個元資料資料結構可能不同於本文所述的不同類型的合併元資料資料結構。

在此描述的技術的一些實施例提供了不同類型視埠的合併元資料資料結構。根據一些實施例，可以根據要擴展哪個視埠元資料(例如，在m52974、m53395、M53044中描述的元資料)來指定不同類型視埠的元資料資料結構(例如TypedViewportWith6DoFStruct())，如本文進一步描述的。在一些實施例中，該技術可以包括添加視埠ID、視埠類型和/或視埠描述中的一個或多個以擴展語法規範。

例如，可以在第12A圖中看到擴展的元資料資料結構。第12A圖示出了根據一些實施例的示例性類型化視埠(typed viewport)結構1210。具有6DoF結構的類型化視埠1210將以下標誌作為輸入：position_included_flag 1211、orientation_included_flag 1212、range_included_flag 1213、shape_type 1214、volumetric_flag 1215和interpolate_included_flag 1216。另外，如本文所述，也包括額外的屬性viewport_id 1217、viewport_type 1218和viewport_description 1219。此外，第12A圖的類型化視埠包括具有6DoF結構的視埠1220。具有6DoF結構1220的視埠採用以下標誌作為輸入：position_included_flag 1221、orientation_included_flag 1222、range_included_flag 1223、shape_type 1224、volumetric_flag 1225以及interpolate_included_flag 1226。

另一個擴展元資料資料結構1230可以在第12B圖中看到。第12A圖示出了獨立於相機(camera independent)的語法，而第12A圖示出了獨立於相機的語法。第12B圖示出了基於相機(camera-based)的語法。第12B圖示出了根據一些實施例的示例性類型化視埠結構1230。具有6DoF結構1230的類型化視埠包括viewport_id 1231、viewport_type 1232、viewport_description 1233、ExtCameraInfoStruct()1234和IntCameraInfoStruct()1235。

如本文所述，viewport_id 1231可以指定標識視埠的視埠標識符。viewport_id 1231可以是無符號整數(例如，int(32))。viewport_type 1232字段可以指定如第11圖的表中所列的視埠的類型。viewport_type 1232可以指示主視埠類型和可選的次要視埠類型，以支持例如“推薦”為主要類型和“初始(initial)”為次要類型的視埠，或“受歡迎”的視埠為主要類型，“用戶選擇”為次要類型。視埠只能是主要類型而沒有任何次要類型，並且並非所有主要類型和次要類型的組合在實踐中都有意義。viewport_type 1232可以是無符號int(8)。viewport_description 1233可以是提供視埠的文本描述的以空字符結尾的UTF-8字符串。

如本文所述，ExtCameraInfoStruct()1234和IntCameraInfoStruct()1235分別指定V-PCC載體格式的外在和內在相機資訊的傳訊。使用該資訊，接收器可以基於傳訊的真實或虛擬相機位置和方向來呈現V-PCC內容。ExtCameraInfoStruct()1234和IntCameraInfoStruct()1235的示例性語法與第10A和10B圖描述有關。

合併的元資料資料結構(例如，諸如結合第12A-12B圖描述的那些)利用公共元資料結構並指示資料結構內的viewport_type。因此，此類結構需要查看viewport_iype屬性的資料結構以確定視埠的類型。在一些場景中，可能需要能夠在解析或處理資料結構之前和/或不需要解析或處理資料結構的情況下確定視埠的各個方面。根據一些實施例，可以為每個視埠類型指定單獨的元資料資料結構。結果，可以基於元資料結構本身來確定視埠資訊(例如，一種視埠類型)(而不是，例如像合併元資料結構那樣需要解析(parse through)結構的內容)。

根據一些實施例，可以指定用於推薦的視埠或“推薦的”類型的視埠的元資料資料結構，如第13A圖和第13B圖所示。例如，這可以通過將類型硬編碼為資料結構屬性(例如，作為資料結構名稱、資料結構類型等的一部分)而無需屬性viewport_type來實現。

第13A圖示出了根據一些實施例的推薦視埠的示例性元資料資料結構1310。結構1310將以下標誌作為輸入：position_included_flag 1311、orientation_included_flag 1312、range_included_flag 1313、shape_type 1314、volumetric_flag 1315和interpolate_included_flag 1316。另外，如本文所述，還包括viewport_id 1317和viewport_description 1318。此外，第13A圖包括具有6DoF結構1319的視埠。具有6DoF結構1319的視埠將以下標誌作為輸入：position_included_flag 1320、orientation_included_flag 1321、range_included_flag 1322、shape_type 1323、volumetric_flag 1324以及interpolate_included_flag 1325。與第12A圖中的結果1210不同，不需要viewport_type參數，因為結構被指定為“推薦(recommended)”視埠類型。

第13B圖示出了推薦視埠或“推薦”類型的視埠的另一個元資料資料結構。結構1330包括viewport_id 1331、viewport_description 1332、ExtCameraInfoStruct()1333和IntCameraInfoStruct()1334。

如本文所述，viewport_id 1331可以指定標識視埠的視埠標識符。viewport_id 1331可以是無符號int(32)。viewport_description 1332可以是提供視埠的文本描述的以空字符結尾的(null-terminated)UTF-8字符串。

如本文所述，ExtCameraInfoStruct()1333和IntCameraInfoStruct()1334分別以V-PCC載體格式指定外在和內在相機資訊的傳訊。使用該資訊，接收器可以基於傳訊的真實或虛擬相機位置和方向來呈現V-PCC內容。 ExtCameraInfoStruct()1333和IntCameraInfoStruct()1334的示例性語法與第10A和10B圖描述有關。

根據一些實施例，視埠可以是多種類型，例如主要類型和次要類型。例如，這可以通過使用為第一類型(例如，主視埠類型)指定的元資料資料結構內的viewport_type字段來指示第二類型(例如，次要類型)來實現。例如，第14A-14B圖示出了示例性元資料資料結構1410和1430，表示初始推薦視埠的視埠或“推薦”主要類型和“初始”次要類型的視埠。

第14A圖示出了根據一些實施例的示例性類型化視埠結構1410。結構1410被指定為“RecommededViewportWith6DoFStruct()”，指示主視埠類型為“推薦”。結構1410將以下標誌作為輸入：position_included_flag 1411、orientation_included_flag 1412、range_included_flag 1413、shape_type 1414、volumetric_flag 1415以及interpolate_included_flag 1416。另外，如本文描述的，屬性viewport_id 1417，viewport_type 1418，和視埠描述(viewport description)1419都包括在內。在這種情況下，viewport_type表示視埠的次要類型。

此外，第14A圖的類型化視埠包括具有6DoF結構1420的視埠。具有6DoF結構1420的視埠將以下標誌作為輸入：position_included_flag 1421、orientation_included_flag 1422、range_included_flag 1423、shape_type 1424、volumetric_flag 1425和interpolate_included_flag 1426。

在第14B圖中可以看到另一個元資料資料結構1430。第14B圖示出了根據一些實施例的示例性類型化視埠結構1430。結構體1430被指定為“RecommededViewportWith6DoFStruct()”，表示主視埠類型為“推薦”。具有6DoF結構1430的類型化視埠包括viewport_id 1431、viewport_type 1432、viewport_description 1433、ExtCameraInfoStruct()1434和IntCameraInfoStruct()1435。在這種情況下，viewport_type 1432表示次要視埠類型。

如本文所述，viewport_id 1431可以指定標識視埠的視埠標識符。viewport_id 1431可以是無符號int(32)。viewport_type 1432字段可以指定如第11圖的表中所列的視埠的類型。viewport_type 1432可以是無符號int(8)。viewport_description 1433可以是提供視埠的文本描述的以空值結尾的UTF-8字符串。

如本文所述，ExtCameraInfoStruct()1434和IntCameraInfoStruct()1435分別以V-PCC載體格式指定外在和內在相機資訊的傳訊。使用該資訊，接收器可以基於傳訊的真實或虛擬相機位置和方向來呈現V-PCC內容。ExtCameraInfoStruct()1434和IntCameraInfoStruct()1435的的示例性語法與第10A和10B圖描述有關。指示視埠的主要類型和次要類型的另一種方式可以是為具有特定主要和次要類型的視埠指定資料結構，例如，通過將類型硬編碼到資料結構屬性中(例如，到資料結構名稱、資料結構類型、資料結構字段等)。第15A和15B圖示出了通過將類型硬編碼到資料結構屬性(例如，在此示例中，資料結構名稱)而不使用viewport_type，指明初始推薦視埠，或“推薦”主要類型和“初始”次要類型的視埠的元資料資料結構。

第15A圖示出了根據一些實施例的推薦視埠的示例性元資料資料結構1510。結構體1510被指定為“InitialRecommendedViewportWith6DoFStruct”，其指示主視埠類型為“推薦”而次視埠類型為“初始”。結構1510採用以下標誌作為輸入：position_included_flag 1511、orientation_included_flag 1512、range_included_flag 1513、shape_type 1514、volumetric_flag 1515和interpolate_included_flag 1516。另外，如本文所述，也包括屬性viewport_id 1517和viewport_description 1518。此外，第15A圖的結構包括具有6DoF結構1519的視埠。具有6DoF結構1519的視埠將以下標誌作為輸入：position_included_flag 1520、orientation_included_flag 1521、 range_included_flag 1522、shape_type 1523、volumetric_flag 1524,and interpolate_included_flag 1525。與第14A圖中的結構1410不同，不需要viewport_type參數，因為結構被指定為“推薦”視埠類型。

第15B圖示出了另一種元資料資料結構。結構1510被指定為“InitialRecommededViewportWith6DoFStruct”，其將主視埠類型指示為“推薦”，將次視埠類型指示為“初始”。結構1530包括viewport_id 1531、viewport_description 1532、ExtCameraInfoStruct()1533和IntCameraInfoStruct()1534。

如本文所述，viewport_id 1531可以指定標識視埠的視埠標識符。viewport_id 1531可以是無符號int(32)。viewport_description 1532可以是提供視埠的文本描述的以空值結尾的UTF-8字符串。

如本文所述，ExtCameraInfoStruct()1533和IntCameraInfoStruct()1534分別指定V-PCC載體格式的外在和內在相機資訊的傳訊。使用該資訊，接收器可以基於傳訊的真實或虛擬相機位置和方向來呈現V-PCC內容。ExtCameraInfoStruct()1533和IntCameraInfoStruct()1534的示例性語法與第10A和10B圖描述有關。

此處描述的技術可用於以不同方式傳訊不同類型的視埠。一些實施例涉及在媒體軌道中傳訊不同類型的靜態視埠。根據一些實施例，可以在媒體軌道(例如VPCC軌道)的樣本條目中傳訊靜態視埠。例如，第16圖示出了根據一些實施例的用於在媒體軌道的樣本條目中傳訊靜態視埠的示例性語法1600。因此，視埠可以在軌道的所有樣本中保持不變。num_viewports字段1610可以指示點雲中的視埠數量。對於每個視埠(例如，1620)，調用類型化視埠結構1630。類型化視埠結構1630可以具有諸如關於第12A圖和12B圖指定的那些結構。

根據一些實施例，靜態視埠可以附加地或替代地在對視埠的媒體內容有貢獻的媒體軌道的軌道組內的每個媒體軌道的軌道分組框中傳訊。例如，第17圖示出了根據一些實施例的示例性語法1700，其可用於在媒體軌道的軌道組內的每個媒體軌道的軌道分組框中傳訊靜態。如這裡所描述的，num_viewports字段1710可以指示點雲中的視埠的數量。對於每個視埠(例如，1720)，調用類型化視埠結構1730。類型化視埠結構1730可以具有諸如關於第12A圖和第12B圖指定的那些結構。例如，如果媒體內容被分成多個軌道(或者媒體內容被承載在一個以上的軌道中)，則可能希望在軌道組框中傳訊視埠。例如，參考第5圖，3D邊界框506、508和510可以在單獨的軌道中攜帶。在此類示例中，可以從關聯的位置或角度查看對象，因此視埠資訊可以來自多個軌道。因此，可能需要將視埠放入每個視訊軌道的軌道組框中。

根據一些實施例，動態視埠可以在定時媒體軌道中傳訊(例如，使用這裡描述的樣本條目(sample entry)和樣本)，然後可以與提供動態視埠的媒體內容的媒體軌道或媒體軌道組相關聯。例如，第18圖示出了根據一些實施例(例如，在m52974和m53395中描述的資料結構)的示例性示例條目語法1800，其可用於傳訊定時媒體軌道中的動態視埠。如圖所示，樣本條目類型為‘6dvp’，容器(the container)為樣本描述框(‘stsd’)，樣本條目不是強制性的(mandatory)，因此可以包含零個或一個。該結構可以包括保留位元1802、position_included_flag 1803、orientation_included_flag 1804、range_included_flag 1805、shape_type 1806和類型化視埠結構1807。具有6DoF結構1807的視埠將以下標誌作為輸入：position_included_flag 1808、orientation_included_flag 1809、range_included_flag 1810、shape_type 1811以及interpolate_included_flag 1812。對於2D形狀視場shape_type參數1811可以是0或1。

例如，第19圖示出了根據一些實施例的示例性語法1900，其可用於在定時媒體軌道中傳訊動態視埠。結構1900可以包括具有6DoF結構的視埠1910，其將以下標誌作為輸入：！position_included_flag 1920、！orientation_included_flag 1930、！range_included_flag 1940、！shape_type 1950和！interpolate_included_flag 1960。

在一些實施例中，內插字段可以指示連續樣本的時間連續性。例如，當內插字段為真時，應用程式可以在前一個樣本和當前樣本之間線性內插ROI坐標的值。在一些示例中，當內插字段為假時，前一樣本和當前樣本之間可能不存在任何值的內插。在一些示例中，當使用內插時，可以預期內插樣本匹配參考軌道中樣本的呈現時間。例如，對於視訊軌道的每個視訊樣本，計算一個內插的二維笛卡爾坐標樣本。

根據一些實施例，可以使用基於相機參數的元資料資料結構來指定類似的樣本條目和樣本。例如，第20圖和第21圖示出了根據一些實施例的可用於使用基於相機參數的元資料資料結構來指定樣本條目和樣本的示例性語法。

第20圖示出了根據一些實施例的可用於使用基於相機參數的元資料資料結構來指定樣本條目和樣本的示例性語法2000。如圖所示，樣本條目類型為‘6dvp’，容器為樣本描述框(‘stsd’)，樣本條目不是強制性的，因此可以包含零個或一個。如這裡所描述的，num_viewports字段2010可以指示點雲中的視埠的數量。對於每個視埠(例如，2020)，存在類型化視埠結構2030,TypedViewportWith6DoFStruct。類型化視埠結構2030可以具有諸如關於第12A圖和第12B圖指定的那些結構。

第21圖示出了根據一些實施例的可用於使用基於相機參數的元資料資料結構來指定樣本條目和樣本的示例性語法2100。如本文所述，num_viewports字段2110可以指示點雲中的視埠數量。對於每個視埠(例如，2120)，調用類型化視埠結構2130。類型化視埠結構2130可以具有諸如第12A圖和第12B圖指定的那些結構。

根據一些實施例，可以在客戶端反饋消息內傳訊用戶選擇的視埠。例如，在一些實施例中，可以添加視埠參數以用於傳訊，例如向第22圖的表2200添加viewport_type和viewport_description(例如，如m50655中所述)。例如，參數SelectedViewport 2202可以是基數(cardinality)為1的對像類型(Object type)，並且可以包括其他參數timestamp 2204、viewport_id 2206、viewport_type 2208、viewport_description 2210、center_azimuth 2212、center_elevation 2214、center_tilt 2216、azimuth_range 2218、elevation_range 2220、width_range 2222、height_range 2224、center_x 2226、center_y 2228、center_z 2230、object_id 2232和上下文(context)2234。時間戳2204是日期時間類型(type date-time)且基數為1，並且可以指示對應於傳訊的視埠值的掛鐘時間(Wall-clock time)。參數viewport_id 2206的類型為‘Int’(例如整數類型)且基數為1，並且可以是與傳訊的視埠相關聯的標識符。參數viewport_type 2208是“Int”類型(例如整數類型)且基數為1，其可以指示視埠的類型。如本文所述，viewport_type 2208可具有對應於如關於第11圖所描述的類型的值。參數viewport_description 2210是“字符串”類型(例如字符串類型)且基數為1，並且可以是一個提供視埠的文本描述的以空字符結尾的UTF-8字符串。

參數center_azimuth 2212是'Int'類型(例如整數類型)，範圍為[-180* 2^-16,180* 2^-16]，基數為1。center_azimuth 2212可以以2^-16度為單位指定視埠位置的中心點相對於全局坐標軸的方位角。根據-些實施例，當center_azimuth 2212不存在時，其被推斷為等於0。參數center_elevation 2214是'Int'類型(範圍為[-90* 2^-16,90* 2^-16])(例如整數類型)，具有基數1。該參數可以以2^-16度為單位指定視埠位置的中心點相對於全局坐標軸的仰角 (elevation)。在一些實施例中，當不存在時，center_elevation 2214被推斷為等於0。參數center_tilt 2216是具有[-180* 2^-16,180* 2^-16]範圍的'Int'類型(例如整數類型)]，具有基數1.該參數可以以2^-16度為單位指定視埠位置相對於全局坐標軸的傾斜角度。在一些實施例中，當不存在時，cenrer_tilt 2216被推斷為等於0。

參數azimuth_range 2218的類型為“Int”(例如，整數類型)，具有基數0,1。參數azimuth_range 2218可以以2^-16度為單位指定通過球體區域的中心點的球體區域的方位角範圍。在一些實施例中，當不存在時，azimuth_range 2218被推斷為等於360*2¹⁶。參數azimuth_range 2218可能僅與3D視埠相關。參數elevation_range 2220是“Int”類型(例如整數類型)，具有基數0,1。參數elevation_range 2220可以以2^-16度為單位指定通過球體區域中心點的球體區域的仰角範圍(elevation range)。在一些實施例中，當不存在時，elevation_range 2220被推斷為等於180*2¹⁶。參數elevation_range 2220可能僅與3D視埠相關。

參數width_range 2222是“Int”類型(例如，整數類型)，具有基數0,1。參數width_range 2222可以指定矩形區域通過其中心點的寬度範圍。參數width_range 2222可能只與2D視埠相關。參數height_range 2224是“Int”類型(例如，整數類型)，具有基數0,1。參數height_range 2224可以指定矩形區域通過其中心點的高度範圍。參數height_range 2224可能僅與2D視埠相關。

參數center_x 2226的類型為“Int”(例如，整數類型)且基數為1。例如，參數center_x 2226可以是十進製表示的整數，以任意單位表示包含視埠的球體或平面的中心點的x坐標。參數center_y 2228的類型為'Int'(例如，整數類型)且基數為1。例如，參數center_y 2228可以是十進製表示的整數，以任意單位表示包含視埠的球體或平面的中心點的y坐標。參數center_z 2230的類型為“Int”(例如整數類型)且基數為1。例如，參數center_z 2230可以是十進製表示的整數，以任意單位表示包含視埠的球體或平面的中心點的z坐標。

參數object_id 2232是“Int”類型(例如，整數類型)且基數為0,1。參數object_id 2232可以是表示與視埠相關聯的對象ID的整數。可以結合或可以不結合視埠坐標資訊傳訊對象ID資訊。參數上下文2234是“字符串”類型(例如，字符串類型)且基數為0,1。參數上下文2234可以是描述與視埠相關聯的上下文資訊的字符串，例如，“球”、“球員X”等。上下文資訊可以或可以不與視埠坐標資訊一起傳訊。

第23圖是根據一些實施例的用於對沉浸式媒體的視訊資料進行編碼或解碼的計算機化方法2300的示例圖。在步驟2302和2304，計算設備(例如，編碼設備104和/或解碼設備110)訪問沉浸式媒體資料，該資料包括一組一個或多個軌道(步驟2302)和指定視域類型資料的區域元資料(步驟2304)。在步驟2308，計算設備基於一個或多個軌道的集合和視域元資料執行編碼或解碼操作以生成視域的沉浸式媒體資料。

步驟2302和2304在虛線框2306中示出以指示步驟2302和2304可以分開和/或同時執行。在步驟2302接收的每個軌道可以包括關聯的編碼沉浸式媒體資料，其對應於與在步驟2302接收的其他軌道的關聯空間部分不同的沉浸式媒體內容的關聯空間部分。

參考在步驟2304接收的區域元資料，區域元資料可以在元資料的資料結構屬性(例如，資料結構名稱)內指定視域資料類型。在一些示例中，區域元資料可以指定第一類型的視域和第二類型的視域。例如，第一類型可以是主要類型，而第二類型可以是次要類型。可以在區域元資料的一個或多個屬性、元資料的一個或多個資料結構屬性(例如，資料結構名稱)和/或任何組合中指定第一和第二類型。在一些實施例中，視域是全可視沉浸式媒體資料的子部分。視域可以是例如視埠。

在一些實施例中，用於對沉浸式媒體的視訊資料進行解碼的計算機化方法2300還可以包括基於第一視域類型資料確定視域的第一類型。例如，如果視域類型資料由指定視域的元資料的資料結構屬性指定，則確定視域的第一類型包括讀取資料結構屬性(例如，資料結構名稱、資料結構類型、等等。)。在一些示例中，如果視域類型資料由指定視域的元資料的屬性指定，則確定視域的第一類型包括讀取元資料的屬性。

參考在步驟2304接收的區域元資料，區域元資料還可以包括指示第二視域的第二類型的第二視域類型資料。在一些示例中，第一視域類型資料和第二視域類型由指定視域的元資料的第一資料結構屬性和指定第二視域的元資料的第二資料結構屬性指定，並且確定視域的第一類型包括讀取第一資料結構屬性，確定第二視域的第二類型包括讀取第二資料結構屬性。在一些示例中，第一視域類型由指定視域的元資料的資料結構屬性指定；第二視域類型資料由指定視域的元資料的屬性指定；確定視域的第一類型包括讀取資料結構屬性，確定第二視域的第二類型包括讀取元資料的屬性。

在一些實施例中，用於對沉浸式媒體的視訊資料進行解碼的計算機化方法2300還可以包括確定第二視域的第二類型。在一些示例中，確定視域的第一和/或第二類型包括確定視域是推薦類型，指示視埠是由內容提供者和/或編輯者建議的。在一些示例中，確定視域的第一和/或第二類型包括確定視域是初始類型，指示視埠是用於回放的初始視埠。在一些示例中，確定視域的第一和/或第二類型包括確定視域為受歡迎類型，指示視埠被觀看者推薦或被確定為在觀看者中受歡迎。在一些示例中，確定視域的第一和/或第二類型包括確定視域是用戶選擇的類型，指示視埠是由觀看者選擇的。

在一些實施例中，本文描述的技術可由編碼器和/或解碼器執行。例如，編碼器可以根據這裡描述的技術生成和/或編碼一個或多個位元流。作為另一示例，解碼器可被配置為解碼根據本文描述的技術編碼的一個或多個位元流。在一些實施例中，本文描述的技術提供編碼位元流(例如，其包括一個或多個軌道中的沉浸式媒體資料和指定視域類型資料的區域元資料)。

此處描述了各種示例性語法和用例，其意在用於說明目的而非意在限制。應當理解，對於特定方面可以僅使用這些示例性字段的子集和/或可以使用其他字段，並且這些字段不需要包括用於此處描述目的的字段名稱。例如，語法可能會省略一些字段和/或可能不會填充一些字段(例如，或用空值填充(populate)這些字段)。作為另一個例子，在不脫離這裡描述的技術的精神的情況下可以使用其他語法和/或類。

根據本文描述的原理操作的技術可以以任何合適的方式實現。上面的流程圖的處理和決策塊表示可以包括在執行這些各種過程的演算法中的步驟和動作。從這些過程推導的演算法可以實現為與一個或多個單用途或多用途處理器的操作集成並指導其操作的軟體，可以實現為功能等效電路，例如數位信號處理(DSP)電路或應用-特定積體電路(ASIC)，或者可以以任何其他合適的方式實現。應當理解，這裏包括的流程圖不描繪任何特定電路或任何特定程式語言或程式語言類型的語法或操作。相反，流程圖示出了所屬領域具有通常知識者可以用來製造電路或實現計算機軟體演算法以執行本文所述技術類型的特定裝置的處理的功能資訊。還應當理解，除非本文另有指示，否則每個流程圖中描述的特定步驟和/或動作序列僅僅是對可以實現的演算法的說明，並且可以在本文描述的原理的實現和實施例中變劃。

因此，在一些實施例中，本文描述的技術可以體現為實現為軟體的計算機可執行指令，包括作為應用軟體、系統軟體、韌體、中間件、嵌入代碼或任何其他合適類型的計算機代碼。這樣的計算機可執行指令可以使用許多合適的程式語言和/或程式或脚本工具中的任何一種來編寫，並且還可以被編譯為在幀或虛擬機上執行的可執行機器語言代碼或中間代碼。

當本文描述的技術體現為計算機可執行指令時，這些計算機可執行指令可以以任何合適的方式實現，包括作為多個功能設施，每個功能設施提供一個或多個操作以完成根據這些技術操作的演算法的執行。然而，實例劃的“功能設施”是計算機系統的結構組件，當與一個或多個計算機集成並由一個或多個計算機執行時，使得一個或多個計算機執行特定的操作角色。功能設施可以是軟體元素的一部分或整個軟體元素。例如，功能設施可以根據過程，或作為離散過程，或作為任何其他合適的處理單元來實現。如果這裏描述的技術被實現為多功能設施，則每個功能設施可以以其自己的方式實現；所有這些都不需要以同樣的方式實現。另外，這些功能設施可以適當地並行和/或串行地執行，並且可以使用它們正在執行的計算機上的共享記憶體，使用消息傳遞協議，或者其他合適的方式在任何一個之間在彼此之間傳遞資訊。

通常，功能設施包括執行特定任務或實現特定抽象資料類型的例程、程式、對象、組件、資料結構等。通常，功能設施的功能可以根據需要在它們運行的系統中組合或分布。在一些實現中，執行本文技術的一個或多個功能設施可以一起形成完整的軟體包。在備選實施例中，這些功能設施可以適於與其他不相關的功能設施和/或過程交互，以實現軟體程式應用。

這裏已經描述了用於執行一個或多個任務的一些示例性功能設施。然而，應當理解，所描述的功能設施和任務劃分僅僅是可以實現本文描述的示例性技術的功能設施的類型的說明，並且實施例不限於以任何特定數量、劃分，或功能設施的類型。在一些實現中，所有功能可以在單個功能設施中實現。還應當理解，在一些實施方式中，本文描述的一些功能設施可以與其他功能設施一起實施或與其他功能設施分開實施(即，作為單個單元或單獨的單元)，或者可以不實現這些功能設施中的一些。

在一些實施例中，實現本文描述的技術的計算機可執行指令(當實現為一個或多個功能設施或以任何其他方式實施時)可以在一個或多個計算機可讀介質上編碼以向媒體提供功能。計算機可讀介質包括諸如硬碟驅動器之類的磁介質，諸如光碟(CD)或數位通用碟(DVD)之類的光學介質，持久或非持久固態記憶體(例如，閃存，磁性RAM等)或任何其他合適的存儲介質。這種計算機可讀介質可以以任何合適的方式實現。如這裏所使用的，“計算機可讀介質”(也稱為“計算機可讀存儲介質”)指的是有形存儲介質。有形存儲介質是非暫時性的並且具有至少一個實體結構組件。在如本文所使用的“計算機可讀介質”中，至少一個實體結構組件具有至少一個實體特性，該特性可在創建具有嵌入資訊的介質的過程期間以某種方式改變，在其上記錄資訊的過程，或用資訊編碼媒體的任何其他過程。例如，可以在記錄過程期間改變計算機可讀介質的實體結構的一部分的磁劃狀態。

此外，上述一些技術包括以某些方式存儲資訊(例如，資料和/或指令)以供這些技術使用的動作。在這些技術的一些實現中-諸如將技術實現為計算機可執行指令的實現-該資訊可以在計算機可讀存儲介質上編碼。在本文中將特定結構描述為存儲該資訊的有利格式的情況下，這些結構可用於在編碼在存儲介質上時賦予資訊的實體組織。然後，這些有利結構可以通過影響與資訊交互的一個或多個處理器的操作來向存儲介質提供功能；例如，通過提高處理器執行的計算機操作的效率。

在其中技術可以體現為計算機可執行指令的一些但非全部實現中，這些指令可以在任何合適的計算機系統中一個或多個計算設備中操作的一個或多個合適的計算設備上執行，或者，一個或多個計算設備(或一個或多個計算設備的一個或多個處理器)可以被程式劃為執行計算機可執行指令。計算設備或處理器可以被程式劃為當指令以計算設備或處理器可訪問的方式存儲時執行指令，例如在資料記憶體中(例如，片上高速緩存或指令寄存器、可通過總線訪問的計算機可讀存儲介質、可通過一個或多個網路訪問並可由設備/處理器訪問的計算機可讀存儲介質等)。包括這些計算機可執行指令的功能設施可以與以下設備的操作集成並指導其操作：單個多用途可程式劃數位計算設備、共享處理能力並且聯合執行本文描述的技術的兩個或更多個多用途計算設備的協調系統、專用於執行本文所述技術的單個計算設備或計算設備的協調系統(共址或地理分布)、用於執行本文所述技術的一個或多個現場可程式劃門陣列(FPGA)，或任何其他合適的系統。

計算設備可以包括至少一個處理器、網路適配器和計算機可讀存儲介質。計算設備可以是例如臺式或膝上型個人計算機、個人數位助理(PDA)、智能移動電話、服務器或任何其他合適的計算設備。網路適配器可以是任何合適的硬體和/或軟體，以使計算設備能够通過任何合適的計算網路與任何其他合適的計算設備進行有綫和/或無綫通信。計算網路可以包括無綫接入點、交換機、路由器、網關和/或其他網路設備以及用於在兩個或更多個計算機(包括因特網)之間交換資料的任何合適的有綫和/或無綫通信介質或介質。計算機可讀介質可以適於存儲要處理的資料和/或要由處理器執行的指令。處理器能够處理資料和執行指令。資料和指令可以存儲在計算機可讀存儲介質上。

計算設備可以另外具有一個或多個組件和外圍設備，包括輸入和輸出設備。除其他之外，這些設備可用於呈現用戶界面。可用於提供用戶界面的輸出設備的示例包括用於輸出和揚聲器或其他聲音生成設備的視覺呈現的打印機或顯示屏，用於輸出的可聽呈現。可以用於用戶界面的輸入設備的示例包括鍵盤和指示設備，諸如滑鼠、觸摸板和數位劃平板電腦。作為另一示例，計算設備可以通過語音識別或其他可聽格式接收輸入資訊。

已經描述了以電路和/或計算機可執行指令實現這些技術的實施例。應當理解，一些實施例可以是方法的形式，其中已經提供了至少一個示例。作為方法的一部分執行的動作可以以任何合適的方式排序。因此，可以構造這樣的實施例，其中以不同於所示的順序執行動作，其可以包括同時執行一些動作，即使在示例性實施例中示出為順序動作。

上述實施例的各個方面可以單獨使用、組合使用，或者在前面描述的實施例中沒有具體討論的各種布置中使用，因此不限於其應用於前面的描述或附圖中示出的上述實施例中闡述的部件的細節和布置。例如，一個實施例中描述的方面可以以任何方式與其他實施例中描述的方面組合。

在申請專利範圍中使用諸如“第一”、“第二”、“第三”等的序數術語來修改申請專利範圍元素本身並不意味著一個申請專利範圍要素相對於另一個的任何優先權、優先級或順序，或者執行方法時的行為時間上的順序，而僅用作標簽以將具有特定名稱的一個申請專利範圍元素與具有相同名稱的另一個元素區分(進用於使用序數術語)，以區分申請專利範圍元素。

此外，這裏使用的措辭和術語是出於描述的目的，而不應被視為限制。本文中“包括”、“包含”、“具有”、“含有”、“涉及”及其變劃形式的使用旨在涵蓋其後列出的項及其等同物以及附加項。

本文使用的“示例性”一詞意味著用作示例、實例或說明。因此，在此描述為示例性的任何實施例、實現、過程、特徵等應當被理解為說明性示例，並且除非另有指示，否則不應被理解為優選或有利示例。

已經如此描述了至少一個實施例的若干方面，應當理解，所屬領域具有通常知識者將容易想到各種改變、修改和改進。這些改變、修改和改進旨在成為本公開的一部分，並且旨在落入本文描述的原理的精神和範圍內。因此，前面的描述和附圖僅是示例性的。

2300:方法

2302~2308:步驟

Claims

一種解碼方法，用於對三維(3D)沉浸式媒體的視訊資料進行解碼，該方法包括：訪問沉浸式媒體資料，該沉浸式媒體資料包括：一個或多個軌道的組合，其中該組軌道的每個軌道包括關聯的待解碼沉浸式媒體資料，該資料對應於沉浸式媒體內容的關聯空間部分，該空間部分不同於該組軌道中的其他軌道的關聯空間部分；以及元資料，指定該沉浸式媒體內容中的六自由度(6DoF)視域，其中該元資料包括指示該視域的類型的第一視域類型資料；以及基於該組一個或多個軌道和視域元資料執行解碼操作以生成該視域的解碼的沉浸式媒體資料。
如請求項1所述之解碼方法，其中，該視域包括小於該沉浸式媒體資料的完整可視部分的可視沉浸式媒體資料的子部分。
如請求項2所述之解碼方法，其中，該視域包括視埠。
如請求項1所述之解碼方法，其中執行解碼操作還包括基於該第一視域類型資料確定該視域的類型。
如請求項1所述之解碼方法，其中，該第一視域類型資料由指定該視域的該元資料的資料結構屬性指定；以及確定該視域的該類型包括讀取該資料結構屬性。
如請求項1所述之解碼方法，其中，該視域類型資料由指定該視域的該元資料的屬性指定；以及確定該視域的該類型包括讀取該元資料的該屬性。
如請求項1所述之解碼方法，其中，該元資料還包括指示第二視域的第二類型的第二視域類型資料。
如請求項7所述之解碼方法，其中，該第一視域類型資料和該第二視域類型由指定該視域的該元資料的第一資料結構屬性和指定該第二視域的該元資料的第二資料結構屬性指定；以及確定該視域的該類型包括讀取該第一資料結構屬性，以及確定該第二視域的該第二類型包括讀取該第二資料結構屬性。
如申請專利範圍7所述的解碼方法，其中：該第一視域類型由指定該視域的該元資料的資料結構屬性指定；以及該第二視域類型資料由指定該視域的該元資料的屬性指定；以及確定該視域的該類型包括讀取該資料結構屬性，確定該第二視域的該第二類型包括讀取該元資料的該屬性。
如請求項1所述之解碼方法，其中，執行解碼操作還包括確定第二視域的第二類型。
如請求項1所述之解碼方法，其中確定該視域的該類型包括確定推薦類型的該視域。
如請求項1所述之解碼方法，其中確定該視域的該類型包括確定初始類型的該視域，該初始類型指示該視埠是用於回放的初始視埠。
如請求項1所述之解碼方法，其中，確定該視域的該類型包括確定受歡迎類型的該視域。
如請求項1所述之解碼方法，其中，確定該視域的該類型包括確定指示該視埠是由觀看者選擇的用戶選擇類型的視域。
一種編碼方法，用於編碼三維(3D)沉浸式媒體視訊資料，該方法包括：編碼沉浸式媒體資料，包括至少編碼：一個或多個軌道的組合，其中該組軌道的每個軌道包括關聯的待解碼沉浸式媒體資料，該資料對應於沉浸式媒體內容的關聯空間部分，該空間部分不同於該組軌道中的其他軌道的關聯空間部分；以及元資料，指定該沉浸式媒體內容中的六自由度(6DoF)視域，其中該元資料包括指示該視域的類型的第一視域類型資料；以及其中，該待解碼沉浸式媒體資料可用於基於該組一個或多個軌道和該視域元資料執行解碼操作，以生成該視域的解碼沉浸式媒體資料。
一種解碼裝置，被配置為對三維(3D)沉浸式媒體的視訊資料進行解碼，該裝置包括與記憶體通信的處理器，該處理器被配置為執行存儲在該記憶體中的指令，該指令使該處理器執行：訪問沉浸式媒體資料，包括：一個或多個軌道的組合，其中該組軌道的每個軌道包括關聯的待解碼沉浸式媒體資料，該資料對應於沉浸式媒體內容的關聯空間部分，該空間部分不同於該組軌道中的其他軌道的關聯空間部分；以及元資料，指定該沉浸式媒體內容中的六自由度(6DoF)視域，其中該元資料包括指示該視域的類型的第一視域類型資料；以及基於該組一個或多個軌道和視域元資料執行解碼操作以生成該視域的解碼的沉浸式媒體資料。