TWI756534B

TWI756534B - 編碼和解碼虛擬實境內容的方法和裝置

Info

Publication number: TWI756534B
Application number: TW108112865A
Authority: TW
Inventors: 新王; 魯林陳
Original assignee: 新加坡商聯發科技（新加坡）私人有限公司
Priority date: 2018-04-12
Filing date: 2019-04-12
Publication date: 2022-03-01
Also published as: US10869016B2; US20190320155A1; TW201944776A

Abstract

本文描述的技術涉及被配置為處理多視圖多媒體資料的方法、裝置和計算機可讀介質。多視圖多媒體資料包括具有至少第一軌道的層級式軌道結構，其中第一軌道處於層級式軌道結構中的第一層，並且包括用於多視圖多媒體資料的第一視圖和第二視圖的資料。可以確定第一軌道中包含的元資料並用於在第一軌道上執行提取操作以生成第二軌道的第一媒體資料，其中第一媒體資料用於第一視圖以及第三軌道的第二媒體資料，其中第二媒體資料用於第二視圖，其中在層級式軌道結構中，第二軌道和第三軌道處於第一軌道的第一層之上的第二層。

Description

編碼和解碼虛擬實境內容的方法和裝置

本文描述的技術一般涉及視訊編解碼，尤其涉及關聯、存儲和/或發信(signaling)虛擬實境(VR)屬性和/或元資料，以及用於立體媒體的多媒體軌道推導。

存在各種類型的3D內容和多方向內容。例如，全向視訊是這樣一種視訊，其使用一組攝像機捕獲，而不是像傳統單向視訊那樣只使用一個攝像機。例如，可以將攝像機放置在特定中心點周圍，使得每個攝像機捕獲場景的球形覆蓋上的一部分視訊以捕獲360度視訊。來自多個相機的視訊可以被拼接(stitched)，可能旋轉，並被投影以生成表示球形內容的投影的二維圖像。例如，可以使用等矩投影(equal rectangular projection)將球形圖放入二維圖像中。然後可以例如使用二維編碼和壓縮技術進一步處理。最終，使用期望的傳送機制(例如，拇指驅動器、數位視訊碟(DVD)、檔案下載、數位廣播和/或在綫流傳輸)來存儲和傳送編碼和壓縮的內容。這種視訊可以用於虛擬實境(VR)和/或3D視訊。

在客戶端，當客戶端處理內容時，視訊解碼器對編碼和壓縮的視訊進行解碼並執行反向投影以將內容放回到球體上。然後，用戶可以查看所呈現的內容，例如使用頭戴式觀看設備。內容通常根據用戶的視埠進行渲染，該視埠表示用戶查看內容的角度。視埠還可以包括表示觀看區域的組件，其可以描述觀看者在特定角度觀看的區域的大小和形狀。

當視訊處理未以視埠相關的方式完成時，使得視訊編碼器和/或解碼器不知道用戶將實際觀看什麽，則整個編碼、傳遞和解碼過程將處理整個球形內容。這可以允許例如用戶在任何特定視埠和/或區域觀看內容，因為所有球形內容都被編碼、傳遞和解碼。

然而，處理所有球形內容可能是計算密集型的並且可能消耗大量帶寬。例如，對於在綫流媒體應用，處理所有球形內容會對網路帶寬造成比必要所需更大的負擔。因此，當帶寬資源和/或計算資源有限時，可能難以保持用戶的體驗。某些技術僅處理用戶正在查看的內容。例如，如果用戶正在觀看頂部區域(例如，北極)，則不需要傳送內容的底部部分(例如，南極)。如果用戶更改視埠，則可以相應地為新視埠傳遞內容。作為另一示例，對於自由視圖TV(FTV)應用(例如，使用多個相機捕獲場景的視訊)，可以根據用戶正在觀看場景的角度來傳送內容。例如，如果用戶正在從一個視埠(例如，相機和/或相鄰相機)查看內容，則可能不需要為其他視埠傳送內容。

根據所公開的主題，提供了用於關聯、存儲和/或發信虛擬實境(VR)屬性和/或元資料的裝置、系統和方法，以及用於多視圖媒體(諸如立體媒體)的軌道組合(track composition)。

一些實施例涉及用於解碼視訊資料的解碼方法。該方法包括接收多視圖多媒體資料，該多視圖多媒體資料包括至少包括第一軌道的層級式軌道結構，其中第一軌道在層級式軌道結構中處於第一層，並且包括用於多視圖多媒體資料第一視圖和第二視圖的資料。該方法包括確定包含在第一軌道內的元資料，並基於確定的元資料執行第一軌道上的提取操作以生成第二軌道的第一媒體資料，其中第一媒體資料用於第一視圖和第三軌道的第二媒體資料，其中第二媒體資料用於第二視圖，其中在層級式軌道結構中，第二軌道和第三軌道處於第一軌道的第一層之上的第二層。

在一些示例中，確定元資料包括確定立體幀打包元資料，其中立體幀打包元資料包括指示用於生成第一媒體資料、第二媒體資料或兩者的一個或多個參數的資料。

在一些示例中，第一軌道包括投影的二維軌道，第二軌道包括用於第一視圖的第一投影視訊軌道，第三軌道包括用於第二視圖的第二投影視訊軌道。

在一些示例中，該方法還包括對與第一軌道相關聯的多媒體內容執行軌道推導操作，以生成第一軌道的媒體資料。第一軌道可以與多個變體軌道相關聯，每個變體軌道包括多視圖多媒體資料，並且執行軌道推導操作可以包括在多個變體軌道上執行軌道推導操作以生成第一軌道的媒體資料。

在一些示例中，接收多視圖多媒體資料包括接收立體多媒體資料，其中立體多媒體資料包括用於多視圖多媒體資料的左視圖和右視圖的資料。

一些實施例涉及用於編碼視訊資料的方法。該方法包括編碼多視圖多媒體資料，該多視圖多媒體資料包括層級式軌道結構，該層級式軌道結構包括至少第一軌道，其中第一軌道處於層級式軌道結構中的第一層，並且包括用於多視圖多媒體資料的第一視圖和第二視圖的資料。

該方法可以包括在第一軌道內編碼元資料，使得元資料可以用於確定第一軌道上的提取操作以生成第二軌道的第一媒體資料，其中第一媒體資料用於第一視圖，以及第三軌道的第二媒體資料，其中第二媒體資料用於第二視圖，其中在層級式軌道結構中，第二軌道和第三軌道處於第一軌道的第一層之上的第二層。

在一些示例中，對元資料進行編碼包括編碼立體幀打包元資料，該元資料包括指示用於生成第一媒體資料、第二媒體資料或兩者的一個或多個參數的資料。

在一些示例中，對多視圖多媒體資料進行編碼包括對立體多媒體資料進行編碼，其中立體多媒體資料包括用於多視圖多媒體資料的左視圖和右視圖的資料。

一些實施例涉及一種被配置為解碼視訊資料的裝置。該裝置包括與記憶體通信的處理器，該處理器被配置為執行存儲在記憶體中的指令，該指令使處理器接收包括至少包括第一軌道的層級式軌道結構的多視圖多媒體資料，其中第一軌道處於層級式軌道結構中的第一層，並且包括用於多視圖多媒體資料的第一視圖和第二視圖的資料。指令還被配置為使處理器確定包含在第一軌道內的元資料，並基於所確定的元資料執行第一軌道上的提取操作以生成第二軌道的第一媒體資料，其中第一媒體資料用於第一視圖和第三軌道的第二媒體資料，其中第二媒體資料用於第二視圖，其中第二軌道和第三軌道位於層級式軌道中的第二層，在第一軌道的第一層之上。

在一些示例中，指令還被配置為使處理器對與第一軌道相關聯的多媒體內容執行軌道推導操作，以生成第一軌道的媒體資料。第一軌道可以與多個變體軌道相關聯，每個變體軌道包括多視圖多媒體資料，並且執行軌道推導操作包括對多個變體軌道執行軌道推導操作以生成第一軌道的媒體資料。

一些實施例涉及用於編碼視訊資料的裝置。該裝置包括與記憶體通信的處理器，該處理器被配置為執行存儲在記憶體中的指令，該指令使得處理器對包括包含至少第一軌道的層級式軌道結構的多視圖多媒體資料進行編碼，其中第一軌道處於層級式軌道結構中的第一層，並且包括用於多視圖多媒體資料的第一視圖和第二視圖的資料。指令被配置為使處理器對第一軌道內的元資料進行編碼，使得元資料可用於確定第一軌道上的提取操作以生成第二軌道的第一媒體資料，其中第一媒體資料用於第一視圖和第三軌道的第二媒體資料，其中第二媒體資料用於第二視圖，其中第二軌道和第三軌道在層級式軌道結構中處於第二層，在第一軌道的第一層之上。

因此，已經相當廣泛地概述了所公開的主題的特徵，以便可以更好地理解隨後的詳細描述，並且可以更好地理解對本領域的貢獻。當然，所公開的主題的附加特徵將在下文中描述，並且將形成所附申請專利範圍的主題。應理解，本文采用的措辭和術語是出於描述的目的，不應視為限制。

100:視訊編解碼配置

102A-102N:攝像機

104:編碼設備

106:視訊處理器

108:編碼器

110:解碼設備

112:解碼器

114:渲染器

116:顯示器

200:流程

201:球形視埠

202~212:塊

300、800:軌道層級結構

302~308、310A~310R、312A~312K、314A~314K、502A~502K、504A~504K、704、802、804、806、808、810、812、814、816、818A~818R、820A~820K、822A~822K:軌道

402A-402N、404A-404N:圖像

410、510:立體視訊組元資料框

412、512:投影的全向視訊元資料框

414、514:RegionWisePackingBox

416、516:TwoDimensionalSpatialRelationship

418:VariantPictureBox

600:操作序列

602~608、902~916、1002A~1008:步驟

650、660、670、670A、690A:佈置

652A、652B、654A、654B、672、674、692、694:幀

700:表格

702:層

706:元資料

708:變換屬性

900:解碼過程

1102、1104、1106:行

在附圖中，在各個圖中示出的每個相同或幾乎相同的部件由相同的附圖標記表示。為清楚起見，並非每個組件都可以在每個圖中標記。附圖不一定按比例繪製，而是將重點放在說明本文描述的技術和裝置的各個方面。

第1圖示出了根據一些實施例的示例性視訊編解碼配置。

第2圖是根據一些示例的用於虛擬實境(VR)內容的依賴於視埠的內容流程的過程。

第3圖示出了根據一些實施例的示例性軌道層級結構。

第4圖示出了根據一些示例的用於立體視訊的左立體圖像和右立體圖像的序列。

第5圖示出了根據一些示例的具有變體軌道的示例性元資料存儲。

第6A圖示出了根據一些實施例的包括幀打包的示例性操作序列。

第6B圖示出了根據一些實施例的幀打包布置的示例。

第7圖示出了根據一些實施例的可用於構建軌道推導層級的層級式軌道層和關聯元資料和變換屬性的示例性表格。

第8A-8B圖示出了根據一些實施例的示例性軌道層級結構。

第9圖示出了根據一些實施例的用於解碼視訊資料的示例性解碼方法。

第10圖示出了根據一些實施例的用於編碼視訊資料的示例性編碼方法。

第11圖是示出根據一些實施例的與包括變體軌道中的元資料的技術相比，當元資料被包括在推導的軌道中時的元資料使用的表格。

本文描述了可用於改進現有視訊編解碼技術的各種技術。發明人已經發現並理解現有的軌道層級技術不支持多視圖資料操作，例如幀打包操作。因此，通常需要為多視圖資料的每個視圖使用單獨的層級結構，例如左視圖和右視圖的單獨層級結構。這裏描述的技術改進了現有的軌道層級結構技術以支持多視圖資料。在一些實施例中，所述技術包括軌道層級中的新軌道，將元資料與軌道層級相關聯，推導操作以支持軌道層級中的多視圖推導操作(例如，幀打包)，和/或類似物。例如，結合諸如幀打包的多視圖操作可以减少編碼和/或解碼多視圖媒體所需的操作的數量。作為另一示例，以利用(leverage)軌道層級結構的方式存儲幀打包元資料(例如，prol和/或pror，如本文中進一步討論的，可以包括在幀打包之上的層處)可以提供用於恢復來自幀打包軌道的定向幀(directional frame)(例如，左幀和右幀)，否則沒有幀打包元資料，軌道層級結構將不包括解碼幀打包內容以產生立體視圖所需的元資料。

在以下描述中，闡述了關於所公開的主題的系統和方法以及這些系統和方法可以操作的環境等的許多具體細節，以便提供對所公開的主題的透徹理解。另外，應當理解，下面提供的示例是示例性的，並且預期存在在所公開的主題的範圍內的其他系統和方法。

第1圖示出了根據一些實施例的示例性視訊編解碼配置100。攝像機102A-102N是N個攝像機，並且可以是任何類型的攝像機(例如，包括音頻記錄功能的攝像機，和/或單獨的攝像機和音頻記錄功能)。編碼設備104包括視訊處理器106和編碼器108。視訊處理器106處理從相機102A-102N接收的視訊，例如拼接、投影和/或映射。編碼器108對二維視訊資料進行編碼和/或壓縮。解碼設備110接收編碼資料。解碼設備110可以通過廣播網路、通過移動網路(例如，蜂窩網路)和/或通過因特網接收視訊作為視訊產品(例如，數位視訊光碟或其他計算機可讀介質)。解碼設備110可以是例如計算機、手持設備、頭戴式顯示器的一部分或具有解碼能力的任何其他設備。解碼設備110包括解碼器112，其被配置為對編碼視訊進行解碼。解碼設備110還包括渲染器114，用於將二維內容渲染回用於播放的格式。顯示器116顯示來自渲染器114的渲染內容。

通常，可以使用球形內容來表示3D內容以提供場景的360度視圖(例如，有時被稱為全向媒體內容)。雖然可以使用3D球體支持許多視圖，但終端用戶(end user)通常僅查看3D球體上的一部分內容。傳輸整個3D球體所需的帶寬會給網路帶來沉重的負擔，並且可能不足以支持球形內容。因此，期望使3D內容傳遞更有效。可以執行視埠相關處理以改進3D內容傳遞。3D球形內容可以被劃分為區域/圖塊(tile)/子圖像，並且只有與觀看屏幕(例如，視埠)相關的那些可以被發送並傳遞給最終用戶。

第2圖示出了根據一些示例的用於VR內容的視埠相關內容流程200。如圖所示，球形視埠201(例如，其可以包括整個球體)在塊202處經歷拼接、投影、映射(以生成投影和映射區域)，在塊204處被編碼(以生成多個質量的編碼/轉碼圖塊)，在塊206處傳送(作為圖塊)，在塊208處解碼(以生成解碼的圖塊)，在塊210處構造(以構造球形渲染的視埠)，並且在塊212處渲染。塊214處的用戶交互可以選擇一個視埠，其啟動了多個“即時(just-in-time)”處理步驟，如虛綫箭頭所示。

在流程200中，由於當前網路帶寬限制和各種適應要求(例如，關於不同質量、編解碼器和保護方案)，首先將3D球形VR內容處理(拼接、投影和映射)到2D平面上(通過塊202)，然後封裝(encapsulate)在多個基於圖塊(或基於子圖像)和分段的檔案中(在塊204處)以用於傳送和播放。在這樣的基於圖塊和分段的檔案中，2D平面中的空間圖塊(例如，其表示空間部分，通常是2D平面內容的矩形形狀)通常被封裝為其變體的集合，例如不同的質量和位元率，或不同的編解碼器和保護方案(例如，不同的加密演算法和模式)。在一些示例中，這些變體對應於MPEG DASH中的自適應集內的表示。在一些示例中，基於用戶在視埠上的選擇，不同圖塊的這些變體中的一些當放在一起時提供所選視埠的覆蓋，由接收器獲取或傳送到接收器(通過傳送塊206)，然後解碼(在塊208)以構造和渲染期望的視埠(在塊210和212處)。

如第2圖所示，視埠概念指終端用戶的視圖，它涉及球體上區域的角度和大小。對於360度內容，通常，該技術將所需的圖塊/子圖像內容傳遞給客戶端以覆蓋用戶將查看的內容。此過程取決於視埠，因為這些技術僅提供覆蓋當前感興趣視埠的內容，而非整個球形內容。視埠(例如，一種球形區域)可以改變，因此不是靜態的。例如，當用戶移動他們的頭部時，系統需要獲取相鄰的圖塊(或子圖像)以覆蓋用戶接下來要查看的內容。

可以使用內容的平面檔案結構，例如，用於單個電影的視訊軌道。對於VR內容，存在比接收設備發送和/或顯示的內容更多的內容。例如，如本文所討論的，可以存在整個3D球體的內容，其中用戶僅觀看一小部分。為了更有效地編碼、存儲、處理和/或傳遞這樣的內容，可以將內容劃分成不同的軌道。第3圖示出了根據一些實施例的示例性軌道層級結構300。頂部軌道302是3DVR球形內容軌道，並且頂部軌道302下方是關聯的元資料軌道304(每個軌道具有關聯元資料)。軌道306是2D投影軌道。軌道308是2D大圖像軌道。區域軌道被示為軌道310A至310R，通常被稱為子圖像軌道310。每個區域軌道310具有一組相關聯的變體軌道。區域軌道310A包括變體軌道312A到312K。區域軌道310R 包括變體軌道314A到314K。因此，如軌道層級結構300所示，可以開發以實體多變量區域軌道312開始的結構，並且可以為區域軌道310(子圖像或圖塊軌道)、投影和打包2D軌道308、投影的2D軌道306和VR 3D視訊軌道302建立軌道層級，並具有與它們相關聯的適當元資料軌道。

在操作中，變體軌道包括實際圖像資料。設備在交替的變體軌道中進行選擇，以選擇代表子圖像區域(或子圖像軌道)310的軌道。子圖像軌道310被圖塊化(tiled)並一起組成2D大圖像軌道308。最後，軌道308被反向映射，例如，重新排列一些部分以產生軌道306。然後，軌道306被反向投射回3D軌道302，3D軌道302是原始3D圖像。

示例性軌道層級結構可以包括在例如以下檔案中描述的方面：m39971，““Deriving Composite Tracks in ISOBMFF”,2017年1月(日內瓦，CH)；m40384，“Deriving Composite Tracks in ISOBMFF using track grouping mechanisms”，2017年4月(霍巴特，澳大利亞)；m40385，“Deriving VR Projection and Mapping related Tracks in ISOBMFF”；m40412，“Deriving VR ROI and Viewport related Tracks in ISOBMFF”，MPEG第118届會議，2017年4月，其全部內容通過引用結合於此。在第3圖中，反向投影(rProjection)、反向打包(rPacking)、組合(compose)和交替(alternate)分別代表軌道推導TransformProperty項目反向'proj'、反向'pack'、'cmpa'和'cmp1'，用於說明目的而不是限制性的。元資料軌道中顯示的元資料類似地用於說明目的，而不是限制性的。例如，可以使用來自OMAF的元資料框(box)，如w17235，“Text of ISO/IEC FDIS 23090-2 Omnidirectional Media Format”，第120届MPEG會議，2017年10月(澳門，中國)中所述，其整體通過引用結合於此。

第3圖中所示的軌道數量旨在說明而非限制。例如，在如第3圖所示的層級中不一定需要一些中間推導軌道的情况下，相關的推導步驟可以組合成一個(例如，反向打包和反向投影被組合在一起以消除投影軌道306的存在)。

第4圖示出了根據一些示例的用於立體視訊的左立體圖像402A-402N(統稱為左立體圖像402)和右立體圖像404A-404N(統稱為右立體圖像404)的序列。在該示例中，每個圖像402、404被劃分為9乘9的子圖像網格。根據一些技術，為每個子圖像指定元資料/屬性。例如，每個子圖像可以包括用於指示其子圖像軌道的元資料、與其投影有關的資料、子圖像所屬的較大圖像、子圖像的質量之類。可以在元資料框中指定元資料。如第4圖所示，元資料可包括立體視訊組元資料框StereoVideoGroupBox(ster)410、投影全向視訊元資料框ProjectedOmniVideoBox(povd)412、RegionWisePackingBox(rwpk)414、TwoDimensionalSpatialRelationship(2dcc)416和VariantPictureBox(vpct)418。這些方框旨在說明而非限制，因為也可以使用其他元資料框。一些技術將該元資料與每個子圖像存儲在子圖像軌道(例如，變體區域軌道312)中。第5圖示出了根據一些示例的具有變體軌道的示例性元資料存儲500。如結合第3圖所討論的那樣，每個區域軌道包括一組相關的變體軌道。如第5圖所示，第一區域軌道(為簡單起見未示出)包括變體軌道502A到502K(統稱為變體軌道502)。第二區域軌道(也未示出)包括變體軌道504A到504K(統稱為變體軌道504)。每個變體軌道502、504存儲元資料，包括在該非限制性示例中的StereoVideoGroupBox ster 510，投影的全向視訊元資料框ProjectedOmniVideoBox(povd)512，RegionWisePackingBox(rwpk)514和TwoDimensionalSpatialRelationship(2dcc)516。

StereoVideoGroupBox(ster)510可以指定與立體視訊軌道分組相關的屬性和/或元資料。例如，ster 510可以包括在OMAF中為StereoVideoGroupBox指定的語法。例如，ster 510可以指示軌道是適合於在立體顯示器上播放的立體對(stereo pair)的左視圖或者右視圖。例如，可以使用布爾值，其中0值表示立體對的右視圖，1值表示立體聲對的左視圖。在一些實施例中，具有相同軌道組標識符的軌道形成立體對。

ProjectedOmniVideoBox(povd)512可用於為全向視訊指定受限視訊方案的屬性和/或元資料。例如，povd 512可以包括用於ProjectedOmniVideoBox的OMAF中指定的語法。例如，povd 512可以指示投影圖像的投影格式(例如，包含在軌道中的單視場(monoscopic)視訊的C，用於立體視訊的左視圖和右視圖的CL和CR之類)、區域性打包(region-wise packing)(例如，當適用時)、用於在局部坐標軸和全域坐標軸之間進行轉換的旋轉(例如，如果應用的話)、軌道的內容覆蓋範圍等。在一些實施例中，povd 512框被稱為PROJ框。

RegionWisePackingBox(rwpk)514可以包括與全向圖像的存儲相關的屬性和/或元資料。區域性打包資料可以指定打包區域和對應的投影區域之間的映射，保護帶(guard band)的位置和大小(如果有的話)等。例如，rwpk 514可以包括在OMAF中為RegionWisePackingBox指定的語法。在一些示例中，rwpk 514包括RegionWisePackingStruct，同樣在OMAF中指定。例如，RegionWisePackingStruct可以包括指示投影圖像的寬度和高度的資料、打包圖像的寬度和高度的資料、立體投影圖像的資料、兩個組成圖像中的每個投影區域和打包區域的資料或者投影區域和相應的打包區域的資料(例如，指示保護帶的存在、打包類型、矩形區域打包結構中的投影區域和相應打包區域之間的映射、保護帶(若存在)等的資料中的一個或多個)。

TwoDimensionalSpatialRelationship(2dcc)516可以指定與二維關係相關的屬性和/或元資料。例如，元資料可以指示該軌道屬於具有2D空間關係的一組軌道(例如，對應於視訊源的平面空間部分)。2dcc 516可以指定坐標系(例如，包括寬度和/或高度)、軌道的源等。在一些實施例中，2dcc框被稱為子圖像組合框(spco)框。

發明人已經發現並理解了與視訊編解碼相關(尤其是支持多視圖媒體，例如立體媒體)的現有技術的缺陷。特別地，軌道層級(track hierarchy)結構可用於編碼和/或解碼多媒體資料。然而，現有的軌道層級結構技術不支持多視圖操作，例如幀打包操作，因此需要單獨的軌道層級結構來表示多視圖多媒體的每個視圖(例如，立體媒體的左視圖和右視圖中的每一個的單獨的層級結構)。例如，為了對立體視訊的左視圖和右視圖兩者的資料進行編碼，需要兩個單獨的過程來對其關聯的層級式軌道(hierarchical track)中的每個視圖進行編碼，並且類似地需要兩個單獨的過程來解碼這樣的編碼資料。

此外，現有技術需要為每個視訊定義大量元資料，例如用於立體視訊。例如，如果每個圖像是如第4圖所示的9乘9的子圖像網格，則對於每個左右立體對，存在2×9×9×5個子圖像，或總共810個子圖像。如果每個子圖像具有五個元資料框，如第5圖所示，則810個子圖像x 5個元資料框總共等於4050個元資料框。因此，如果每個子圖像携帶所有這些元資料框，則這種技術可以導致為每個立體聲對定義和存儲大量元資料框。發明人還意識到，如果所有元資料都存儲在子圖像層(sub-picture level)，則可能難以確定每個子圖像軌道如何與其他軌道相關。例如，如果解碼器需要處理整個圖像，則解碼器可能需要遍歷所有軌道以找出哪些變體軌道是相同子圖像的變體軌道，等等。發明人已經發現並理解，對於多視圖媒體，這種元資料冗餘可以進一步複合。例如，由於每個視圖都需要單獨的層級結構，因此單獨的層級結構需要存儲單獨層級式軌道的資料和元資料。

本文公開的技術提供支持多視圖媒體內容(例如，立體內容，諸如立體OMAF媒體內容)的層級式軌道推導技術。本文提供的技術通過添加對幀打包操作、關聯元資料、推導操作等的支持來改進現有軌道層級技術。例如，該技術可以包括提供支持幀打包操作的新軌道層級結構。該技術可以包括在軌道層級中提供表示幀打包軌道的新軌道。幀打包軌道下面的層級中的後續軌道可以對幀打包資料進行操作，因此可以利用單個軌道和相關聯的推導操作(例如，當為每個視圖使用單獨的層級結構，而不是兩個或更多個時)。如本文進一步描述的，添加對幀打包的支持可以整合冗餘的元資料和/或减少在使用傳統層級結構時需要的編碼/解碼操作的數量。

該技術還可以包括利用軌道層級結構既存儲與幀打包操作和/或其他多視圖操作有關的元資料，又在推導的媒體軌道中以適當的軌道層級存儲軌道中的元資料。例如，如本文進一步討論的，用於幀打包資料的新軌道可以包括用於執行幀打包推導操作的關聯元資料。另外，該技術可以將子圖像軌道相關屬性和/或元資料與層級中的適當推導軌道相關聯、存儲和發信(例如，如第5圖所示，而非使用平面結構來指定子圖像級別的元資料)。這些技術可以從層級結構的頂部向下繼承存儲在推導的媒體軌道中的其他元資料，而不是在每個變體子圖像軌道中存儲元資料。由於支持幀打包的軌道層級結構整合了冗餘軌道和相關聯的元資料和推導操作，因此改進的軌道層級結構進一步减少了支持完全獨立的層級結構、編碼過程和/或解碼過程所需的元資料和其他開銷。這些技術可以與OMAF檔案解碼和渲染過程一致，其中元資料以更合適、邏輯和有效的方式與多視圖媒體相關聯、存儲和發信。

為了處理用於圖像或視訊編碼的立體內容，可以對立體內容的源圖像執行各種操作，包括圖像拼接、旋轉、投影、幀打包和/或區域性打包操作，以將兩個視圖映射到同一個打包圖像上。例如，對於立體內容，3D源圖像可以用於兩個不同的3D球體(左視圖和右視圖中的每一個)，因此一旦將球形內容投影到2D平面，就有兩個單獨的投影圖像(例如，再次，對於左視圖和右視圖中的每一個視圖一個)。可能需要從兩個投影軌道中製作單個軌道，這可以使用幀打包來完成。第6A圖示出了根據一些實施例的包括幀打包的示例性操作序列600。在步驟602，拼接源圖像B_i(B_i可能旋轉)，並投影到兩個單位球體(unit sphere)上，每只眼睛一個。每個單位球體上的圖像資料進一步排列在二維投影圖像上，如左眼C_L和右眼C_R，覆蓋整個球體。在步驟604，應用幀打包以將左視圖圖像和右視圖圖像打包到同一投影圖像C上。可選地，在步驟606，可以應用區域性打包以將投影圖像C打包到打包圖像上，並且打包圖像(D)作為輸入提供給圖像/視訊編碼處理608。如果不應用區域性打包，則打包圖像與投影圖像相同，並且該圖像作為輸入提供給圖像/視訊編碼。打包圖像D可以僅覆蓋整個球體的一部分。

如第6A圖所示，在一些實施例中，在步驟604處對用於立體媒體內容的投影圖像C進行幀打包。在一些實施例中，投影圖像C包含投影的左圖像和右圖像C_L和C_R的幀打包佈置的資訊。例如，在OMAF中，投影圖像C可以包括SchemeInformationBox內包含的StereoVideoBox內的幀打包佈置的資訊。在一些實施例中，幀打包佈置的資訊的缺失(例如，不存在StereoVideoBox)可以指示軌道的內容是單視場的，例如指示軌道的全向投影內容是單視場的。

第6B圖示出了根據一些實施例的幀打包布置的示例。佈置650示出了時間交織幀打包布置，其包括來自每個視圖的交替幀，示為與右幀654A和654B交織的左幀652A和652B。佈置650可以包括指示每對幀是軌道中的單個樣本的資訊，使得當處理軌道時，解碼樣本需要執行兩個解碼操作。佈置670示出了上下(top-bottom)幀打包佈置，其中左幀是右幀頂部的封包。例如，第一幀打包佈置(frame packed arrangement)670A包括打包在右幀674頂部的左幀672。佈置690示出了並排(side-by-side)幀打包布置，其中左幀被打包到右幀的側面。例如，第一幀打包佈置690A包括打包到右幀694左側的左幀692。由於佈置670 和690將一組幀(sets of frames)組合成單個幀，所以上述布置可以僅需要一個解碼操作(例如，與布置650相比)。

如本文所述，打包佈置的資訊可以與投影圖像相關聯。例如，對於OMAF，當用於全向視訊方案的SchemeInformationBox中存在StereoVideoBox時，stereo_indication_type的第一個字節可以指示幀打包佈置，如w17399(“Revised text of ISO/IEC FDIS 23090-2 Omnidirectional Media Format”，第121届MPEG會議，2018年1月，韓國光州)中所描述的，其全部內容在此引入作為參考。例如，值3可以指示上下幀打包佈置，值4可以指示並排幀打包佈置，或者值5可以指示交替的第一和第二組成幀(constituent frames)的時間交織。

如本文所述，可以使用一系列變換屬性來構建支持單視場和多視圖媒體內容(例如立體內容)的軌道推導層級。第7圖示出了根據一些實施例的可用於構建軌道推導層級的分層702、軌道704和關聯元資料706以及變換屬性708的示例性表格700。最高層的層6是球形軌道，其可以使用樣本VR視埠變換(例如'svpt')推導(例如，來自本文進一步討論的層5球形圖像軌道)。例如，'svpt'變換可用於根據視埠定義從輸入VR樣本圖像項構造或提取視埠樣本圖像，例如OMAF中給出的球形視埠。

根據一些實施例，將結合第8A-8B圖討論第7圖中的剩餘軌道層級0-5，第8A-8B圖示出了的用於立體多媒體的示例性軌道層級結構800。層5是球形圖像軌道，在第8A圖示出為用於左球形圖像軌道的軌道802和用於右側球形圖像軌道的軌道804。在每個軌道802和804下方是關聯的元資料軌道806和808(每個軌道具有關聯的元資料，如下面進一步示出和討論的)。球形圖像軌道可以包括與由樣本指定的球形區域的形狀有關的元資料，例如形狀類型、範圍、方位角、海拔(elevation)和/或與球形區域的形狀相關的其他參數。例如， SphereRegionConfigBox 'rosc'可用於指定有關球體區域形狀的資訊，例如形狀類型(例如，由四個大圓圈，兩個方位角圓圈和兩個海拔圓圈等指定)，無論是範圍對於每個樣本是動態的、方位角範圍、海拔範圍、多個區域等。與層5相關聯的變換屬性是投影‘proj’。投影球形圖像軌道以生成層級中的下一個軌道(例如，層4)，和/或反向投影低級軌道(lower-level)以生成球形圖像軌道。

層4是投影圖像軌道。每個球形圖像軌道與投影圖像軌道相關聯。如第8A圖所示，投影左球形圖像軌道802以創建左投影2D圖像軌道810，並且投影右球形圖像軌道804以創建右投影2D圖像軌道812。左和右圖像軌道可包括元資料，指示解碼幀如何包括立體對(例如，解碼的幀是否包含形成立體聲對或包含立體聲對的兩個視圖之一的兩個空間打包的組成幀的表示)。例如，立體視頻框'stvi'可用於指示解碼幀包含兩個空間打包的組成幀的表示，這些組成幀形成立體聲對或包含立體聲對的兩個視圖之一，如ISO/IEC 14496-12，資訊技術-視聽對象的編解碼，第12部分：ISO基礎媒體檔案格式(ISOBMFF)，第5版，2015年2月20日中所規定的，其全部內容通過引用結合於此。“stvi”框可以包括指示如何顯示內容的資料(例如，立體顯示、單視場單視圖等)、立體聲方案、立體聲佈置類型等。如本文進一步解釋的，'prol'和'pror'定義兩個相應的導出軌道，一個是投影的左圖像軌道，另一個是投影的右圖像軌道。因此，左2D圖像軌道810可以與投影的左圖像'prol'變換屬性相關聯，並且右2D圖像軌道812可以與投影的右圖像'pror'變換屬性相關聯。

層3是投影圖像軌道。軌道814是通過對左投影2D視訊軌道810和右投影2D視訊軌道812執行幀打包操作而形成的投影2D圖像軌道。因此，雖然每個左視圖和右視圖包括單獨的球形圖像軌道和投影圖像軌道，投影的圖像軌道通過幀打包組合成單個軌道814。投影的2D圖像軌道814可以包括與投影圖像的投影格式、區域性打包、用於在局部和全域坐標軸之間轉換的任何旋轉、內容覆蓋等相關的元資料。例如，投影的2D圖像軌道814可以包括投影的全向視訊框“povd”，包括在此討論的和/或在例如w18227中指定的框，w18227是OMAFG規範的第二版的工作草案(ISO/IEC JTC1/SC29/WG11 N18227-v1，2019年1月，馬薩諸塞州馬拉喀什)，其全部內容在此引入作為參考。投影的2D圖像軌道814與打包‘pack’變換屬性相關聯。

層2是打包的圖像軌道。軌道816，如第8B圖所示，是投影和打包的2D大圖像軌道。投影和打包的2D大圖像軌道816可以包括與打包區域和對應的投影區域之間的映射、保護帶的位置和大小等相關的元資料。例如，投影和打包的2D大圖像軌道816可以包括如本文所述和/或如w18227中所討論的區域打包框'rwpk'。投影和打包的2D大圖像軌道816與所有'cmpa'變換屬性的組合相關聯。

層1是子圖像軌道或區域軌道。區域軌道被示為軌道818A到818R，通常被稱為子圖像軌道818。子圖像軌道818可以包括組合元資料(composition metadata)。子圖像軌道818可以與僅一個'cmp1'變換屬性的組合相關聯，這將在本文中進一步討論。

在一些實施例中，子圖像軌道818可以包括子圖像組合框'spco'。具有等於'spco'的track_group_type的TrackGroupTypeBox指示該軌道屬於可以在空間上布置以獲得組合圖像的軌道的組合。映射到該分組的視覺軌道(例如，TrackGroupTypeBox中具有相同的track_group_id值並且track_group_type等於'spco'的視覺軌道)共同表示可以呈現的可視內容。映射到該分組的每個單獨的視覺軌道可以或可以不是在沒有其他視覺軌道的情况下單獨呈現，而組合圖像適合於被呈現。可以通過在空間上排列屬於相同子圖像組合軌道組並屬於相同交替組(alternative group)的所有軌道的組合對齊(composition-aligned)樣本的解碼輸出來推導組合圖像。

在一些實施例中，“spco”框可以包括子圖像區域框，其指定各種參數，例如track_x、track_y、track_width、track_height和/或composition_height等。在一些示例中，track_x以亮度樣本單位指定組合圖像上該軌道的樣本的左上角的水平位置。track_x的值可以在0到composition_width-1之間，包括0和composition_width。在一些示例中，track_y以亮度樣本單位指定組合圖像上該軌道的樣本的左上角的垂直位置。track_y的值可以在0到composition_height-1的範圍內，包括0和composition_height-1。在一些示例中，track_width可以以亮度樣本單位指定組合圖像上該軌道的樣本的寬度。track_width的值可以在1到composition_width-1之間，包括1和composition_width-1。在一些示例中，track_height可以在亮度樣本單元中指定組合圖像上該軌道的樣本的高度。track_height的值可以在1到composition_height-1的範圍內，包括1和composition_height-1。在一些示例中，composition_width可以以亮度樣本單位指定組合圖像的寬度。在具有相同track_group_id值的SubPictureCompositionBox的所有實例中，composition_width的值可以相同。在一些實施例中，composition_height可以在亮度樣本單元中指定組合圖像的高度。在具有相同track_group_id值的SubPictureCompositionBox實例中，composition_height的值可以相同。

在一些實施例中，由track_x、track_y、track_width和track_height表示的矩形可以被稱為軌道的子圖像矩形。對於屬於相同子圖像組合軌道組並屬於相同交替組(alternate group)的軌道(例如，具有相同的非零alternate_group值)，子圖像矩形的位置和大小可以相同。在一些實施例中，可以通過首先從屬於子圖像組合軌道組的所有軌道中的每個交替組中拾取一個軌道來推導子圖像組合軌道組的組合圖像。然後，對於每個拾取的軌道，對於0到track_width-1(包括0和track_width-1)範圍內的i的每個值，以及對於0到track_height-1(包括0和track_height-1)的範圍內的j的每個值，在亮度樣本位置((i+track_x)%composition_width，(j+track_y)%composition_height)處的組合圖像的亮度樣本設置為等於該軌道的子圖像在亮度樣本位置(i，j)處的亮度樣本。另外或替代地，當解碼圖像具有不同於4：0：0的色度格式時，相應地推導色度分量。在一些實施例中，屬於相同子圖像組合軌道組並且屬於不同交替組(即，具有等於0的alternate_group或不同alternate_group值)的所有軌道的子圖像矩形不重叠並且不具有間隙，這樣，在上述組合圖像的推導過程中，每個亮度樣本位置(x，y)僅遍歷一次，其中x在0到composition_width-1的範圍內，包括0和composition_width-1，y在0到composition_height-1的範圍內，包括0和composition_height-1。

層0是變體圖像軌道(或變體子圖像軌道)。每個子圖像軌道818具有一組相關聯的變體軌道。子圖像軌道818A包括變體軌道820A到820K。子圖像軌道818R包括變體軌道822A到822K。變體軌道可以包括變體圖像框'vpct'，其可以標記變體(子)圖像軌道(例如，使用軌道選擇框，例如'tsel')，並且將標記的軌道發信為可替換的軌道組(alternate group of tracks)。因此，具有相同組標識符和組類型的各個軌道可以屬與特定子圖像軌道相關的相同組，例如相同內容但具有不同位元率或質量的軌道。變體軌道可以與僅選一的'sel1'變換屬性相關聯。

因此，如軌道層級結構800所示，可以開發以實體多變量區域軌道(例如，820、822)開始的結構，並且可以為子圖像軌道818、投影和打包的2D軌道816、投影的2D圖像軌道814(其被打包並包括左和右投影的2D軌道)、投影的左和右2D軌道810和812，以及左和右VR 3D視訊軌道802和804建立軌道層級，並具有與它們相關聯的適當元資料軌道。值得注意的是，層級800允許從軌道816到軌道814的反向映射，然後是反向幀打包或任何其他提取操作以獲得左(L)和右(R)投影的2D軌道810和812。如本文所述，每個2D軌道是反向投影的。在不包括允許映射/反向映射的附加層(additional level)的情况下，將需要兩個完全獨立的層級(例如，如第3圖所示)，使得對於每個左視圖或右視圖使用單獨的層級。使用可以允許例如立體操作(例如映射/反向映射等)的層級結構，因此可以避免兩個層級結構所需的冗餘操作(例如，需要兩個映射，圖塊(tiling)/組合，以及交替步驟，而不是僅僅是一個，如第8A-8B圖所示)。

第8A圖示出了在右3D視訊軌道804和右投影2D視訊軌道812上方的左3D視訊軌道802和左投影2D視訊軌道810，這是出於說明性目的而完成的。就軌道層級而言，左3D視訊軌道802和右3D視訊軌道804可以被認為處於層級的相同層。另外，左投影2D視訊軌道810和右投影2D視訊軌道812可以被認為處於層級的相同層(例如，其是左3D視訊軌道802和右3D視訊軌道804下方的一級，並且在幀打包投影的2D視訊軌道814上方一級)。

另外，不是在變體軌道中的變體軌道層指定所有屬性和/或元資料(例如，如第5圖中所示)，第8A-8B圖示出了編碼方案，其中可以在軌道層級結構中的相關層的推導軌道中指定屬性和/或元資料。值得注意的是，在該非限制性示例中，元資料可以在打包的2D軌道814中携帶，其與執行反向打包操作有關並且可以用於相應地引入新的軌道推導。作為說明性示例，對於OMAF，ProjectedLeftPicture變換屬性'prol'和ProjectedRightpicture變換屬性'pror'可以應用於用於立體OMAF內容的投影圖像軌道。對於兩個變換屬性，輸入投影圖像軌道包含ISO/IEC 14496-12中指定的StereoVideoBox，和/或w17399中指定的幀打包項屬性(例如，其具有與StereoVideoBox相同的語法和語義)。

如第8A-8B圖所示，可以在其他軌道中指定附加元資料。在該非限制性示例中，在左VR 3D視訊軌道802和右VR 3D視訊軌道804中提供'ster'元資料框。在左和右2D軌道808和810中提供'povd'元資料框。在投影和打包的 2D軌道816中提供“rwpk”元資料框。在每個軌道818(子圖像或圖塊軌道)中提供“2dcc”元資料框。這些元資料框僅出於示例性目的而被描述，因為可以使用其他元資料和/或元資料結構，諸如本文描述的其他元資料框。

如第8A-8B圖所示，存儲在推導軌道中的元資料與定時元資料軌道(timed metadata track)806分開且不同。與在層級結構的推導軌道中指定的元資料框不同，如本文進一步討論的，定時元資料軌道806是與變體和推導的軌道分開的檔案格式軌道。定時元資料軌道806通常用於與推導軌道內的元資料不同的目的。例如，與可以在媒體軌道內的元資料框內提供的元資料不同，定時元資料軌道806可以用於提供具有定時資訊的元資料，該定時資訊可以與定時元資料軌道所引用的(referenced by)媒體軌道內的時變(time-variant)媒體資料同步。例如，這種外部定時元資料軌道參考機制使得分別生成媒體軌道和定時元資料軌道成為可能，並提供媒體和定時元資料軌道之間的多對多(m到n)關聯關係。例如，可以將多個感興趣的球形區域指定為多個推導的球形媒體內容的定時元資料(例如，根據編輯者剪輯，終端用戶的流行選擇等)。

與定時元資料軌道806不同，本文描述的技術在推導軌道內的元資料框中使用元資料。如這裏所解釋的，在層級結構的各個層的推導軌道可以不具有在變體軌道中携帶的媒體資料。通過根據本文描述的技術在推導的軌道中包括元資料框，元資料可以通過軌道層級與推導的軌道相關聯的特定變體軌道相關聯(例如，即使變體軌道本身不携帶媒體資料)。推導軌道中的元資料可以指定用於軌道推導操作的元資料(例如，幀打包、投影、映射、平鋪等)。特別地，這裏描述的技術可以用於指定用於推導多視圖媒體的多個軌道的推導操作的元資料，例如推導立體媒體的左和右2D軌道的推導操作。相反，定時元資料通常不用於推導操作，並且在執行推導操作時可以完全忽略。還不能以使得它可以與包括在層級結構中的不同軌道中的基礎媒體資料(underlying media data)相關聯這樣的方式指定定時元資料。

如第8A-8B圖所示，分層元資料存儲可以添加對軌道推導層級中的幀打包的支持，並管理應用於整個組合圖像的相關元資料(例如，ProjectedLeftPicture和ProjectedRightPicture)以及來自進適用於子圖像的元資料(例如，TwoDimensionalSpatialRelationship和VariantPictureBox)和/或應用到層級結構的其他軌道的其他元資料(例如，ProjectedOmniVideoBox和RegionWisePackingBox)的幀打包推導操作的相關元資料。分層元資料存儲可以避免導致不必要的字節計數開銷的重複元資料聲明。分層元資料存儲可以保持與解析器的向後兼容性，忽略子圖像組合信令(例如，只有VariantPictureBox存儲在具有媒體內容的軌道中，忽略該信令將能够保持向後兼容性)，和/或兩者。

第9圖示出了根據一些實施例的示例性解碼過程900。如本文所討論的，變體軌道包括實際圖像資料。如參見第8A-8B圖所示，在步驟902，解碼設備(例如，解碼設備110)最初在交替的變體軌道820、822中進行選擇，以選擇代表子圖像區域(或子圖像軌道)818的一個。在步驟904，解碼設備將子圖像軌道818圖塊化並組合成2D大圖像軌道816。解碼器可以使用子圖像軌道818中的元資料，例如2dcc框。解碼器可以使用子圖像軌道中携帶的元資料來確定二維空間關係資料，例如指示坐標系中的位置的資料、坐標系、坐標系的方向等。

在步驟906，解碼對2D軌道816進行反向映射，例如，重新排列一些部分，以生成投影的2D軌道814。解碼器可以使用2D軌道816中的元資料，例如rwpk框。解碼器可以使用元資料來確定區域性打包元資料，諸如關於打包的二維軌道中的打包區域與投影的二維軌道中的投影區域之間的關係的資料。

在步驟908，解碼器反向幀打包投影的2D軌道814以生成左和右投影的2D軌道812和810。解碼器使用投影的2D軌道814中的元資料來確定幀打包元資料，例如關於左和右2D軌道的打包相關的資料(例如，頂部和底部、並排等)。在一些實施例中，解碼器可以使用在StereoVideoBox中提供的資訊來取消幀打包以推導投影的左和右軌道(例如，根據stereo_indication_type的第一字節，其可以指示兩個投影的左右圖像軌道是幀打包的，如本文所討論的)。

在步驟910，解碼器將左2D投影軌道810反向投影回3D軌道802，其為原始左3D圖像。解碼器可以使用左2D投影軌道810中的元資料(例如，proj框)。在步驟912，解碼器使用3D軌道802中的元資料(例如，ster框)構建3D立體軌道。解碼器可以確定立體視訊軌道分組元資料，其可以包括指示球形內容軌道是用於立體視圖的左視圖還是右視圖的資料。在用於右視圖的步驟914和916處，類似於用於左視圖的步驟910和912，解碼器將右2D投影軌道812反向投影回3D軌道804，並使用3D軌道804中的元資料構建3D立體軌道。

如第9圖所示，當解碼過程通過軌道層級進行時，繼承元資料，包括用於反向幀打包推導操作的元資料。例如，如結合第8A圖-第9圖所示和討論的那樣，包括在每個軌道層的元資料框通過包含在層級結構中的相關聯的推導軌道中而被繼承。可以使用這種繼承以更有效的方式指定繼承的元資料，使得可以節省元資料、可以使解碼處理更有效(例如，因為元資料在必要的推導軌道處指定)等。例如，層級結構可以用於從上到下確定元資料和/或屬性，而對於平面檔案系統，元資料和/或屬性不能在逐級(level-by-level)的基礎上確定。

作為說明性示例，元資料(例如，諸如prol和pror之類的元資料)可以被包括在層級結構中的幀打包之上的層處的軌道層級中。元資料可用於從幀打包軌道恢復方向軌道(例如，左和右幀)。否則，如果元資料不包括在層級結構中，則会缺失為解碼幀打包內容用於生成多視圖內容(例如，立體視圖)所需的元資料。因此，元資料可以用於根據幀打包的執行方式(例如，如第6B圖所示)來撤消幀打包。

第10圖示出了根據一些實施例的用於編碼多方向視訊資料的示例性編碼方法1000。在步驟1002A和1002B，編碼設備(例如，編碼設備104)接收左和右3D球形軌道。在步驟1004A和1004B，編碼設備分別編碼左和右投影的2D軌道，每個軌道處於層級式軌道結構中的相關層。例如，參考第8A圖所示，左3D和投影2D軌道各自處於軌道802和810所示的層，使得左2D投影軌道810處於左3D軌道802的第一層下方的層級式軌道結構中的第二層。在步驟1006，編碼設備執行幀打包操作以創建幀打包的投影2D軌道。幀打包的投影2D軌道處於左/右3D軌道和左/右投影2D軌道下方的層級中的第三層。例如，參考第10圖所示，投影的2D軌道814在左/右3D視訊軌道802/804和L/R投影的2D視訊軌道810/812下方。

在步驟1008，編碼設備對幀打包的2D投影軌道中的元資料進行編碼，以供解碼器在執行反向幀打包操作時使用。在一些實施例中，解碼過程可以為推導軌道生成附加元資料。例如，如本文所解釋的，元資料可以指定用於推導的軌道的資訊和/或用於推導操作以生成多視圖媒體的各種視圖的資訊。在一些實施例中，元資料可以包括“stvi”元資料框。在一些實施例中，元資料可以包括'prol'和'pror'，其可以用於根據幀打包的執行方式來指定如何撤消幀打包。

如本文所述，編碼設備可以編碼層級結構的軌道中的其他元資料。例如，可以在基於層級中較低的推導軌道的元資料和/或視訊內容執行軌道的推導操作時生成元資料。在一些實施例中，元資料可以包括包括標志(flag)或位元值的條目(entry)。例如，該條目可以指示生成所推導的軌道的媒體資料(例如，與在推導之前不存在媒體資料相比較)。在一些實施例中，元資料可以指示時間和/或日期資訊。例如，元資料可以指示完成媒體資料推導的時間和/或日期。在一些實施例中，元資料可以包括關於推導操作的其他資訊。例如，如本文所述，元資料可以包括“alte”元資料，例如來自所選擇的交替軌道的編解碼資訊(例如，與所選擇的交替軌道的圖像解析度、幀速率等相關的元資料)。作為另一示例，元資料可包括“2dcc”元資料，諸如來自子圖像軌道的編解碼資訊(例如，與來自子圖像軌道的圖像解析度範圍、幀速率等有關的元資料)。在一些實施例中，元資料可以包括“rwpk”元資料，諸如來自區域性打包軌道的編解碼資訊(例如，與來自區域性打包軌道的圖像解析度，幀速率等相關的元資料)。在一些實施例中，區域性打包軌道可以是來自“2dcc”推導的子圖像組合軌道。在一些實施例中，元資料可以包括“povd”元資料，諸如來自投影軌道的編解碼資訊(例如，與投影軌道的圖像解析度範圍、幀速率等相關的元資料)。在一些實施例中，元資料可以包括“ster”元資料，諸如來自兩個(例如，左和右)球形軌道的編解碼資訊(例如，與來自兩個球形軌道的圖像解析度範圍、幀速率等相關的元資料)。在ISO/IEC 14496-12中描述了這樣的元資料的這些和其他示例，其適合於在基於層級中較低的推導軌道的元資料和/或視訊內容執行軌道的推導操作時生成。ISOBMFF描述了用於視訊軌道的任何(例如，常規以及推導的)樣本的元資料(例如，通用元資料)的各種元資料框和屬性。參見，例如，ISOBMFF，表1。

第11圖是示出根據一些實施例的與將元資料包括在變體軌道中的技術相比，當元資料被包括在推導軌道中時的元資料使用的表1100。列(Column)1102示出了元資料的示例，諸如ProjectedOmniVideoBox(proj框)等，如本文所討論的。當元資料包括在如本文所述的推導軌道中時，列1104示出了列1102中的相關聯的層的每個元資料框的數量。列1104示出了當元資料包括在變體軌道中時列1102中相關聯的層的每個元資料框的數量。作為概括，M×N表示每個圖像的子圖像網格的尺寸。L表示不同變體軌道的數量。相比於使用平面結構時，每個需要的L x M x N，如列1104所示，當在軌道層級中指定元資料時，僅需要ProjectedOmniVideoBox和RegionWisePackingBox中的一個。類似地，相比於使用平面結構(flat structure)時，每個需要的L x M x N，對於SubPictureCompositionBox，在指定軌道層級結構中的元資料時僅需要M x N。

根據本文描述的原理操作的技術可以以任何合適的方式實現。上面的流程圖的處理和決策塊表示可以包括在執行這些各種過程的演算法中的步驟和動作。從這些過程推導的演算法可以實現為與一個或多個單用途或多用途處理器的操作集成並指導其操作的軟體，可以實現為功能等效電路，例如數位信號處理(DSP)電路或應用-特定積體電路(ASIC)，或者可以以任何其他合適的方式實現。應當理解，這裏包括的流程圖不描繪任何特定電路或任何特定程式語言或程式語言類型的語法或操作。相反，流程圖示出了所屬領域具有通常知識者可以用來製造電路或實現計算機軟體演算法以執行本文所述技術類型的特定裝置的處理的功能資訊。還應當理解，除非本文另有指示，否則每個流程圖中描述的特定步驟和/或動作序列僅僅是對可以實現的演算法的說明，並且可以在本文描述的原理的實現和實施例中變劃。

因此，在一些實施例中，本文描述的技術可以體現為實現為軟體的計算機可執行指令，包括作為應用軟體、系統軟體、韌體、中間件、嵌入代碼或任何其他合適類型的計算機代碼。這樣的計算機可執行指令可以使用許多合適的程式語言和/或程式或脚本工具中的任何一種來編寫，並且還可以被編譯為在幀或虛擬機上執行的可執行機器語言代碼或中間代碼。

當本文描述的技術體現為計算機可執行指令時，這些計算機可執行指令可以以任何合適的方式實現，包括作為多個功能設施，每個功能設施提供一個或多個操作以完成根據這些技術操作的演算法的執行。然而，實例劃的“功能設施”是計算機系統的結構組件，當與一個或多個計算機集成並由一個或多個計算機執行時，使得一個或多個計算機執行特定的操作角色。功能設施可以是軟體元素的一部分或整個軟體元素。例如，功能設施可以根據過程，或作為離散過程，或作為任何其他合適的處理單元來實現。如果這裏描述的技術被實現為多功能設施，則每個功能設施可以以其自己的方式實現；所有這些都不需要以同樣的方式實現。另外，這些功能設施可以適當地並行和/或串行地執行，並且可以使用它們正在執行的計算機上的共享記憶體，使用消息傳遞協議，或者其他合適的方式在任何一個之間在彼此之間傳遞資訊。

通常，功能設施包括執行特定任務或實現特定抽象資料類型的例程、程式、對象、組件、資料結構等。通常，功能設施的功能可以根據需要在它們運行的系統中組合或分布。在一些實現中，執行本文技術的一個或多個功能設施可以一起形成完整的軟體包。在備選實施例中，這些功能設施可以適於與其他不相關的功能設施和/或過程交互，以實現軟體程序應用。

這裏已經描述了用於執行一個或多個任務的一些示例性功能設施。然而，應當理解，所描述的功能設施和任務劃分僅僅是可以實現本文描述的示例性技術的功能設施的類型的說明，並且實施例不限於以任何特定數量、劃分，或功能設施的類型。在一些實現中，所有功能可以在單個功能設施中實現。還應當理解，在一些實施方式中，本文描述的一些功能設施可以與其他功能設施一起實施或與其他功能設施分開實施(即，作為單個單元或單獨的單元)，或者可以不實現這些功能設施中的一些。

在一些實施例中，實現本文描述的技術的計算機可執行指令(當實現為一個或多個功能設施或以任何其他方式實施時)可以在一個或多個計算機可讀介質上編碼以向媒體提供功能。計算機可讀介質包括諸如硬碟驅動器之類的磁介質，諸如光碟(CD)或數位通用碟(DVD)之類的光學介質，持久或非持久固態記憶體(例如，閃存，磁性RAM等)或任何其他合適的存儲介質。這種計算機可讀介質可以以任何合適的方式實現。如這裏所使用的，“計算機可讀介質”(也稱為“計算機可讀存儲介質”)指的是有形存儲介質。有形存儲介質是非暫時性的並且具有至少一個實體結構組件。在如本文所使用的“計算機可讀介質”中，至少一個實體結構組件具有至少一個實體特性，該特性可在創建具有嵌入資訊的介質的過程期間以某種方式改變，在其上記錄資訊的過程，或用資訊編碼媒體的任何其他過程。例如，可以在記錄過程期間改變計算機可讀介質的實體結構的一部分的磁劃狀態。

此外，上述一些技術包括以某些方式存儲資訊(例如，資料和/或指令)以供這些技術使用的動作。在這些技術的一些實現中-諸如將技術實現為計算機可執行指令的實現-該資訊可以在計算機可讀存儲介質上編碼。在本文中將特定結構描述為存儲該資訊的有利格式的情况下，這些結構可用於在編碼在存儲介質上時賦予資訊的實體組織。然後，這些有利結構可以通過影響與資訊交互的一個或多個處理器的操作來向存儲介質提供功能；例如，通過提高處理器執行的計算機操作的效率。

在其中技術可以體現為計算機可執行指令的一些但非全部實現中，這些指令可以在任何合適的計算機系統中一個或多個計算設備中操作的一個或多個合適的計算設備上執行，或者，一個或多個計算設備(或一個或多個計算設備的一個或多個處理器)可以被程式劃為執行計算機可執行指令。計算設備或處理器可以被程式劃為當指令以計算設備或處理器可訪問的方式存儲時執行指令，例如在資料記憶體中(例如，片上高速緩存或指令寄存器、可通過總線訪問的計算機可讀存儲介質、可通過一個或多個網路訪問並可由設備/處理器訪問的計算機可讀存儲介質等)。包括這些計算機可執行指令的功能設施可以與以下設備的操作集成並指導其操作：單個多用途可程式劃數位計算設備、共享處理能力並且聯合執行本文描述的技術的兩個或更多個多用途計算設備的協調系統、專用於執行本文所述技術的單個計算設備或計算設備的協調系統(共址或地理分布)、用於執行本文所述技術的一個或多個現場可程式劃門陣列(FPGA)，或任何其他合適的系統。

計算設備可以包括至少一個處理器、網路適配器和計算機可讀存儲介質。計算設備可以是例如臺式或膝上型個人計算機、個人數位助理(PDA)、智能移動電話、服務器或任何其他合適的計算設備。網路適配器可以是任何合適的硬體和/或軟體，以使計算設備能够通過任何合適的計算網路與任何其他合適的計算設備進行有綫和/或無綫通信。計算網路可以包括無綫接入點、交換機、路由器、網關和/或其他網路設備以及用於在兩個或更多個計算機(包括因特網)之間交換資料的任何合適的有綫和/或無綫通信介質或介質。計算機可讀介質可以適於存儲要處理的資料和/或要由處理器執行的指令。處理器能够處理資料和執行指令。資料和指令可以存儲在計算機可讀存儲介質上。

計算設備可以另外具有一個或多個組件和外圍設備，包括輸入和輸出設備。除其他之外，這些設備可用於呈現用戶界面。可用於提供用戶界面的輸出設備的示例包括用於輸出和揚聲器或其他聲音生成設備的視覺呈現的打印機或顯示屏，用於輸出的可聽呈現。可以用於用戶界面的輸入設備的示例包括鍵盤和指示設備，諸如滑鼠、觸摸板和數位劃平板電腦。作為另一示例，計算設備可以通過語音識別或其他可聽格式接收輸入資訊。

已經描述了以電路和/或計算機可執行指令實現這些技術的實施例。應當理解，一些實施例可以是方法的形式，其中已經提供了至少一個示例。作為方法的一部分執行的動作可以以任何合適的方式排序。因此，可以構造這樣的實施例，其中以不同於所示的順序執行動作，其可以包括同時執行一些動作，即使在示例性實施例中示出為順序動作。

上述實施例的各個方面可以單獨使用、組合使用，或者在前面描述的實施例中沒有具體討論的各種布置中使用，因此不限於其應用於前面的描述或附圖中示出的上述實施例中闡述的部件的細節和布置。例如，一個實施例中描述的方面可以以任何方式與其他實施例中描述的方面組合。

在申請專利範圍中使用諸如“第一”、“第二”、“第三”等的序數術語來修改申請專利範圍元素本身並不意味著一個申請專利範圍要素相對於另一個的任何優先權、優先級或順序，或者執行方法時的行為時間上的順序，而僅用作標簽以將具有特定名稱的一個申請專利範圍元素與具有相同名稱的另一個元素區分(進用於使用序數術語)，以區分申請專利範圍元素。

此外，這裏使用的措辭和術語是出於描述的目的，而不應被視為限制。本文中“包括”、“包含”、“具有”、“含有”、“涉及”及其變劃形式的使用旨在涵蓋其後列出的項目及其等同物以及附加項目。

本文使用的“示例性”一詞意味著用作示例、實例或說明。因此，在此描述為示例性的任何實施例、實現、過程、特徵等應當被理解為說明性示例，並且除非另有指示，否則不應被理解為優選或有利示例。

已經如此描述了至少一個實施例的若干方面，應當理解，所屬領域具有通常知識者將容易想到各種改變、修改和改進。這些改變、修改和改進旨在成為本公開的一部分，並且旨在落入本文描述的原理的精神和範圍內。因此，前面的描述和附圖僅是示例性的。