TWI734951B

TWI734951B - 用於編碼和解碼虛擬實境內容的方法和裝置

Info

Publication number: TWI734951B
Application number: TW108101857A
Authority: TW
Inventors: 新王; 魯林陳
Original assignee: 新加坡商聯發科技（新加坡）私人有限公司
Priority date: 2018-01-17
Filing date: 2019-01-17
Publication date: 2021-08-01
Also published as: TW201933865A; CN110049330A; CN110049330B; US20190222822A1; US10939086B2

Abstract

本發明提供了一種處理多媒體資料的方法，裝置和電腦可讀介質。多媒體資料包括具有至少第一軌道和第二軌道的分層軌道結構，使得第一軌道處於分層軌道結構中的第一層，而第二軌道處於位於第一軌道的第一層之上的分層軌道結構中的第二層。第一元資料包含在第一軌道內，第二元資料包含在第二軌道內。可以通過基於第一元資料和第二元資料對與第一軌道相關聯的多媒體資料執行軌道導出操作來解碼多媒體資料，以生成第二軌道的多媒體資料，使得第二軌道是第一軌道的導出軌道。依據本發明提供的處理多媒體資料的方法，裝置和電腦可讀介質，可改善編解碼效率。

Description

用於編碼和解碼虛擬實境內容的方法和裝置

本發明是有關於視訊編解碼。本發明尤其是有關於一種關聯，存儲和/或發信虛擬實境（virtual reality, VR）屬性和/或元資料以及合成軌道導出（composition track derivation）的方法和裝置。

存在各種類型的3D內容（3D content）和多方向內容（multi-directional content）。例如，全向視訊（omnidirectional video）是使用一組攝像機捕獲的一種視訊，而不是像傳統單向視訊那樣只使用一台攝像機。例如，可以將攝像機放置在特定中心點周圍，使得每個攝像機捕獲場景的球形覆蓋上的一部分視訊以捕獲360度視訊。來自多個相機的視訊可以被縫合，旋轉，並被投影以生成表示球形內容的投影的二維圖像。例如，可以使用相等的矩形投影將球形圖放入二維圖像中。例如，然後可以使用二維編碼和壓縮技術對其進行進一步處理。最終，使用期望的傳送機制（例如，拇指驅動器（thumb drive），數位視訊光碟（digital video disk, DVD），檔下載，數位廣播和/或線上流傳輸）來存儲和傳送編碼和壓縮的內容。這種視訊可以用於虛擬實境（VR）和/或3D視訊。

在用戶端，當用戶端處理內容時，視訊解碼器對編碼和壓縮的視訊進行解碼並執行逆投影以將內容放回到球體上。然後，使用者可以查看所呈現的內容，例如使用頭戴式觀看設備。內容通常根據使用者的視埠（viewport）進行渲染，該視埠表示使用者查看內容的角度。視埠還可以包括表示觀看區域的元件，其可以描述觀看者在特定角度觀看的區域的大小和形狀。

當視訊處理不是以視埠相關的方式完成時，使得視訊轉碼器和/或解碼器不知道用戶將實際觀看什麼，則整個編碼，傳遞和解碼過程將處理整個球形內容。例如，這可以允許用戶在任何特定視埠和/或區域觀看內容，因為所有球形內容都被編碼，傳遞和解碼。

然而，處理所有球形內容可能是計算密集型的並且可能消耗大量頻寬。例如，對於線上流媒體應用，處理所有球形內容會對網路頻寬造成非必要的更大的負擔。因此，當頻寬資源和/或計算資源有限時，可能難以保持較好用戶的體驗。某些技術僅處理使用者正在查看的內容。例如，如果使用者正在觀看頂部區域（例如，北極），則不需要傳送底部部分（例如，南極）的內容。如果用戶更改視埠，則可以相應地為新視埠傳遞內容。作為另一示例，對於自由視點TV（free viewpoint TV, FTV）應用（例如，使用多個相機捕獲場景的視訊），可以根據使用者正在觀看場景的角度來傳送內容。例如，如果用戶正在從一個視埠（例如，相機和/或相鄰相機）查看內容，則可能不需要為其他視埠傳送內容。

根據本發明的實施方式，提供一種用於關聯，存儲和/或發信虛擬實境（virtual reality, VR）屬性和/或元資料以及軌道合成的裝置，系統和方法。

依據本發明的一實施方式，提供一種用於解碼視訊資料的解碼方法。該方法包括接收包括分層軌道結構的多媒體資料，該分層軌道結構包括至少第一軌道和第二軌道，其中第一軌道在分層軌道結構中處於第一層，並且第二軌道處於分層軌道中在第一軌道的第一層之上的第二層結構。該方法包括確定包含在第一軌道內的第一元資料和包含在第二軌道內的第二元資料。該方法包括解碼多媒體資料，包括：基於第一元資料和第二元資料，對與第一軌道相關聯的媒體資料執行軌道導出操作，以生成第二軌道的媒體資料，使得第二軌道是第一軌道的導出軌道。

在一些示例中，第一軌道或第二軌道包括球形三維內容軌道，並且確定第一元資料或第二元資料包括確定立體視訊軌道分組元資料，其中立體視訊軌道分組元資料包括指示是否球形內容軌道用於立體視圖的左視圖或右視圖的資料。

在一些示例中，第一軌道或第二軌道包括投影的二維軌道，並且確定第一元資料或第二元資料包括確定投影的全向視訊元資料，其中投影的全向視訊元資料包括關於投影的二維軌道的投影格式的資料，區域式封裝資料，指示局部坐標軸和全域坐標軸之間的轉換的資料，指示內容覆蓋的資料，或其某種組合。

在一些示例中，第一軌道或第二軌道包括封裝的二維軌道，並且確定第一元資料或第二元資料包括確定區域式封裝元資料，其中區域式封裝元資料包括在封裝的二維軌道中的封裝區域和在投影的二維軌道中的投影區域之間的關係。

在一些示例中，第一軌道包括子圖像軌道，並且確定第一元資料包括確定二維空間關係資料，其中二維空間關係資料包括指示坐標系中的位置，坐標系，坐標系的方向或其組合的資料。

在一些示例中，解碼多媒體資料包括：基於第一元資料，對與第一軌道相關聯的多媒體內容執行第二軌道導出操作，以生成第二軌道的多媒體資料。第一軌道可以與多個變體軌道（variant tracks）相關聯，每個變體軌道包括多媒體資料，並且執行軌道導出操作可以包括在多個變體軌道上執行軌道導出操作以生成第二軌道的多媒體資料。

在一些示例中，該方法還包括為第二軌道生成新元資料。生成新元資料可以包括基於軌道導出操作生成一個或多個元資料，指示編碼資訊的元資料，或兩者。

在一些示例中，執行第一軌道導出操作或第二軌道導出選項包括執行軌道網格合成操作，包括基於第一元資料源確定軌道網格合成元資料，基於不同於第一元資料源的第二元資料源確定混合元資料，以及基於軌跡網格合成元資料和混合元資料執行軌跡網格合成操作。確定軌道網格合成元資料可以包括確定輸出網格合成的維度，網格合成的行數，網格合成的列數，或其組合，並且確定混合元資料包括確定軌道疊加合成元資料。

一些方面涉及用於編碼視訊資料的方法。該方法可以包括編碼具有分層軌道結構的多媒體資料，該分層軌道結構包括至少第一軌道和第二軌道，其中第一軌道在分層軌道結構中處於第一層，並且第二軌道處於分層軌道結構中的在第一軌道的第一層之上的第二層中。該方法包括編碼第一軌道內的第一元資料和第二軌道內的第二元資料，使得可以通過基於第一元資料和第二元資料，對與第一軌道相關的多媒體資料上執行軌道導出操作，以產生第二軌道的多媒體資料，以使得使得第二軌道是第一軌道的導出軌道。

在一些示例中，第一軌道或第二軌道包括球形三維內容軌道，並且編碼第一元資料或第二元資料包括編碼立體視訊軌道分組元資料，其中立體視訊軌道分組元資料包括指示是否球形內容軌道用於立體視圖的左視圖或右視圖的資料。

在一些示例中，第一軌道或第二軌道包括投影的二維軌道，並且編碼第一元資料或第二元資料包括編碼投影的全向視訊元資料，其中投影的全向視訊元資料包括關於投影二維軌道的投影格式的資料，區域式封裝資料，指示局部坐標軸和全域坐標軸之間的轉換的資料，指示內容覆蓋的資料，或其組合。

在一些示例中，第一軌道或第二軌道包括封裝的二維軌道，並且編碼第一元資料或第二元資料包括編碼區域式封裝元資料，其中區域式封裝元資料包括在封裝的二維軌道中的封裝區域和在投影的二維軌道中的投影區域之間的關係。

在一些示例中，第一軌道包括子圖像軌道，並且編碼第一元資料包括編碼二維空間關係資料，其中二維空間關係資料包括指示坐標系中的位置，坐標系，坐標系的方向或其組合的資料。

在一些示例中，該方法還包括編碼用於軌道網格合成操作的元資料，包括編碼包括軌道網格合成元資料的第一元資料源，以及編碼與第一元資料源不同的第二元資料源，其中第二元資料源包括：混合元資料。

在一些實施例中，編碼軌道網格合成元資料包括編碼輸出網格合成的維度，網格合成的行數，網格合成的列數或其組合，並且編碼混合元資料包括編碼軌道疊加組合元資料。

一些實施例涉及一種被配置為解碼視訊資料的裝置。該裝置包括與記憶體通信的處理器，該處理器被配置為執行存儲在記憶體中的指令，該指令使處理器接收包括至少包括第一軌道和第二軌道的分層軌道結構的多媒體資料，其中第一軌道是在分層軌道結構中的第一層，並且第二軌道是在分層軌道結構中的第一軌道的第一層上方的第二層。指令使處理器確定包含在第一軌道內的第一元資料和包含在第二軌道內的第二元資料，並解碼多媒體資料，包括基於第一元資料和第二元資料對於第一軌道相關的多媒體資料執行軌道導出操作，以產生用於第二軌道的多媒體資料，以使得第二軌道是第一軌道的導出軌道。

一些實施例涉及用於編碼視訊資料的裝置。該裝置包括與記憶體通信的處理器，該處理器被配置為執行存儲在記憶體中的指令，該指令使處理器編碼包括至少包括第一軌道和第二軌道的分層軌道結構的多媒體資料，其中第一軌道是在分層軌道結構中的第一層，並且第二軌道是在分層軌道結構中第一軌道的第一層之上的第二層。指令使處理器對第一軌道內的第一元資料和第二軌道內的第二元資料進行編碼，使得可以通過基於第一元資料和第二元資料，對與第一軌道相關的多媒體資料執行軌道導出操作來解碼多媒體資料，以生成第二軌道的多媒體資料，使得第二軌道是第一軌道的導出軌道。

依據本發明提供的處理多媒體資料的方法，裝置和電腦可讀介質，可改善編解碼效率。

因此，已經相當廣泛地概述了所公開的主題的特徵，以便可以更好地理解隨後的詳細描述，並且可以更好地理解對本領域的貢獻。當然，所公開的主題的附加特徵將在下文中描述，並且將形成所附請求項的主題。應理解，本文採用的措辭和術語是出於描述的目的，不應視為對請求項的限制。

可以使用各種技術來改進現有的視訊編碼技術。某些技術利用軌道層次結構中的軌道將元資料存儲在層次結構中的適當層。以利用軌道分層結構的方式存儲元資料可以顯著減少為每個子圖像指定的元資料箱的數量（metadata boxes），並且改善影像處理（例如，與在子圖像層存儲所有這樣的元資料的技術相比）。這些技術可以避免重複元資料聲明，從而節省大量的位元組數開銷。一些技術將組合過程/資訊與覆蓋及/或混合過程/資訊分開。例如，該技術可以允許解碼設備先將軌道合成在一起，然後使用不同的變換來執行混合（例如，合成圖片和背景之間的混合）。這些技術和其他相關技術在本文中進一步討論。

在以下描述中，闡述了關於所公開的主題的系統和方法以及這些系統和方法可以操作的環境等的許多具體細節，以便提供對所公開的主題的透徹理解。另外，應當理解，下面提供的是示例性的例子，並且預期存在所公開的主題的範圍內的其他系統和方法。

第1圖示出了根據一些實施例的示例性視訊編解碼配置100。攝像機102A-102N是N個攝像機，並且可以是任何類型的攝像機（例如，包括音訊記錄能力的攝像機，和/或單獨的攝像機和音訊記錄功能）。編碼設備104包括視訊處理器106和編碼器108。視訊處理器106處理從相機102A-102N接收的視訊，例如拼接，投影和/或映射。編碼器108對二維視訊資料進行編碼和/或壓縮。解碼設備110接收編碼資料。解碼設備110可以通過廣播網路，通過移動網路（例如，蜂窩網路）和/或通過網際網路來接收視訊作為視訊產品（例如，數位視訊光碟或其他電腦可讀介質）。解碼設備110可以是例如電腦，手持設備，頭戴式顯示器的一部分，或具有解碼能力的任何其他設備。解碼設備110包括解碼器112，其被配置為對編碼視訊進行解碼。解碼設備110還包括渲染器114，用於將二維內容渲染回一個球形內容。顯示器116顯示來自渲染器114的渲染內容。

通常，可以使用球形內容來表示3D內容以提供場景的360度視圖（例如，有時被稱為全向媒體內容）。雖然可以使用3D球體支援許多視圖，但終端使用者通常僅查看3D球體上的一部分內容。傳輸整個3D球體所需的頻寬會給網路帶來沉重的負擔，並且可能不足以支援球形內容。因此，期望使3D內容傳遞更有效。可以執行視埠（Viewport）相關處理以改進3D內容傳遞。 3D球形內容可以被劃分為區域/圖塊/子圖像，並且只有與觀看螢幕（例如，視埠）相關的那些內容可以被發送並傳遞給終端使用者。

第2圖示出了根據一些示例的用於VR內容的視埠依賴內容(viewport dependent content)的處理流程200。如圖所示，球形視埠201（例如，其可以包括整個球體）在塊202處經歷縫合，投影，映射（以生成已投影和已映射的區域），在塊204處被編碼（以生成多種品質(multiple qualities)的編碼/轉碼圖塊(tiles)）在塊206處傳送（作為圖塊），在塊208處解碼（以生成解碼的圖塊），在塊210處被構建（以構建球形渲染的視埠），並且在塊212處渲染。塊214處的用戶交互可以選擇一個視埠，它啟動了許多“即時”處理步驟，如虛線箭頭所示。

在過程200中，由於當前網路頻寬限制和各種適應要求（例如，關於不同品質，轉碼器和保護方案），首先將3D球形VR內容進行處理（拼接，投影和映射）至2D平面（通過塊202）然後以多個圖塊和分段檔為基礎（或以子圖像為基礎）進行封裝以用於傳送和重播（在塊204處）。在這種基於圖塊和分段的檔中，2D平面中的空間區塊（例如，其表示空間部分，通常是2D平面內容的矩形形狀）通常被封裝為其變體(variants)的集合，例如具有不同的品質和位元速率，或不同的轉碼器和保護方案（例如，不同的加密演算法和模式）。在一些示例中，這些變體對應於MPEG DASH中的自我調整集內的表示。在一些示例中，基於用戶在視埠上的選擇，不同圖塊的這些變體中的一些當放在一起時提供所選視埠的覆蓋，並由接收器檢索或傳遞給接收器（通過傳送塊206），然後解碼（在塊208）以構造和渲染期望的視埠（在塊210和塊212處）。

如第2圖所示，視埠是終端使用者的視圖，它涉及球體上區域的角度和大小。對於360度內容，通常，該技術將所需的圖塊/子圖像內容傳遞給用戶端以覆蓋使用者將查看的內容。此過程取決於視埠，因為這些技術僅提供覆蓋當前感興趣視埠的內容，而不是整個球形內容。視埠（例如，一種球形區域）可以改變，因此不是靜態的。例如，當使用者移動他們的頭部時，系統需要獲取相鄰的圖塊（或子圖像）以覆蓋使用者下次想要查看的內容。

可以使用用於內容的平面檔結構(flat file structure)，例如，用於單個電影的視訊軌道。對於VR內容，存在的內容多於接收設備發送和/或顯示的內容。例如，如本文所討論的，可以存在整個3D球體的內容，其中使用者僅觀看一小部分。為了更有效地編碼，存儲，處理和/或傳遞這樣的內容，可以將內容劃分成不同的軌道。第3圖示出了根據一些實施例的示例性軌道分層結構300。頂部軌道302是3D VR球形內容軌道，並且在頂部軌道302下方是關聯的元資料軌道304（每個軌道具有關聯的元資料）。軌道306是2D投影軌道。軌道308是2D大圖像軌道。區域軌道被示為軌道310A至310R，通常被稱為子圖像軌道310。每個區域軌道310具有一組相關聯的變體軌道。區域軌道310A包括變體軌道312A到312K。區域軌道310R包括變體軌道314A到314K。因此，如軌道層次結構300所示，可以先開發具有物理多變數區域軌道（physical multiple variant region tracks）312的結構，並且可以為區域軌道310（子圖像或平鋪軌道）建立軌道層級，利用與其相關的適當元資料軌道，投影和封裝2D軌道308，投影的2D軌道306和VR 3D視訊軌道302。

在操作中，變體軌道包括實際圖像資料。設備在交替(alternating)的變體軌道中進行選擇，以選擇代表子圖像區域（或子圖像軌道）310的軌道。子圖像軌道310被平鋪並一起組成2D大圖像軌道（2D big picture track）308。最後，軌道308被逆映射，例如，重新排列一些部分以產生軌道306。然後將軌道306逆投射回3D軌道302，3D軌道302是原始3D圖像。

示例性軌道分層結構可以包括在一些會議論文中（例如，MPEG (ISO/IEC SC29 WG11)會議文件。即，會議文件m39971, “Deriving Composite Tracks in ISOBMFF”, January 2017 (Geneva, CH); 會議文件m40384, “Deriving Composite Tracks in ISOBMFF using track grouping mechanisms”, April 2017 (Hobart, AU); 會議文件m40385, “Deriving VR Projection and Mapping related Tracks in ISOBMFF”; 會議文件m40412, “Deriving VR ROI and Viewport related Tracks in ISOBMFF”, MPEG 118th meeting, April 2017）。在第3圖中，rProjection，rPacking，compose和alternate分別代表軌道導出TransformProperty項目逆'proj'，逆'pack'，'cmpa'和'cmp1'。此處僅用於說明的目的而不具有限制性。元資料軌道中示出的元資料類似地用於說明性目的而不是限制性的。例如，可以使用來自OMAF的元資料箱（w17235, “Text of ISO/IEC FDIS 23090-2 Omnidirectional Media Format,” 120th MPEG Meeting, October 2017 (Macau, China)）。

第3圖中所示的軌道數量僅用於說明而非限制本發明。例如，在如第3圖所示的層級中不一定需要一些中間導出軌道的情況下，相關的導出步驟可以組成一個（例如，其中逆封裝和逆投影被組合在一起以消除投影軌道306的存在。

第4圖示出了根據一些示例的用於立體視訊的左立體圖像402A-402N（統稱為左立體圖像402）和右立體圖像404A-404N（統稱為右立體圖像404）的序列。在該示例中，每個圖片402,404被劃分為9乘9的子圖像網格。根據一些技術，為每個子圖像指定元資料/屬性。例如，每個子圖像可以包括用於指示其子圖像軌道的元資料，與其投影有關的資料，子圖像的較大圖像，子圖像的品質和/或其他相關資料。可以在元資料箱中指定元資料。如第4圖所示，元資料可包括立體視訊組元資料箱StereoVideoGroupBox（ster）410，投影的全向視訊元資料箱ProjectedOmniVideoBox（povd）412，區域式封裝元資料箱RegionWisePackingBox（rwpk）414，二維空間關係TwoDimensionalSpatialRelationship（2dcc）416和變圖像箱VariantPictureBox（vpct）418。這些元資料箱旨在說明而非限制，而且也可以使用其他元資料箱。

一些技術將該元資料與在子圖像軌道（例如，變體區域軌道312）中每個子圖像一起存儲。第5圖示出了根據一些示例的具有變體軌道的示例性元資料存儲結構500。如結合第3圖所討論的那樣，每個區域軌道包括一組相關的變體軌道。如第5圖所示，第一區域軌道（為簡單起見未示出）包括變體軌道502A到502K（統稱為變體軌道502）。第二區域軌道（也未示出）包括變體軌道504A到504K（統稱為變體軌道504）。每個變體軌道502，504存儲元資料，包括在該非限制性示例中的立體視訊組元資料箱StereoVideoGroupBox ster 510，投影的全向視訊元資料箱ProjectedOmniVideoBox（povd）512，區域式封裝元資料箱RegionWisePackingBox（rwpk）514和二維空間關係TwoDimensionalSpatialRelationship（2dcc）516。

StereoVideoGroupBox（ster）510可以指定與立體視訊軌道分組相關的屬性和/或元資料。例如，StereoVideoGroupBox（ster）510可以包括在OMAF中為StereoVideoGroupBox指定的語法。例如，StereoVideoGroupBox（ster）r 510可以指示軌道是適合於在立體顯示器上重播的立體圖像對（stereo pair）的左視圖或右視圖。例如，可以使用布林值，其中0值表示立體圖像對的右視圖，1值表示身歷聲對的左視圖。在一些實施例中，具有相同軌道組識別字的軌道形成立體圖像對。

ProjectedOmniVideoBox（povd）512可用于為全向視訊指定受限視訊方案的屬性和/或元資料。例如，ProjectedOmniVideoBox（povd）512可以包括用於ProjectedOmniVideoBox的OMAF中指定的語法。例如，povd 512可以指示投影圖像的投影格式（例如，包含在軌道中的單視場視訊的C，用於立體視訊的左視圖和右視圖的CL和CR等），區域式包裝（例如，當適用時），用於在局部坐標軸和全域坐標軸之間進行轉換的旋轉（例如，如果應用的話），軌道的內容覆蓋範圍，及/或其他相似資料。在一些實施例中，ProjectedOmniVideoBox（povd） 512被稱為PROJ箱。

RegionWisePackingBox（rwpk）514可以包括與全向圖像的存儲相關的屬性和/或元資料。區域式封裝資料可以指定封裝區域和對應的投影區域之間的映射，保護帶（guard bands）的位置和大小，或其他。例如，RegionWisePackingBox（rwpk） 514可以包括在OMAF中指定的語法以用於RegionWisePackingBox。在一些示例中，RegionWisePackingBox（rwpk）514包括RegionWisePackingStruct，其也在OMAF中指定。例如，RegionWisePackingStruct可以包括指示投影圖片的寬度和高度的資料，封裝圖片的寬度和高度，立體投影圖片的資料，用於兩個組成圖片中的每個投影區域和封裝區域的資料或者發送至投影區域和相應的封裝區域的資料（例如，指示保護帶的存在，封裝類型，矩形區域封裝結構中的投影區域和相應封裝區域之間的映射，保護帶中的一個或多個資料），或其他相似資料。

TwoDimensionalSpatialRelationship（2dcc）516可以指定與二維關係相關的屬性和/或元資料。例如，元資料可以指示軌道屬於具有2D空間關係的軌道組（例如，對應於視訊源的平面空間部分）。TwoDimensionalSpatialRelationship（2dcc）516可以指定坐標系（例如，包括寬度和/或高度），軌道的源或其他。在一些實施例中，TwoDimensionalSpatialRelationship（2dcc）2dcc被稱為子圖像合成箱（SPCO）。

與視訊編碼有關的現有技術中，需要在子圖像軌道中存儲元資料。特別地，現有技術需要為每個視訊定義大量元資料，例如立體視訊。例如，如果每個圖像是如第4圖所示的9×9的子圖像網格。然後，對於每個左右立體圖像對，存在2×9×9×5個子圖像，或總共810個子圖像。如果每個子圖像具有如第5圖所示的五個元資料箱，然後810個子圖像x 5個元資料箱總共等於4050個元資料箱。因此，如果每個子圖像攜帶所有這些元資料箱，則這種技術可以導致為每個立體圖像對定義和存儲大量元資料箱。發明人還意識到，如果所有元資料都存儲在子圖像層，則可能難以確定每個子圖像軌道與其他軌道之間的關聯。例如，如果解碼器需要處理整個圖像，則解碼器可能需要遍歷所有軌道以找出哪個變體軌道是相同子圖像的變體軌道，等等。

依據本發明的實施方式，已經開發了對現有視訊編碼技術的技術改進，以顯著減少為每個子圖像指定的元資料箱的數量，並改善影像處理。依據本發明的實施方式，當使用平面結構來指定子圖像層的元資料時（例如，如第5圖所示），各種元資料可以是多餘的，因為它在一些或所有子圖像上是共同的，例如，每個子圖像可以具有相同的投影格式，相同的封裝格式，相同的品質（例如，在特定品質的子圖像中），和/或其他。依據本發明的實施方式，已經開發了管理元資料的技術，該元資料與僅應用於子圖像軌道的元資料分開地應用于整個合成圖像。依據本發明的實施方式，可以避免元資料聲明的重複，從而節省了有效的位元組計數開銷（例如，與如結合第5圖所討論的現有技術相比）。依據本發明的實施方式，可以保持與忽略子圖像合成信令的解析器的向後相容性。例如，子圖像合成信令可以被舊解析器忽略，因為其不能識別此信令，以使得剩餘的信令資訊與較舊的解析器相容。

這些技術可以包括利用軌道層次結構（例如，結合第3圖討論的層次結構）來將軌道中的元資料存儲於導出的媒體軌道中的適當軌道層級處。例如，如本文進一步討論的，不是在每個變體視訊軌道中存儲一些元資料（例如，如結合在第5圖中所討論的），元資料可以存儲在導出的軌道中。該技術可以將子圖像軌道相關屬性和/或元資料關聯，存儲和將其發送到層次結構中的適當導出軌道。這些技術可以從層次結構的頂部向下繼承存儲在派生媒體軌道中的其他元資料，而不是在每個變體子圖像軌道中存儲元資料。這些技術可以與OMAF檔解碼和渲染過程一致，其中元資料以更合適，邏輯和有效的方式相關聯，存儲和發信號。例如，投影和（區域式）封裝元資料箱被存儲到導出的投影和封裝圖像軌道中，而不是存儲在每個變體子圖像軌道中。

第6圖示出了根據一些實施例的示例性軌道分層結構600。頂部軌道602是3D VR球形內容軌道，並且在頂部軌道602下方是關聯的元資料軌道604（每個軌道具有關聯的元資料，如下面進一步示出和討論的）。軌道606是2D投影軌道。軌道608是2D大畫面軌道。區域軌道被示為軌道610A到610R，通常被稱為子圖像軌道610。每個區域軌道610具有一組相關聯的變體軌道。區域軌道610A包括變體軌道612A到612K。區域軌道610R包括變體軌道614A到614K。因此，如軌道層級結構600所示，可以先開發具有物理多變數區域軌道612的結構，並且可以為區域軌道610（子圖像或平鋪軌道）建立軌道層級，利用與其相關的適當元資料軌道，投影和封裝2D軌道608，投影的2D軌道606和VR 3D視訊軌道602。

不是在變體軌道中的變體軌道層指定所有屬性和/或元資料（例如，如第5圖中所示），第6圖示出了一種編碼方案，其中在軌道層次結構中的相關層的導出軌道中指定屬性和/或元資料。在該非限制性示例中，在VR 3D視訊軌道602中提供'ster'元資料箱，在2D軌道606中提供'povd'元資料箱，在投影和封裝的2D軌道608中提供'rwpk'元資料箱，以及'2dcc'元資料箱被提供在每個軌道610（子圖像或區塊軌道）中。如第6圖所示，存儲在導出軌道中的元資料與定時元資料軌道604是分開且不相同的。與在層次結構的導出軌道中指定的元資料箱不同，如本文進一步討論的，定時元資料軌道604是與變化和導出的文本格式軌道分開的檔案格式軌道。定時元資料軌道604通常用於不同的目的，而不是用於導出軌道內的元資料。例如，與可以在媒體軌道內的元資料箱內提供的元資料不同，定時元資料軌道604可以用於提供具有定時資訊的元資料，該定時資訊可以與定時元資料軌道引用的媒體軌道內的時變媒體資料同步。例如，這種外部定時元資料軌道參考機制可以分別生成媒體軌道和定時元資料軌道，並提供媒體和定時元資料軌道之間的多對多（m到n）關聯關係。例如，可以將多個感興趣的球形區域指定為多個導出的球形媒體內容的定時元資料（例如，根據編輯者剪輯，終端使用者的流行選擇等）。

與定時元資料軌道604不同，本描述的技術在導出軌道內的元資料箱中使用元資料。如本文所解釋的，在層次結構的各個層的導出軌道可以不具有在變體軌道中攜帶的媒體資料。通過根據本文描述的技術在導出的軌道中包括元資料箱，元資料可以通過軌道層級與與導出的軌道相關聯的特定變體軌道相關聯（例如，即使變體軌道本身不攜帶媒體資料）。導出軌道中的元資料可以指定用於軌道導出操作的元資料（例如，投影，映射，平鋪等）。相反，定時元資料通常不用於導出操作，並且在執行導出操作時可以完全忽略。還不能以這樣的方式指定定時元資料，使得它可以與包括在層次結構中的不同軌道中的基礎媒體資料相關聯。

如第6圖所示，分層元資料記憶體可以管理元資料（例如，ProjectedOmniVideoBox和RegionWisePackingBox），其應用于僅應用於子圖像軌道的元資料（例如，TwoDimensionalSpatialRelationship和VariantPictureBox）的整個合成圖像。分層元資料存儲可以避免重複元資料聲明（例如，ProjectedOmniVideoBox和RegionWisePackingBox），從而導致不必要的位元組計數開銷。分層元資料存儲可以保持與解析器的向後相容性，只要解析器忽略子圖像合成信令（例如，僅將VariantPictureBox存儲在具有媒體內容的軌道中，忽略該信令將能夠保持向後相容性），及/或其組合。

在一些實施例中，結合第4圖討論的VariantPictureBox 418不需要包含在層次結構中。例如，VariantPictureBox的定義可以是使用軌道選擇箱'tsel'來標記變體（子）圖像軌道並將它們作為備用軌道組來發送，以便具有相同組識別字和組類型的單個軌道類型屬於與特定子圖像軌道相關的相同組（例如，相同內容但具有不同位元速率或品質的軌道）。在一些實施例中，VariantPictureBox可以包括在層級中（例如，在變體軌道中）。在一些實施例中，可以包括“FisheyeOmnidirectionalVideoBox”和/或“StereoVideoBox”作為軌道的元資料箱，例如，用於（衍生的）魚眼圖片或立體視訊軌道的第3層（level 3）處（例如，並且存儲在其對應的導出的軌道中）。

第7圖示出了根據一些實施例的用於解碼視訊資料的示例性解碼方法700。在步驟702，解碼設備（例如，解碼設備110）接收使用分層軌道結構編碼的多媒體資料（例如，如第6圖所示）。多媒體資料包括兩個或更多個軌道（例如，2D投影軌道606和2D大圖像軌道608），每個軌道處於分層軌道結構中的相關層。例如，參考第3圖所示，第一軌道，3D球形內容軌道602位於分層軌道結構中的第一層（例如，頂部），第二軌道，2D投影軌道606，處於第一軌道的第一層之上的分層軌道結構中的第二層。在步驟704，解碼設備確定分層結構中的每個軌道內包含的元資料。在步驟706，解碼設備通過使用所確定的元資料對每個軌道執行導出操作來解碼多媒體資料。例如，如果多媒體資料具有兩個軌道，則解碼設備基於包含於第一軌道內的第一元資料執行第一軌道上的第一軌道導出操作以生成第一導出軌道，並基於第二軌道內的的第二元資料，在第一導出軌道上執行第二軌道導出操作以產生第二導出軌道。

在一些實施例中，解碼過程可以為導出軌道生成附加元資料。例如，可以在基於層級中較低的派生軌道的元資料和/或視訊內容執行軌道的派生操作時生成元資料。在一些實施例中，元資料可以包括具有標誌或比特值的條目。例如，該條目可以指示生成導出的軌道的多媒體資料（例如，與在導出之前不存在與多媒體資料相比較）。在一些實施例中，元資料可以指示時間和/或日期資訊。例如，元資料可以指示完成多媒體資料導出的時間和/或日期。在一些實施例中，元資料可以包括關於導出操作的其他資訊。例如，元資料可以包括“alte”元資料，諸如來自所選擇的備用軌道的編碼資訊（例如，與所選擇的備用軌道的圖像解析度，畫面播放速率等相關的元資料）。作為另一示例，元資料可以包括“2dcc”元資料，諸如來自子圖像軌道的編碼資訊（例如，與子圖像軌道的圖像解析度範圍，畫面播放速率等相關的元資料）。在一些實施例中，元資料可以包括“rwpk”元資料，諸如來自區域式封裝軌道的編碼資訊（例如，與來自區域式封裝軌道的圖像解析度，畫面播放速率等相關的元資料）。在一些實施例中，區域式封裝的軌道可以是來自“2dcc”導出的子圖像合成軌道。在一些實施例中，元資料可以包括“povd”元資料，諸如來自投影軌道的編碼資訊（例如，與投影軌道的圖像解析度，畫面播放速率等相關的元資料）。在一些實施例中，元資料可以包括“ster”元資料，諸如來自兩個（例如，左和右）球形軌道的編碼資訊（例如，與來自兩個球形軌道的圖像解析度範圍，畫面播放速率等相關的元資料）。在ISO / IEC 14496-12（Information Technology – Coding of Audio-Visual Objects, Part 12: ISO Base Media File Format (ISOBMFF), 5th Ed., Feb. 20, 2015）中描述了這樣的元資料的這些和其他示例。ISOBMFF描述了用於視訊軌道的任何（例如，常規的和衍生的）樣本的元資料（例如，通用元資料）的各種元資料箱和屬性。具體請參見，ISOBMFF的表1。

第8圖示出了根據一些實施例的示例性解碼過程800。如本文所討論的，變體軌道包括實際圖像資料。參考第6圖，在步驟802，解碼設備最初在交替變體軌道中進行選擇以選擇一個代表子圖像區域（或子圖像軌道）610。在一些實施例中，解碼設備可以使用包括在每個變體軌道中的元資料，例如第4圖中討論的vpct箱418。在一些實施例中，解碼設備可以使用alternate_group值而不是元資料箱來選擇變體軌道。例如，在檔案格式堆疊中，每個軌道可以包括軌道所屬的備用組的指示。例如，如果alternate_group值為2，則備用組指示該軌道屬於第二個備用組。解碼器可以使用備用組指示僅從一個組中選擇內容。使用備用組可以減少每個變體軌道所需的元資料量（例如，變體子圖像元資料，例如vpct 418，可以包括在每個變體軌道中）。所選擇的變體軌道是代表性的子圖像軌道。

在步驟804，解碼設備使用子圖像軌道610中的元資料（例如，2dcc箱）將子圖像軌道610拼接並合成到2D大圖像軌道608中。解碼器可以使用子圖像軌道中攜帶的元資料來確定二維空間關係資料，例如指示坐標系中的位置，坐標系，坐標系的方向的資料等。在步驟806，解碼逆映射2D軌道608，例如，重新排列一部分，以使用2D軌道608中的元資料（例如，rwpk箱）生成投影的2D軌道606。解碼器可以使用元資料來確定區域式封裝元資料，諸如關於封裝的二維軌道中的封裝區域與投影的二維軌道中的投影區域之間的關係的資料。

在步驟808，解碼器使用2D投影軌道606中的元資料（例如，povd箱(povd box)）將2D投影軌道606逆投影回3D軌道602，3D軌道602是原始3D圖像。解碼器可以確定投影的全向視訊元資料，其可以包括關於投影的二維軌道的投影格式的資料，區域式封裝資料，指示局部坐標軸和全域坐標軸之間的轉換的資料，指示內容覆蓋的資料和/或其他類似資料。在步驟810，解碼器使用3D軌道602中的元資料（例如，ster箱(ster box)）構建3D立體軌道。解碼器可以確定立體視訊軌道分組元資料，其可以包括指示球形內容軌道是用於立體視圖的左視圖還是右視圖的資料。

如第8圖所示，隨著解碼過程通過軌道層級進行，繼承元資料。例如，如第6圖所示，為每個子圖像軌道指定spco箱，並且通過在層次結構中的相關導出軌道中的內容繼承rwpk箱，proj箱和ster箱。可以使用這種繼承以更有效的方式指定繼承的元資料，以節約元資料，從而使解碼處理更有效（例如，因為元資料在必要的導出軌道處被指定），和/或其他。例如，層次結構可以用於從上到下確定元資料和/或屬性，而對於平面檔案系統，元資料和/或屬性不能以逐級為基礎來確定。作為說明性示例，如果設備請求特定視埠，則編碼設備104可以使用視埠映射到2D投影軌道，然後映射到2D區域式軌道，然後確定視埠在子圖想軌道中的位置，並最終從關聯的變體軌道中獲取內容。對於平面結構，不存在變體軌道的組織，因此編碼設備將需要搜索所有軌道，與利用這裡討論的軌道層級技術相比，這是低效的。

第9圖是示出根據一些實施例的與包括變體軌道中的元資料的技術相比，當元資料被包括在導出軌道中時的元資料使用的表900。列902示出了層級的層次，其中層4指的是3D球形內容軌道，層3指的是2D投影軌道，等等。列904示出了元資料的示例，諸如StereoOmni圖片箱（ster box）等，如本文所討論的。列906示出了當元資料被包括在如本文所述的導出軌道中時，用於層級中的層902的列904中的每個元資料箱的數量。列908示出了當元資料包括在變體軌道中時，用於級別902的列904中的每個元資料箱的數量。作為概括，M×N表示每個圖片的子圖像網格的尺寸（例如，如結合第4圖所討論的）。 L表示不同變體軌道的數量。如列906所示，對於M和N為9且L為5的示例，當在層次的各個級別中分佈它們時，列904中的元資料箱的總數是167。如列908中所示，當使用在變體軌道級別定義列904中的所有元資料箱的平面結構時，元資料箱的總數遠大於總共3,240個。

依據本發明的實施方式，揭示了用於指定混合的現有技術的缺陷，例如用於將輸入軌道與背景混合的技術。例如，現有技術可能需要利用子圖像軌道合成資訊指定疊加和/或混合資訊（例如，背景圖像，背景視訊，混合模式等）。這些技術可導致在合成資訊中重疊和/或混合資訊的重複實例。

依據本發明的實施方式，已經開發了將組合過程/資訊與覆蓋和/或混合過程/資訊分離的技術。例如，可以使用這些技術，使得解碼設備先將軌道合成在一起，然後利用不同的轉換執行混合（例如，合成圖像和背景之間的混合）。因此，對於合成軌道導出，解碼設備可以首先僅關注合成，然後重疊和/或混合。例如，當考慮用於視埠相關媒體處理的子圖像軌道的組合時，可以結合OMAF中描述的技術使用這些技術。當需要時，可以通過將例如第2.7節“軌道疊加合成”中的軌道疊加合成應用于導出的合成軌道來實現背景融合。

這裡描述的技術提供了軌道網格合成選項，例如在沒有用於輸入軌道的軌道覆蓋的情況下，將背景混合與軌道合成分開。例如，如果使用網格，則可以使用這些技術來指定每個子圖像在網格中的位置。第10圖示出了根據一些實施例的網格合成的示例性語法。

軌道網格合成語法1000簡化了軌道網格合成資訊，例如，與先前的軌道網格合成技術相比較。軌道網格合成（tgcp）的語法1000可以指定導出軌道，其每個樣本是給定網格順序中的一個或多個輸入軌道的樣本圖像的合成。該標誌可用於指定欄位output_width和output_height的長度。例如，如果（flags＆1）等於0，則指定output_width和output_height欄位的長度為16位，而if（flags＆1）等於1時，它指定欄位output_width的長度和output_height是32位。欄位output_width 1004和output_height 1006分別指定放置輸入圖像的重建圖像的寬度和高度。欄位row_minus_one 1008和columns_minus_one 1010指定輸入視覺軌跡的樣本圖像的行數，以及每行輸入視覺軌跡的樣本圖像的數量；該值分別比行數或列數少一個。如圖所示，軌道網格合成具有有限的一組欄位，並且沒有利用子圖像軌道合成資訊，指定任何疊加和/或混合資訊（例如，背景圖像，背景視訊，混合模式等）。

為將其列為輸入軌道，輸入視覺軌道的樣本圖像可以按行-主要順序，頂行第一，從左到右的順序將其插入。num_input的值可以等於行rows *列columns。樣本圖像（例如，可能在調整大小之後）可以具有相同的寬度和高度。輸入樣本圖像在組合在一起時，可以根據網格完全“覆蓋”導出的樣本圖像，其中寬width *列columns等於output_width，以及高height * 行rows等於output_height。換句話說，可以通過將輸入樣本圖像平鋪成具有列寬和行高的網格來形成導出的樣本圖像，而沒有任何間隙或重疊。

軌道網格矩陣合成語法1030和軌道網格子圖像合成1060指定的欄位比軌道網格合成語法1000要少。如本文進一步討論的，軌道網格矩陣合成語法1030使用來自輸入軌道頭中的矩陣值的軌道合成資訊，以及軌道網格子圖像合成1060使用來自子圖像合成元資料的軌跡合成資訊。

軌道網格矩陣組合1030將視覺軌道作為輸入實體。軌道網格矩陣組合1030可以指定導出軌道，其每個樣本是給定網格順序中的一個或多個輸入軌道的樣本圖像的合成。軌道網格矩陣合成語法1030包括欄位rows_minus_one 1032和rows_plus_one 1034，其指定輸入視覺軌跡的樣本圖像的行數，以及每行輸入視覺軌跡的樣本圖像的數量；該值分別比行數或列數少一個。

類似於軌道網格構圖1000，對於軌道網格矩陣構成1030，為將其列為輸入軌道，輸入視覺軌道的樣本圖像可以按行-主要順序，頂行第一，從左到右的順序將其插入。num_input的值可以等於行rows *列 columns。應用後，樣本圖像可以具有相同的寬度和高度。輸入樣本圖像在組合在一起時，可以根據網格覆蓋導出的樣本圖像，其中寬width *列columns等於output_width，高height *行rows等於output_height。

對於軌道網格矩陣組合1030，利用具有由其軌道頭中的矩陣值指定的相應變換，應用樣本圖像。軌道頭中出現的矩陣值指定用於呈現的視訊圖像的變換。第11圖示出了根據一些示例的示例性變換矩陣1100。點（p，q）可以使用矩陣1100變換為（p'，q'）。矩陣1100中的值以{a，b，u，c，d，v，x，y，w}的順序進行存儲。矩陣1100乘以（p，q，1）以計算（m，n，z），其中m = ap + cq + x； n = bp + dq + y；並且z = up + vq + w。那麼（m，n，z）可以用於通過計算p'= m / z來計算（p'，q'）；其中，q'= n / z。

座標（p，q）在解壓縮的幀上，並且（p'，q'）在渲染輸出處。因此，例如，矩陣{2,0,0,0,2,0,0,0,1}恰好使圖像的圖元尺寸加倍。由矩陣變換的座標通常不是標準化的，並且代表實際的樣本位置。因此，例如，（x，y）可以被認為是圖像的平移向量。座標原點可以位於左上角，X值向右增加，Y值向下增加。點（p，q）和（p'，q'）可以被視為相對於原始圖像的左上角（例如，在縮放到由軌道頭的寬度和高度確定的尺寸之後）和變換的（例如，渲染）表面的絕對圖元位置。每個軌道可以使用其指定的矩陣組成整個圖像。然後可以根據MovieHeaderBox中的電影層的矩陣來變換和合成合成圖像。在一些實施例中，無論所得圖像是否被“剪切”以消除視窗內的垂直矩形區域的圖元（例如，沒有顯示的圖元），它都應用相關的。例如，如果僅顯示一個視訊軌道並且它具有到{20,30}的平移，並且在MovieHeaderBox中具有單位矩陣，則應用程式可以選擇不在圖像和圖像之間顯示空的“L”形區域。

軌道網格子圖像合成語法1060可以將作為屬於子圖像合成軌跡組的輸入視覺軌跡。子圖像合成軌道組被確定，例如，在第120次MPEG會議的會議文件w17279（“Technology under Consideration on sub-picture composition track grouping for OMAF,” 120th MPEG Meeting, October 2017 (Macau, China)）中指定。軌道網格子圖像合成語法1060可以指定導出軌道，其每個樣本是給定網格順序中的一個或多個輸入軌道的樣本圖像的合成。

軌道網格子圖像合成語法1060包括欄位rows_minus_one 1062和rows_plus_one 1064，其指定輸入視覺軌跡的樣本圖像的行數，以及每行輸入視覺軌跡的樣本圖像的數量；該值分別比行數或列數少一個。

與之前的語法類似，輸入視覺軌跡的樣本圖像可以按行-主要順序，頂行第一，從左到右的順序將其插入。 num_input的值應等於行rows *列 columns。輸入樣本圖像在組合在一起時，可以根據網格完全“覆蓋” 導出的樣本圖像，其中軌道寬track_width *列columns等於composition_width，軌道高track_height *行rows等於composition_height。

對於軌道網格子圖像合成語法1060，樣本圖像可以具有相同的寬度和高度，track_width和track_height，如子圖像區域元資料所指定的，例如SubPictureCompositionBox和/或SubPictureRegionBox。第12圖示出了根據一些示例的子圖像合成箱SubPictureCompositionBox 1200的示例，其包括子圖像區域箱SubPictureRegionBox 1250。具有等於'spco'的track_group_type的軌道組類型箱TrackGroupTypeBox 1202指示該軌道屬於多個軌道的合成，該多個軌道的合成可以在空間上佈置以獲得合成圖像。映射到該分組的視覺軌道（例如，TrackGroupTypeBox中具有相同的track_group_id值並且track_group_type等於'spco'的視覺軌道）共同表示可以呈現的可視內容。在一些實施例中，映射到該分組的每個單獨的視覺軌跡可以（或可以不）用於單獨呈現而沒有其他視覺軌跡，而合成圖片適合於被呈現。

參考子圖像区域箱SubPictureRegionBox 1250，track_x 1252可以在亮度樣本單元中指定合成圖片上該軌道的樣本的左上角的水準位置。例如， track_x 1252的值可以在0到composition_width -1的範圍內，包括0和composition_width。 track_y 1254可以在亮度樣本單元中指定合成圖像上該軌道的樣本的左上角的垂直位置。 track_y 1254的值可以在0到composition_height - 1的範圍內，包括1和composition_height - 1。 track_width 1256可以亮度樣本單元中指定合成圖像上該軌道的樣本的寬度。 track_width 1256的值可以在1到composition_width -1之間，包括1和composition_width -1。 track_height 1258可以是在亮度樣本單元中指定合成圖像上該軌道的樣本的高度。track_height 1258的值可以在1到composition_height-1的範圍內，包括1和composition_height-1。composition_width 1260可以亮度樣本單元中指定合成圖像的寬度。在具有相同track_group_id值的SubPictureCompositionBox的實例中，composition_width 1260的值可以相同。 composition_height 1262可以在亮度樣本單位中指定合成圖片的高度。在具有相同track_group_id值的SubPictureCompositionBox實例中，composition_height 1262的值可以相同。由track_x 1252，track_y 1254，track_width 1256和track_height 1258表示的矩形可以被稱為該軌道的子圖像矩形。

對於屬於相同子圖像合成軌道組並屬於相同交替組的軌道（例如，具有相同的非零alternate_group值），子圖像矩形的位置和大小可以相同。在一些示例中，子圖像合成軌道組的合成圖像可以通過在屬於子圖像合成軌道組的所有軌道中從每個交替組中選擇一個軌道來導出。對於每個選定的軌道，對於i的每個值，範圍為0到track_width- 1，包括0和track_width– 1，對於j的每個值，範圍為0到track_height- 1，包括0和track_height- 1，在將亮度樣本位置（（i+track_x）％composition_width，（j + track_y）％composition_height）的合成圖像的亮度樣本設置為等於該軌跡的子圖像在亮度樣本位置（i，j）處的亮度樣本。對於每個所選軌道，當解碼圖像具有不同於4：0：0的色度格式時，相應地導出色度分量。

在一些實施例中，屬於相同子圖像合成軌道組並且屬於不同交替組（例如，具有等於0或不同alternate_group值的alternate_group）的軌道的子圖像矩形不應重疊並且不應具有間隙，例如在上述合成圖像每個亮度樣本位置（x，y）的導出過程中。其中x在0到composition_width - 1（包括0和composition_width - 1）的範圍內，y在0到composition_height - 1（包括0和composition_height - 1）的範圍內，被遍歷了一次。

根據本文描述的原理操作的技術可以以任何合適的方式實現。上面的流程圖的處理和決策塊表示可以包括在執行這些各種過程的演算法中的步驟和動作。從這些過程導出的演算法可以實現為與一個或多個單用途或多用途處理器的操作集成並指導其操作的軟體，可以實現為功能等效電路，例如數位信號處理（DSP）電路或應用-特定積體電路（Application-Specific Integrated Circuit, ASIC），或者可以以任何其他合適的方式實現。應當理解，這裡包括的流程圖不描繪任何特定電路或任何特定程式設計語言或程式設計語言類型的語法或操作。而是，流程圖示出了本領域通常知識者可以用來製造電路或實現電腦軟體演算法以執行執行本文所述技術類型的特定裝置的處理的功能資訊。還應當理解，除非本文另有指示，否則每個流程圖中描述的特定步驟和/或動作序列僅僅是對可以實現的演算法的說明，並且可以在本文描述的原理的實現和實施例中變化。

因此，在一些實施例中，本文描述的技術可以包含於實現為軟體的電腦可執行指令中，包括作為應用軟體，系統軟體，固件，中介軟體，嵌入代碼或任何其他合適類型的電腦代碼。這樣的電腦可執行指令可以使用許多合適的程式設計語言和/或程式設計或腳本工具中的任何一種來編寫，並且還可以被編譯為在框架或虛擬機器上執行的可執行機器語言代碼或中間代碼。

當本文描述的技術體現為電腦可執行指令時，這些電腦可執行指令可以以任何合適的方式實現，包括作為多個功能設施，每個功能設施提供一個或多個操作以完成根據這些技術操作的演算法的執行。然而，產生實體的“功能設施”是電腦系統的結構元件，當與一個或多個電腦集成並由一個或多個電腦執行時，使得一個或多個電腦執行特定的操作角色。功能設施可以是軟體元素的一部分或整個軟體元素。例如，功能設施可以根據過程的函數，或作為離散過程，或作為任何其他合適的處理單元來實現。如果這裡描述的技術被實現為多個功能設施，則每個功能設施可以以其自己的方式實現；所有這些都不需要以同樣的方式實現。另外，這些功能設施可以適當地並行和/或串列地執行，並且可以使用它們正在執行的電腦上的共用記憶體，使用消息傳遞協定，或者在任何一個之間在彼此之間傳遞資訊。其他合適的方式。

通常，功能設施包括執行特定任務或實現特定抽象資料類型的常式，程式，物件，元件，資料結構等。通常，功能設施的功能可以根據需要在它們運行的系統中組合或分佈。在一些實現中，執行本文技術的一個或多個功能設施可以一起形成完整的套裝軟體。在替代實施例中，這些功能設施可以適於與其他不相關的功能設施和/或過程交互，以實現軟體程式應用。

這裡已經描述了用於執行一個或多個任務的一些示例性功能設施。然而，應當理解，所描述的功能設施和任務劃分僅僅是可以實現本文描述的示例性技術的功能設施的類型的說明，並且實施例不限於以任何特定數量，劃分，或功能設施的類型。在一些實現中，所有功能可以在單個功能設施中實現。還應當理解，在一些實施方式中，本文描述的一些功能設施可以與其他功能設施一起實施或與其他功能設施分開實施（即，作為單個單元或單獨的單元），或者可以不實現這些功能設施中的一些。

在一些實施例中，實現本文描述的技術的電腦可執行指令（當實現為一個或多個功能設施或以任何其他方式實施時）可以在一個或多個電腦可讀介質上編碼以向媒體提供功能。電腦可讀介質包括諸如硬碟驅動器之類的磁介質，諸如光碟（CD）或數位通用盤（DVD）之類的光學介質，持久或非持久固態記憶體（例如，快閃記憶體，磁性）。 RAM等）或任何其他合適的存儲介質。這種電腦可讀介質可以以任何合適的方式實現。如這裡所使用的，“電腦可讀介質”（也稱為“電腦可讀存儲介質”）指的是有形存儲介質。有形存儲介質是非暫時性的並且具有至少一個物理結構元件。在如本文所使用的“電腦可讀介質”中，至少一個物理結構元件具有至少一個物理特性，該特性可在創建具有嵌入資訊的介質的過程期間以某種方式改變，在其上記錄資訊的過程，或用資訊編碼媒體的任何其他過程。例如，可以在記錄過程期間改變電腦可讀介質的物理結構的一部分的磁化狀態。

此外，上述一些技術包括以某些方式存儲資訊（例如，資料和/或指令）以供這些技術使用的動作。在這些技術的一些實現中-諸如將技術實現為電腦可執行指令的實現-該資訊可以在電腦可讀存儲介質上編碼。在本文中將特定結構描述為存儲該資訊的有利格式的情況下，這些結構可用於在編碼在存儲介質上時賦予資訊的物理組織。然後，這些有利結構可以通過影響與資訊交互的一個或多個處理器的操作來向存儲介質提供功能；例如，通過提高處理器執行的電腦操作的效率。

在本發明中技術可以體現為電腦可執行指令的一些但非全部實現中，這些指令可以在任何合適的電腦系統或一個或多個計算設備中操作的一個或多個合適的計算設備上執行（或者，一個或多個計算設備的一個或多個處理器可以被程式設計為執行電腦可執行指令。計算設備或處理器可以被程式設計為當指令以計算設備或處理器可訪問的方式存儲時執行指令，例如在資料記憶體（例如，片上快取記憶體或指令寄存器，電腦可讀記憶體）中。可通過匯流排訪問的介質，可通過一個或多個網路訪問並可由設備/處理器訪問的電腦可讀存儲介質等。包括這些電腦可執行指令的功能設施可以與單個多用途可程式設計數位計算設備的操作集成並指導其操作，兩個或更多個多用途計算設備的協調系統共用處理能力並且聯合執行本文描述的技術，專用于執行本文所述技術的單個計算設備或計算設備的協調系統（共址或地理分佈），用於執行本文所述技術的一個或多個現場可程式設計閘陣列（FPGA），或任何其他合適的系統。

計算設備可以包括至少一個處理器，網路介面卡和電腦可讀存儲介質。計算設備可以是例如臺式或膝上型個人電腦，個人數位助理（PDA），智慧行動電話，伺服器或任何其他合適的計算設備。網路適配器可以是任何合適的硬體和/或軟體，以使計算設備能夠通過任何合適的計算網路與任何其他合適的計算設備進行有線和/或無線通訊。計算網路可以包括無線接入點，交換機，路由器，閘道和/或其他網路設備以及用於在兩個或更多個電腦（包括網際網路）之間交換資料的任何合適的有線和/或無線通訊介質或介質。電腦可讀介質可以適於存儲要處理的資料和/或要由處理器執行的指令。處理器能夠處理資料和執行指令。資料和指令可以存儲在電腦可讀存儲介質上。

計算設備可以另外具有一個或多個元件和週邊設備，包括輸入和輸出設備。除其他之外，這些設備可用於呈現使用者介面。可用於提供使用者介面的輸出設備的示例包括用於輸出和揚聲器或其他聲音生成設備的視覺呈現的印表機或顯示幕，用於輸出的可聽呈現。可以用於使用者介面的輸入裝置的示例包括鍵盤和指示設備，諸如滑鼠，觸控板和數位化平板電腦。作為另一示例，計算設備可以通過語音辨識或其他可聽格式接收輸入資訊。

已經描述了以電路和/或電腦可執行指令實現這些技術的實施例。應當理解，一些實施例可以是方法的形式，其中已經提供了至少一個示例。作為方法的一部分執行的動作可以以任何合適的方式排序。因此，可以構造這樣的實施例，其中以不同於所示的循序執行動作，其可以包括同時執行一些動作，即使在示例性實施例中示出為順序動作。

上述實施例的各個方面可以單獨使用，組合使用，或者在前面描述的實施例中沒有具體討論的各種佈置中使用，因此不限於其應用於上述實施例中闡述的部件的細節和佈置。前面的描述或附圖中示出的。例如，一個實施例中描述的方面可以以任何方式與其他實施例中描述的方面組合。

在請求項中使用諸如“第一”，“第二”，“第三”等的序數術語來修改請求項要素本身並不意味著一個請求項要素優先於另一個或者時間的任何優先權，優先權或順序。執行方法的行為的順序，但僅用作標籤以將具有特定名稱的一個請求項元素與具有相同名稱的另一個元素（但是用於使用序數術語）區分，以區分請求項元素。

此外，這裡使用的措辭和術語是出於描述的目的，而不應被視為限制。本文中“包括”，“包含”，“具有”，“含有”，“涉及”及其變化形式的使用旨在涵蓋其後列出的項目及其等同物以及附加項目。

本文使用的“示例性”一詞意味著用作示例，實例或說明。因此，在此描述為示例性的任何實施例，實現，過程，特徵等應當被理解為說明性示例，並且除非另有指示，否則不應被理解為優選或有利示例。

已經如此描述了至少一個實施例的若干方面，應當理解，本領域通常知識者將容易想到各種改變，修改和改進。這些改變，修改和改進旨在成為本公開的一部分，並且旨在落入本文描述的原理的精神和範圍內。因此，前面的描述和附圖僅是示例性的。

100‧‧‧視訊編解碼配置102A~102N‧‧‧相機104‧‧‧編碼設備106‧‧‧視訊處理器108‧‧‧編碼器110‧‧‧解碼設備112‧‧‧解碼器114‧‧‧渲染器116‧‧‧顯示器200‧‧‧處理流程201‧‧‧球形視埠202、204、206、208、210、212、214‧‧‧塊300、600‧‧‧軌道分層結構302、602‧‧‧頂部軌道304、604‧‧‧元資料軌道306、308、310A~310R、606、608、601A~610R‧‧‧軌道312A~312K、314A~314K、502A~502K、504A~504K、612A~612R、614A~614K‧‧‧變體軌道402A~402N‧‧‧左立體圖像404A~404N‧‧‧右立體圖像500‧‧‧元資料存儲結構410、510‧‧‧立體視訊組元資料箱412、512‧‧‧投影的全向視訊元資料箱414‧‧‧區域式封裝元資料箱416、516‧‧‧二維空間關係418‧‧‧變圖像箱700‧‧‧解碼方法702、704、706、802、804、806、808、810‧‧‧步驟800‧‧‧解碼過程900‧‧‧表902、904、906、908‧‧‧列1000‧‧‧軌道網格合成語法1004、1006、1008、1010、1032、1034、1062、1064‧‧‧欄位1030‧‧‧軌道網格矩陣合成語法1060‧‧‧軌道網格子圖像合成語法1100‧‧‧矩陣1200‧‧‧子圖像合成箱1202‧‧‧軌道組類型箱1250‧‧‧子圖像區域箱1252‧‧‧track_x1254‧‧‧track_y1256‧‧‧track_width1258‧‧‧track_height1260‧‧‧composition_width1262‧‧‧composition_height

在附圖中，在各個圖中示出的每個相同或幾乎相同的部件由相同的附圖標記表示。為清楚起見，並非每個元件都可以在每個圖紙中標記。附圖不一定按比例繪製，而是將重點放在說明本文描述的技術和裝置的各個方面。第1圖示出了根據一些實施例的示例性視訊編解碼配置。第2圖是根據一些示例的用於虛擬實境（VR）內容的視埠依賴內容（viewport dependent content flow）的處理流程。第3圖示出了根據一些實施例的示例性軌道分層結構。第4圖示出了根據一些示例的用於立體視訊的左立體圖像和右立體圖像的序列。第5圖示出了根據一些示例的具有變體軌道的示例性元資料存儲結構。第6圖示出了根據一些實施例的示例性軌道分層結構。第7圖示出了根據一些實施例的用於解碼視訊資料的示例性解碼方法。第8圖示出了根據一些實施例的示例性解碼過程。第9圖示出了根據一些實施例的與包括變體軌道中的元資料的技術相比，當元資料被包括在導出軌道中時的元資料的使用的表格。第10圖示出了根據一些實施例的網格合成的示例性語法。第11圖示出了根據一些示例的示例性變換矩陣。第12圖示出了根據一些示例的包括子圖像區域箱的子圖像合成箱的示例。

700‧‧‧解碼方法

702、704、706‧‧‧步驟

Claims

一種用於解碼視訊資料的解碼方法，其中，該方法包括：接收包括分層軌道結構的多媒體資料，該分層軌道結構包括至少第一軌道和第二軌道，其中：該第一軌道位於該分層軌道結構的第一層；以及該第二軌道位於該分層軌道結構中該第一軌道的該第一層之上的第二層；確定包含在該第一軌道內的第一元資料和包含在該第二軌道內的第二元資料；以及解碼多媒體資料，包括：基於該第一元資料和該第二元資料，對與該第一軌道相關聯的多媒體資料執行軌道導出操作，以生成該第二軌道的多媒體資料，使得該第二軌道是該第一軌道的導出軌道，其中，該第二軌道內的第二元資料與該第一軌道中的多媒體資料相關聯。
如請求項1所述之用於解碼視訊資料的解碼方法，其中，該第一軌道或該第二軌道包括球形三維內容軌道；以及確定該第一元資料或該第二元資料的步驟包括確定立體視訊軌道分組元資料，其中該立體視訊軌道分組元資料包括指示球形內容軌道是用於立體視圖的左視圖還是右視圖的資料。
如請求項1所述之用於解碼視訊資料的解碼方法，其中，該第一軌道或該第二軌道包括投影的二維軌道；以及確定該第一元資料或該第二元資料包括確定投影的全向視訊元資料，其中該投影的全向視訊元資料包括關於投影的二維軌道的投影格式的資料，區域式封裝資料，指示局部坐標軸和全域坐標軸之間轉換的資料，指示內容覆蓋的資料，或其組合。
如請求項1所述之用於解碼視訊資料的解碼方法，其中，該第一軌道或該第二軌道包括封裝的二維軌道；以及確定該第一元資料或該第二元資料包括確定區域式封裝元資料，其中該區域式封裝元資料包括關於封裝的二維軌道中的封裝區域與投影的二維軌道中的投影區域之間的關係的資料。
如請求項1所述之用於解碼視訊資料的解碼方法，其中，該第一軌道包括子圖像軌道；以及確定該第一元資料包括確定二維空間關係資料，其中該二維空間關係資料包括指示坐標系中的位置，坐標系，坐標系的方向，或其組合的資料。
如請求項1所述之用於解碼視訊資料的解碼方法，其中，解碼多媒體資料包括：基於該第一元資料，對與該第一軌道相關聯的多媒體內容執行第二軌道導出操作，以生成該第二軌道的多媒體資料。
如請求項6所述之用於解碼視訊資料的解碼方法，其中，該第一軌道與多個變體軌道相關聯，每個變體軌道包括多媒體資料；以及執行軌道導出操作包括對多個變體軌道執行軌道導出操作以生成該第二軌道的多媒體資料。
如請求項1所述之用於解碼視訊資料的解碼方法，其中，還包括為該第二軌道生成新元資料。
如請求項8所述之用於解碼視訊資料的解碼方法，其中，生成該新元資料包括下述一個或多個資料：基於軌道導出操作的元資料；指示編碼資訊的元資料；或其組合。
如請求項1所述之用於解碼視訊資料的解碼方法，其中，執行該第一軌道導出操作或該第二軌道導出選項包括執行軌道網格合成操作，包括：基於第一元資料源確定軌道網格合成元資料；基於與該第一元資料源不同的第二元資料源確定混合元資料；以及基於該軌道網格合成元資料和該混合元資料執行軌道網格合成操作。
如請求項10所述之用於解碼視訊資料的解碼方法，其中，確定軌道網格合成元資料的步驟包括確定輸出網格合成的維度，網格合成的行數，網格合成的列數，或其組合；確定混合元資料的步驟包括確定軌道覆蓋合成元資料
一種用於編碼視訊資料的方法，其中，該方法包括：編碼包括至少包括第一軌道和第二軌道的分層軌道結構的多媒體資料，其中：該第一軌道位於分層軌道結構的第一層；以及該第二軌道位於該分層軌道結構中該第一軌道的該第一層之上的第二層；以及編碼該第一軌道內的第一元資料和該第二軌道內的第二元資料，使得可以通過基於該第一元資料和該第二元資料對與該第一軌道相關聯的多媒體資料執行軌道導出操作來編碼該第一軌道相關聯的多媒體資料，而生成該第二軌道的多媒體資料，使得該第二軌道是該第一軌道的導出軌道，其中，該第二軌道內的第二元資料與該第一軌道中的多媒體資料相關聯。
如請求項12所述之用於編碼視訊資料的方法，其中，該第一軌道或該第二軌道包括球形三維內容軌道；以及編碼該第一元資料或該第二元資料的步驟包括編碼立體視訊軌道分組元資料，其中該立體視訊軌道分組元資料包括指示球形內容軌道是用於立體視圖的左視圖還是右視圖的資料。
如請求項12所述之用於編碼視訊資料的方法，其中，該第一軌道或該第二軌道包括投影的二維軌道；以及編碼該第一元資料或該第二元資料包括編碼投影的全向視訊元資料，其中該投影的全向視訊元資料包括關於投影的二維軌道的投影格式的資料，區域式封裝資料，指示局部坐標軸和全域坐標軸之間轉換的資料，指示內容覆蓋的資料，或其組合。
如請求項12所述之用於編碼視訊資料的方法，其中，該第一軌道或該第二軌道包括封裝的二維軌道；以及編碼該第一元資料或該第二元資料包括編碼區域式封裝元資料，其中該區域式封裝元資料包括關於封裝的二維軌道中的封裝區域與投影的二維軌道中的投影區域之間的關係的資料。
如請求項12所述之用於編碼視訊資料的方法，其中，該第一軌道包括子圖像軌道；以及編碼該第一元資料包括編碼二維空間關係資料，其中該二維空間關係資料包括指示坐標系中的位置，坐標系，坐標系的方向，或其組合的資料。
如請求項12所述之用於編碼視訊資料的方法，其中，還包括：編碼用於軌道網格合成操作的元資料，包括：編碼包括軌道網格合成元資料的第一元資料源；以及編碼與該第一元資料源不同的第二元資料源，其中該第二元資料源包括混合元資料。
如請求項17所述之用於編碼視訊資料的方法，其中，編碼軌道網格合成元資料的步驟包括編碼輸出網格合成的維度，網格合成的行數，網格合成的列數，或其組合；編碼混合元資料包括編碼軌道覆蓋合成元資料。
一種被配置為解碼視訊資料的裝置，其中，該裝置包括與記憶體通信的處理器，該處理器被配置為執行存儲在該記憶體中的指令，該指令使所述處理器：接收包括分層軌道結構的多媒體資料，該分層軌道結構包括至少第一軌道和第二軌道，其中：該第一軌道位於該分層軌道結構的第一層；以及該第二軌道位於該分層軌道結構中該第一軌道的該第一層之上的第二層；確定包含在該第一軌道內的第一元資料和包含在該第二軌道內的第二元資料；以及解碼多媒體資料，包括：基於該第一元資料和該第二元資料，對與該第一軌道相關聯的多媒體資料執行軌道導出操作，以生成該第二軌道的多媒體資料，使得該第二軌道是該第一軌道的導出軌道，其中，該第二軌道內的第二元資料與該第一軌道中的多媒體資料相關聯。
一種用於編碼視訊資料的裝置，其中，該裝置包括與記憶體通信的處理器，該處理器被配置為執行存儲在該記憶體中的指令，該指令使該處理器：編碼包括至少包括第一軌道和第二軌道的分層軌道結構的多媒體資料，其中：該第一軌道位於分層軌道結構的第一層；以及該第二軌道位於該分層軌道結構中該第一軌道的第一層之上的第二層；以及編碼該第一軌道內的第一元資料和該第二軌道內的第二元資料，使得可以通過基於該第一元資料和該第二元資料對與該第一軌道相關聯的多媒體資料執行軌道導出操作來編碼該第一軌道相關聯的多媒體資料，而生成該第二軌道的多媒體資料，使得該第二軌道是該第一軌道的導出軌道，其中，該第二軌道內的第二元資料與該第一軌道中的多媒體資料相關聯。