TW201813372A

TW201813372A - 360度視訊資訊傳訊方法及系統

Info

Publication number: TW201813372A
Application number: TW106129782A
Authority: TW
Inventors: 菲利普漢哈特; 何玉文; 言葉
Original assignee: 美商Ｖｉｄ衡器股份有限公司
Priority date: 2016-09-02
Filing date: 2017-08-31
Publication date: 2018-04-01
Also published as: JP2019530311A; US20190200023A1; CN109644279A; CN117201817A; WO2018045108A1; EP3507985A1; KR20190054060A; US11284089B2; CN109644279B; US20220174289A1; US11876981B2

Abstract

描述用於360度視訊的編碼技術。編碼器選擇投影格式，並使用所選擇的投影格式將360度視訊映射到2D平面視訊。編碼器對位元流中的2D平面視訊進行編碼，並且在位元流中進一步的傳訊識別投影格式的參數。識別投影格式的參數可以在位元流的視訊參數集、序列參數集及/或圖像參數集中被傳訊。可能傳訊的不同投影格式包括使用如等距柱狀、立方體貼圖、等面積、八面體、二十面體、圓柱體和使用者指定的多邊形的幾何的格式。可能傳訊的其他參數包括用於幾何面的不同佈置或不同面的不同編碼品質。還描述了相應的解碼器。在一些實施方式中，投影參數還可以包括限定投影幾何的方位的相對幾何旋轉參數。

Description

360度視訊資訊傳訊方法及系統

相關申請案的交叉引用 本申請案是根據35U.S.C. §119(e) 要求於2016年9月2日提出、名稱為“Method and System for Signaling of 360-Degree Video Information”的美國臨時專利申請案序號No. 62/383,367以及於2016年10月12日提出、名稱為“Method and System for Signaling of 360-Degree Video Information”的美國臨時專利申請案序號No. 62/407,337的權益，其全部內容藉由引用併入本文。

虛擬實境（VR）正在從研究實驗室走出並進入我們的日常生活中。 VR有很多應用領域：醫療保健、教育、社交網路、行業設計/培訓、遊戲、電影、購物、娛樂等。其受到行業和消費者的高度關注，因為VR能夠帶來身臨其境的觀看體驗。其創建一個圍繞著觀看者的虛擬環境，並可能產生一種“正在存在”的真實感覺。如何在VR環境中提供完整的真實感覺對於使用者的體驗很重要。例如，VR系統應該經由姿態、手勢、眼睛凝視、聲音等來支援交互。為了允許使用者以自然的方式與VR世界中的物件交互，系統還可以向使用者提供觸覺回饋。

現今的VR系統使用360度視訊來為使用者提供從水平方向360度角度和垂直方向180度角度觀看場景的能力。同時，VR和360度視訊被視為超出超高畫質（UHD）服務的媒體消費的未來方向。為了提高VR中360度視訊的品質，規範VR用戶端互通性的處理鏈，2016年初，屬於MPEG-A（多媒體應用程式格式）部分-19的ad hoc組已在ISO/IEC/MPEG建立，以致力於全方位媒體應用格式的要求和潛在技術。另一個ad hoc組，免費觀看電視（FTV），發佈了360度3D視訊應用的探索實驗。 FTV的一個主要目標是測試兩種解決方案的性能：（1）基於360度視訊（全向視訊）的系統；（2）基於多視圖的系統。來自MPEG和ITU-T的聯合視訊探索團隊（JVET）正在探索下一代視訊編碼標準的新技術，發佈了包括VR在內的測試序列的召集。在2016年6月的會議上，ad hoc組（AHG8）成立，AHG8組的任務是制定360視訊編碼的常用測試條件、測試序列格式和評估標準。AHG8還將研究應用不同投影方法時對壓縮的影響，以及轉換軟體時對壓縮的影響。

行業正在努力提高VR處理鏈中各個方面的品質和使用者體驗，包括擷取、處理、顯示和應用。在擷取方面，VR系統使用多個相機系統從不同的發散視圖擷取場景（例如，在某些情況下，大約6到12個視圖）。將這些視圖拼接（stitch）在一起形成高解析度（例如4K或8K）的360度視訊。在用戶端或使用者側，目前的虛擬實境系統通常包括計算平臺、頭戴式顯示器（HMD）和頭部追蹤感測器。計算平臺負責接收和解碼360度視訊、並產生視埠以用於顯示。兩張照片（每個眼睛一個）針對視埠而呈現。這兩張照片在HMD中顯示，用於立體觀看。可以使用透鏡來放大在HMD中顯示的圖像以便更好地觀看。頭部追蹤感測器可以不斷地追蹤觀看者的頭部方位（orientation），並且將方位資訊饋送到系統以顯示用於該方位的視埠圖像。

一些VR系統可以為觀看者提供專門的觸摸裝置以與虛擬世界中的物件進行交互。存在市場上可獲得的現有VR系統。一種是Oculus提供的Rift，以及來自三星和Oculus的Gear VR。 Rift由具有良好的GPU支援的強大的工作站驅動。Gear VR是一種輕型VR系統，其使用作為計算平臺的智慧手機、HMD顯示器和頭部追蹤感測器。第二種VR系統是HTC Vive系統。 Rift和Vive具有相似的性能。空間HMD解析度為2160×1200，復新率為90 Hz，視場（FOV）約為110度。頭追蹤感測器的取樣速率為1000 Hz，可以擷取非常快的運動。谷歌也有一個簡單的VR系統叫做紙盒（cardboard）。 Google 紙盒有一個鏡頭和紙盒元件，類似於Gear VR，其是由智慧手機驅動的。新力也提供了用於遊戲的PlayStation VR (遊戲機VR)。在360度視訊流服務方面，YouTube和臉書(Facebook)躋身於早期的提供者之中。

在這些目前的VR系統中，諸如互動和觸覺回饋等體驗的品質仍然需要進一步改進。例如，現今的HMD仍然太大，不方便穿戴。此外，由HMD提供的立體視圖的目前解析度2160×1200是不夠的，並且可能導致一些使用者頭暈和不適。因此，增加解析度將是有益的。此外，將VR環境中的視覺感覺與現實世界中的力量回饋相結合，是增強VR體驗的一個選擇。VR雲霄飛車是一範例應用。

許多公司正在開展360度視訊壓縮和遞送系統，他們有自己的解決方案。例如，Google YouTube為基於DASH的360度視訊流提供了管道。 Facebook還擁有360度視訊遞送解決方案。

本文的系統和方法旨在解決與360度視訊資料編碼和解碼有關的問題。

在編碼360度視訊的範例性方法中，編碼器選擇投影格式，其中投影格式包括諸如幾何類型及/或幾何方位之類的資訊。編碼器使用所選投影格式將360度視訊映射到2D平面視訊。編碼器對位元流中的2D平面視訊進行編碼、並且在位元流中進一步傳訊識別投影格式的參數。各種幾何類型可以被使用並且可以在位元流中被傳訊，包括等距柱狀（equirectangular）、立方體貼圖貼圖（cubemap）、等面積、八面體、二十面體、圓柱體和使用者指定的多邊形。對於與多個面相關聯的幾何類型，可以傳訊訊框封裝參數以識別2D平面視訊中那些面的位置及/或方位。可以用不同的尺寸及/或不同的品質位準對不同的面進行編碼。識別幾何方位的參數可以包括偏航參數、俯仰參數和滾動參數中的至少一者。

識別投影格式的參數可以在位元流的視訊參數集、序列參數集及/或圖像參數集中被傳訊。可以基於速率失真最佳化來選擇投影參數。視訊中的不同圖像或不同序列可以使用不同的投影格式進行編碼（例如，當不同的圖像或序列對於不同投影格式具有較高速率失真性能時），在適當的參數集處提供傳訊投影格式參數。還描述了相應的解碼技術。

在本揭露中描述的是用於360度視訊編碼的範例性語法。語法元素可以用於指定投影幾何及/或使用網格系統來指定在訊框封裝圖像中的面的佈置。面可以具有不同的尺寸及/或方位。在一些實施方式中，2-D平面上的面佈置可以具有各種特徵，例如沿著每行/列的固定的面寬度/高度。在一些實施方式中，使用任何基於多邊形的表示來描述使用者指定幾何體的範例性語法。在一些實施方式中使用的附加特徵可以包括：使用旗標來跳過用於填充訊框封裝圖像的樣本、在逐個面的等級上傳訊增量量化參數（QP）、賦能/禁用特定面之間的迴路濾波器的旗標、及/或僅編碼360視訊的特定區域的語法。

在一些實施方式中，投影參數還可以包括相對幾何旋轉參數。這樣的參數可以限定投影幾何的方位。投影幾何可以被選擇性地定向，使得感興趣的物件基本上完全包括在投影幾何的單一面內。在以不同品質位準（例如不同QP值）編碼不同面的實施方式中，投影幾何可以被定向為使得感興趣物件基本上完全包含在用相對高品質位準編碼的面內。

現在將參考各附圖提供說明性實施方式的詳細描述。儘管該描述提供了可能的實施的詳細範例，但是應當注意，提供的細節旨在作為範例而不是限制應用的範圍。360 度視訊編碼和解碼

360度視訊遞送的一種技術是使用球體幾何結構來表示360度資訊。例如，由多個相機擷取的同步的多個視圖被拼接在球體上以作為一個整體結構。然後，使用給定的幾何轉換過程(例如，等距柱狀投影（ERP）方法)將球體資訊投影到2D平面表面。第1A圖示出了經度（φ）和緯度（θ）上的球體取樣，第1B圖示出了使用等距柱狀投影將球體投影到2D平面。在航空學中，在[-π，π]範圍內的經度φ被稱為偏航，在[-π/2，π/2]範圍內的緯度θ稱為俯仰，其中π是圓的周長與其直徑的比率。為了便於說明，（x，y，z）用於表示3D空間中的點的座標，以及（ue，ve）用於表示具有等距柱狀投影的2D平面中的點的座標。等距柱狀投影可以在等式（1）和（2）中以數學方法表示： ue = (φ/(2* π)+0.5)*W (1) ve = (0.5 - θ/π)*H (2)

其中W和H是2D平面圖像的寬度和高度。如第1A圖所示，使用等式（1）和（2）將球體上的經度L4和緯度A1之間的交叉點（點P）映射到2D平面中的唯一點q（第1B圖）。2D平面中的點q可以經由反向投影而投影回球體上的點P。第1B圖中的視場（FOV）示出了將球體中的FOV映射到2D平面的範例，其中沿X軸的視角為約110度。

經由ERP，360度視訊可以映射到正規2D視訊。其可以用現有的視訊編解碼器（如H.264或HEVC）被編碼，然後遞送到用戶端。在用戶端側，藉由在HMD內投影和顯示屬於等距柱狀圖像中的FOV的部分，基於使用者的視埠來解碼和呈現等距柱狀視訊。雖然球體視訊可以轉換到2D平面圖像以用等距柱狀投影進行編碼，但是等距柱狀2D圖像的特徵與傳統2D圖像（也稱為直線視訊）的特徵不同。第1C圖是房間內部的範例等距柱狀圖像的示意圖。由於在2D空間域中的等距柱狀取樣是不均勻的，與對應於赤道的圖像的中間部分相比，對應於北極的圖像的頂部和對應於南極的底部被拉伸。與正規2D視訊中的運動相比，2D等距柱狀圖像中的運動場在時間方向中變得複雜。

例如MPEG-2、H.264和HEVC之類的視訊編解碼器使用平移模型來描述運動場，並且不能有效地表示等距柱狀投影的2D平面圖像中的形狀變化運動。等距柱狀投影的另一個缺點是，與更靠近赤道的區域相比，靠近極點的區域對於觀看者及/或內容提供者來說可能不那麼有趣。例如，觀看者可能不會在任何相當長的時間段內專注於頂部和底部區域。然而，基於翹曲效應，這些區域在等距柱狀投影之後被拉伸成2D平面的大部分，並且壓縮這些區域可能需要大量的位元。

基於這些觀察，正在研究一些處理方法來改進等距柱狀圖像編碼，例如藉由對這些極點區域應用例如平滑之類的預處理來減少編碼它們所需的頻寬。此外，已經提出了用於表示360度視訊的不同幾何投影，諸如立方體貼圖、等面積、圓柱體、金字塔、八面體等。在這些投影方法中，最容易壓縮的幾何可以是立方體貼圖，其共有6個面，每個面都是一個平面正方形。第2A圖顯示立方體貼圖幾何的範例。立方體貼圖由6個正方形面組成。假設相切球體的半徑為1，則立方體貼圖的每個面（正方形）的橫向長度為2。第2B圖示出了將6個面放置成矩形的一種封裝方法，其可以用於編碼和遞送。具有立方體貼圖投影的範例圖像的示意圖在第2C圖示出。空白區域（20）是填充區域以填充矩形圖像。對於每個面，圖像看起來與正規2D圖像相同。但是，每個面的邊界不連續。穿過兩個相鄰面的直線（例如表示牆壁和天花板之間的連接處的線22）將在這兩個面的邊界處彎曲。這意味著在面邊界處的運動也將是不連續的。

第3A圖至第3B圖示出了等面積投影的幾何結構範例。與等距柱狀投影不同，球體上的垂直取樣不是基於間距（pitch）的偶數間隔。每個取樣緯度的Y軸上的投影均勻分佈，以便為球體上的每個樣本實現相同的面積。對於靠近極點區域的那些區域，垂直方向的取樣變得更加稀疏。這也意味著赤道附近有更多的樣本。在實際情況下，這是較為理想的，因為與靠近極點的區域相比，使用者通常更頻繁地觀看赤道附近的區域。第3C圖是具有等面積投影的範例圖像的示意圖。與第1C圖相比，在第3C圖中在赤道附近的區域被放大，而極點附近的區域被擠壓。

第4A圖示出了八面體投影的幾何結構的範例。八面體由8個等邊三角形面組成。如果相切球體的半徑為1，則每個三角形的橫向長度為√6。第4B圖示出了將八個三角形佈置成一個矩形的一種封裝方法。第4C圖示意性地示出了具有八面體投影的一個範例圖。在兩個相鄰三角形的共用邊界的角落處觀察到翹曲失真，例如所看到的在門口402的失真。

為了比較不同幾何投影方法的編碼效率，Yu等在M. Yu，H. Lakshman，B. Girod，“A Framework to Evaluate Omnidirectional Video Coding Scheme”，IEEE International Symposium on Mixed and Augmented Reality（IEEE混合與增強現實國際會議），2015，中提出了基於緯度的PSNR（L-PSNR）。其考慮了兩個因素：（1）在球體上均勻取樣；（2）觀看者的觀看行為。其定義了在球體上均勻分佈的一些樣本，並且還根據其緯度來定義樣本的權重。藉由考慮所有這些均勻分佈的樣本，用加權均方誤差（MSE）測量失真。藉由在觀看者觀察這些訓練序列時，藉由追蹤觀看者的視角來導出權重。如果被更頻繁地觀察，則權重會更大。根據這些統計，赤道附近的權重大於極點附近的權重，因為最感興趣的內容位於赤道附近。使用球體上這些均勻分佈的樣本提供了一種比較不同投影方法的性能的措施。然而，當應用不同的投影時，那些預定義的球體樣本可能不會投影到整數取樣位置。如果應用基於內插濾波器的重取樣方法，則會引入額外的內插誤差。如果應用最近鄰取樣，則不能再保證均勻取樣。因此，客觀和主觀品質評估方法仍然是360度視訊編碼的開放主題。

360度相機和拼接軟體廣泛支援等距柱狀格式。為了在立方體貼圖幾何中編碼360度視訊，必須將等距柱狀格式轉換為立方體貼圖格式。等距柱狀和立方體貼圖之間的關係如下。在第2A圖中，每個面涉及從球體中心到面中心的三個軸中的每一個。“P”表示正，“N”表示負，PX表示從球體中心沿正X軸的方向，NX為PX的反方向，PY、NY、PZ和NZ類似標記。然後，存在分別對應於正面、背面、頂部、底部、右側和左側面的6個面（PX，NX，PY，NY，PZ，NZ），並且這些面從0到5被編索引。令Ps（X_s，Y_s，Z_s）是半徑為1的球體上的點。其可以偏航φ和俯仰θ表示如下： X_s = cos(θ)cos(φ) (3) Y_s = sin(θ) (4) Z_s = -cos(θ)sin(φ) (5)

設Pf為延伸從球從中心到Ps的線時的立方體貼圖上的點。在不失一般性的情況下，設Pf在面NZ上。Pf（X_f，Y_f，Z_f）的座標可以計算為： X_f = X_s/|Z_s| (6) Y_f = Y_s/|Z_s| (7) Z_f = -1 (8)

其中| x |是變數x的絕對值。然後，面NZ的2D平面中的Pf（uc，vc）的座標計算為： uc = W*(1-X_f)/2 (9) vc = H*(1-Y_f)/2 (10)

從等式（3）到（10），可以建立立方體貼圖中在特定面上的座標（uc，vc）和球體上的座標（φ，θ）之間的關係。並且從等式（1）和（2）可知等距柱狀點（ue，ve）與球體上的點（φ，θ）之間的關係。因此，可以找到等距柱狀幾何和立方體貼圖幾何體之間的關係。從立方體貼圖到等距柱狀的幾何映射可以總結如下。給定立方體貼圖中一個面上的點（uc，vc），等距柱狀平面上的輸出（ue，ve）可以計算為： 1）根據等式（9）和（10）中的關係，用（uc，vc）計算面上3D點P_f的座標； 2）根據等式（6）、（7）和（8）中的關係，用P_f計算球體上3D點P_s的座標； 3）根據等式（3）、（4）和（5）中的關係，用P_s計算球體上的（φ，θ）； 4）根據等式（1）和（2）中的關係，從（φ，θ）中計算等距柱狀圖像上點（ue，ve）的座標。

為了使用立方體貼圖表示一個2D圖像中的360度視訊，立方體貼圖的6個面可以被封裝成一個矩形區域，這稱為訊框封裝。然後將訊框封裝圖像作為一個正規2D圖像進行處理（例如，編碼）。存在不同的訊框封裝配置，如3x2和4x3。在3x2配置中，6個面被封裝成2列，一個列中有3個面。在4x3配置中，4個面PX、NZ、NX、PZ被封裝在一列（例如，中心列）中，並且面PY和NY被分別封裝在不同的兩列（例如頂部和底部列）中。第2C圖利用與第1C圖中的等距柱狀圖像對應的4×3訊框封裝。

在範例性場景中，採用等距柱狀格式的360度視訊作為輸入，並且希望將輸入轉換為立方體貼圖格式。應用以下步驟： 1）對於立方體貼圖格式的每個樣本位置（uc，vc），藉由上面介紹的方法計算等距柱狀格式的相應座標（ue，ve）。 2）如果如此計算的等距柱狀的座標（ue，ve）不在整數樣本位置，則可以應用內插濾波器，以使用其相鄰整數位置處的樣本獲得在其分數位置處的樣本值。

第5圖中描繪了用於360度視訊系統的一個工作流程。其包括360度視訊擷取502，例如使用多個相機擷取覆蓋整個球體空間的視訊。然後將這些視訊例如以等距柱狀幾何結構而拼接在一起（504）。等距柱狀幾何結構可以轉換為另一個幾何結構（506），例如立方體貼圖，以用於編碼，例如用現有視訊編解碼器進行編碼。訊框封裝508可以在編碼510之前執行。經編碼的視訊經由例如動態串流或廣播遞送給用戶端。在接收器處，視訊被解碼（512），解壓縮的訊框被解封裝（514）並轉換（516）為顯示幾何（例如，等距柱狀）。然後，其可以用於根據使用者的視角以經由視埠投影呈現518、並顯示在頭戴式顯示器520上。

在專業及/或消費者視訊應用中，色度分量通常被子取樣為比亮度分量更小的解析度。色度子取樣減少了要被編碼的視訊資料的量（並因此節省頻寬和計算能力），而不會顯著影響視訊品質。例如，廣泛使用的色度格式之一稱為4：2：0色度格式，其中兩個色度分量被子取樣為亮度解析度的1/4（水平1/2和垂直1/2）。在色度子取樣之後，色度取樣網格可能已經變得不同於亮度取樣網格。在第5圖中，在整個處理流程中，在每個階段處理的360度視訊可以是色度分量已被子取樣的色度格式。

第6圖是通用的基於塊的混合視訊編碼系統的一個實施方式的方塊圖。輸入視訊訊號102被逐塊處理。在HEVC中，使用擴展塊大小（稱為“編碼單元”或CU）來有效地壓縮高解析度（例如，1080p及更高）視訊訊號。在HEVC中，CU可以達到64x64像素。 CU可以進一步劃分為預測單元或PU，針對其應用單獨的預測方法。對於每個輸入視訊塊（MB或CU），可以執行空間預測（160）及/或時間預測（162）。空間預測（或“訊框內預測”）使用來自相同視訊圖像/切片中的已經編碼的相鄰塊的像素來預測目前視訊塊。空間預測減少視訊訊號中固有的空間冗餘。時間預測（也稱為“訊框間預測”或“運動補償預測”）使用來自已經編碼的視訊圖像的像素來預測目前視訊塊。時間預測減少視訊訊號中固有的時間冗餘。給定視訊塊的時間預測信號通常由表明目前塊與其參考塊之間的運動的量和方向的一個或多個運動向量傳訊。此外，如果支援多個參考圖像（如H.264 / AVC或HEVC等最近的視訊編碼標準的情況），則對於每個視訊塊，也發送其參考圖像索引；並且參考索引用於識別時間預測信號來自參考圖像儲存器（164）中的哪個參考圖像。在空間及/或時間預測之後，編碼器中的模式決定塊（180）例如基於速率失真最佳化方法選擇最佳預測模式。然後從目前視訊塊（116）中減去預測塊；並使用變換（104）和量化（106）將預測殘差去相關，以實現目標位元速率。量化的殘差係數被逆量化（110）和逆變換（112）以形成重建的殘差，然後將其加回到預測塊（126）以形成重建的視訊塊。在重建的視訊塊被放入參考圖像儲存器（164）中並被用於編碼未來的視訊塊進行之前，可以對重建的視訊塊應用（166）進一步的迴路濾波，如解塊濾波器和適應性迴路濾波器。為了形成輸出視訊位元流120，編碼模式（訊框間或訊框內）、預測模式資訊、運動資訊和量化的殘差係數都被發送到熵編碼單元（108），以被進一步壓縮和封裝來形成位元流。

第7圖是基於塊的視訊解碼器的一般方塊圖。視訊位元流202首先在熵解碼單元208處解封裝並進行熵解碼。編碼模式和預測資訊被發送到空間預測單元260（如果訊框內編碼）或時間預測單元262（如果訊框間編碼）以形成預測塊。殘差變換係數被發送到逆量化單元210和逆變換單元212以重建殘差塊。然後，在226處將預測塊和殘差塊相加在一起。重建的塊在被儲存在參考圖像儲存器264中之前可以進一步經過迴路濾波。然後將參考圖像記憶體中的重建的視訊發送出去以驅動顯示裝置，以及用於預測未來的視訊塊。範例性實施方式概述

可以將360度視訊資料投影到2D平面上，以使用傳統2D平面視訊編碼對資訊進行編碼。由於可以使用許多種幾何投影來表示360度資料，並且可以將投影資料封裝成不同的配置，這會導致各種問題。

一個問題是，為了能夠從解碼的2D平面視訊中適當地重建360視訊，幾何和訊框封裝參數應該可用於解碼器來解封裝資料並將其從2D空間投射回3D空間。例如，立方體貼圖格式可以使用具有不同的面順序、不同的面旋轉或不同的面尺寸的不同的佈置來表示，例如3x2、4x3、1x6或6x1。另外，如果在接收器側使用與編碼格式不同的格式，則還需要將幾何和訊框封裝參數以將編碼格式轉換為所需格式。例如，如果編碼格式是立方體貼圖，但是顯示格式是等距柱狀，則必須進行轉換。實際上，當檔案格式多工器多工這些基本的流時，從視訊本身擷取這些訊框封裝佈置資訊更好，而不是依賴外部中繼資料。

另一個問題是，對於一些訊框封裝配置，填充展開的面以使得所得到的訊框封裝圖像形成矩形區域，對於儲存或壓縮目的可能是有益的。例如，在立方體貼圖4x3格式中，必須在右上和右下邊緣添加附加像素（見第2B圖及第2C圖）。編碼這些附加像素會消耗位元，但不會傳達任何有意義的資訊。因此，如果編碼器跳過這些像素，則可以實現位元速率節省。在這種情況下，應該向解碼器傳訊緊湊配置被用於360度視訊的正確重建。此外，與傳統的2D平面視訊不同，在重播視訊的任何時候，只有一部分360視訊（例如，視埠）被呈現並顯示給使用者（見第5圖）。統計顯示，赤道周圍的觀察概率通常高於極點周圍，靠近前視圖的觀察概率高於靠近後視圖。因此，識別投影格式的資訊將允許編碼器在投影的2D視訊中識別這些區域（即赤道vs極點和前面vs後面），並應用不同的編碼策略（例如，對與赤道及/或前面的區域相對應的區域花費更多的位元及/或應用更複雜的最佳化策略，並且對與極點及/或背面的區域相對應的區域花費較少的位元及/或應用更簡單的最佳化策略）來利用使用者的觀看行為以更智慧的方式分配位元及/或計算資源。

另一個問題是例如MPEG-2，H.264和HEVC之類的現有的編解碼器是專為傳統2D視訊設計的，不考慮360度資料表示的任何屬性。為了獲得更好的壓縮效率，先進的360視訊編碼工具可以利用完整的3D表示，但是由於在投影的2D平面視訊上執行編碼，這些工具可能會受益於關於幾何和訊框封裝的資訊。因此，關於幾何和訊框封裝參數的資訊可以對編碼器和解碼器都可用，以便能夠適當且更有效地編碼和解碼360視訊。例如，在立方體貼圖格式中，展開的面只有2D平面視訊上幾個正確定位的相鄰面，這限制了編解碼器利用相鄰面之間的冗餘資訊的能力。然而，如果編解碼器具有關於3D表示的資訊，其中立方體的每個面恰好具有4個相鄰面，則可以利用更多的冗餘資訊來減少必須被編碼的資料量。

另外一個問題是幾何和訊框封裝參數可以在360度視訊的持續時間內變化。因此，如果幾何和訊框封裝參數隨著時間而變化，則這些參數應該對用於360視訊的每一訊框的編碼器和解碼器都可用。例如，編碼格式可以在特定時刻從立方體貼圖改變到等距柱狀，以實現更好的壓縮性能，或者特定的立方體貼圖面的集合的尺寸可以改變以適應特定視訊段中較低或更高頻寬要求。

本文揭露的系統和方法解決了這些問題和其他問題。

在一些實施方式中，藉由用附加的高階語法元素來傳訊位元流中的幾何和訊框封裝參數，以解決針對360度視訊編碼的上述問題中的一個或多個問題。特別地，可以指定投影幾何類型，包括用於幾何面的不同參數，以將其定位在2D平面視訊上。360視訊參數可以在不同等級被傳訊。下面的一部分描述了如何在視訊等級（例如，視訊參數集或VPS等級）儲存投影格式參數，以最小化當不同層及/或序列及/或圖像使用相同的投影格式時必須傳輸的資訊量。下面的另一部分介紹如何在序列等級（例如，序列參數集或SPS等級）傳訊投影格式，允許相同視訊的不同序列使用不同的投影格式，或改變與給定投影格式相關的參數。下面的另一部分介紹如何在圖像等級（例如，圖像參數集或PPS等級）傳訊投影格式，允許相同序列的不同圖像使用不同投影格式，或改變與給定投影格式相關的參數。本文揭露的系統和方法的另一方面是使得能夠以不同的品質因數編碼不同的幾何面。例如，在立方體貼圖格式中，可以用更高的品質對前、後、左和右面進行編碼，而頂面和底面可以用較低品質進行編碼。這是因為觀看者更有可能觀看地平線附近的區域，而不是靠近兩極的區域。以這種方式，可以更有效地編碼360視訊。

在一些實施方式中，介紹了指定幾何坐標系相對於絕對座標系的旋轉的系統和方法。可以使用這些系統和方法來旋轉3D幾何，使得感興趣的物件或區域被投影到可以用更高品質編碼的面或面的集合中。類似地，如果感興趣的物體或區域在幾個面上分割，這可以減少每個面內的冗餘，則幾何旋轉可以用於限定不同的方位，使得一個或多個重要物體可以放置在一個面內，使得可以實現更好的壓縮效率。在某些情況下，如果這是不可能的，例如，如果物件是大的及/或足夠近的，其在水平和垂直方向中的一個或兩個中跨過90度，那麼這些面可以被旋轉，盡可能地將重要物體的部分放置在一個面內。由於3D幾何的固有特性，當物體跨越多於一個面時，其幾何結構在從一個面轉換到另一個面時會“失真”，從而降低了相關性和編碼效率。能夠指定投影方向以使得一個面內的物體連續性最大化，可以提高編碼效率。在視訊級的 360 度視訊屬性傳訊

不同的投影幾何具有不同的特徵。例如，只有一個面用於等距柱狀投影和等面積投影。沒有面邊界的問題，雖然圖像被拉伸。立方體貼圖具有六個面，並且在訊框封裝圖像中具有許多面邊界。每個圖像可以用不同的投影幾何被編碼、或用相同的幾何被編碼，但是具有不同的面佈局、尺寸或品質。為此，如表1所示，在一些實施方式中可以引入新的參數集，用於360視訊。表1 視訊參數集RBSP

在範例性實施方式中，旗標vps_360_extension_flag可以具有以下語義。

vps_360_extension_flag：指定視訊是否為360度視訊，在這種情況下，可以使用用於360視訊的有效表示和壓縮的特定參數和工具。當不存在時，vps_360_extension_flag的值可以推斷為等於0。

在視訊等級，根據表2，在一些實施方式中可以傳訊不同序列及/或層中使用的投影格式的總數。表2. 視訊參數集360擴展語法

在範例性實施方式中，表2的參數可以具有以下語義。

vps_num_360_formats_minus1：指定在不同序列及/或層中使用的投影格式的數量（減1）。當不存在時，vps_num_360_formats_minus1的值可以推斷為等於0，表示僅使用一種投影格式。

360_format_idx_present_flag：指定語法元素vps_360_format_idx[i]是否存在。當不存在時，可以推斷360_format_idx_present_flag的值等於0。

vps_360_format_idx [i]：指定VPS中360_format（）語法結構列表中的適用於nuh_layer_id等於layer_id_in_nuh [i]的層的360_format（）語法結構的索引。當不存在時，vps_rep_format_idx[i]的值可以推斷為等於Min（i，vps_num_rep_formats_minus1）。

對於這種提出的語法結構，在多層視訊流中，每層的投影格式可能不同。例如，可以使用速率失真最佳化以在編碼器處確定每層的投影格式。編碼器可以用所有可用投影格式對目前層進行編碼，並隨後測量速率失真成本。如果目前層是增強層，則可以在同一層中不僅使用訊框內和訊框間預測進行編碼，而且可以使用與相同或不同的投影格式的另一層（例如，參考層）的層間預測。當來自參考層的投影格式與目前層的投影格式不同時，層間預測處理還可以包括投影格式轉換。最後，可以選擇導致最小速率失真成本的投影格式進行最終編碼。

在一些實施方式中，可以根據表3來傳訊每個投影格式和相關參數的屬性。表3. 360度表示格式語法

在範例性實施方式中，表3的參數可以具有以下語義。

projection_geometry：指定使用的投影幾何的表4中的映射索引。

geometry_rotation_param_present_flag：指定語法元素geometry_rotation_yaw、geometry_rotation_pitch和geometry_rotation_roll是否存在。當不存在時，geometry_rotation_param_present_flag的值可以被推斷為等於0。

geometry_rotation_yaw：指定相對於絕對座標系圍繞幾何坐標系的Y軸（參見第2A圖）的旋轉。當不存在時，geometry_rotation_yaw的值可以被推斷為等於0。

geometry_rotation_pitch：指定相對於絕對座標系圍繞幾何坐標系的Z軸（參見第2A圖）的旋轉。當不存在時， geometry_rotation_pitch的值可以被推斷為等於0。

geometry_rotation_roll：指定相對於絕對座標系圍繞幾何坐標系的X軸（參見第2A圖）旋轉。當不存在時，geometry_rotation_roll的值可以被推斷為等於0。

compact_representation_enabled_flag：指定用於將訊框封裝圖像填充到矩形圖像中的樣本或塊是否被編碼器跳過。當不存在時，compact_representation_enabled_flag的值可以被推斷為等於0。

loop_filter_across_faces_enabled_flag：指定是否可以跨面邊界執行迴路濾波操作。當不存在時，可以推斷出loop_filter_across_faces_enabled_flag的值等於1。

num_face_rows：指定在訊框封裝圖像中的面列數。當不存在時，num_face_rows的值可以被推斷為等於1。

num_face_columns：指定在訊框封裝圖像中的面行數。當不存在時， num_face_columns的值可以被推斷為等於1。

注意，可以傳訊num_face_rows_minus1和num_face_columns_minus1而不是傳訊num_face_rows和num_face_columns，以減少編碼這些語法元素所需的位元數。

equal_face_size_flag：指定是否所有面共用相同大小（寬度和高度相同）。當不存在時，equal_face_size_flag的值可以被推斷為等於0。當equal_face_size_flag被設定為1時，可以基於投影幾何推斷訊框封裝圖像中所有面的寬度和高度。例如，對於立方體貼圖投影，可以推斷訊框封裝圖像中所有面的亮度樣本中的寬度等於pic_width_in_luma_samples / num_face_columns，而訊框封裝圖像中所有面的亮度樣本的高度可被推斷為等於pic_height_in_luma_samples / num_face_rows。注意，訊框封裝圖像中所有面的亮度樣本的寬度和高度不應等於0，並且應為MinCbSizeY的整數倍。

face_qp_offset_enabled_flag指定是否為不同面使用不同QP。當不存在時，可以推斷face_qp_offset_enabled_flag的值等於0。

face_idx [i] [j]：指定位於訊框封裝圖像中的第i列和第j行的面的索引。對於只有單一面的簡單幾何，如等距柱狀或等面積，唯一的面是面＃0。對於其他幾何，可以使用面的預設編號和定位，如針對立方體貼圖和八面體幾何而在表5所示的。

face_width_in_luma_samples [i] [j]：指定位於訊框封裝圖像中第i列和第j行的面的亮度樣本的寬度。可以採用技術來防止關於訊框封裝圖像寬度的歧義。例如，可以強制地設定沿著每列的不同面寬的總和等於訊框封裝的圖像寬度。face_width_in_luma_samples [i] [j]不得等於0，並且應為MinCbSizeY的整數倍。

face_height_in_luma_samples [i] [j]：指定位於訊框封裝圖像中第i列和第j行的面的亮度樣本的高度。可以採用技術來防止關於訊框封裝圖像高度的歧義。例如，可以強制的設定沿著每行的不同面的高度的總和等於訊框封裝圖像高度。face_height_in_luma_samples [i] [j]不得等於0，並且應為MinCbSizeY的整數倍。

face_rotation_idc [i] [j]：指定位於訊框封裝圖像中第i列和第j行的面的圖像坐標系和面坐標系之間的旋轉的表6中的映射索引。當不存在時，face_rotation_idc [i] [j]的值可以被推斷為等於0。

face_rotation [i] [j]：指定位於訊框封裝圖像中第i列和第j行的面的圖像坐標系和面坐標系之間的旋轉度。

face_vertical_flip_flag [i] [j]：指定位於訊框封裝圖像中位於第i列和第j行的面是否在旋轉後被垂直翻轉。當不存在時，face_vertical_flip_flag [i] [j]的值可以推斷為等於0。

face_qp_offset [i] [j]：當確定位於訊框封裝圖像中的第i列和第j行的面的QP值時，指定要添加到序列等級QP的差異。表4.投影幾何索引表5.預設面定義表6.旋轉索引

將訊框封裝圖像考慮作為面網格，這些參數可用於幾何格式的非常靈活而強大的傳訊。對於導致單面（例如等距柱狀、等面積或圓柱體）的投影幾何，可以從幾何和圖像大小推斷參數num_face_rows、num_face_columns、face_idx，face_width_in_luma_samples、face_height_in_luma_samples和face_rotation。然而，對於諸如立方體貼圖，八面體或二十面體之類的其他幾何，最好指定這些參數，因為面可以用不同方式佈置或具有不同大小。例如，如第9A-9C圖所示，相同的立方體貼圖投影可以用不同方式被封裝，例如（a）3×4網格（第9A圖）或（b）2x3網格（第9B圖）。在3x4網格的情況下，可以將face_idx設定為高於實際面數的值，這可以從幾何推斷出來，以表明網格中不包含實際面的位置。例如，我們可以設定參數如下： projection_geometry = 1 // 立方體貼圖 face_idx[0][0] = 2 // 面 #2 face_idx[0][1] = 6 // 無效面 face_idx[0][2] = 7 // 無效面 face_idx[0][3] = 8 // 無效面 face_idx[1][0] = 1 // 面 #1 face_idx[1][1] = 4 // 面 #4 face_idx[1][2] = 0 // 面 #0 face_idx[1][3] = 5 // 面 #5 face_idx[2][0] = 3 // 面 #3 face_idx[2][1] = 9 //無效面 face_idx[2][2] = 10 //無效面 face_idx[2][3] = 11 //無效面

為了在某些方向提供更好的細節，某些面可以用較高解析度被編碼。這是因為與其他區域相比觀看者更有可能觀看某些區域，特別是靠近前面方向的區域。以這種方式，可以更有效地編碼360度視訊。為此，可以使用face_width_in_luma_samples和face_height_in_luma_samples參數為不同的面指定不同的大小。例如，在立方體貼圖格式中，前面可以用比其他面高的解析度被編碼，如第9C圖所示，我們可以設定參數如下： projection_geometry = 1

其中W是亮度樣本中除了面0（前面）之外的所有其他面的面寬，H是亮度樣本中除面0（前面）之外的所有其他面的面高度。

從這些參數可以推斷出，前面跨越4個網格位置，因為其大小是其他面的兩倍，可以正確擷取資訊。

面可以佈置為具有不同的方位。例如，如立方體貼圖投影所示，當與第9A圖的3x4網格相較時，面“2”、“1”和“3”在第9B圖的2x3網格中逆時針旋轉90度。face_rottion_idc參數可用於指定面坐標系和訊框封裝圖像坐標系之間的旋轉。

網格系統也可用於具有非正方形面（例如三角形面）的幾何，如第11圖及第12圖所示分別為八面體和二十面體。因為一些三角形面被分成兩部分以用於緊湊表示（參見第11B圖和第12B圖），可以使用兩個直角三角形而不是一個等腰或等邊三角形來定義一個三角形面。基本的直角三角形可以被定義為如第10A圖所示。由於旋轉不足以使用兩個直角三角形構造一個等腰三角形或等邊三角形，所以旋轉可以與垂直翻轉（或在一些實施方式中，水平翻轉）組合。經由這種表示，相同的語法可以用於具有很大靈活性的緊湊和非緊湊表示。例如，為了傳訊第11B圖所示的緊湊八面體，可以如下設定參數:

face_qp_delta參數可用於指定特定面是否以較高或較低品質被編碼。例如，藉由在切片或編碼單元等級調整品質可以獲得類似的結果。然而，切片可以覆蓋幾個面，並且面很可能包含多個編碼單元，因此直接為每個面傳訊品質差異可能是更有效地。

對於由沿著每行具有相同寬度（但不同行不同寬度）且沿著每列的相同高度（但不同列不同高度）的面組成的正規訊框封裝網格，也可以使用較少的參數來傳訊面屬性，如表7所示。表7. 360度表示格式替代語法

在範例性實施方式中，表7的參數可以具有以下語義。

num_face_rows_minus1：指定訊框封裝圖像中的面列數（減1）。當不存在時，可以推斷num_face_rows_minus1的值等於0。

num_face_columns_minus1：指定訊框封裝圖像中的面行數（減1）。當不存在時，可以推斷num_face_columns_minus1的值等於0。

row_height_in_luma_samples[i]：指定位於訊框封裝圖像中第i列的面的亮度樣本中的高度。對於最後一列，高度可以推斷為等於pic_height_in_luma_samples -。 row_height_in_luma_samples[i]不得等於0，並且應為MinCbSizeY的整數倍。

column_width_in_luma_samples[j]：指定位於訊框封裝圖像中第j行的面的亮度樣本中的寬度。對於最後一行，寬度可以推斷為等於pic_width_in_luma_samples -。 column_width_in_luma_samples[j]不得等於0，並且應為MinCbSizeY的整數倍。

面屬性也可以在用於不規則面形狀的面索引順序中傳訊。表8顯示了一個例子。表8. 360度表示格式替代語法

在範例性實施方式中，表8的參數可以具有以下語義。

num_faces：指定訊框封裝圖像中的面數。當不存在時，可以推斷num_faces的值等於1。

注意，代替信號num_faces，可以傳訊num_faces_minus1以減少編碼該語法元素所需的位元數。

num_face_vertices[i]：指定第i個面的頂點數。當不存在時，num_face_vertices[i]的值可以被推斷為等於4，因為四邊形是最常見的面多邊形類型。

vertex_2D_pos_x[i][j]：指定第i個面的第j個頂點的訊框封裝圖像中的x座標。

vertex_2D_pos_y[i][j]：指定第i個面的第j個頂點的訊框封裝圖像中的y座標。

vertex_3D_pos_x[i][j]：指定第i個面的第j個頂點的3D坐標系中的x座標。

vertex_3D_pos_y[i][j]：指定第i個面的第j個頂點的3D坐標系中的y座標。

vertex_3D_pos_z[i][j]：指定第i個面的第j個頂點的3D坐標系中的z座標。

可以使用vertex_3D_pos_x[i][j]、vertex_3D_pos_y[i][j]和vertex_3D_pos_z[i][j]參數來定義3D空間中使用者指定的基於多邊形的幾何。這些參數可用於將樣本從訊框封裝圖像中的其位置映射到3D幾何中的相應位置。此資訊可能被先進的360視訊編碼利用，以達到更好的壓縮效率。例如，編解碼器可以利用在3D表示中的未被並置在訊框封裝圖像中的相鄰面之間的冗餘資訊。序列等級 360 度視訊屬性傳訊

在序列等級，可以傳訊所使用的投影格式。為此，如表9所示，可以為360視訊引入新的參數集。表9. 一般序列參數集RBSP語法

在範例性實施方式中，表9的參數可以具有以下語義。

sps_360_extension_flag：指定序列是否為360-視訊，在這種情況下，可以使用用於360視訊的有效壓縮的特定參數和工具。

所使用的投影格式可以根據表10被傳訊。表10. 序列參數集360擴展語法

在範例性實施方式中，表10的參數可以具有以下語義。

sps_num_360_formats_minus1：指定在序列中使用的投影格式的數量（減1）。當不存在時，sps_num_360_formats_minus1的值可以被推斷為等於0，表示僅使用一種投影格式。

sps_360_format_idx[i]：指定在序列中使用的360_format（）語法結構的VPS中360_format（）語法結構列表中的索引列表。sps_360_format_idx [i]的值的範圍可以是0到vps_num_360_formats_minus1，包括端值。

注意，在VPS等級所定義的所有360視訊相關參數可以在SPS等級改變。儘管未在表10中示出，替代使用sps_360_format_idx以索引在VPS中發送的360視訊格式的集合，與表3中定義的語法元素類似的語法元素（例如，projection_geometry、face dimension parameters、face QP offset等）可以作為SPS擴展的一部分直接傳訊，以表明參考此SPS的視訊序列的360視訊參數。圖像等級 360 度視訊屬性傳訊

在一些實施方式中，為了提供更大的編碼最佳化，可以使用針對不同訊框的不同投影格式對序列進行編碼。在這種情況下，可以經由已經在VPS或SPS等級已傳訊的投影格式的集合中的索引以在圖像等級傳訊投影格式。為此，在一些實施方式中，如表11所示，可以為360視訊引入新參數集。表11.一般圖像參數集RBSP語法

在範例性實施方式中，表11的參數可以具有以下語義。

pps_360_extension_flag：指定引用此PPS的圖像是否包含與360度視訊編碼相關的特定參數。當不存在時，可以推斷pps_360_extension_flag的值等於sps_360_extension_flag。

在表12和13中提供了360視訊的PPS擴展的範例。表12.圖像參數集360擴展語法表13. 編碼區域表語法

在範例性實施方式中，表12和13的參數可以具有以下語義。

pps_360_format_idx：指定由此PPS引用的在SPS定義的投影幾何的集合中的索引。pps_360_format_idx的值應在0到sps_num_360_formats_minus1的範圍內，包括端點值。當不存在時，pps_360_format_idx的值可以被推斷為等於0。

pps_360_format_idx參數用於指定在序列等級列出的可用投影格式中目前圖像的投影格式。例如，如果在SPS的sps_360_format_idx列表中只有等距柱狀和等面積可用，我們使用索引“0”表示等面積，“1”表示等距柱狀，則該參數可以設定如下： pps_360_format_idx = 0 //涉及此PPS的所有圖像將以等面積格式被編碼 pps_360_format_idx = 1 //涉及此PPS的所有圖像都以等距柱狀格式被編碼。

在相同的視訊序列內，如果允許不同的圖像具有不同的投影幾何格式，則使用具有2個運動參數（分別為水平和垂直位移參數）的平移運動模型或使用具有4個或6個運動參數的基於仿射的運動模型進行時間運動補償預測，可能無法再非常有效地工作。相反，如果目前圖像的投影幾何與其時間參考圖像的投影幾何不同，則可以在施加現有時間運動補償預測之前，執行幾何轉換以對齊目前圖像與其時間參考之間的投影幾何。這可以增加時間預測效率，儘管以更高的計算複雜度為代價。當在運動補償預測（例如，雙預測）中使用多於一個的時間參考圖像時，則在執行運動補償預測之前，可以在目前圖像與其所有參考圖像之間對齊投影幾何。

在範例性實施方式中，coding_region_table（）語法結構的語義可以如下：

full_sphere_range_coding_flag：指定整個球體範圍是否被編碼，或者是否僅其中一部分被編碼。當不存在時，可以推斷full_sphere_range_coding_flag的值等於1。

pos_x_in_360_packed_frame：指定訊框封裝圖像中編碼圖像左上角的x座標。

pos_y_in_360_packed_frame：指定訊框封裝圖像中編碼圖像左上角的y座標。

由於不同的限制，例如頻寬或記憶體限制或解碼能力，整個球體只有一部分可以被編碼。可以使用full_sphere_range_coding_flag和關聯的pos_x_in_360_packed_frame和pos_y_in_360_packed_frame參數來傳訊此資訊。當full_sphere_range_coding_flag被設定為0時，僅對整個訊框封裝圖像的矩形部分進行編碼。然後，使用關聯的pos_x_in_360_packed_frame和pos_y_in_360_packed_frame參數來傳訊訊框封裝圖像內的編碼圖像的左上角。

第13A圖至第13B圖示出了用於立方體貼圖（第13A圖）和等距柱狀（第13B圖）投影的有限球體範圍編碼的使用。在這些範例中，僅前面區域被編碼。請注意，當使用有限的球體範圍編碼時，應禁用鏈接面寬/高度和編碼圖像寬度/高度的約束。如第13A圖所示，整個圖像表示訊框封裝圖像，並且矩形1305界定編碼區域。如第13B圖所示，整個圖像表示訊框封裝圖像，矩形1310界定編碼區域。

也可以針對每種投影格式而在VPS及/或PPS等級對coding_region_table（）進行傳訊。

注意，在SPS及/或VPS等級定義的一些參數可以替代地或附加地在PPS等級被傳訊。例如，特別有利的是，在PPS等級而不是在VPS或SPS等級處傳訊面QP偏移參數，因為其允許更多的靈活性來調整圖像等級上每個單獨的面的面品質。例如，其允許根據階層B預測結構中的目前訊框封裝圖像的時間等級來靈活地調整每個單獨面的面品質。例如，在較高時間等級，對於非前面，可以將面QP偏移設定為較大值，而對於前面，可以將面QP偏移設定為較小值（例如，0）。這可以確保不管目前圖像的時間等級如何，前面總是以相對高的恆定品質被編碼，而較高時間等級圖像的其他面可以被更多量化以節省位元。

類似地，幾何旋轉參數（例如geometry_rotation_yaw，geometry_rotation_pitch和geometry_rotation_roll）可以在PPS等級而不是在VPS或SPS等級被定義和傳訊，因為其允許更多的靈活性來調整在圖像等級的幾何旋轉。在一些實施方式中，對於正被編碼的內容（例如由視訊內容的引導選擇），推薦的觀看方向被選擇，其中推薦的觀看方向可以在視訊進程中改變。在這樣的實施方式中，幾何旋轉參數可以根據推薦的觀察方向設定並與面QP偏移參數耦合，使得感興趣的物件或區域投影到以最高品質編碼的面。

第14A圖及第14B圖示出了訊框封裝圖像中面的範例性替代佈置。第14A圖及第14B圖各自示出六個面的佈置，諸如可以與立方體貼圖投影結合使用。第14A圖及第14B圖中的面的佈置可以被充當使用本文揭露的實施方式的使用者指定的幾何。

使用一個或多個有線及/或無線網路節點（諸如無線傳輸/接收單元（WTRU）或其他網路實體）來實施本文揭露的範例性實施方式。

第15圖為範例性WTRU 1502的系統圖，該WTRU 1502可以被用作此處描述的實施方式中的編碼器或解碼器。如第15圖中所示，WTRU 1502可以包括處理器1518、包括收發器1520的通信介面1519、傳輸/接收元件1522、揚聲器/麥克風1524、小鍵盤1526、顯示器/觸控板1528、非可移記憶體1530、可移記憶體1532、電源1534、全球定位系統（GPS）晶片組1536和感測器1538。需要理解的是，在保持與以上實施方式一致的同時，WTRU 1502可以包括上述元件的任何子集。

處理器1518可以是通用處理器、專用處理器、常規處理器、數位訊號處理器（DSP）、多個微處理器、與DSP核相關聯的一或多個微處理器、控制器、微控制器、專用積體電路（ASIC）、現場可程式設計閘陣列（FPGA）電路、其他任何類型的積體電路（IC）、狀態機等。處理器1518可以執行信號編碼、資料處理、功率控制、輸入/輸出處理及/或使得WTRU 1502能夠操作在無線環境中的其他任何功能。處理器1518可以耦合到收發器1520，該收發器1520可以耦合到傳輸/接收元件1522。儘管第15圖中將處理器1518和收發器1520描述為獨立的元件，但是可以理解的是處理器1518和收發器1520可以被一起集成到電子封裝或者晶片中。

傳輸/接收元件1522可以被配置為經由空中介面1516將信號傳輸到基地台、或者從基地台接收信號。例如，在一種實施方式中，傳輸/接收元件1522可以是被配置為傳輸及/或接收RF信號的天線。在另一實施方式中，傳輸/接收元件1522可以是被配置為傳輸及/或接收例如IR、UV或者可見光信號的放射器/偵測器。在又一實施方式中，傳輸/接收元件1522可以被配置為傳輸和接收RF信號和光信號兩者。需要理解的是傳輸/接收元件1522可以被配置為傳輸及/或接收無線信號的任何組合。

儘管傳輸/接收元件1522在第15圖中被描述為單一元件，但是WTRU 1502可以包括任何數量的傳輸/接收元件1522。更特別地，WTRU 1502可以使用MIMO技術。由此，在一種實施方式中，WTRU 1502可以包括兩個或更多個傳輸/接收元件1522（例如多個天線）以用於經由空中介面1516傳輸和接收無線信號。

收發器1520可以被配置為對將由傳輸/接收元件1522傳輸的信號進行調變、並且被配置為對由傳輸/接收元件1522接收的信號進行解調。如上所述，WTRU 1502可以具有多模式能力。由此，收發器1520可以包括多個收發器以用於使WTRU 1502能夠經由例如UTRA和IEEE 802.11之類的多種RAT進行通信。

WTRU 1502的處理器1518可以被耦合到揚聲器/麥克風1524、小鍵盤1526及/或顯示器/觸控板1528（例如，液晶顯示（LCD）顯示單元或者有機發光二極體（OLED）顯示單元）、並且可以從上述裝置接收使用者輸入資料。處理器1518還可以向揚聲器/麥克風1524、小鍵盤1526及/或顯示器/觸控板1528輸出使用者資料。此外，處理器1518可以存取來自任何類型的合適的記憶體中的資訊、以及向任何類型的合適的記憶體中儲存資料，該記憶體例如可以是非可移記憶體1530及/或可移記憶體1532。非可移記憶體1530可以包括隨機存取記憶體（RAM）、可讀記憶體（ROM）、硬碟或者任何其他類型的記憶體儲存裝置。可移記憶體1532可以包括使用者識別模組（SIM）卡、記憶條、安全數位（SD）記憶卡等類似裝置。在其他實施方式中，處理器1518可以存取來自實體上未位於WTRU 1502上而諸如位於伺服器或者家用電腦（未示出）上的記憶體的資料、以及向上述記憶體中儲存資料。

處理器1518可以從電源1534接收電能、並且可以被配置為將電能分配給WTRU 1502中的其他元件及/或對至WTRU 1502中的其他元件的電能進行控制。電源1534可以是任何適用於為WTRU 1502供電的裝置。例如，電源1534可以包括一個或多個乾電池（鎳鎘（NiCd）、鎳鋅（NiZn）、鎳氫（NiMH）、鋰離子（Li-ion）等）、太陽能電池、燃料電池等。

處理器1518還可以耦合到GPS晶片組1536，該GPS晶片組1536可以被配置為提供關於WTRU 1502的目前位置的位置資訊（例如經度和緯度）。作為來自GPS晶片組1536的資訊的補充或者替代，WTRU 1502可以經由空中介面1516從基地台接收位置資訊、及/或基於從兩個或更多個相鄰基地台接收到的信號時序來確定其位置。需要理解的是，在與實施方式一致的同時，WTRU 1502可以用任何合適的位置確定方法來獲取位置資訊。

處理器1518還可以耦合到其他週邊裝置1538，該週邊裝置1538可以包括提供附加特徵、功能性及/或無線或有線連接的一個或多個軟體及/或硬體模組。例如，週邊裝置1538可以包括諸如加速度計的感測器、電子指南針（e-compass）、衛星收發器、數位相機（用於照片及/或視訊）、通用序列匯流排（USB）埠、震動裝置、電視收發器、免持耳機、藍牙®模組、射頻（FM）無線電單元、數位音樂播放器、媒體播放器、視訊遊戲播放器模組、網際網路瀏覽器等等。

第16圖描繪了可以在本揭露的實施方式中使用的範例性網路實體1590，例如作為編碼器或解碼器。如第16圖所示，網路實體1590包括通信介面1592、處理器1594和非暫時資料儲存器1596，所有這些都經由匯流排、網路或其他通信路徑1598通信地連結。

通信介面1592可以包括一或多個有線通信介面及/或一或多個無線通訊介面。關於有線通信，作為範例，通信介面1592可以包括一或多個介面，例如乙太網路介面。關於無線通訊，通信介面1592可以包括元件，諸如一個或多個天線、為一種或多種類型的無線（例如LTE）通信設計和配置的一個或多個收發器/晶片組、及/或由相關領域的技術人員視為合適的任何其他元件。此外，關於無線通訊，通信介面1592可以用適合於在無線通訊（例如，LTE通信、Wi Fi通信等）的網路側（與用戶端側相對）執行的規模和配置來配置。因此，通信介面1592可以包括用於為覆蓋區域中的多個行動站、UE或其他存取終端服務的適當的裝置和電路（可能包括多個收發器）。

處理器1594可以包括由相關領域的技術人員認為合適的任何類型的一或多個處理器，一些範例包括通用微處理器和專用DSP。

資料儲存器1596可以採取任何非暫時的電腦可讀媒體或這種媒體的組合的形式，一些範例包括快閃記憶體、唯讀記憶體（ROM）和隨機存取記憶體（RAM）等等，但是可以使用由相關領域的技術人員認為適合的任何一種或多種類型的非暫時資料儲存器。如第16圖所示，資料儲存器1596包含處理器1594可執行的用於執行本文所述的各種網路實體功能的各種組合的程式指令1597。

注意，所描述的實施方式中的一個或多個的各種硬體元件被稱為與各個模組連接實施（即，執行、實行等）與本文所描述的各種功能的“模組”。如本文所使用的，針對給定實施模組包括由相關領域的技術人員認為適合的硬體（例如，一或多個處理器、一或多個微處理器、一或多個微控制器、一或多個微晶片、一或多個專用積體電路（ASIC）、一或多個現場可程式設計閘陣列（FPGA）、一或多個記憶體裝置）。每個所描述的模組還可以包括可執行用於執行由相應模組執行的一個或多個功能的指令，並且注意，這些指令可以採取或包括硬體（即硬連線）指令、韌體指令、軟體指令及/或類似的，並且可以儲存在任何合適的非暫時電腦可讀媒介或媒體中，諸如通常稱為RAM、ROM等。雖然本發明的特徵和元素以特定的結合在以上進行了描述，但本領域普通技術人員可以理解的是，每個特徵或元素可以在沒有其他特徵和元素的情況下單獨使用，或在與本發明的任何其他特徵和元素結合的各種情況下使用。此外，本發明描述的方法可以在由電腦或處理器執行的電腦程式、軟體或韌體中實施，其中所述電腦程式、軟體或韌體被包含在電腦可讀儲存媒體中。關於電腦可讀儲存媒體的範例包括但不限於唯讀記憶體（ROM）、隨機存取記憶體（RAM）、暫存器、快取記憶體、半導體儲存裝置、磁性媒體（例如，內部硬碟或抽取式磁碟）、磁光媒體以及CD-ROM光碟和數位多功能光碟（DVD）之類的光學媒體。與軟體有關的處理器可以被用於實施在WTRU、UE、終端、基地台、RNC或者任何主機電腦中使用的射頻收發器。

20‧‧‧空白區域

22‧‧‧線

102‧‧‧輸入視訊訊號

104‧‧‧變換

106‧‧‧量化

108、208‧‧‧熵編碼單元

110、210‧‧‧逆量化

112、212‧‧‧逆變換

116‧‧‧視訊塊

120、202‧‧‧位元流

126‧‧‧預測塊

160、260‧‧‧空間預測

162、262‧‧‧時間預測

164、264‧‧‧參考圖像儲存器

166‧‧‧視訊塊應用

180‧‧‧模式決定塊

402‧‧‧門口

502‧‧‧360度視訊擷取

508‧‧‧訊框封裝

510‧‧‧編碼

520‧‧‧頭戴式顯示器

1305、1310‧‧‧矩形

1502‧‧‧傳輸/接收單元（WTRU）

1516‧‧‧空中介面

1522‧‧‧傳輸/接收元件

1518、1594‧‧‧處理器

1520‧‧‧收發器

1519、1592‧‧‧通信介面

1524‧‧‧揚聲器/麥克風

1526‧‧‧小鍵盤

1528‧‧‧顯示器/觸控板

1530‧‧‧非可移記憶體

1532‧‧‧可移記憶體

1534‧‧‧電源

1536‧‧‧全球定位系統（GPS）晶片組

1538‧‧‧感測器、週邊裝置

1590‧‧‧網路實體

1596‧‧‧非暫時資料儲存器

1597‧‧‧指令

A0、A1、A2、A3、A4、A5、A6‧‧‧水平線

FOV‧‧‧視場

P、Pf、Ps、q‧‧‧點

NX、NXNY、NXPY、NY、NYNZ、NYPZ、NZ、PX、PXNY、PXPY、PY、PYNZ、PYPZ、PZ‧‧‧面

φ‧‧‧經度

θ‧‧‧緯度

從以下結合附圖藉由範例提供的描述可以具有更詳細地理解，其中：第1A圖示出了球體幾何上的使用經度和緯度中的球體取樣的等距柱狀投影。第1B圖示出了針對第1A圖中的取樣的2D平面等距柱狀投影，其中在第1A圖中的球體上的點P被投影到2D平面中的點q。第1C圖是具有等距柱狀投影的範例圖像的示意圖。第2A圖示出了在具有面PX（0）、NX（1）、PY（2）、NY（3）、PZ（4）、NZ（5）的3D幾何結構上的立方體貼圖投影。第2B圖示出了第2A圖中限定的六個面的2D平面。第2C圖示意性地示出了具有立方體貼圖投影的範例圖。第3A圖示出了用於等面積投影的以等面積方式進行的球體取樣。第3B圖示出了第3A圖的等面積投影的2D平面，其中球體上的點p投影到2D平面中的點q，並且水平線（A0、A1、A2等）的緯度是不等間隔。第3C圖示意性地示出了具有等面積投影的範例圖。第4A圖示出了具有3D幾何結構的八面體投影。第4B圖示出了第4A圖的3D結構的2D平面封裝。第4C圖示意性地示出了具有八面體投影的範例圖。第5圖示出了360度視訊處理工作流程的一個實施方式。第6圖示出了基於塊的視訊編碼器的功能方塊圖的一個實施方式。第7圖示出了視訊解碼器的功能方塊圖的一個實施方式。第8A圖示出立方體貼圖投影格式的實體佈局的一個實施方式。第8B圖示出了八面體投影格式的實體佈局的一個實施方式。第9A圖示出了以4×3格式表示的立方體貼圖。第9B圖示出了以3×2格式表示的立方體貼圖。第9C圖示出了以3×3格式表示的立方體貼圖，前面是其他面的尺寸的兩倍（面積的四倍）（在這種情況下，前面擴展了兩列和兩行）。第10A圖至第10H圖示出了三角形面的面旋轉的定義：第10A圖：0°旋轉；第10B圖：90°旋轉；第10C圖：180°旋轉；第10D圖：270°旋轉；第10E圖：0°旋轉，然後垂直翻轉；第10F圖：90°旋轉，然後垂直翻轉；第10G圖：180°旋轉，然後垂直翻轉；第10H圖：270°旋轉，然後垂直翻轉。第11A圖示出了用於八面體的非緊湊訊框封裝格式。第11B圖示出了用於八面體的緊湊訊框封裝格式。第12A圖示出了用於二十面體的非緊湊訊框封裝格式。第12B圖示出了用於二十面體的緊湊的訊框封裝格式。第13A圖示出了用於立方體貼圖的有限球體範圍編碼，其中全圖像表示訊框封裝圖像，以及矩形限定編碼的區域。第13B圖示出了用於等邊的有限球體範圍編碼，其中全圖像表示訊框封裝圖像，以及矩形限定編碼的區域。第14A圖及第14B圖示出了訊框封裝圖像中的面的範例性替代佈置，每個示出了六個面的佈置，諸如可以與立方體貼圖投影結合使用。第15圖示出了在一些實施方式中可以用作編碼器或解碼器的範例性無線傳輸/接收單元（WTRU）。第16圖示出了在一些實施方式中可以用作編碼器或解碼器的範例性網路實體。

Claims

一種用於解碼在一位元流中編碼的360度視訊的方法，該方法包括：接收編碼一2D平面視訊的一位元流，該位元流包括識別一投影幾何格式的參數；以及使用所識別的投影幾何格式將該2D平面視訊映射到一360度視訊。
如申請專利範圍第1項所述的方法，其中該位元流更包括表明該位元流是否編碼360度視訊的一參數，其中，只要該參數表明該位元流表示360度視訊，就執行該2D平面視訊至該360度視訊的該映射。
如申請專利範圍第1項所述的方法，其中該投影格式包括一投影幾何類型，並且其中識別該投影格式的該參數包括識別該投影幾何類型的一參數。
如申請專利範圍第3項所述的方法，其中識別該投影幾何類型的該參數包括所識別的投影幾何類型的一索引。
如申請專利範圍第3項所述的方法，其中識別該投影幾何類型的該參數識別從下列中的一或多者中選擇的一幾何類型：等距柱狀、立方體貼圖、等面積、八面體、二十面體、圓柱體和使用者指定的多邊形。
如申請專利範圍第3項所述的方法，其中，所識別的投影幾何類型具有多個面，並且其中識別該投影幾何類型的該參數包括面數的一指示。
如申請專利範圍第3項所述的方法，其中，所識別的投影幾何類型具有多個面，並且其中識別該投影幾何類型的該參數包括識別該2D平面視訊中的該多個面的一佈置的訊框封裝參數。
如申請專利範圍第1項所述的方法，其中所識別的投影格式具有多個面，並且其中該位元流更包括識別該2D平面視訊中的該多個面的品質位準的參數。
如申請專利範圍第1項所述的方法，其中，該投影幾何格式包括一投影幾何的一幾何方位，並且其中識別該投影幾何格式的該參數包括識別該幾何方位的一參數。
如申請專利範圍第9項所述的方法，其中，識別該幾何方位的該參數包括以下至少一者：一偏航參數、一俯仰參數和一滾動參數。
如申請專利範圍第9項所述的方法，其中識別該幾何方位的該參數包括識別一等距柱狀投影的該幾何方位的一參數，並且其中將該2D平面視訊映射到一360度視訊是使用具有所識別的幾何方位的等距柱狀投影而被執行。
如申請專利範圍第1項至第11項中任一項所述的方法，其中識別該投影格式的該參數在該位元流的至少一個視訊參數集中被接收。
如申請專利範圍第1項至第11項中任一項所述的方法，其中識別該投影格式的該參數在該位元流的至少一個序列參數集中被接收。
一種用於編碼360度視訊的方法，該方法包括：選擇一投影幾何格式；使用所選擇的投影幾何格式將該360度視訊映射到一2D平面視訊；在一位元流中對該2D平面視訊進行編碼；以及在該位元流中，傳訊識別該投影幾何格式的參數。
如申請專利範圍第14項所述的方法，更包括在該位元流中傳訊表明該位元流編碼360度視訊的一參數。
如申請專利範圍第14項所述的方法，其中選擇該投影幾何格式包括選擇一投影幾何的一幾何方位，並且其中在該位元流中所傳訊的該參數包括識別所選擇的幾何方位的一參數。
如申請專利範圍第16項所述的方法，其中識別該投影幾何方位的該參數包括識別一等距柱狀投影的該幾何方位的一參數，並且其中該360度視訊至該2D平面視訊的映射是使用具有所識別的幾何方位的等距柱狀投影而被執行。
如申請專利範圍第16項所述的方法，其中該投影幾何包括多個面，並且其中該投影幾何的該幾何方位被選擇為使得在該360度視訊內落入該多個面中的一個面的一所選擇的感興趣區域的一部分基本上最大化。
如申請專利範圍第16項所述的方法，其中該投影幾何包括多個面，該多個面包括以與至少一個其他面高相較下的一較高品質位準編碼的至少一個面，並且其中該投影幾何的該幾何方位被選擇為使得在該360度視訊內的一所選擇的感興趣區域落入具有該較高品質位準的該面的一部分基本上最大化。
如申請專利範圍第14項所述的方法，其中選擇該投影格式包括選擇一幾何類型，並且其中在該位元流中所傳訊的該參數包括識別所選幾何類型的一參數。