TWI727180B

TWI727180B - 用於傳輸媒體內容之方法、裝置及電腦程式

Info

Publication number: TWI727180B
Application number: TW107121817A
Authority: TW
Inventors: 佛雷德里梅茲; 法蘭克丹諾摩; 奈爾奧德果; 喬納森泰格特; 酒井智哉
Original assignee: 日商佳能股份有限公司
Priority date: 2017-06-27
Filing date: 2018-06-26
Publication date: 2021-05-11
Also published as: KR20200019881A; TW201906411A; JP2022133439A; JP2020526057A; GB202111969D0; GB2563865A; US11582496B2; GB201710463D0; KR102320455B1; US20210409798A1; GB201710264D0; CN110800311A; GB2594899A; GB2563920A; JP7399224B2; CN110800311B; GB2594899B; GB2563920B; WO2019002055A1; EP3646612A1

Abstract

本發明係關於一種用於從伺服器傳輸對應寬視角的場景之投影的編碼媒體資料到客戶端的方法，該方法包含：　　將該編碼的資料封裝於軌道中，　　其中提供資訊以用於客戶端需要將其它編碼資料剖析以顯示在給定軌道中封裝的至少編碼資料的信令。

Description

用於傳輸媒體內容之方法、裝置及電腦程式

本發明係關於一種用於傳輸媒體資料的方法及裝置。

本發明係關於例如依據如由MPEG標準化組織所定義的ISO基礎媒體檔案格式來封裝、剖析及串流化虛擬實境媒體內容，用以提供促進虛擬實境媒體內容之交換、管理、編輯以及展示的彈性且可延伸格式，並且用以改善例如其透過IP網路(像是使用適應性http串流協定的網際網路)的遞送。

國際標準組織基礎媒體格式(ISO BMFF, ISO/IEC 14496-12)為周知的彈性及可延伸格式，其描述用於區域儲存或經由網路或經由另一位元流遞送機制傳輸其一者的編碼時控媒體資料位元流(encoded timed media data bitstream)。此檔案格式為物件導向的(object-oriented)。其係由稱為箱/盒(box)的建立方塊組成，該建立方塊被順序地或分階層地組織且其定義編碼時控媒體資料位元流的參數，像是時序和結構參數。在檔案格式中，總體的展示係稱為電影。其邏輯地被分成軌道(track)。各個軌道代表時控的媒體資料(例如，視訊框)之序列。在各個軌道內，各個時控的資料之單元被稱為樣本；此可為視訊或聲頻之框。樣本係隱含地依序被編號。電影能被時間性地組織為一系列的電影及軌道片段(fragment)。真實的樣本係在稱為媒體資料盒的盒中。在電影片段內，有成組的軌道片段，每軌道零或更多。軌道片段依次包含零或更多軌道行程(track run)，其之各者記錄用於該軌道的樣本之連續行程。

為了改善使用者體驗且特別是為了提供身歷其境的體驗(immersive experience)，時控媒體資料位元流(視訊且甚至是聲頻)可為全向的(omnidirectional)(或是多方向的或複數方向的)。當應用到影片時，如所知的360° 環景影片(panoramic video)，使用者感覺到位於顯示的場景中。

全向影片可從360° 攝影機及/或藉由將從幾個攝影機獲取的視訊串流的影像結合來獲取，該些攝影機例如裝設在特別的托架(rig)上使得所有該些攝影機具有共同的節點(nodal point)。這類影像的結合已知為影像拼接(image stitching)或攝影機拼接(camera stitching)。

這類全向影像可根據使用者觀看方位經由頭戴顯示器或是透過投影到圍繞使用者的曲面螢幕(curved screen)來呈現。其亦可在具有導覽使用者介面的傳統2D螢幕上顯示，用以依據使用者的全向影片之所欲部分(亦已知為視埠)來追拍(pan)到全向影片中。由於使用者覺得在虛擬世界中，其亦常常被稱為虛擬實境(VR；virtual reality)。當虛擬物件被添加到全向影片中時，其被稱為擴增實境(AR；augmented reality)。

圖1闡述用於從伺服器裝置101補捉、傳輸及呈現全向媒體到用戶端裝置170(亦闡述為170’)的資料流之範例。

如所闡述的，此媒體具有從攝影機系統100取得並遞送到頭戴顯示器(HMD)170及170’的視訊內容。可例如透過IP網路163進行遞送160，IP網路像是使用經由串流伺服器161及串流客戶端162的適應性http串流協定的網際網路。

為了闡述的緣故，使用的攝影機系統100係基於成組的六個標準攝影機，其與立方體(cube)的各個面關聯。其被使用來捕捉(步驟110)代表圍繞攝影機系統的真實場景的影像。依據此安排，一攝影機提供前影像，一攝影機提供後影像，一攝影機提供左影像，一攝影機提供右影像，一攝影機提供底影像以及一攝影機提供頂影像。

從攝影機系統100獲取的影像係在伺服器101中處理(步驟120)，用以創建形成全向視訊串流(亦稱360視訊串流或虛擬實境媒體資料串流)的360影像。

處理步驟120在於拼接及投影相同時間點(time instance)之捕捉的影像。首先將影像拼接及投影到三維投影結構上，其代表在水平及垂直維度兩者中形成360°視角的球體121。在投影結構上360影像資料更例如使用等距離長方圓柱投影 (https://en.wikipedia.org/wiki/Equirectangular_projection)被轉換到二維投影影像122上(亦表示為捕捉投影)。投影的影像覆蓋整個球體。

或者，若全向媒體為立體360度視訊，則攝影機系統100可由多個在步驟110捕捉影像序列的攝影機組成，該影像序列代表能由客戶端日後使用以呈現三維360度場景的左視角及右視角。在這類的情形中，上述處理步驟120係分開地被應用到左視角和右視角影像序列兩者上。可選地，在步驟125處，訊框包裝可被應用來將相同時點的各個左視角影像和右視角影像包裝到相同投影影像，導致一個單一左+右投影影像序列。幾個立體訊框包裝配置是可能的，例如並行的(side-by-side)、由上而下(top-bottom)、基於直行的交插、基於橫列的交叉、交替的左和右視角之時間性交叉。或者，立體訊框包裝配置亦在於在分開的且獨立的投影影像序列中維持左及右視角，導致在編碼步驟140之後的獨立視訊位元流。例如，一視訊位元流代表左視角影像，而另一者代表右視角影像。

區域性包裝130接著被應用來將投影影像122映射到包裝的影像131上。區域性包裝在於應用變換、重調尺寸以及重定位投影影像之區域以為了例如對於使用者在球體之大多有用的部分上最大化信號資訊。其能注意到的是，包裝的影像可覆蓋整個球體的僅一部分。若未應用區域性包裝，包裝的影像131相同於投影影像122。在立體全向媒體的情形中，取決於在步驟125選取的訊框包裝配置，區域性包裝係在左+右投影影像序列上或分開地在左視角和右視角投影影像序列上的其一者而應用。

投影影像122在步驟140處被編碼成一或幾個視訊位元流。在立體全向媒體的情形中，取決於在步驟125選取的訊框包裝配置，編碼步驟係在左+右包裝的影像序列上或分開地在左視角和右視角包裝的影像序列之其一者上而應用。或者，能在左視角和右視角包裝的影像序列上使用多視角編碼。

編碼格式的範例為AVC(進階影像編碼；Advanced Video Coding)、SVC(可調式影像編碼；Scalable Video Coding)、HEVC(高效能影像編碼；High Efficiency Video Coding)或L-HEVC (分層的HEVC)。在下列中，HEVC係使用來參照HEVC和參照其分層的延伸(L-HEVC)兩者。

HEVC和類似的視訊編碼格式定義樣本的不同空間細分，例如圖片：圖磚(tile)、切片(slice)以及切片段(slice segment)。圖磚定義圖片之矩形區域，其係由水平和垂直邊界(亦即，橫列及直行)所定義且其包含整數的編碼樹單元(CTU；Coding Tree Unit)或編碼方塊，於此之後全都稱為編碼單元(coding unit)。如此，圖磚為良好的候選者來代表圖片之空間子部分(spatial sub-part)。然而，按照語意編成碼的視訊資料(位元流)組織及其封裝成NAL單元(或NALU)相反的係基於切片和切片段(如在AVC中的)。

在HEVC中的切片為成組的切片段，具有作為獨立切片段的至少第一切片段，其它者(若有的話)為相依的切片段。切片段包含整數的連續(以光柵掃描次序)CTU。切片並不必然具有矩形形狀(因此其比用於空間子部分表示的圖磚更不適合)。切片段係在HEVC位元流中被編碼為slice_segment_header，隨後為slice_segment_data。獨立切片段(ISS；independent slice segment)與相依切片段(DSS；dependent slice segment)差在他們的標頭：相依切片段具有較短的標頭，因為是從獨立切片段的標頭再使用資訊。獨立和相依切片段兩者在位元流中包含一系列的進入點。

當視訊位元流以圖磚來編碼時，圖磚能為運動約束的(motion-constrained)，用以確保圖磚不會相依於在相同圖片中的鄰域圖磚(空間相依(spatial dependency))及不會相依於在先前參考圖片中的鄰域圖磚(時間相依(temporal dependency))。因此，運動約束圖磚為獨立可解碼的。

或者，在編碼之前，包裝的影像能被分成幾個空間子圖片，各個子圖片被獨立地編碼形成例如獨立編碼的HEVC位元流。

因此，編碼步驟140的結果是，包裝的影像131能被一或多個獨立編碼的位元流或被由一或多個獨立編碼的子位元流組成的至少一編碼的位元流表示。

該些編碼的位元流和子位元流接著在步驟150處依據封裝檔案格式被封裝在檔案中或在小的時間片段檔案165中，例如依據由MPEG標準化組織所定義的ISO基礎媒體檔案格式和全向媒體格式(OMAF；Omnidirectional Media Format)。造成的檔案或片段能為mp4檔案或mp4片段。在封裝期間，聲頻串流可被添加到視訊位元流以及在視訊或聲頻串流上提供資訊的詮釋資料軌(metadata track)中。

封裝的檔案或片段檔接著經由遞送機制160被遞送到客戶端170，遞送機制例如透過使用http(超文件傳送協定)協定或在例如像是碟片的可移除數位媒體上遞送。為了解說的緣故，使用透過來自MPEG標準化委員會的HTTP的適應性串流(像是DASH(在HTTP之上的動態適應性串流))來進行遞送160(「ISO/IEC 23009-1，在HTTP (DASH)之上的動態適應性串流，第1部分：媒體呈現描述和片段格式」)。

此標準使媒體呈現的媒體內容之精簡描述與HTTP統一資源定位器(URL；Uniform Resource Location)關聯。這樣的關聯係典型地在稱為定義描述檔案(manifest file)或描述檔164中描述。在DASH的脈絡中，此定義描述檔為XML檔，亦稱MPD檔(媒體呈現描述)。

藉由接收MPD檔，客戶端裝置170得到各個媒體內容成分的描述。據此，意識到在媒體呈現中提出的該種媒體內容成分且知道要使用於經由串流客戶端162從串流伺服器161下載關聯的媒體片段165的HTTP URL。因此，客戶端170能決定哪一個媒體內容成分用以下載(經由HTTP 請求)以及用以播放(亦即，用以解碼且用以在接收媒體片段之後播放)。

要注意的是，客戶端裝置僅能得到對應於代表取決於用戶之視埠的場景之寬視角的全包裝影像的空間部分的媒體片段(亦即，目前播放且由用戶觀看的球形影片之部分)。此場景的寬視角可表示由全包裝的影像所代表的全視角。

在當接收的時後，封裝的虛擬實境檔或媒體片段係在步驟151期間被剖析以致使擷取在步驟141解碼的資料流。在於步驟151處接收的ISOBMFF檔或片段的情形中，剖析係典型地由mp4讀取器或mp4剖析器所處置而能從描述性詮釋資料擷取封裝的視訊位元流及/或視訊子位元流。

接著，可選地，將由解碼步驟141造成的包裝的影像拆開以獲取投影的影像，其接著被處理以用於視訊呈現(步驟121)及被顯示(步驟111)。要注意的是，視訊呈現取決於幾個參數，其中係為使用者之視角的點、視線的點(point of sight)以及使用以創建投影影像的投射。如所闡述的，呈現視訊的步驟包含在球體上再投影經編碼的投影影像。自這類再投影獲取的影像係在頭戴顯示器 170’中顯示。

對於處置立體視角，可複製或部分複製藉由參考圖1說明的過程。

已觀察到的是，將幾個UHD(超高傳真)視訊串流的影像拼接到虛擬實境媒體資料串流的全景影像導致非常高的位元率及非常高解析度虛擬實境媒體資料串流。因此，從系統的觀點且為了避免浪費頻寬以及為了保持符合客戶端播放器的處理能力，有需要最佳化對虛擬實境媒體資料的存取。

這樣的需求甚至是更重要而為了除藉由參考圖1所描述者的其它目的可使用虛擬實境媒體資料串流。特別是，能使用虛擬實境媒體資料串流以用於顯示以像是 360°投影機的陣列的特定顯示器來顯示360°影像。其亦能被使用以顯示特定視域(field of view)及/或改變視角之點、視域以及視線之點。

隨著在參考圖1中說明的過程，發明人已注意到當說明及訊息傳達關於用以傳輸的媒體資料的資訊時的幾個問題。

範例包含請求來自客戶端的特定剖析過程的軌道的信令，其產生負擔且是複雜的。

另一個範例關注立體視角之信令受限於特定封裝過程且相對昂貴。

另一範例包含於軌道中在編碼資料中的涵蓋率(coverage)之信令。現存的解法是複雜的，且當子圖片被封裝於幾個不同的軌道中時，未完全遵照多軌道封裝過程。

本發明已被設計來解決前述關注的一或多者。

在上下文中，有提供對於將媒體內容(例如全向媒體內容)串流化的解法，例如透過IP網路，像是使用http協定的網際網路。

依據本發明之一實施例，有提供一種用於從伺服器傳輸對應寬視角的場景之投影的編碼媒體資料到客戶端的方法，該方法包括：　　將編碼的資料封裝於軌道中，　　其中提供資訊以用於客戶端需要將其它編碼資料剖析以顯示在給定軌道中封裝的至少編碼資料的信令。

本發明之一實施例提供用於特定軌道的較簡單的信令，特別是軌道定義為在OMAF後的「不打算單獨呈現」軌道。當OMAF內容被分成子圖片軌時其降低信令負擔且剖析複雜性，意味軌道包含對應於一段一或多個時間周期的部分的圖片的資料。

依據本發明之另一實施例，有提供一種用於藉由客戶端剖析媒體檔的方法，該媒體檔包含對應於寬視角的場景之投影的編碼媒體資料，該方法包含：　　從該媒體檔獲取封裝編碼資料的軌道，　　其中該方法包含獲取資訊以用於客戶端需要將其它編碼資料剖析以顯示在給定軌道中封裝的至少編碼資料的信令。

依據本發明之另一實施例，有提供一種用於從伺服器傳輸對應寬視角的場景之投影的編碼媒體資料到客戶端的裝置，該裝置包括：　　用於將編碼的資料封裝到軌道中的機構，　　其中該裝置更包含用於獲取資訊以用於客戶端需要將其它編碼資料剖析以顯示在給定軌道中封裝的至少編碼資料的信令的機構。

依據本發明之另一實施例，有提供一種用於藉由客戶端剖析媒體檔的裝置，該媒體檔包含對應於寬視角的場景之投影的編碼媒體資料，該裝置包含：　　用於從該媒體檔獲取封裝編碼資料的軌道的機構，　　其中該裝置更包含用於獲取資訊以用於客戶端需要將其它編碼資料剖析以顯示在給定軌道中封裝的至少編碼資料的信令的機構。

依據本發明之另一實施例，有提供一種用於從伺服器傳輸對應寬視角的場景之投影的編碼媒體資料到客戶端的方法，該方法包括：　　將編碼的資料封裝於軌道中，　　獲取用於各個軌道的描述詮釋資料，該描述詮釋資料被組織成軌容器(track container)，其中軌容器係關於軌道，並且　　將軌道傳輸到客戶端，　　其中獲取步驟更包含　　提供第一結構，其包含資訊用以指示由在第一軌中封裝的編碼資料代表的寬視角之涵蓋率，並且在一或多個軌道中封裝的編碼資料屬於在第一軌容器之第一盒中定義的共同集合。　　本發明所述其它實施例允許採取用於指示寬視角之涵蓋率之資訊的較簡單的信令，特別是用於多軌道OMAF內容作為媒體資料。

依據本發明之另一實施例，有提供一種用於藉由客戶端剖析媒體檔的方法，該媒體檔對應對應於寬視角的場景之投影的編碼媒體資料，該方法包含：　　從該媒體檔得到封裝編碼資料的軌道，　　從各個軌道獲取描述詮釋資料，該描述詮釋資料被組織成軌容器(track container)，其中軌容器係關於軌道，　　其中獲取步驟更包含　　獲取第一結構，其包含資訊用以指示由在第一軌中封裝的編碼資料代表的寬視角之涵蓋率，並且在一或多個軌道中封裝的編碼資料屬於在第一軌容器之第一盒中定義的共同集合。

依據本發明之另一實施例，有提供一種用於從伺服器傳輸對應寬視角的場景之投影的編碼媒體資料到客戶端的裝置，該裝置包括：　　用於將編碼的資料封裝到軌道中的機構，　　用於獲取用於各個軌道的描述詮釋資料的機構，該描述詮釋資料被組織成軌容器(track container)，其中軌容器係關於軌道，並且　　用於將軌道傳輸到客戶端的機構，　　其中獲取機構更包含　　用於提供第一結構的機構，其包含資訊用以指示由在第一軌中封裝的編碼資料代表的寬視角之涵蓋率，並且在一或多個軌道中封裝的編碼資料屬於在第一軌容器之第一盒中定義的共同集合。

依據本發明之另一實施例，有提供一種用於藉由客戶端剖析媒體檔的裝置，該媒體檔對應對應於寬視角的場景之投影的編碼媒體資料，該裝置包含：　　用於從該媒體檔取得軌道的機構，　　用於從各個軌道獲取描述詮釋資料的機構，該描述詮釋資料被組織成軌容器(track container)，其中軌容器係關於軌道　　其中獲取機構更包含　　其它用於獲取第一結構的機構包含資訊用以指示由在第一軌中封裝的編碼資料代表的寬視角之涵蓋率，並且在一或多個軌道中封裝的編碼資料屬於在第一軌容器之第一盒中定義的共同集合。

依據本發明之另一實施例，有提供一種用於從伺服器傳輸對應寬視角的場景之投影的編碼視訊資料到客戶端的方法，該方法包括：　　封裝對應於在彼此相關的至少第一及第二軌中之立體視訊內容的編碼視訊資料，　　獲取用於各個軌道的描述詮釋資料，該描述後詮釋料被組織成軌容器(track container)，其中軌容器係關於軌道，　　其中該方法更包含　　在第一軌中以及在第二軌中提供關於分別封裝於考量的軌道中(每軌容器一盒中)的立體視訊內容的資訊。　　此本發明之其它實施例允許保持非常簡單的訊息傳達，特別是當再使用來自ISOBMFF的現存盒且避免複製的信令。

依據本發明之另一實施例，有提供一種用於藉由客戶端剖析媒體檔的方法，該媒體檔對應對應於寬視角的場景之投影的編碼視訊資料，該方法包含：　　從媒體檔得到對應於來自彼此相關的至少第一及第二軌的立體視訊內容的編碼視訊資料，　　獲取用於各個軌道的描述詮釋資料，該描述後詮釋料被組織成軌容器(track container)，其中軌容器係關於軌道，　　其中該方法更包含　　在第一軌中以及在第二軌中獲取關於分別封裝於考量的軌道中(每軌容器一盒中)的立體視訊內容的資訊。

依據本發明之另一實施例，有提供一種用於從伺服器傳輸對應寬視角的場景之投影的編碼視訊資料到客戶端的裝置，該裝置包括：　　用於封裝對應於在彼此相關的至少第一及第二軌中之立體視訊內容的編碼視訊資料的機構，　　用於對於各個軌道獲取描述後詮釋料的機構，該描述詮釋資料被組織成軌容器(track container)，其中軌容器係關於軌道，　　其中該裝置更包含　　用於在第一軌中以及在第二軌中提供關於分別封裝於考量的軌道中(每軌容器一盒中)的立體視訊內容的資訊的機構。

依據本發明之另一實施例，有提供一種用於藉由客戶端剖析媒體檔的裝置，該媒體檔對應於寬視角的場景的投影的編碼視訊資料，該方法包含：　　用於從媒體檔得到對應於來自彼此相關的至少第一及第二軌的立體視訊內容的編碼視訊資料的機構，　　用於對於各個軌道獲取描述後詮釋料的機構，該描述詮釋資料被組織成軌容器(track container)，其中軌容器係關於軌道，　　其中該裝置更包含　　用於在第一軌中以及在第二軌中獲取關於分別封裝於考量的軌道中(每軌容器一盒中)的立體視訊內容的資訊的機構。

依據特定實施例，由編碼包裝的影像131(圖1的步驟140)造成的編碼的位元流及子位元流依據封裝檔格式被封裝到檔案中或封裝成小時間片段檔，例如ISO基礎媒體檔案格式(ISO/IEC 14496-12和ISO/IEC 14496-15)、全向媒體格式(OMAF；Omnidirectional MediA Format) (ISO/IEC 23090-2)和如由MPEG標準化組織定義的相關規格。

編碼的位元流(例如，HEVC)和可能其子位元流(例如，圖磚化HEVC、MV-HEVC、可調式HEVC)能被封裝為一個單一軌道。或者，空間相關的(亦即，為投影的影像之子空間部分)多個編碼的位元流能被封裝為幾個子圖片軌。或者，包含幾個子位元流(圖磚、視角、層)的編碼位元流(例如，圖磚化的HEVC、MV-HEVC、可調式HEVC)能被封裝為多個子圖片軌。

子圖片軌為將用於圖片或影像的子部分的軌道。子圖片軌可關於其它子圖片軌或關於描述子圖片自其擷取的全圖片的軌道。例如，子圖片軌能為圖磚軌。其能由AVC軌、HEVC軌、HEVC圖磚軌或封裝為一系列的樣本之壓縮的視訊位元流。

圖磚軌為對應於影像的空間部分或對應於影像或圖片的子圖片的一系列分時視訊樣本。其例如能為在影像中關注區域(region of interest)或在影像中的隨意區域。對應於圖磚軌的資料可能來自視訊位元流或可以來自視訊位元流的子部分。例如，圖磚軌可以為AVC或HEVC適用位元流或可以為AVC或HEVC或任何編碼的位元流之子部分，例如像HEVC圖磚。在較佳的實施例中，圖磚軌係為獨立可解碼的(編碼器已負責從其它圖磚移除運動預測)。當圖磚軌對應在具有圖磚的HEVC中編碼的視訊位元流時，其能被封裝到如在ISO/IEC 14496-15 第四版中描述的表示為‘hvt1’的HEVC圖磚軌中。接著其參照圖磚基礎軌以獲取參數組、高階資訊以安裝視訊解碼器。其亦能被封裝到HEVC軌‘hvc1’或‘hev1’軌中。圖磚軌可以被使用以用於到更大影像或圖片中的子圖片的空間組成。

圖磚基礎軌為對包含資料的一或多個圖磚軌是共同的或對在這些一或多個軌道之間共用的詮釋資料是共同的軌道。圖磚基礎軌可包含用以從一或多個圖磚軌組成影像的指令。圖磚軌可取決於用於完全解碼或呈現的圖磚基礎軌。當圖磚基礎軌取自在具有圖磚的HEVC中編碼的視訊位元流時，其被封裝到表示為‘hvc2’或‘hev2’軌的HEVC軌中。此外，其係由經由軌道參考‘tbas’的HEVC圖磚軌所參考，且其應使用對如在ISO/IEC 14496-15第四版中所描述的HEVC圖磚軌的‘sabt’軌道參考來指示圖磚排序。

複合軌(亦表示參考軌)為參照其它軌道用以組成影像的軌道。在視訊軌的情形中，複合軌的一個範例為將子圖片軌組成到大影像中的軌道。此能由例如在取自提供用以從各個視訊軌將影像組成較大的影像之變換和變換參數的視訊軌的軌道中的後解碼操作來完成。複合軌亦可以為具有擷取器(extractor)NAL單元的軌道，其提供指令以從其它視訊軌或圖磚軌擷取NAL單元，用以在解碼由子位元流序連連接(concatenation)造成的位元流。複合軌亦能為隱式地提供合成指令的軌道，例如透過對其它軌道的軌道參考。

ISO/IEC 14496-12提供位在軌道級的盒，用以描述成群的軌道，其中各個群共用特定特性或在群內的軌道具有特定關係。特定特徵或關係是由包含的盒的盒類型(track_group_type)所指示。包含的盒包括識別符(track_group_id)，其可以被使用來決定屬於相同軌道群的軌道。有著具有相同track_group_type和track_group_id值的軌道群盒的所有軌道為相同軌道群的一部分。THE MPEG OMAF標準正提出用於空間組成的特定軌道群作為類型'spco’的軌道群類型盒(TrackGroupTypeBox)。在'spco’軌道群中各個軌道的樣本可以從在此相同群中的其它軌道以樣本(在相同組成或解碼時間上)來空間地組成以生成更大的影像。

取決於由將包裝的影像131編碼(圖1的步驟140)造成的編碼的位元流和子位元流，在檔案格式中封裝的幾個變體是可能的。

圖2闡述依據本發明之實施例演示檔案/片段封裝(圖1之步驟150)之範例的方塊圖。

在步驟200處，伺服器獲取要被封裝到軌道中之編碼的媒體資料。伺服器決定是否有幾個空間關係的視訊位元流(亦即，代表包裝影像的空間子部分以及空間組成可對於其建立更大的影像)或是否有包含代表運動約束的圖磚或能對客戶端暴露為多個子圖片軌的多個視角其一者之視訊子位元流的視訊位元流。若經編碼包裝的影像不能被暴露為多個軌道(因為其被編碼為單一視訊位元流)或內容創建者不希望將經編碼包裝的影像暴露為多個軌道，則接著視訊位元流或視訊子位元流被封裝到一個單一軌道中(步驟210)。否則，在步驟220要決定的是，要被封裝的媒體內容是否由代表運動約束圖磚的視訊子位元流組成。若是，則至少一複合軌可需要被提供以代表幾個圖磚軌的至少一組成。該組成可代表全包裝影像或僅全包裝影像的子部分。使用具有圖磚軌的複合軌避免需要在客戶端側分開呈現及解碼串流。要對客戶端暴露的可能組合的數目取決於內容創建者的選取。例如，內容創建者可能想要以取決於目前使用者的視埠的視覺品質來結合圖磚。對於此，其能將包裝的影像以不同的視覺品質編碼幾次且提出代表包含按視覺品質的圖磚之不同組合的全包裝影像的幾個複合軌。藉由取決於使用者視埠在不同品質上組合圖磚，內容創建者能降低網路資源的消耗。

若在步驟220處，決定的是必需提供複合軌，則接著決定對於該複合軌是否能使用隱式重建(implicit reconstruction)(步驟240)。

隱式重建指的是由圖磚基礎及圖磚軌的位元流重建，如例如在ISO/IEC 14496-15第4版中所定義的。與其使用像是擷取器的串流中結構(in-stream structure)來藉由以他們在圖磚軌的樣本中參考的資料取代在複合軌的樣本中的擷取器而從圖磚軌的樣本重建立複合軌的樣本，隱式重建允許藉由以軌道參考的次序(例如，在HEVC隱式重建中的‘sabt’軌道參考)序連連接複合軌及圖磚軌的樣本來重建立複合軌的樣本。

隱式重建的使用取決於使用的情景。當幾個圖磚軌的組成相較於在編碼上圖磚的次序需要在解碼上重安排圖磚時，則接著必需重寫入一些切片位址。在這樣的情形中，隱式重建是不可能的且必需選擇具有擷取器的顯式重建(explicit reconstruction)。

若隱式重建是可能的，則產生圖磚基礎軌(步驟241)，並且視訊子位元流被封裝為非獨立可解碼的圖磚軌(例如像HEVC‘hvt1’軌道)。

否則產生擷取器軌(步驟242)，並且視訊子位元流被封裝為獨立可解碼的圖磚軌(例如像HEVC‘hvc1’或「hev1」軌道)。

回到步驟220，若媒體內容不包含圖磚子位元流或內容創建者不想要創建及暴露複合軌，則接著空間相關視訊位元流或視訊子位元流(例如，圖磚或多個視角)被封裝成分開的子圖片軌(步驟230)。在這樣的特別情形中，若圖磚子位元流為HEVC圖磚，則他們被封裝為HEVC軌「hvc1」或‘hev1’軌。

在步驟250處，用於空間組成的信令同空間相關視訊位元流和視訊子位元流一起被添加至群。能藉由在各個軌道(子圖片軌、圖磚軌、複合軌)中定義特定軌道群類型盒(TrackGroupTypeBox)來提供空間組成信令，對於屬於如例如在MPEG OMAF中定義的相同群的所有軌道具有相同track_group_id的類型‘spco’的軌道群，且如下所闡述的：

此軌道群盒會提供在組成內軌道的相對二維座標和由該組成形成的影像之總體尺寸。該組成可代表整體包裝影像或僅包裝影像的子部分。例如，內容創建者可能想要暴露允許建立整體包裝影像或僅包裝影像之子部分的多個複合軌。

如一替代方案，SubPictureCompositionBox(‘spco’)可以僅定義代表組成圖片的寬度和高度的參數composition_width及composition_height，如下：

並且在該組成內的軌道之二維座標其一者能被給定為在視覺樣本輸入(VisualSampleEntry)中定義的新的全盒(fullBox)，如下：

或是新的同屬樣本群描述項目，如下：

track_group_id提供關聯軌道群的識別符。因此，軌道能關聯於在各個軌道群內不同位置處的多個軌道群。track_subgroup_id提供子群識別符。在軌道群內具有track_subgroup_id的所有軌道屬於相同軌道子群。

track_x、track_y提供在組成內此軌道的樣本之左上角的水平及垂直位置。

track_width、track_height提供在組成內此軌道之樣本的寬度及高度。

該些參數直接匹配DASH空間關係描述(SRD；Spatial-Relationship Description)的描述符(在ISO/IEC 23009-1第三版中定義)，其能在DASH定義描述檔(manifest)中使用以描述代表該些軌道的適應組(Adaptation Set)的空間關係。　　track_group_id會匹配DASH SRD source_id參數。　　track_subgroup_id會匹配DASH SRD spatial_set_id參數。　　track_x、track_y、track_width、track_height會分別匹配DASH SRD參數object_x、object_y、object_width、object_height參數。

最後，來自關聯的軌道群(經由track_group_id)的composition_width和composition_height會匹配DASH SRD total_width、total_height參數。

如一替代方案，在有複合軌的情形中，能隱式地由此複合軌提供空間組成信令。確實，在複合軌為圖磚基礎軌的情形中，圖磚基礎軌指的是經由類型 ‘sabt’之軌道參考的成組的圖磚軌。此圖磚基礎軌道與成組的圖磚軌形成了組成群(composition group)。同樣的，若該複合軌為擷取器軌，該擷取器軌指的是經由類型‘scal’之軌道參考的成組的圖磚軌。此擷取器軌與成組的圖磚軌亦形成了組成群。在兩者的情形中，能藉由如在ISO/IEC 14496-15第4版中所定義的定義類型‘trif’之樣本分組或內定樣本分組來提供在該組成內各個圖磚軌的相對二維座標。

如另一替代方案，能藉由定義新的實體群來提供空間組成信令。實體群為項目或軌道的分組。實體群被指示於元盒(MetaBox)中的群列表盒(GroupsListBox)中。參照軌道的實體群可在檔案級MetaBox之GroupsListBox中或在電影級MetaBox之GroupsListBox中被明定。GroupListBox(‘grpl’)包含成組的全盒(full box)，各者稱EntityToGroupBox，具有表示定義的分組類型的關聯的四字元碼。EntityToGroupBox定義如下：

典型地，group_id提供群的id且entity_id之組提供屬於該entity group的軌道之track_ID。隨該組entity_id之後，可能藉由針對特定grouping_type定義額外的資料來延伸EntityToGroupBox的定義。依據實施例，能定義例如具有等於‘egco’之grouping_type之新的EntityToGroupBox(用於實體群組成)以描述空間關係的視訊位元流或視訊子位元流的組成。該組entity_id會包含組成群的軌道之track_ID之組(子圖片、圖磚軌、複合軌)。由組成形成的影像之總體尺寸能被提供為關聯於此新的grouping_type ‘egco’的部分的額外資料。

EntityToGroupBox(‘egco’)會被定義如下：

能藉由如在ISO/IEC 14496-15第4版中所定義在各個圖磚軌中定義類型「trif」之樣本分組或內定樣本分組來提供在由類型‘egco’之實體分組定義的該組成內各個軌道的相對二維座標。如一選替的方案，相對二維座標能被定義為新的全盒2DCoordinateForEntityGroupBox(‘2dco’)，其會被定位於在屬於群的各個圖磚軌中的VisualSampleEntry (視覺樣本實體)中。

entity_group_id提供定義群之關聯的EntityToGroupBox(‘egco’)的識別符。

如一替代方案，此新的同屬盒 2DCoordinateForEntityGroupBox(‘2dco’)能被定義為新的樣本分組，如下：

在步驟260處，獲取關於需要用於解碼在給定軌道中封裝的編碼媒體資料的資料的資訊。基於此資訊的額外訊息傳達係關聯於軌道。若軌道不足以用於展示或不打算被單獨的展示，添加訊息傳達以通知客戶端。

確實，一些軌道可僅包含不能被單獨解碼的部分位元流。例如，此可以是用於在沒有他們的關聯圖磚基礎軌下不能被解碼的類型‘hvt1’之一些圖磚軌的情形。

此外，內容創建者可能希望通知客戶端一些軌道並不打算被單獨展示且在該媒體展示中並未構成進入點。

編碼的媒體資料和關於需要用於解碼在給定軌道中封裝之編碼媒體資料的資料的資訊係被封裝在一或多個媒體檔案內。確實，當ISOBMFF檔包含多個視訊軌時，具有訊息傳達為主軌的這些視訊軌之一或多者則在選擇軌道以對使用者暴露或以在串流化定義描述檔中暴露上幫助媒體播放器。主軌信令提供進入點以用於媒體播放到進到媒體檔案中。確實，將具有相同等級重要性的長串的軌道取代的是，一些被注釋或描述者為具有更多重要性且要被播放器優先處理為一種主要項目。

在第一實施例中，軌道不打算被單獨顯示的資訊能訊息傳達於軌道標頭中。各個軌道具有軌道標頭盒‘tkhd’(強制性)，其明定一些軌道的特性。如ISOBMFF 全盒，此軌道標頭盒具有24位元旗標參數，其能被使用於關於該盒的特定信令。已使用用於媒體軌的軌道標頭的旗標之值來提供關於軌道如何在展示中使用的資訊(例如，Track_enabled、Trak_in_movie、Track_in_preview)。為了指示視訊軌是否「打算被單獨展示」，用於旗標的新的特定值「Track_non_displayable_alone」可以被定義於軌道標頭盒中。新的旗標被定義如下：　　“Track_non_displayable_alone”: = 0x000010指示軌道並不打算被單獨顯示且不能被使用於預覽(置換Track_in_preview旗標值)。預設上此旗標值未被設定。可以注意的是，軌道標頭旗標的預設值會保持不變：仍等於7(track_enabled 0x1、track_in_movie 0x2、track_in_preview 0x4)。

在第二實施例中，不打算被單獨顯示的軌道能被定義為輔助軌(auxiliary track)。輔助軌係相同於視訊軌而編碼，但使用處置器類型值‘auxv’取代在MediaBox之HandlerBox中的‘vide’，並且不打算被視覺地顯示。如一替代方案，用於視訊之新的處置器類型‘subv’和用於聲頻的‘suba’能被定義來訊息傳達軌道分別與視訊或聲頻軌相同，但他們不足以用於展示或不打算被單獨展示。

在第三實施例中，軌道不足以用於展示或不打算被單獨展示的資訊能被訊息傳達為軌道群資訊的一部分。確實，映射至子圖片組成軌群的軌道(亦即，具有在TrackGroupTypeBox內的track_group_id與track_group_type相同值的軌道等於'spco')集體代表能被展示的視覺內容。但映射至此分組各個個別軌道可或不可打算在沒有其它軌下單獨的被展示。簡單的替代方案在於在‘spco’盒中定義新的參數「not_output_track」，其指示軌道是否「打算被單獨展示」。

在選替的實施例中，此參數能以單位元代表，讓其它7個位元保留用於未來使用或用於其它信令，如下：

not_output_track當被設定至1時指示該軌道不打算被單獨顯示。預設上，其係假定為零且該軌道對於使用者展示是可選擇的。也同樣，當軌道不包含任何SubPictureCompositionBox(子圖片組成盒)，其係假定要被單獨顯示。

在第四實施例中，軌道不足以用於展示或不打算被單獨展示的資訊能自其它軌道資訊或其它軌道資訊的組合推論。

例如，軌道之可顯示狀態能基於提供軌道之相依的軌道參考盒(‘tref’)以及對於在軌道中的樣本提供共同定義的SampleEntry(用於視訊的VisualSampleEntry)來偵測。

例如，若軌道具有類型'sabt’之軌道參考，且其係由具有類型‘tbas’之軌道參考的一些其它軌道所參照，則接著該軌道被標示為圖磚基礎軌以及被標示為可播放/可選擇的軌道。經由軌道參考‘sabt’來自此軌道的所有參考的軌道能被標示為圖磚軌(‘hvt1’)，若他們具有類型‘hvt1’之VisualSampleEntry且標示為非可播放的軌道的話。或者，若軌道具有類型'tbas’之軌道參考和類型 ‘hvt1’之VisualSampleEntry，則接著該軌道被標示為圖磚軌(‘hvt1’)以及被標示為非可播放的軌道。來自此軌道的所有參考的軌道被標示為圖磚基礎軌並且被標示為非可播放的軌道。或者，若軌道具有類型‘scal’之軌道參考，則接著該軌道為擷取器軌道且被標示為可播放軌道。來自此軌道的所有參考軌道被標示為可能可播放的圖磚軌 (‘hvc1’)。在預設上，他們可以被標示為可播放的軌道。但內容創建者可能較喜好在預設上將他們標示為非可播放的軌道。再者，若軌道不包含任何軌道參考('tref')盒，且不屬於軌道群，則接著應檢查SampleEntry。若該軌道被偵測為‘hvc1’或'hev1’，則該軌道至少被標示為可播放的軌道。

在第五實施例中，如對第三實施例的替代方案，若二維座標(track_x、track_y、track_width以及track_weight)係定義於SubPictureCompositionBox(‘spco’)中，則參數not_output_track仍可以如下所闡述的被定義於SubPictureCompositionBox(‘spco’)中：

或者參數not_output_track可以被定義於 2DCoordinateInTrackGroupBox()中或是於 2DCoordinateForEntityGroupBox()中或是在 VisualSampleEntry或樣本群描述進入級(Sample Group Description entry level)上所定義的類似的盒。

仍在步驟260處，可以添加同樣顯式地訊息傳達以用於識別主軌或部分軌。

在媒體檔中的主軌為被視為比具有相同媒體類型的軌道或比具有不同媒體類型的相關軌道具有更多重要性。例如，主視訊軌為媒體播放器應對使用者暴露以用於選擇或回放的軌道。也同樣地，當媒體檔要被串流化或傳輸時，主軌應被暴露於串流化的定義描述檔中。例如，在子圖片或圖磚的空間組成之情形中，主軌應為複合軌。又，在空間組成的情形中，主軌可以為對應於全圖片的視訊軌(相反於子圖片或圖磚軌)。在要用以由播放器呈現的成組的軌中，主軌可以為用以優先呈現之者。在傳輸的脈絡中，主軌為用以優先提取之者。例如，在媒體檔中的主軌在串流化定義描述檔中被描述為主媒體成分。例如，在MPEG DASH定義描述檔中，主軌能為預選元素之主AdaptationSet(適應組)，或具有帶有「主」值或指示其為主軌的標籤的角色描述符的AdaptationSet。本發明描述不同方式之訊息傳達在媒體檔中的主軌。

在媒體檔中的部分軌為可僅結合主軌或結合主軌及其它部分軌來處理的軌道。類型‘hvt1’之圖磚軌為部分軌的範例。他們能僅結合圖磚基礎軌來處理。

主/部分軌信令能被類似地訊息傳達到上述「不足以用於展現或不打算要被單獨地展現」訊息傳達的信令。其能由在軌道標頭旗標中的顯式旗標值(例如，「Is_Main_Track」: = 0x000020)或由在子圖片組成軌道群(‘spco’)盒中新的特定參數「main_track」來訊息傳達，如下所闡述：

此參數 main_track可以被使用來指示在軌道群中的軌為主軌道或全圖片軌。在此情形中，剖析器考量應呈現僅此主軌或在該軌道群中的全圖片軌(非具有此參數設定至值0的在該群中的其它軌)。換言之，其它軌被視為部分軌。

如選替的方案，主軌可以使用在軌道中之UserDataBox (‘udta’)的KindBox(‘kind’)來訊息傳達。KindBox 允許將具有此角色或種類的軌道標籤。主軌會藉由以特定方案URI(例如，「urn:mpeg:14496-12:main」)定義KindBox 來訊息傳達。

mp4撰寫器能利用主軌信令用以將主軌設定為在DASH預選擇元素中的主適應組以及用以將部分軌設定為在DASH MPD中的「隱藏」適應組。「隱藏」適應組為不打算被使用者選擇的適應組。他們可以藉由以例如設定為「urn:mpeg:dash:not-selectable:2016」的特定@schemeIdURI來定義關聯的補充(Supplemental)或要素(Essential)描述符而在DASH MPD中顯式地訊息傳達。

在步驟270處，用於該軌道及用於軌道之組成的內容涵蓋率資訊被添加到描述視訊位元流或視訊子位元流之封裝的詮釋資料中。

軌道涵蓋率資訊提供關於被由此軌道代表的內容涵蓋的球體上的面積。

組成涵蓋率資訊提供關於在與一或多個軌道之組合關聯的球面上的面積的資訊。例如，當電影檔包含具有空間關係的多個視訊軌時，組成涵蓋率資訊為在由這些多個視訊軌的空間組成所涵蓋的球面上的面積。在另一範例中，媒體檔包含多個視訊軌及指示如何呈現此組軌道的轉換矩陣，組成涵蓋率資訊接著對應由軌道之組合組所涵蓋的面積。「組成涵蓋資訊」亦能被表示「全域涵蓋率資訊(global coverage information)」或「軌道群組成資訊」。組成或全域涵蓋率資訊亦能描述由這些多個視訊軌之子集之組成造成的球面上的面積。

如第一實施例，軌道涵蓋率資訊和組成涵蓋率資訊能在沒有額外信令下使用單一共同 CoverageInformationBox(涵蓋率資訊盒)來訊息傳達。在這樣的情形中，CoverageInformationBox的範圍取決於定義在盒階層中此盒的位置。客戶端可以決定該涵蓋率資訊是否關於軌道內容或正好藉由考量其在何處被宣告的整體內容。依據此實施例，CoverageInformationBox係定義如下：盒類型： ‘covi’ 容器：投影的全向視訊盒(‘povd’)或SubPicture CompositionBox(‘spco’) 強制：否量：零或一

其中coverage_shape_type明定涵蓋球體區域的形狀，並且SphereRegionStruct() 係定義如下：

其中center_yaw、center_pitch以及center_roll明定相對全域座標軸之涵蓋面積的視埠定向，當展示時，hor_range以及ver_range分別明定球體區域的水平及垂直範圍，且目前未使用內插。

據此，CoverageInformationBox提供關於在由內容涵蓋的球體上的面積的資訊。內容的本質取決於此盒的容器。當在SubPictureCompositionBox‘spco’中展示時，內容指的是由屬於相同子圖片組成軌道群的所有軌道代表的整體內容，而從這些軌道組成的組成圖片被稱為整體內容的包裝圖片。當在軌道的樣本輸入中展示時，該內容指的是由此軌道本身代表的內容，並且在此軌道中樣本的圖片被稱為整體內容的包裝圖片。當沒有對於軌道出現 CoverageInformation Box時，其指示內容涵蓋整個球體。

要注意的是，投影全向視訊盒(‘povd’)為由MPEG OMAF定義的中間盒且被定位至在軌道中的VisualSampleEntry中。

此外，SubPictureComposition軌道群盒 (‘spco’)係修改如下：

如非將ISOBMFF 全盒 CoverageInformationBox()添加到 SubPictureCompositionBox中的替代方案，亦可能直接包括SphereRegionOnStruct，如下所述：

仍是替代方案的是，出現用於組成的涵蓋率資訊能被調節成例如表示is_coverage_info_is_present的額外參數，如下所述：

確實，如SubPictureCompositionBox(子圖片組成盒)被定義於屬於由此SubPictureCompositionBox定義的群的所有軌道中，若在該軌道群中有複合軌，則該組成涵蓋率資訊能僅針對此複合軌來定義且不需要針對各個圖磚軌來定義。

如第二實施例，軌道涵蓋率資訊和組成涵蓋率資訊能使用具有旗標值的單一共同CoverageInformationBox(涵蓋率資訊盒)來訊息傳達，用以區別區域和全域指示。由於CoverageInformationBox為ISOBMFF FullBox，故軌道與全域涵蓋率之間的差別可以透過盒的旗標參數來表述。

依據第二實施例，CoverageInformationBox係定義如下：盒類型： 'covi’ 容器：投影的全向視訊盒 (‘povd’) 強制：否量：零或以上

盒的結構幾乎與在先前實施例中的相同，除可以定義盒的多個實例以防假使區域和涵蓋率資訊必需被定義在相同軌道中外。

接著CoverageInformationBox被定義為提供關於在由內容涵蓋的球體上的面積的資訊。內容的本質係由旗標參數所給定。用於涵蓋率資訊旗標的預設值為0，意味此盒描述整體內容的涵蓋。若此軌道屬於子圖片組成軌道群，則整體內容指的是由屬於相同子圖片組成軌道群的所有軌道代表的內容，而從這些軌道組成的組成圖片被稱為整體內容的包裝圖片。否則，該整體內容指的是由此軌道本身代表的內容，並且在此軌道中樣本的圖片被稱為整體內容的包裝圖片。

當用於涵蓋率資訊旗標的值為1時，此盒描述由此軌道代表的內容之包裝圖片所涵蓋的球面積。

此盒的缺乏指示該內容涵蓋整個球體。

此外，新的旗標被定義如下：　　Coverage_local(涵蓋_區域)：指示涵蓋率資訊對於包含盒的軌道是區域的。旗標值為0x000001。預設上此值未被設定。

如於第二實施例的替代方案， CoverageInformationBox的定義能包括track_group_id，用以識別由具有全域涵蓋率資訊的CoverageInformation Box所代表的軌道群(例如，‘spco’盒之該一者)。

CoverageInformation Box定義如下：盒類型： ‘covi’ 容器：投影的全向視訊盒 (‘povd’) 強制：否量：零或以上

如一替代方案，在第三實施例中，定義兩個不同的盒以描述組成涵蓋率資訊 (TrackCoverageInformationBox)或軌道涵蓋率資訊(TrackCoverageInformationBox)其一者。盒係如遵循與先前實施例相同語意來定義，除若此軌道屬於屬個軌道群則CompositionCoverageInformationBox可以被定義多次外。參數track_group_id允許識別由 CompositionCoverageInformationBox所描述的軌道群(例如，‘spco’盒之該一者)。盒類型： ‘covt’ 容器：投影的全向視訊盒 (‘povd’) 強制：否量：零或一

盒類型： ‘covi’ 容器：投影的全向視訊盒 (‘povd’)強制：否量：零或以上

如一替代方案，在第四實施例中，可能將實施例與使用旗標(實施例2)用以區別軌道與組成涵蓋率資訊的CoverageInformationBox和用以在 SubPictureCompositionBox軌道群(‘spco’)或在 VisualSampleEntry中的投影全向視訊盒(‘povd’)其一者中定義CoverageInformationBox的能力(實施例1)結合。藉由允許兩者的方法，此提供在取決於針對OMAF內容之封裝模式的涵蓋率信令上的彈性：　　- 單軌封裝：單一CoverageInformationBox可在軌道之‘povd’盒中被宣告(具有未設定的Coverage_local旗標值)。　　- 多軌封裝：　　 o 具有複合軌：全域涵蓋率資訊係在此複合軌(具有未設定的旗標值Coverage_local)之‘povd’內側的CoverageInformationBox中被宣告。可選地，子圖片軌能宣告CoverageInformationBox(具有設定的旗標值Coverage_local)。　　 o 不具有複合軌：組成涵蓋率資訊係在具有未設定的旗標值Coverage_local的「spco」盒內側的CoverageInformationBox中被宣告。可選地，子圖片軌能宣告CoverageInformationBox(具有設定的旗標值Coverage_local)。

如一替代方案，在第五實施例中，若軌道的組成係使用新的實體群而非使用軌道群(‘trgr’)機制來描述(亦即，藉由在檔案級元盒(MetaBox)的GroupsListBox中或在電影級元盒的GroupsListBox中定義特定EntityToGroupBox)，則接著組成涵蓋率資訊能直接被定義為此特定EntityToGroupBox之性質，亦即如在上面第一實施例中描述的涵蓋率資訊盒(CoverageInformation box)可以直接在此特定EntityToGroupBox內側被宣告。軌道相關涵蓋率資訊仍會被定義於在軌道中於VisualSampleEntry中的投影全向視訊盒中。

此特定實體群可能看起來像(基於參考步驟250中定義的實體群‘egco’)：

或者，亦可能直接包括SphereRegionOnStruct，如下：

如一替代方案，在第六實施例中，亦可能決定涵蓋率資訊(Coverage info)是否藉由憑借軌道處置器類型而出現在軌道群盒‘spco’中。假定主軌具有「vide」處置器類型且子圖片軌具有‘auxv’或‘subv’軌：該‘spco’盒之is_coverage_info_is_present旗標係針對‘auxv’或‘subv’被設定至0(亦即，沒有出現涵蓋資訊(Coverage info))而針對'vide’軌被設定至1(亦即，出現涵蓋率資訊(coverage info))。

回到圖2，在步驟280處，要檢查的是虛擬實境媒體內容是否為實際立體虛擬實境媒體內容，亦即包含左及右視角。

若內容僅為單視場(monoscopic)，過程直接回到步驟290。

若內容為立體的，在步驟285處立體訊息傳達被添加到封裝中。

對於立體內容，典型地，左及右視角序列兩者係從立體攝影機取得且依據組成類型被組成到一視訊序列或兩個視訊序列中。

用以將代表兩個不同立體內容之視角的兩個訊框結合到單一訊框中的過程被稱為訊框包裝(請見圖1中的步驟125)。

訊框包裝在於包裝將兩個立體對形成為單一訊框的兩個視角。有存在幾個周知且使用的訊框包裝方案：並行(side by side)、由上而下(top-bottom)、訊框順序(frame sequential)、垂直線交插(vertical line interleaved)類型…。例如，MPEG應用格式ISO/IEC 23000-11第一版(「立體視訊應用格式」)或ISO/IEC 23001-8第二版(「譯碼獨立碼點(CICP；Coding-independent code-point)」)定義這些方案中的一些。訊框封裝亦可以在於將各個視角保持在分開的訊框中，例如像具有在ISO/IEC 23001-8第二版(「CICP」)中定義的值6的VideoFramePackingType(視訊訊框包裝類型)。

例如，仍依據本說明書，值3訊息傳達的是各個解碼訊框包含兩個成分視角之對應訊框的並行包裝配置，值4訊息傳達的是各個解碼訊框包含兩個成分視角之對應訊框的由上而下包裝配置。

為了訊息傳達軌道是否包含立體媒體資料，StereoVideoBox(立體視訊盒)被定義於在軌道中的VisualSampleEntry中。

StereoVideoBox(立體視訊盒)為用以描述立體內容的 ISOBMFF結構。StereoVideoBox(立體視訊盒)被使用來指示在視訊軌中的解碼訊框不是包含形成立體對的兩空間包裝成分訊框之表示就是包含立體對之兩視角的其中一者。在StereoVideoBox(立體視訊盒)中的參數提供關於配置或將視角包裝到訊框中的資訊。StereoVideoBox(立體視訊盒)被定義於媒體檔的樣本描述部分，其提供對要能解碼及呈現媒體檔之播放器的要求。

StereoVideoBox(立體視訊盒)被定義如下(依據ISO/IEC 14496-12)：盒類型： 'stvi’ 容器： SchemeInformationBox (方案資訊盒)('schi') 強制：是(當SchemeType(方案類型)為'stvi’) 量：一

在當single_view_allowed指示內容可僅在立體顯示器上播放或能使用哪一個視角來在單視場單一視角顯示器上播放時，stereo_scheme為整數，其依據使用的方案指示使用的立體配置方案和立體指示類型，並且stereo_indication_type指示依據使用的立體指示方案的立體配置類型。

若StereoVideoBox(立體視訊盒)允許描述使用以在形成一單一軌道的共同包裝訊框內包裝左視角訊框和右視角訊框的訊框包裝方案，則其不允許當左視角和右視角以ISO/IEC 23090-2 (MPEG OMAF)之脈絡被包裝在分開的軌道中時的簡易描述。

再者，MPEG OMAF規格僅允許用於並行和由上而下分別訊框包裝立體視角的值3及4並且推薦以StereoVideoBox(立體視訊盒)描述立體內容，如下：

但是此規格並不允許在分開的軌道中描述立體視角。

為了簡化立體內容的描述且避免在分開的OMAF描述符中重覆立體資訊，能將StereoVideoBox(立體視訊盒)延伸以支援任何類型的視角封裝或包裝，無論視角被包裝在單一訊框內或是封裝在分開的軌道中。

首先，能對封裝過程施行一些限制：若立體視角具有不同的特性(例如在區域性品質評等上)，則接著各個視角必需被封裝於它自已的軌道中且用於各個軌道的StereoVideoBox(立體視訊盒)必需具有 stereo_scheme = 4(亦即，必需使用如在CICP ISO/IEC 23001-8中定義的訊框包裝)，以及stereo_indication_type = {6,0}，意味在沒有任何訊框包裝下，解碼的訊框構成完整的2D訊框。

藉由如此進行，沒有需要重複在OMAF描述符中(像是在SphereRegionQualityRankingBox或 2DRegionQualityRankingBox中)其它地方的視角識別符(view_idc)。藉由剖析該軌道，播放器能判定是否：　　- 軌道包含單視場內容(沒有StereoVideoBox(立體視訊盒)) 　　- 軌道包含立體內容(出現StereoVideoBox(立體視訊盒)) 　　 o 當為立體時，其是否包含一個視角(參考 tref = ‘svdp’或由 tref =‘svdp’所參考)或兩視角　　o 當為立體且包含單一視角，視角識別符通過StereoVideoBox(立體視訊盒)(如下所解釋的)

藉由針對包含左視角或右視角其一者的各個軌道來定義具有stereo_scheme = 4和stereo_indication_type = {6,0} 的StereoVideoBox(立體視訊盒)，其允許訊息傳達的是該內容為部分的立體內容，但其並未允許識別哪一個軌道是左或右視角。

左和右視角接著使用類型‘svdp’的軌道參考來識別。包含參考軌‘svdp‘的軌道被識別為參考軌，其具有對經參考的軌道的相依性，且亦包含關於詮釋資訊的立體顯示。

再者，為了指示較道符合哪一個視角，使用了幾個參數(single_view_allowed, stereo_indication_type)。

single_view_allowed的語意係定義如下：　　「當stereo_scheme = 4且 stereo_indication_type指示「無包裝」(亦即，stereo_indication_type={6, 0})時，single_view_allowed &1等於1指示軌道包含右視角，而single_view_allowed &2等於2指示軌道包含左視角。在此情形中，值0及3被禁用」。

如一替代方案，為了避免修改 single_view_allowed參數的現存語意，定義新版本的 StereoVideoBox(立體視訊盒)，其提供額外1位元參數「is_left_view」，用以訊息傳達軌道是否包含左視角(is_left_view=1)或右視角(is_left_view=0)。

或者，額外的參數為2位元參數「view_idc」(如下所闡述)，具有下列語意：若其等於0指示在軌道中的媒體內容為單視場，1指示在軌道中的媒體內容為立體內容的左視角，2指示在軌道中的媒體內容為立體內容的右視角，3指示在軌道中的媒體內容包括左及右視角兩者。

如另一替代方案，並非是添加新的參數且創建新的StereoVideoBox(立體視訊盒)之版本，而是針對stereo_scheme=4定義新的訊框包裝配置(對應於CICP ISO/IEC 23001-8之延伸)，亦即定義新的值，例如7，以用於當stereo_scheme = 4時的參數stereo_indication_type。新的值被定義如下：　　VideoFramePackingType = 7 指示解碼的訊框包含兩個成分訊框(亦即，立體序列之左視角或右視角其一者)的對應平面的一個單一平面。

除了此新的VideoFramePackingType(視訊訊框包裝類型)值以及除了訊息傳達梅花陣式取樣結構(quincunx sampling structure)是否在訊框視訊表示中使用的現存關聯旗標QuincunxSamplingFlag(梅花陣式取樣旗標)以外，定義新的關聯旗標(例如標記的ViewIdcFlag)，其允許識別在訊框包裝視訊表示中出現的視角的類型。當未出現或未明定或用於ViewIdcFlag的值0會被推論以指示出現左及右視角兩者時，值1指示僅出現立體內容的左視角，值2指示僅出現立體內容的右視角，並且ViewIdcFlag的所有其它值被保留用於由ISO/IEC未來使用。

在StereoVideoBox(立體視訊盒)中 stereo_scheme = 4的定義接著被修改如下：　　「stereo_scheme等於4：長度的值應為2且 stereo_indication_type應包含無正負號int(8)的兩個語意元素。第一語意元素應包含來自ISO/IEC 23001-8的VideoFramePackingType(視訊訊框包裝類型)。對於從0到6的VideoFramePackingType(視訊訊框包裝類型)，第二語意元素之最低有效位元應包含如在ISO/IEC 23001-8中規定的QuincunxSamplingFlag (梅花陣式取樣旗標)的值，同時保留其它位元且應被設定至0。對於具有值7的VideoFramePackingType(視訊訊框包裝類型)，第二語意元素之最低有效2位元識別左視角和右視角，並且應包含ViewIdcFlag 的值(如上所定義的)，同時保留其它位元並且應被設定至0。

如一替代方案，QuincunxSamplingFlag和ViewIdcFlag兩者皆能藉由在StereoVideoBox(立體視訊盒)中定義 stereo_scheme = 4而被同步地訊息傳達，如下：　　「stereo_scheme等於4：長度的值應為3且 stereo_indication_type應包含無正負號int(8)的三個語意元素。第一語意元素應包含來自ISO/IEC 23001-8的VideoFramePackingType(視訊訊框包裝類型)。第二語意元素之最低有效位元應包含如在ISO/IEC 23001-8中規定的QuincunxSamplingFlag (梅花陣式取樣旗標)的值，同時保留其它位元且應被設定至0。第三語意元素之最低有效2位元識別左視角和右視角，並且應包含ViewIdcFlag 的值(如上所定義的)，同時保留其它位元並且應被設定至0」。

如一範例，依據上述替代方案，StereoVideoBox(立體視訊盒)會以在註解中顯示的可能的值維持不變，如下：

如一替代方案，QuincunxSamplingFlag和ViewIdcFlag兩者皆能藉由在StereoVideoBox(立體視訊盒)中定義 stereo_scheme = 4而可選地被訊息傳達，如下：　　「stereo_scheme等於4：長度的值應為1、2或3其一者且stereo_indication_type應分別包含無正負號int(8)的一、二或三個語意元素。第一語意元素應包含來自ISO/IEC 23001-8的VideoFramePackingType(視訊訊框包裝類型)。第二語意元素之最低有效位元(若出現)應包含如在ISO/IEC 23001-8中規定的QuincunxSamplingFlag (梅花陣式取樣旗標)的值，同時保留其它位元且應被設定至0。第三語意元素之最低有效2位元(若出現)識別左視角和右視角，並且應包含ViewIdcFlag 的值(如上所定義的)，同時保留其它位元並且應被設定至0」。若第三語意元素出現，則第二語意元素應出現。

如另一替代方案，用於在分開的軌道中組織左及右視角的立體全向媒體的訊框包裝配置可以使用stereo_scheme等於3(使用如在ISO/IEC 23000-11第一版(「立體視訊應用格式」)中定義的訊框包裝)取代等於4(使用在 CICP ISO/IEC 23001-8中定義的訊框包裝)來進行訊息傳達。依據在ISO/IEC 14496-12第四版中之StereoVideoBox(立體視訊盒)定義：　　stereo_scheme等於3指示長度的值應為2且stereo_indication_type應包含無正負號int(8)的兩個語意元素。第一語意元素應包含來自ISO/IEC 23000-11:2009的表4的立體組成類型。第二語意元素之最低有效位元應包含如在ISO/IEC 23000-11:2009的8.4.3 中規定的is_left_first之值，同時應保留其它位元且應被設定至0。

因此，可能的是，訊息傳達軌道包含立體內容的左視角或右視角，其係藉由在此軌道中定義具有stereo_scheme等於3的StereoVideoBox(立體視訊盒)且藉由定義具有值0x3的stereo_indication_type之第一語意元素(意味該軌道代表左/右視角序列類型，亦即僅左或右視角其一者)以及藉由定義第二語意元素為0以訊息傳達左視角為次要視角或為1以訊息傳達左視角為主要視角來進行。由於連結左視角和右視角軌道的軌道參考‘svdp’而識別主要視角和次要視角。具有類型‘svdp’之‘tref’盒的軌道為次要視角序列，而參考的軌道為主要視角序列。

可以注意的是，在實施例中創建新版本的StereoVideoBox(立體視訊盒)(表示的版本=1)之StereoVideoBox(立體視訊盒)的尺寸相較於藉由分配較少的位元組給對於stereo_scheme和stereo_indication_type授權的少許值而能被降低。

在一替代方案中，用於導入新參數view_idc的實施例的StereoVideoBox(立體視訊盒)的多個精簡版本1能被描述如下(節省6位元組)：

同樣地，若額外的參數為「is_left_view」取代「view_idc」，則可以定義相同精簡版本。

再進一步而言，當訊框包裝造成每視角一個包裝的訊框時，在適應組等級的角色元素中可使用DASH多個視角方案以描述立體對(stereo pairs)。

依據所有上面的實施例，在 SphereRegionQualityRankingBox(球區域品質評比盒)和2DRegionQualityRankingBox(2D區域品質評比盒)中的view_idc和view_idc_presence_flag參數被移除，因為當視角被分成不同軌道時不再需要，如下所述：

如一替代方案，view_idc和view_idc_presence_flag參數被調節到SphereRegionQualityRankingBox(球區域品質評比盒)或2DRegionQualityRankingBox(2D區域品質評比盒)的特定版本，如下所闡述：

確實，當軌道僅包含整體左視角或整體右視角其一者時，不需要用於在此軌道中定義的各個品質評比區域的view_idc(訊息傳達立體視角)。在這樣的情形中使用該些盒的version == 0。否則，若軌道包含包裝的視角，則接著使用該些盒的version == 1。

依據本發明之實施例剖析產生的媒體檔，其中媒體檔包含對應寬視角的場景的編碼的媒體資料，可藉由客戶端包含下列步驟。封裝該編碼的媒體資料的至少一軌道係識別於媒體檔中。從該媒體檔獲取關於需要用於解碼在給定軌道中封裝的該編碼媒體資料的資料的資訊。該給定軌道之編碼的媒體資料係依據所獲取的資訊來解碼。

圖3為用於實施本發明之一或多個實施例的計算裝置300之示意方塊圖。計算裝置300可以為像是微電腦、工作站或輕便可攜帶裝置的裝置。計算裝置300包含通訊匯流排，其連接到：　　- 中央處理單元(CPU)301，像是微處理器；　　- 隨機存取記憶體(RAM)302，用於儲存本發明之實施例的方法的可執行碼，以及暫存器，用以適於記錄需要用於實施用於讀取和寫入定義描述檔及/或用於編碼視訊及/或用於在給定檔案格式下讀取或產生資料的方法的變數和參數，其記憶體容量可以由連接到例如擴充埠的可選的RAM來擴充；　　- 唯讀記憶體(ROM)303，用於儲存用於實施本發明之實施例的電腦程式；　　- 網路介面304，其依次典型地連接到通訊網路，要被處理的資料透過該通訊網路被傳輸或接收。網路介面304可以為單一網路介面，或由成組的不同網路介面組成(例如有線的或無線的介面，或不同種類的有線或無線介面)。資料被寫入到網路介面以用於傳輸或從網路介面讀取以用於在於CPU 301中控制軟體應用運行之下接收；　　- 使用者介面(UI)305，用於從使用者接收輸入或用以顯示資訊給使用者；　　- 硬碟(HD)306；　　- I/O模組307，用於從外部裝置接收資料/發送資料到外部裝置，外部裝置像是視訊來源或顯示器。

可執行碼可被儲存在唯讀記憶體303中、儲存在硬碟306上或儲存在可移除數位媒體(例如像是碟片)上。依據一變形例，程式之可執行碼可以經由網路介面304由通訊網路之機構接收，以為了在被執行之前，被儲存在通訊裝置300的儲存機構中，像是硬碟306。

中央處理單元301係適於依據本發明之實施例控制和引導指令或程式之軟體碼的部分或程式的執行，其指令係儲存於前述儲存機構其中一者中。在電力開啟之後，CPU 301 能夠從主RAM記憶體302執行指令，該些指令係關於在該些指令已從例如程式ROM 303或硬碟(HD) 306被載入之後的軟體應用。這類軟體應用，當由CPU 301執行時，引起在先前圖中繪示的流程圖的步驟被進行。

在此實施例中，設備為可程式化設備，其使用軟體來實施本發明。然而，替代的是，本發明可以硬體來實施(例如，以特定應用積體電路或ASIC的形式)。

雖然本發明已參考特定實施例於此上文中說明，但本發明並不限於該些特定實施例，並且對於在本發明的範圍內的具有通常知識者修改將會是顯見的。

例如，本發明可被嵌入於裝置中，該裝置像攝影機、智慧電話、頭戴顯示器或平板，其作用為用於TV或用於多媒體顯示器的遠端控制器，用以例如放大到特定關注區域上。其亦能從相同裝置被使用以藉由選擇特定關注區域來具有多媒體展現的個人化瀏覽體驗。由使用者從這些裝置及方法的另一種使用為與其它連接的裝置共用他的較佳影片的選定子部分。其亦能利用智慧電話或平板來使用以監控在投入於監測下的建築之特定區域中發生何事，該監測提供的是監測攝影機支援用於依據本發明提供資料的方法。

在當作成對前述例示的實施例的參考下，將使本領域具有通常知識者想起許多進一步的修改和變化，其係僅藉由範例的方式來給定且其不打算限制本發明的範圍，而所決定的範圍僅由隨附的申請專利範圍所決定。特別是，自不同實施例的不同特徵在適當時可互換。

100‧‧‧攝影機系統110-151‧‧‧步驟160‧‧‧遞送機制161‧‧‧串流伺服器162‧‧‧串流客戶端163‧‧‧IP網路164‧‧‧定義描述檔案165‧‧‧媒體片段170‧‧‧客戶端170’‧‧‧頭戴顯示器300‧‧‧計算裝置301‧‧‧中央處理單元302‧‧‧隨機存取記憶體303‧‧‧唯讀記憶體304‧‧‧網路介面305‧‧‧使用者介面306‧‧‧硬碟307‧‧‧I/O模組

本發明的進一步益處在當審視圖式及詳細說明時對於本領域具有通常知識之該些者將變得更明白。所要打算的是，於此可包括任何額外的益處。　　下面僅藉由範例的方式並且參考下列圖式來說明本發明之實施例，其中：　　圖1闡述用於從伺服器捕捉、處理、封裝、傳輸以及呈現全向影像到客戶端的範例；　　圖2闡述依據本發明之實施例演示封裝之範例的方塊圖；以及　　圖3為用於實施本發明之一或多個實施例的計算裝置之示意方塊圖。

Claims

一種用於從伺服器傳輸對應寬視角的場景之投影的編碼媒體資料到客戶端的方法，該方法包括：將該編碼的資料封裝於軌道中，獲取用於各個軌道的描述詮釋資料，該描述詮釋資料被組織成軌容器(track container)，其中軌容器係關於軌道，並且將該軌道傳輸到該客戶端，其中該獲取步驟更包含提供第一結構，其包含資訊用以指示由在第一軌中封裝的編碼資料以及封裝在屬於一定義在一第一軌容器之一第一盒之共同集合的一或多個軌道的編碼資料所代表的寬視角之涵蓋率，其中該方法更包含測試步驟，用於測試是否產生包含僅關於該軌道的描述詮釋資料的參考軌道，該獲取步驟更包含若產生參考軌道，則接著提供包含參考資訊的該第一結構，用以指示該全部的寬視角的涵蓋率，不然則提供包含該資訊的第一結構，用以指示由在軌道中封裝的編碼資料代表的寬視角之涵蓋率，並且在一或多個軌道中封裝的編碼資料屬於在第一軌容器之第一盒中定義的共同集合。
如申請專利範圍第1項的方法，其中在該第一盒中提供該第一結構的該資訊。
如申請專利範圍第1項的方法，其中該第一結構包含其它資訊，用以指示僅由在第一軌中封裝的編碼資料代表的該寬視角的涵蓋率。
如申請專利範圍第3項的方法，其中該第一軌容器包括用於描述形成該媒體資料之樣本的第二盒，且該等樣本係關於該第一軌的該編碼資料，該第一結構的該其它資訊被提供於該第二盒中。
如申請專利範圍第2項的方法，其中該獲取步驟更包含提供參數以用於訊息傳達該第一結構的資訊是否被提供於該第一盒中。
如申請專利範圍第1到4之任一項的方法，其中該獲取步驟更包含提供參數以用於訊息傳達該第一結構的資訊是否被提供。
如申請專利範圍第5項或如申請專利範圍第6項中依附於第2項部分的方法，其中在該第一盒中提供該參數。
如申請專利範圍第1項的方法，其中該集合為由 ISOBMFF 14496-12所定義的「軌道群」。
如申請專利範圍第8項的方法，其中該第一盒為由ISOBMFF 14496-12所定義的「軌道群」盒。
如申請專利範圍第1項的方法，其中該集合為軌道實體，且該第一盒為由ISOBMFF 14496-12所定義的‘moov’盒。
如申請專利範圍第1項的方法，其中若產生參考軌道，則接著該第一結構的其它資訊係進一步提供在該軌道中，用以指示由分別僅在各個軌道中封裝的編碼資料代表的寬視角的涵蓋率。
一種用於藉由客戶端剖析媒體檔的方法，該媒體檔對應對應於寬視角的場景之投影的編碼媒體資料，該方法包含：從該媒體檔得到封裝該編碼資料的軌道，從各個軌道獲取描述詮釋資料，該描述詮釋資料被組織成軌容器，其中軌容器係關於軌道，其中該獲取步驟更包含獲取第一結構，其包含資訊用以指示由在第一軌中封裝的編碼資料代表的寬視角之涵蓋率，並且在一或多個軌道中封裝的編碼資料屬於在第一軌容器之第一盒中定義的共同集合，以及若產生包含僅關於該軌道的描述詮釋資料的參考軌道，則接著獲取包含參考資訊的該第一結構，用以指示該全部的寬視角的涵蓋率，不然則獲取包含該資訊的第一結構，用以指示由在軌道中封裝的編碼資料代表的寬視角之涵蓋率，並且在一或多個軌道中封裝的編碼資料屬於在第一軌容器之第一盒中定義的共同集合。
一種程式，當其由電腦或處理器執行時，引起該電腦或處理器實現如申請專利範圍第1或12項的方法。
一種電腦可讀儲存媒體，其儲存申請專利範圍第13項的程式。
一種用於從伺服器傳輸對應寬視角的場景之投影的編碼媒體資料到客戶端的裝置，該裝置包括：用於將該編碼的資料封裝到軌道中的機構，用於獲取用於各個軌道的描述詮釋資料的機構，該描述詮釋資料被組織成軌容器，其中軌容器係關於軌道，並且用於將該軌道傳輸到該客戶端的機構，其中該獲取機構更包含用於提供第一結構的機構，其包含資訊用以指示由在第一軌中封裝的編碼資料代表的寬視角之涵蓋率，並且在一或多個軌道中封裝的編碼資料屬於在第一軌容器之第一盒中定義的共同集合，其中該裝置更包含用於測試是否產生包含僅關於該軌道的描述詮釋資料的參考軌道的機構，該獲取機構更包含若產生參考軌道，則接著提供包含參考資訊的該第一結構，用以指示該全部的寬視角的涵蓋率，不然則提供包含該資訊的第一結構，用以指示由在軌道中封裝的編碼資料代表的寬視角之涵蓋率，並且在一或多個軌道中封裝的編碼資料屬於在第一軌容器之第一盒中定義的共同集合。
一種用於藉由客戶端剖析媒體檔的裝置，該媒體檔對應對應於寬視角的場景之投影的編碼媒體資料，該裝置包含：用於從該媒體檔取得軌道的機構，用於從各個軌道獲取描述詮釋資料的機構，該描述詮釋資料被組織成軌容器，其中軌容器係關於軌道，其中該獲取機構更包含其它用於獲取第一結構的機構，包含資訊用以指示由在第一軌中封裝的編碼資料代表的寬視角之涵蓋率，並且在一或多個軌道中封裝的編碼資料屬於在第一軌容器之第一盒中定義的共同集合，以及若產生包含僅關於該軌道的描述詮釋資料的參考軌道，則接著獲取包含參考資訊的該第一結構，用以指示該全部的寬視角的涵蓋率，不然則獲取包含該資訊的第一結構，用以指示由在軌道中封裝的編碼資料代表的寬視角之涵蓋率，並且在一或多個軌道中封裝的編碼資料屬於在第一軌容器之第一盒中定義的共同集合。
一種用於從伺服器傳輸對應寬視角的場景之投影的編碼視訊資料到客戶端的方法，該方法包括：將對應於在彼此相關的至少第一及第二軌中之立體視訊內容的編碼視訊資料封裝，獲取用於各個軌道的描述詮釋資料，該描述詮釋資料被組織成軌容器，其中軌容器係關於軌道，其中該方法更包含在該第一軌中以及在該第二軌中提供關於以每軌容器一盒、分別封裝於該考量的軌道中的立體視訊內容的資訊，其中該方法更包含用於依據關於來自複數個預定方案中的方案的模式來操作的步驟或用於非包裝用以封裝的編碼視訊資料的步驟，該複數個預定方案包括在CICP ISO/IEC 23001-8中定義的方案，其中方案提供不同模式以用於操作或用於非包裝該編碼視訊資料，一模式係由一類型所參考。
如申請專利範圍第17項之方法，其中該第一軌將對應該立體視訊內容之左視角的編碼資料封裝，並且該第二軌將對應該立體視訊內容之右視角的編碼資料封裝。
如申請專利範圍第18項的方法，其中該資訊包含一或多個參數，用於識別在該右或左視角之間哪一個視角被封裝到該考量的軌道中。
如申請專利範圍第17到19項之任一項的方法，其中該盒為由ISOBMFF 14496-12所定義的‘StereoVideoBox(立體視訊盒)”。
如申請專利範圍第17項的方法，其中使用於包裝該編碼的視訊資料的該方案係定義於CICP ISO/IEC 23001-8中，且該模式指示用以封裝的該編碼資料並未被包裝，並且該資訊為用於識別在第一和第二視角之間哪一個視角被封裝在該考量的軌道中的參數，其被提供於由ISOBMFF 14496-12所定義的‘StereoVideoBox(立體視訊盒)”中。
如申請專利範圍第17項的方法，其中使用於包裝該編碼的視訊資料的該方案係定義於CICP ISO/IEC 23001-8中，且該模式指示該編碼資料對應的該立體視訊內容的第一視角和第二視角被獨立地包裝，以及該資訊允許識別在該第一或第二視角之間的哪一個視角被封裝於該考量的軌道中並且藉由使用分配用於該模式之該類型之該值的保留位元來提供。
一種程式，當其由電腦或處理器執行時，引起該電腦或處理器實現如申請專利範圍第17項的方法。
一種電腦可讀儲存媒體，其儲存申請專利範圍第23項的程式。
一種用於從伺服器傳輸對應寬視角的場景之投影的編碼視訊資料到客戶端的裝置，該裝置包括：用於封裝對應於在彼此相關的至少第一及第二軌中之立體視訊內容的編碼視訊資料的機構，用於對於各個軌道獲取描述詮釋資料的機構，該描述詮釋資料被組織成軌容器，其中軌容器係關於軌道，其中該裝置更包含用於在該第一軌中以及在該第二軌中提供關於以每軌容器一盒、分別封裝於該考量的軌道中的立體視訊內容的資訊的機構，其中該裝置更包含用於實施依據關於來自複數個預定方案中的方案的模式來操作的步驟或用於非包裝用以封裝的編碼視訊資料的步驟的機構，該複數個預定方案包括在CICP ISO/IEC 23001-8中定義的方案，其中方案提供不同模式以用於操作或用於非包裝該編碼視訊資料，一模式係由一類型所參考。