TW201924323A

TW201924323A - 用於浸入式媒體資料之內容來源描述

Info

Publication number: TW201924323A
Application number: TW107134992A
Authority: TW
Inventors: 湯瑪士史塔克漢莫; 益魁王; 尼可康德隆
Original assignee: 美商高通公司
Priority date: 2017-10-03
Filing date: 2018-10-03
Publication date: 2019-06-16
Also published as: WO2019070870A1; US20190104326A1; CN111149368A

Abstract

本發明提供一種用於傳送包括浸入式媒體資料之媒體資料的實例裝置，其包括：一記憶體，其經組態以儲存該媒體資料；及一或多個處理器，其實施於電路系統中且經組態以進行以下操作：傳送系統地描述用於該浸入式媒體資料之不同格式化選項的後設資料；處理表示一用戶端裝置支援以用於呈現該浸入式媒體資料之該等格式化選項中之一或多者的資料；及傳送具有該用戶端裝置支援之該等格式化選項中之一者的該浸入式媒體資料。該裝置可係將該後設資料及該媒體資料發送至該用戶端裝置之一伺服器或接收該後設資料及該媒體資料之該用戶端裝置。該用戶端裝置可進一步根據該等格式化選項中之該一者組態一再現環境以再現該浸入式媒體資料。

Description

用於浸入式媒體資料之內容來源描述

本發明係關於儲存及輸送諸如視訊資料之經編碼媒體資料。

數位媒體能力可併入至廣泛範圍的裝置中，包括數位電視、數位直播系統、無線廣播系統、個人數位助理(PDA)、膝上型或桌上型電腦、數位攝影機、數位記錄裝置、數位媒體播放器、視訊遊戲裝置、視訊遊戲控制台、蜂巢式或衛星無線電電話、視訊電話會議裝置及其類似者。數位視訊裝置實施視訊壓縮技術，諸如描述於由MPEG-2、MPEG-4、ITU-T H.263或ITU-T H.264/MPEG-4第10部分進階視訊寫碼(AVC)、ITU-T H.265 (亦被稱作高效率視訊寫碼(HEVC))及此類標準之擴展所定義的標準中之彼等技術，從而更高效地傳輸及接收數位視訊資訊。

在視訊資料已編碼之後，可將視訊資料封包化以供傳輸或儲存。可將視訊資料組譯成符合多種標準中之任一者的視訊檔案，該等標準諸如國際標準化組織(International Organization for Standardization，ISO)基本媒體檔案格式及其擴展，諸如AVC。

一般而言，本發明描述與處理及傳輸(例如，發送及/或接收或擷取)媒體資料相關之技術。特定而言，本發明之技術包括處理(例如，產生及/或解譯)用於浸入式資料之內容來源描述。本發明描述用於系統地描述用於浸入式媒體之不同來源模型的技術。該等不同來源模型可包括二維、魚眼、球面投影360、封裝式多攝影機及個別多攝影機中之任一者或全部。描述技術可基於且用於網路傳輸系統，例如使用基於會話描述協定(SDP)/即時輸送協定(RTP)之遞送及發信、基於HTTP動態自適應串流(DASH)/HTTP之遞送及發信、通用遞送及發信等。此等技術可例如用於虛擬實境(VR)、擴增實境及/或360度視訊應用。

在一個實例中，一種發送包括浸入式媒體資料之媒體資料的方法包括：將系統地描述用於該浸入式媒體資料之不同格式化選項的後設資料發送至一用戶端裝置；自該用戶端裝置接收表示該用戶端裝置支援以用於再現該浸入式媒體資料之該等格式化選項中之一或多者的資料；選擇該用戶端裝置支援之該等格式化選項中之一或多者中的一格式化選項；及將具有選定格式化選項之該浸入式媒體資料發送至該用戶端裝置。

在另一實例中，一種擷取包括浸入式媒體資料之媒體資料的方法包括：藉由一用戶端裝置自一伺服器裝置接收系統地描述用於該浸入式媒體資料之不同格式化選項的後設資料；藉由該用戶端裝置判定該用戶端裝置支援以用於再現該浸入式媒體資料之該等格式化選項中之一或多者；藉由該用戶端裝置將表示該用戶端裝置支援以用於再現該浸入式媒體資料之該等格式化選項中之該一或多者的資料發送至該伺服器裝置；藉由該用戶端裝置擷取具有該等格式化選項中之一者的該浸入式媒體資料；藉由該用戶端裝置根據該等格式化選項中之該者組態一再現環境以再現該浸入式媒體資料。

在另一實例中，一種用於傳送包括浸入式媒體資料之媒體資料的裝置包括：一記憶體，其經組態以儲存該媒體資料；及一或多個處理器，其實施於電路系統中且經組態以進行以下操作：傳送系統地描述用於該浸入式媒體資料之不同格式化選項的後設資料；處理表示一用戶端裝置支援以用於再現該浸入式媒體資料之該等格式化選項中之一或多者的資料；及傳送具有該用戶端裝置支援之該等格式化選項中之一者的該浸入式媒體資料。

在另一實例中，一種電腦可讀儲存媒體具有儲存於其上之指令，該等指令在經執行時使一處理器進行以下操作：傳送系統地描述用於包括在媒體資料中之浸入式媒體資料之不同格式化選項的後設資料；處理表示一用戶端裝置支援以用於再現該浸入式媒體資料之該等格式化選項中之一或多者的資料；及傳送具有該用戶端裝置支援之該等格式化選項中之一者的該浸入式媒體資料。

在另一實例中，一種用於傳送包括浸入式媒體資料之媒體資料的裝置包括：用於傳送系統地描述用於該浸入式媒體資料之不同格式化選項的後設資料的構件；用於處理表示一用戶端裝置支援以用於再現該浸入式媒體資料之該等格式化選項中之一或多者的資料的構件；及用於傳送具有該用戶端裝置支援之該等格式化選項中之一者的該浸入式媒體資料的構件。

在以下隨附圖式及描述中闡述一或多個實例之細節。其他特徵、目標及優點將自描述及圖式以及自申請專利範圍而顯而易見。

本申請案主張2017年10月3日申請的美國臨時申請案第62 / 567 , 661 號之權益，該申請案之全部內容特此以引用之方式併入。

本發明之技術可應用於符合根據ISO基本媒體檔案格式(ISOBMFF)、ISOBMFF之擴展、可調式視訊寫碼(SVC)檔案格式、進階視訊寫碼(AVC)檔案格式、高效率視訊寫碼(HEVC)檔案格式、第三代合作夥伴計劃(3GPP)檔案格式及/或多視圖視訊寫碼(MVC)檔案格式或其他視訊檔案格式中之任一者囊封的視訊資料的視訊檔案。ISO BMFF之草案指定於可自phenix.int-evry.fr/mpeg/doc_end_user/documents/ 111_Geneva/wg11/w15177-v6-w15177.zip獲得之ISO/IEC 14496-12中。另一實例檔案格式，MPEG-4檔案格式之草案指定於可自wg11.sc29.org/doc_end_user/documents/115_Geneva/wg11/w16169-v2-w16169.zip獲得之ISO/IEC 14496-15中。

ISOBMFF用作諸如AVC檔案格式之許多編碼解碼器囊封格式以及諸如MPEG-4檔案格式、3GPP檔案格式(3GP)及數位視訊廣播(DVB)檔案格式之許多多媒體容器格式的基礎。

除諸如音訊及視訊之連續媒體之外，諸如影像之靜態媒體以及後設資料可儲存於符合ISOBMFF之檔案中。根據ISOBMFF結構化之檔案可用於許多用途，包括本端媒體檔案播放、遠端檔案之漸進式下載、用於HTTP動態自適應串流(DASH)之片段、用於待串流傳輸之內容及其封包化指令之容器，及所接收之即時媒體串流的記錄。

邏輯框係ISOBMFF中之基本語法結構，包括四字元寫碼邏輯框類型、邏輯框之位元組計數及有效負載。ISOBMFF檔案包括邏輯框序列，且邏輯框可含有其他邏輯框。根據ISOBMFF，電影邏輯框(「moov」)含有存在於檔案中之連續媒體串流之後設資料，每一連續媒體串流在檔案中表示為播放軌。根據ISOBMFF，將用於播放軌之後設資料圍封於播放軌邏輯框(「trak」)中，而將播放軌之媒體內容圍封於媒體資料邏輯框(「mdat」)中或直接提供於單獨檔案中。用於播放軌之媒體內容包括樣本序列，諸如音訊或視訊存取單元。

ISOBMFF指定以下類型之播放軌：媒體播放軌，其含有基本媒體串流；提示播放軌，其包括媒體傳輸指令或表示所接收之封包串流；及計時後設資料播放軌，其包含時間同步之後設資料。

儘管最初設計成用於儲存，但ISOBMFF已證明對於串流，例如對於漸進式下載或DASH極有價值。出於串流目的，可使用在ISOBMFF中定義之電影片段。

每一播放軌之後設資料包括樣本描述項之清單，每一項提供在播放軌中使用之寫碼或囊封格式及對於處理彼格式所需要之初始化資料。每一樣本與播放軌之樣本描述項中之一者相關聯。

ISOBMFF實現藉由各種機制指定樣本特定後設資料。樣本表邏輯框(「stbl」)內之特定邏輯框已經標準化以回應普通需求。舉例而言，同步樣本邏輯框(「stss」)用以列出播放軌之隨機存取樣本。樣本分群機制實現根據四字元分群類型將樣本映射成共用指定為檔案中之樣本群組描述項之同一性質的樣本之群組。已在ISOBMFF中指定若干分群類型。

虛擬實境(VR)係虛擬地存在於藉由再現與浸入使用者之移動相關的自然及/或合成影像及聲音而建立的虛擬非實體世界中，從而允許與彼虛擬世界互動的能力。在再現裝置中的諸如頭戴式顯示器(HMD)及VR視訊(常常亦被稱作360度視訊)建立之最新進展的情況下，可提供顯著體驗品質。VR應用包括遊戲、訓練、教育、運動視訊、線上購物、娛樂等。

典型的VR系統包括以下組件及步驟：
1) 攝影機套件，其通常包括在不同方向上指向，理想地共同覆蓋圍繞該攝影機套件之所有視點的多個個別攝影機。
2) 影像拼接，其中藉由多個個別攝影機拍攝的視訊圖像在時域中經同步並在空間域中拼接，以形成球面視訊，但映射至矩形格式，諸如等矩形(如世界地圖)或立方體映射。
3) 使用視訊編碼解碼器(例如，H.265/HEVC或H.264/AVC)來編碼/壓縮呈映射矩形格式之視訊。
4) 經壓縮視訊位元串流可按媒體格式儲存及/或囊封且經由網路傳輸(可能僅覆蓋由使用者所見之有時被稱作檢視區之區域的子集)至網路接收裝置(例如，用戶端裝置)。
5) 接收裝置接收可能以檔案格式囊封之視訊位元串流或其部分，且將經解碼視訊信號或其部分發送至再現裝置(其可包括在與接收裝置相同的用戶端裝置中)。
6) 再現裝置可係例如HMD，其可追蹤頭部移動及甚至眼睛移動時刻，且可再現視訊之對應部分，使得向使用者遞送浸入式體驗。

全向媒體格式(OMAF)係由動畫專家組(MPEG)開發以定義實現全向媒體應用之媒體格式，其聚焦於具有360度視訊及相關聯音訊之VR應用。OMAF指定以下各者之清單：可用於將球面或360度視訊轉換成二維矩形視訊之投影方法，繼而如何使用ISO基本媒體檔案格式(ISOBMFF)儲存全向媒體及相關聯後設資料，及如何使用HTTP動態自適應串流(DASH)囊封、發信及串流傳輸全向媒體，及最終哪些視訊及音訊編碼解碼器以及媒體寫碼組態可用於壓縮及播放全向媒體信號。OMAF將成為ISO/IEC 23090-2，且MPEG成員可自wg11.sc29.org/doc_end_user/documents/119_Torino/wg11/16950.zip獲得草案規格。

在諸如DASH之HTTP串流協定中，頻繁使用之操作包括HEAD、GET及部分GET。HEAD操作擷取與給定的統一資源定位符(URL)或統一資源名稱(URN)相關聯之檔案的標頭，但不擷取與URL或URN相關聯之有效負載。GET操作擷取與給定URL或URN相關聯之整個檔案。部分GET操作接收位元組範圍作為輸入參數且擷取檔案之連續數目個位元組，其中位元組之數目對應於所接收之位元組範圍。因此，可提供電影片段以用於HTTP串流，此係因為部分GET操作可得到一或多個個別電影片段。在電影片段中，可能存在不同播放軌之若干播放軌片段。在HTTP串流中，媒體呈現可係用戶端可存取之資料的結構化集合。用戶端可請求且下載媒體資料資訊以向使用者呈現串流服務。

DASH指定於ISO/IEC 23009-1中，且係用於HTTP (自適應)串流應用之標準。ISO/IEC 23009-1主要指定媒體呈現描述(MPD)之格式，亦稱為資訊清單或資訊清單檔案，及媒體區段格式。MPD描述可在伺服器上獲得之媒體且允許DASH用戶端在適當媒體時間自主地下載適當媒體版本。

在使用HTTP串流來串流傳輸3GPP資料之實例中，可能存在多媒體內容之視訊及/或音訊資料的多個表示。如下文所解釋，不同表示可對應於不同寫碼特性(例如，視訊寫碼標準之不同設定檔或層級)、不同寫碼標準或寫碼標準之擴展(諸如，多視圖及/或可調式擴展)或不同位元速率。此等表示之資訊清單可定義於MPD資料結構中。媒體呈現可對應於HTTP串流用戶端裝置可存取之資料的結構化集合。HTTP串流用戶端裝置可請求且下載媒體資料資訊以向用戶端裝置之使用者呈現串流服務。媒體呈現可描述於可週期性地更新之MPD資料結構中。

媒體呈現可含有一或多個時段之序列。每一時段可延伸直至下一時段開始，或在最後時段的情況下，直至媒體呈現結束。每一時段可含有同一媒體內容之一或多個表示。表示可係音訊、視訊、計時文字或其他此類資料之數個替代經編碼版本中之一者。表示可因編碼類型而異，例如對於視訊資料，因位元速率、解析度及/或編碼解碼器而異，及對於音訊資料，因位元速率、語言及/或編碼解碼器而異。術語表示可用以指對應於多媒體內容之特定時段且以特定方式編碼的經編碼音訊或視訊資料之部分。

特定時段之表示可指派給由MPD中之屬性指示之群組，該屬性指示表示所屬之調適集。同一調適集中之表示通常被視為彼此之替代，此係因為用戶端裝置可在此等表示之間動態地且順暢地切換，例如以執行頻寬調適。舉例而言，特定時段之視訊資料之每一表示可指派給同一調適集，使得可選擇該等表示中之任一者進行解碼以呈現對應時段之多媒體內容的媒體資料，諸如視訊資料或音訊資料。在一些實例中，一個時段內之媒體內容可由來自群組0 (若存在)之一個表示來表示，或由來自每一非零群組的至多一個表示之組合來表示。時段之每一表示之時序資料可相對於該時段之開始時間來表達。

一表示可包括一或多個區段。每一表示可包括初始化區段，或表示之每一區段可自初始化。當存在時，初始化區段可含有用於存取表示之初始化資訊。一般而言，初始化區段不含媒體資料。區段可由諸如統一資源定位符(URL)、統一資源名稱(URN)或統一資源識別符(URI)之識別符唯一地參考。MPD可為每一區段提供識別符。在一些實例中，MPD亦可提供呈範圍屬性之形式的位元組範圍，該範圍屬性可對應於可由URL、URN或URI存取之檔案內之區段的資料。

可選擇不同表示以用於大體上同時擷取不同類型之媒體資料。舉例而言，用戶端裝置可選擇音訊表示、視訊表示及計時文字表示，自該等表示擷取區段。在一些實例中，用戶端裝置可選擇特定調適集以執行頻寬調適。亦即，用戶端裝置可選擇包括視訊表示之調適集、包括音訊表示之調適集及/或包括計時文字之調適集。替代地，用戶端裝置可選擇用於某些類型之媒體(例如，視訊)的調試集，且直接選擇用於其他類型之媒體(例如，音訊及/或計時文字)之表示。

用於基於DASH之HTTP串流的典型程序包括以下步驟：
1) DASH用戶端獲得例如電影之串流內容之MPD。MPD包括關於串流內容之不同替代表示的資訊，例如位元速率、視訊解析度、訊框速率、音訊語言，以及HTTP資源之URL (初始化區段及媒體區段)。
2) 基於MPD中之資訊及可用於DASH用戶端之本端資訊，例如網路頻寬、解碼/顯示能力及使用者偏好，DASH用戶端請求所要表示，一次一個區段(或其部分)。
3) 當DASH用戶端偵測到網路頻寬改變時，其請求具有較好匹配位元速率之不同表示之區段，理想地自以隨機存取點開始的區段開始。

在HTTP串流「會話」期間，為對使用者請求作出回應以反向搜尋過去位置或正向搜尋未來位置，DASH用戶端請求自接近所要位置且理想地開始於隨機存取點之區段開始的過去或未來區段。使用者亦可請求快進內容，其可藉由請求足夠用於僅解碼經框內寫碼視訊圖像或僅解碼視訊串流之時間子集的資料實現。

可根據多種視訊寫碼標準而編碼視訊資料。此類視訊寫碼標準包括ITU-T H.261、ISO/IEC MPEG-1 Visual、ITU-T H.262或ISO/IEC MPEG-2 Visual、ITU-T H.263、ISO/IEC MPEG-4 Visual、ITU-T H.264或ISO/IEC MPEG-4 AVC，包括其可調式視訊寫碼(SVC)及多視圖視訊寫碼(MVC)擴展，及高效率視訊寫碼(HEVC)，亦稱為ITU-T H.265及ISO/IEC 23008-2，包括其可調式寫碼擴展(亦即，可調式高效率視訊寫碼，SHVC)及多視圖擴展(亦即，多視圖高效率視訊寫碼，MV-HEVC)。

本發明描述可添加至OMAF草案規格及/或其他標準(例如，DASH、ISO BMFF、HEVC或其類似者)以改良媒體資料之處理(諸如，囊封、解囊封、編碼及/或解碼)的各種約束。一般而言，此類約束允許裝置推斷媒體位元串流之特性，使得無需考慮根據約束不會發生之事件，例如藉由資料組譯器/建構器(諸如，內容準備裝置或伺服器裝置)或藉由資料剖析器(諸如，用戶端裝置，例如檔案處理單元或解囊封單元)。舉例而言，若約束指定某些資料僅可在條件為真時存在，則若條件為假，則無需處理受約束之資料。另外或替代地，若資料存在，則所陳述條件可推斷為真。更特定而言，可形成對應於位元串流之內容脈絡無關文法，其考慮各種條件來指定後續資料是否對應於受約束之資料。同樣地，可根據內容脈絡無關文法實施及組態資料產生單元及資料剖析單元。

圖1係說明實施用於經由網路來串流傳輸媒體資料之技術的實例系統10之方塊圖。在此實例中，系統10包括內容準備裝置20、伺服器裝置60及用戶端裝置40。用戶端裝置40及伺服器裝置60藉由網路74以通信方式耦接，該網路可包含網際網路。在一些實例中，內容準備裝置20及伺服器裝置60亦可藉由網路74或另一網路耦接，或可直接以通信方式耦接。在一些實例中，內容準備裝置20及伺服器裝置60可包含相同裝置。

在圖1之實例中，內容準備裝置20包含音訊源22及視訊源24。音訊源22可包含例如麥克風，其產生表示待由音訊編碼器26編碼之所俘獲音訊資料的電信號。替代地，音訊源22可包含儲存先前記錄之音訊資料的儲存媒體、諸如電腦化之合成器的音訊資料產生器或任何其他音訊資料源。視訊源24可包含：視訊攝影機，其產生待由視訊編碼器28編碼之視訊資料；儲存媒體，其編碼有先前記錄之視訊資料；視訊資料產生單元，諸如電腦圖形源；或任何其他視訊資料源。內容準備裝置20未必在所有實例中均以通信方式耦接至伺服器裝置60，而可將多媒體內容儲存至由伺服器裝置60讀取之單獨媒體。

原始音訊及視訊資料可包含類比或數位資料。類比資料在由音訊編碼器26及/或視訊編碼器28編碼之前可被數位化。音訊源22可在說話參與者正在說話時自說話參與者獲得音訊資料，且視訊源24可同時獲得說話參與者之視訊資料。在其他實例中，音訊源22可包含含有所儲存之音訊資料的電腦可讀儲存媒體，且視訊源24可包含含有所儲存之視訊資料的電腦可讀儲存媒體。以此方式，本發明中所描述之技術可應用於實況、串流、即時音訊及視訊資料，或應用於所存檔的、預先記錄的音訊及視訊資料。

對應於視訊訊框之音訊訊框通常為含有藉由音訊源22俘獲(或產生)之音訊資料的音訊訊框，音訊資料同時伴有含於視訊訊框內的藉由視訊源24俘獲(或產生)之視訊資料。舉例而言，當說話參與者通常藉由說話而產生音訊資料時，音訊源22俘獲音訊資料，且視訊源24同時，亦即在音訊源22正俘獲音訊資料的同時俘獲說話參與者之視訊資料。因此，音訊訊框在時間上可對應於一或多個特定視訊訊框。因此，對應於視訊訊框之音訊訊框通常對應於同時俘獲到音訊資料及視訊資料且音訊訊框及視訊訊框分別包含同時俘獲到之音訊資料及視訊資料的情形。

在一些實例中，音訊編碼器26可編碼每一經編碼音訊訊框中表示記錄經編碼音訊訊框之音訊資料之時間的時戳，且類似地，視訊編碼器28可編碼每一經編碼視訊訊框中表示記錄經編碼視訊訊框之視訊資料之時間的時戳。在此等實例中，對應於視訊訊框之音訊訊框可包含：包含時戳之音訊訊框及包含相同時戳之視訊訊框。內容準備裝置20可包括內部時脈，音訊編碼器26及/或視訊編碼器28可自該內部時脈產生時戳，或音訊源22及視訊源24可使用該內部時脈分別使音訊資料及視訊資料與時戳相關聯。

在一些實例中，音訊源22可將對應於記錄音訊資料之時間的資料發送至音訊編碼器26，且視訊源24可將對應於記錄視訊資料之時間的資料發送至視訊編碼器28。在一些實例中，音訊編碼器26可編碼經編碼音訊資料中之序列識別符以指示經編碼音訊資料之相對時間排序，但未必指示記錄音訊資料之絕對時間，且類似地，視訊編碼器28亦可使用序列識別符來指示經編碼視訊資料之相對時間排序。類似地，在一些實例中，序列識別符可經映射或以其他方式與時戳相關。

音訊編碼器26通常產生經編碼音訊資料之串流，而視訊編碼器28產生經編碼視訊資料之串流。每一個別資料串流(不論音訊或視訊)可被稱作基本串流。基本串流係表示之單個經數位寫碼(可能經壓縮)分量。舉例而言，表示之經寫碼視訊或音訊部分可為基本串流。基本串流可在被囊封於視訊檔案內之前轉換成封包化基本串流(PES)。在相同表示內，可使用串流ID來區分屬於一個基本串流之PES封包與屬於另一基本串流之PES封包。基本串流之資料之基本單元為封包化基本串流(PES)封包。因此，經寫碼視訊資料通常對應於基本視訊串流。類似地，音訊資料對應於一或多個各別基本串流。

諸如ITU-T H.264/進階視訊寫碼(AVC)及ITU-T H.265/高效率視訊寫碼(HEVC)之許多視訊寫碼標準定義用於無誤差位元串流之語法、語義及解碼程序，該等無誤差位元串流中之任一者均符合特定設定檔或層級。視訊寫碼標準通常不指定編碼器，但編碼器具有保證所產生之位元串流對於符合解碼器而言係標準相容之任務。在視訊寫碼標準之內容脈絡中，「設定檔」對應於演算法、特徵或工具及施加至演算法、特徵或工具之約束的子集。如由例如H.264標準所定義，「設定檔」係由H.264標準指定的完整位元串流語法之子集。「層級」對應於諸如解碼器記憶體及計算之解碼器資源消耗的限制，該等限制與圖像解析度、位元速率及區塊處理速率相關。設定檔可用profile_idc (設定檔指示符)值來發信，而層級可用level_idc (層級指示符)值來發信。

舉例而言，H.264標準認為，在由給定設定檔之語法所強加的界限內，仍然可能要求編碼器及解碼器之效能有較大變化，此取決於位元串流中之語法元素(諸如，經解碼圖像之指定大小)所取的值。H.264標準進一步認為，在許多應用中，實施能夠處理特定設定檔內之語法之所有假設使用的解碼器既不實際又不經濟。因此，H.264標準將「層級」定義為強加於位元串流中之語法元素之值上的約束之指定集合。此等約束可為簡單的對值的限制。替代地，此等約束可呈對值之算術組合(例如，圖像寬度乘以圖像高度乘以每秒解碼的圖像數目)之約束的形式。H.264標準進一步規定，個別實施對於每一所支援設定檔可支援不同層級。

符合設定檔之解碼器一般支援設定檔中所定義之所有特徵。舉例而言，作為寫碼特徵，B圖像寫碼在H.264/AVC之基線設定檔中不被支援，但在H.264/AVC之其他設定檔中被支援。符合一層級之解碼器應能夠解碼不需要超出該層級中所定義之限制的資源之任何位元串流。設定檔及層級之定義可有助於解譯。舉例而言，在視訊傳輸期間，可針對整個傳輸會話協商及同意一對設定檔定義及層級定義。更具體而言，在H.264/AVC中，層級可定義對以下各者的限制：需要處理之巨集區塊的數目、經解碼圖像緩衝器(DPB)大小、經寫碼圖像緩衝器(CPB)大小、豎直運動向量範圍、每兩個連續MB的運動向量之最大數目，及B區塊是否可具有小於8×8個像素之子巨集區塊分割區。以此方式，解碼器可判定解碼器是否能夠適當地解碼位元串流。

在圖1之實例中，內容準備裝置20之囊封單元30自視訊編碼器28接收包含經寫碼視訊資料之基本串流，且自音訊編碼器26接收包含經寫碼音訊資料之基本串流。在一些實例中，視訊編碼器28及音訊編碼器26可各自包括用於自經編碼資料形成PES封包之封包化器。在其他實例中，視訊編碼器28及音訊編碼器26可各自與用於自經編碼資料形成PES封包之各別封包化器介接。在另外其他實例中，囊封單元30可包括用於自經編碼音訊及視訊資料形成PES封包之封包化器。

視訊編碼器28可用多種方式編碼多媒體內容之視訊資料，以產生多媒體內容之各種位元速率且具有各種特性的不同表示，該等特性諸如像素解析度、訊框速率、對各種寫碼標準之符合、對各種寫碼標準之各種設定檔及/或設定檔層級之符合、具有一個或多個視圖之表示(例如，對於二維或三維播放)或其他此類特性。如本發明中所使用，表示可包含音訊資料、視訊資料、文字資料(例如，用於隱藏式字幕)或其他此類資料中之一者。表示可包括諸如音訊基本串流或視訊基本串流之基本串流。每一PES封包可包括stream_id，其識別PES封包所屬之基本串流。囊封單元30負責將基本串流組譯成各種表示之視訊檔案(例如，區段)。

囊封單元30自音訊編碼器26及視訊編碼器28接收表示之基本串流的PES封包，且自該等PES封包形成對應的網路抽象層(NAL)單元。經寫碼視訊區段可經組織成NAL單元，其提供「網路友好」視訊表示，其定址諸如視訊電話、儲存器、廣播或串流之應用程式。NAL單元可分類為視訊寫碼層(VCL) NAL單元及非VCL NAL單元。VCL單元可含有核心壓縮引擎，且可包括區塊、巨集區塊及/或圖塊層級資料。其他NAL單元可為非VCL NAL單元。在一些實例中，一個時間執行個體中之通常呈現為主要經寫碼圖像的經寫碼圖像可含於存取單元中，該存取單元可包括一或多個NAL單元。

非VCL NAL單元可包括參數集NAL單元及SEI NAL單元連同其他者。參數集可含有序列層級標頭資訊(在序列參數集(SPS)中)及不頻繁改變的圖像層級標頭資訊(在圖像參數集(PPS)中)。對於參數集(例如，PPS及SPS)，不頻繁改變的資訊不需要針對每一序列或圖像重複，因此可改良寫碼效率。此外，使用參數集可實現重要標頭資訊之頻帶外傳輸，從而避免需要冗餘傳輸以用於錯誤恢復。在頻帶外傳輸實例中，參數集NAL單元可在與諸如SEI NAL單元之其他NAL單元不同的頻道上傳輸。

補充增強資訊(SEI)可含有對於解碼來自VCL NAL單元之經寫碼圖像樣本並非必需但可輔助與解碼、顯示、錯誤恢復及其他目的相關的程序的資訊。SEI訊息可含於非VCL NAL單元中。SEI訊息係一些標準規格之標準化部分，且因此對於符合標準之解碼器實施並非始終係必選的。SEI訊息可係序列層級SEI訊息或圖像層級SEI訊息。某一序列層級資訊可含於SEI訊息中，諸如SVC之實例中的可調性資訊SEI訊息，及MVC中的視圖可調性資訊SEI訊息。此等實例SEI訊息可傳達關於例如操作點之提取及操作點之特性的資訊。此外，囊封單元30可形成資訊清單檔案，諸如描述表示之特性的媒體呈現描述符(MPD)。囊封單元30可根據可延伸性標示語言(XML)來格式化MPD。

囊封單元30可將多媒體內容之一或多個表示的資料連同資訊清單檔案(例如，MPD)提供至輸出介面32。輸出介面32可包含網路介面或用於對儲存媒體進行寫入之介面，諸如通用串流匯流排(USB)介面、CD或DVD寫入器或燒錄器、至磁性或快閃儲存媒體之介面，或用於儲存或傳輸媒體資料之其他介面。囊封單元30可將多媒體內容之表示中之每一者的資料提供至輸出介面32，該輸出介面可經由網路傳輸或儲存媒體將該資料發送至伺服器裝置60。在圖1之實例中，伺服器裝置60包括儲存各種多媒體內容64之儲存媒體62，每一多媒體內容包括各別資訊清單檔案66及一或多個表示68A至68N (表示68)。在一些實例中，輸出介面32亦可將資料直接發送至網路74。

在一些實例中，表示68可分成若干調適集。亦即，表示68之各種子集可包括諸如以下特性之各別共同集合：編碼解碼器、設定檔及層級、解析度、視圖數目、區段之檔案格式、可識別待與表示及/或待解碼及呈現(例如，藉由揚聲器)之音訊資料一起顯示的文字之語言或其他特性的文字類型資訊、可描述調適集中之表示的場景之攝影機角度或真實世界攝影機視角的攝影機角度資訊、描述對於特定觀眾之內容適合性的分級資訊，或其類似者。

資訊清單檔案66可包括指示對應於特定調適集之表示68之子集以及該等調適集之共同特性的資料。資訊清單檔案66亦可包括表示調適集之個別表示的諸如位元速率之個別特性的資料。以此方式，一調適集可提供簡化的網路頻寬調適。調適集中之表示可使用資訊清單檔案66之調適集元素的子代元素來指示。

伺服器裝置60包括請求處理單元70及網路介面72。在一些實例中，伺服器裝置60可包括複數個網路介面。此外，伺服器裝置60之特徵中之任一者或全部可實施於內容遞送網路之其他裝置上，諸如路由器、橋接器、代理裝置、交換器或其他裝置。在一些實例中，一內容遞送網路之中間裝置可快取多媒體內容64之資料，且包括大體上符合伺服器裝置60之彼等組件的組件。一般而言，網路介面72經組態以經由網路74來發送及接收資料。

請求處理單元70經組態以自諸如用戶端裝置40之用戶端裝置接收對儲存媒體62之資料的網路請求。舉例而言，請求處理單元70可實施超文字傳送協定(HTTP)版本1.1，如RFC 2616，R.Fielding等人(網路工作組，IETF，1999年6月)的「超文字傳送協定-HTTP/1.1 (Hypertext Transfer Protocol-HTTP/1.1)」中所描述。亦即，請求處理單元70可經組態以接收HTTP GET或部分GET請求，且回應於該等請求而提供多媒體內容64之資料。請求可指定表示68中之一者的區段，例如使用該區段之URL。在一些實例中，該等請求亦可指定區段之一或多個位元組範圍，因此包含部分GET請求。請求處理單元70可經進一步組態以服務於HTTP HEAD請求以提供表示68中之一者之區段的標頭資料。在任何狀況下，請求處理單元70可經組態以處理請求，以將所請求資料提供至請求裝置，諸如用戶端裝置40。

另外或替代地，請求處理單元70可經組態以經由諸如eMBMS之廣播或多播協定而遞送媒體資料。內容準備裝置20可用與所描述大體上相同的方式建立DASH區段及/或子區段，但伺服器裝置60可使用eMBMS或另一廣播或多播網路輸送協定來遞送此等區段或子區段。舉例而言，請求處理單元70可經組態以自用戶端裝置40接收多播群組加入請求。亦即，伺服器裝置60可向與特定媒體內容(例如，實況事件之廣播)相關聯之用戶端裝置(包括用戶端裝置40)公告與多播群組相關聯之網際網路協定(IP)位址。用戶端裝置40又可提交加入多播群組之請求。此請求可遍及網路74 (例如，構成網路74之路由器)傳播，使得致使該等路由器將指定用於與多播群組相關聯之IP位址的訊務引導至訂用的用戶端裝置，諸如用戶端裝置40。

如圖1之實例中所說明，多媒體內容64包括資訊清單檔案66，該資訊清單檔案可對應於媒體呈現描述(MPD)。資訊清單檔案66可含有不同替代表示68 (例如，具有不同品質之視訊服務)的描述，且該描述可包括例如編碼解碼器資訊、設定檔值、層級值、位元速率及表示68之其他描述性特性。用戶端裝置40可擷取媒體呈現之MPD以判定如何存取表示68之區段。

特定而言，擷取單元52可擷取用戶端裝置40之組態資料(未圖示)以判定視訊解碼器48之解碼能力及視訊輸出端44之再現能力。組態資料亦可包括由用戶端裝置40之使用者選擇的語言偏好中之任一者或全部、對應於由用戶端裝置40之使用者設定的深度偏好之一或多個攝影機視角及/或由用戶端裝置40之使用者選擇的分級偏好。舉例而言，擷取單元52可包含網頁瀏覽器或媒體用戶端，其經組態以提交HTTP GET及部分GET請求。擷取單元52可對應於由用戶端裝置40之一或多個處理器或處理單元(未圖示)執行的軟件指令。在一些實例中，關於擷取單元52所描述的功能性之全部或部分可在硬體或硬體、軟體及/或韌體之組合中實施，其中可提供必需的硬體以執行軟體或韌體之指令。

擷取單元52可將用戶端裝置40之解碼及再現能力與由資訊清單檔案66之資訊所指示的表示68之特性進行比較。擷取單元52可最初擷取資訊清單檔案66之至少一部分以判定表示68之特性。舉例而言，擷取單元52可請求描述一或多個調適集之特性的資訊清單檔案66之一部分。擷取單元52可選擇具有可藉由用戶端裝置40之寫碼及再現能力滿足之特性的表示68之子集(例如，調適集)。擷取單元52可接著判定用於調適集中之表示的位元速率，判定網路頻寬之當前可用量，且自具有可藉由網路頻寬滿足之位元速率的表示中之一者擷取區段。

一般而言，較高位元速率表示可產生較高品質之視訊播放，而較低位元速率表示可在可用網路頻寬減少時提供足夠品質之視訊播放。因此，當可用網路頻寬相對較高時，擷取單元52可自相對較高位元速率之表示擷取資料，而當可用網路頻寬較低時，擷取單元52可自相對較低位元速率之表示擷取資料。以此方式，用戶端裝置40可經由網路74串流傳輸多媒體資料，同時亦適應網路74之改變的網路頻寬可用性。

另外或替代地，擷取單元52可經組態以根據諸如eMBMS或IP多播之廣播或多播網路協定而接收資料。在此等實例中，擷取單元52可提交加入與特定媒體內容相關聯之多播網路群組的請求。在加入多播群組之後，擷取單元52可在無其他請求發出至伺服器裝置60或內容準備裝置20的情況下接收多播群組之資料。當不再需要多播群組之資料時，例如停止播放或將頻道改變至不同多播群組，擷取單元52可提交離開多播群組的請求。

網路介面54可接收選定表示之區段的資料且將該資料提供至擷取單元52，該擷取單元又可將區段提供至檔案處理單元50。檔案處理單元50可將視訊檔案之元素解囊封成組成性PES串流，解封包化該等PES串流以擷取經編碼資料，且取決於經編碼資料為音訊串流抑或視訊串流之部分(例如，如由串流之PES封包標頭所指示)而將經編碼資料發送至音訊解碼器46或視訊解碼器48。音訊解碼器46解碼經編碼音訊資料，且將經解碼音訊資料發送至音訊輸出端42，而視訊解碼器48解碼經編碼視訊資料，且將可包括串流之複數個視圖的經解碼視訊資料發送至視訊輸出端44。

視訊編碼器28、視訊解碼器48、音訊編碼器26、音訊解碼器46、囊封單元30、擷取單元52及檔案處理單元50各自在適用時可實施為多種合適的處理電路系統中之任一者，諸如一或多個微處理器、數位信號處理器(DSP)、特定應用積體電路(ASIC)、場可程式化閘陣列(FPGA)、離散邏輯電路、軟體、硬體、韌體或其任何組合。視訊編碼器28及視訊解碼器48中之每一者可包括於一或多個編碼器或解碼器中，編碼器或解碼器中之任一者可經整合為組合式視訊編碼器/解碼器(編碼解碼器(CODEC))之部分。同樣地，音訊編碼器26及音訊解碼器46中之每一者可包括於一或多個編碼器或解碼器中，編碼器或解碼器中之任一者可經整合為組合式CODEC之部分。包括視訊編碼器28、視訊解碼器48、音訊編碼器26、音訊解碼器46、囊封單元30、擷取單元52及/或檔案處理單元50之設備可包含積體電路、微處理器及/或諸如蜂巢式電話的無線通信裝置。

用戶端裝置40、伺服器裝置60及/或內容準備裝置20可經組態以根據本發明之技術而操作。出於實例之目的，本發明關於用戶端裝置40及伺服器裝置60來描述此等技術。然而，應理解，替代伺服器裝置60 (或除此裝置之外)，內容準備裝置20可經組態以執行此等技術。

囊封單元30可形成NAL單元，該等NAL單元包含識別NAL所屬之程式的標頭，以及有效負載，例如音訊資料、視訊資料或描述NAL單元所對應之輸送或程式串流的資料。舉例而言，在H.264/AVC中，NAL單元包括1位元組標頭及具有變化大小之有效負載。在有效負載中包括視訊資料之NAL單元可包含各種粒度等級之視訊資料。舉例而言，一NAL單元可包含一視訊資料區塊、複數個區塊、一視訊資料圖塊或視訊資料之整個圖像。囊封單元30可自視訊編碼器28接收呈基本串流之PES封包之形式的經編碼視訊資料。囊封單元30可使每一基本串流與對應程式相關聯。

囊封單元30亦可組譯來自複數個NAL單元之存取單元。一般而言，存取單元可包含用於表示視訊資料之訊框以及對應於該訊框之音訊資料(當此音訊資料可用時)的一或多個NAL單元。存取單元通常包括一個輸出時間執行個體之所有NAL單元，例如一個時間執行個體之所有音訊及視訊資料。舉例而言，若每一視圖具有20個訊框/秒(fps)之訊框速率，則每一時間執行個體可對應於0.05秒之時間間隔。在此時間間隔期間，可同時再現同一存取單元(同一時間執行個體)之所有視圖的特定訊框。在一個實例中，存取單元可包含一個時間執行個體中之經寫碼圖像，其可呈現為主要經寫碼圖像。

因此，存取單元可包含共同時間執行個體之所有音訊訊框及視訊訊框，例如對應於時間X 之所有視圖。本發明亦將特定視圖之經編碼圖像稱為「視圖分量」。亦即，視圖分量可包含在特定時間之特定視圖的經編碼圖像(或訊框)。因此，存取單元可定義為包含共同時間執行個體之所有視圖分量。存取單元之解碼次序無需必定與輸出或顯示次序相同。

媒體呈現可包括媒體呈現描述(MPD),該媒體呈現描述可含有不同替代表示(例如，具有不同品質之視訊服務)的描述，且該描述可包括例如編碼解碼器資訊、設定檔值及層級值。MPD係諸如資訊清單檔案66之資訊清單檔案的一個實例。用戶端裝置40可擷取媒體呈現之MPD以判定如何存取各種呈現之電影片段。電影片段可位於視訊檔案之電影片段邏輯框(moof邏輯框)中。

資訊清單檔案66 (其可包含例如MPD)可公告表示68之區段之可用性。亦即，MPD可包括指示表示68中之一者之第一區段變得可用時之掛鐘時間的資訊，以及指示表示68內之區段之持續時間的資訊。以此方式，用戶端裝置40之擷取單元52可基於開始時間以及在特定區段之前的區段之持續時間而判定每一區段何時可用。

在囊封單元30已基於所接收之資料將NAL單元及/或存取單元組譯成視訊檔案之後，囊封單元30將視訊檔案傳遞至輸出介面32以供輸出。在一些實例中，囊封單元30可將視訊檔案儲存在本端，或經由輸出介面32將視訊檔案發送至遠端伺服器，而非將視訊檔案直接發送至用戶端裝置40。輸出介面32可包含例如傳輸器、收發器、用於將資料寫入至諸如光碟機、磁性媒體驅動器(例如，軟碟機)之電腦可讀媒體的裝置、通用串列匯流排(USB)埠、網路介面或其他輸出介面。輸出介面32將視訊檔案輸出至電腦可讀媒體，諸如傳輸信號、磁性媒體、光學媒體、記憶體、隨身碟或其他電腦可讀媒體。

網路介面54可經由網路74接收NAL單元或存取單元，且經由擷取單元52將NAL單元或存取單元提供至檔案處理單元50。檔案處理單元50可將視訊檔案之元素解囊封成組成性PES串流，解封包化該等PES串流以擷取經編碼資料，且取決於經編碼資料為音訊串流抑或視訊串流之部分(例如，如由串流之PES封包標頭所指示)而將經編碼資料發送至音訊解碼器46或視訊解碼器48。音訊解碼器46解碼經編碼音訊資料，且將經解碼音訊資料發送至音訊輸出端42，而視訊解碼器48解碼經編碼視訊資料，且將可包括串流之複數個視圖的經解碼視訊資料發送至視訊輸出端44。

根據本發明之技術，如下文更詳細地論述，伺服器裝置60及/或內容準備裝置20可準備及發送後設資料，該後設資料描述待發送至用戶端裝置40之媒體資料之浸入式媒體內容。該浸入式媒體內容可用於多種不同格式化選項，諸如二維視訊資料、多串流視訊資料、魚眼視訊資料、投影360度視訊資料或封裝視訊資料中之任一者或全部。用戶端裝置40之擷取單元52可使用浸入式媒體內容之描述以判定用戶端裝置40支援之格式化選項中之一或多者。擷取單元52可接著將指示支援此等格式化選項中之哪些者的資料提供至例如伺服器裝置60。伺服器裝置60可接著選擇具有所支援格式化選項中之一者的浸入式媒體內容且將選定浸入式媒體內容發送至用戶端裝置40。用戶端裝置40可進一步組態例如視訊輸出端44之再現環境以再現浸入式媒體內容。

圖2係說明根據OMAF草案規格之實例逐區封裝程序的概念圖。OMAF草案規格指定被稱作逐區封裝(RWP)之機制。RWP實現對投影圖像之任何矩形區的操縱(調整大小、重新定位、旋轉及鏡像處理)。RWP可用以強調特定檢視區定向或規避投影弱點，諸如對ERP中之極點的超取樣。後者描繪於圖2之頂部中，其中靠近球面視訊之極點的區域之解析度降低。圖2之底部描繪經強調檢視區定向之實例。

再次參看圖1，在RWP邏輯框中發信關於RWP之資訊，對於該邏輯框，在最新OMAF草案文本之條款7.2.3中指定RegionWisePackingStruct，其指定攜載於RWP邏輯框中之資訊。

Boyce等人之「HEVC額外補充增強資訊(HEVC Additional Supplemental Enhancement Information) (草案3)」(ITU-T SG 16 WP 3及ISO/IEC JTC 1/SC 29/WG 11之JCT-VC，義大利托里諾，2017年7月15日至21日，文件JCTVC-AB1005-v1 (可在phenix.int-evry.fr/jct/doc_end_user/documents/28_Torino/wg11/JCTVC-AB1005-v1.zip處獲得))包括OMAF相關SEI訊息，包括等矩形投影(ERP) SEI信息、立方圖投影(CMP) SEI信息、逐區封裝(RWP) SEI信息及全向檢視區SEI信息。

3GPP SA4正在研究用於實況上行鏈路串流(FLUS)之構架，其目標為指定涉及上行鏈路浸入式媒體串流之一些浸入式媒體服務。FLUS之描述可在文件S4-AHM363 (可在www.3gpp.org/FTP/tsg_sa/WG4_CODEC/Ad-hoc_MTSI/Docs/S4-AHM363.zip處獲得)中獲得，該文件包括在S4-170843 (ftp.3gpp.org/tsg_sa/WG4_CODEC/TSGS4_95/Docs/S4-170843.zip)中記載之添加內容。

然而，本發明認為，FLUS服務之現有解決方案缺乏系統地描述浸入式媒體之不同來源模型的方法。不同的浸入式視訊源模型包括2D、魚眼、球面投影360、封裝式多攝影機及個別多攝影機。描述方法係使用基於SDP/RTP之遞送及發信、基於DASH/HTTP之遞送及發信或基於任何其他遞送及發信的系統所需要的。

本發明描述可解決此等問題之各種技術。此等技術可藉由內容準備裝置20、伺服器裝置60及/或用戶端裝置40中之任一者或全部執行。本發明描述用於系統地描述浸入式媒體之不同來源模型的技術。不同的浸入式視訊源模型包括二維(2D)、魚眼、球面投影360、封裝式多攝影機及個別多攝影機。描述方法可基於且用於使用基於SDP/RTP之遞送及發信、基於DASH/HTTP之遞送及發信、通用遞送及發信等的系統。系統10表示此系統之實例。

一般而言，本發明之技術的某些態樣包括：
· 浸入式媒體之不同來源模型的系統性描述，例如藉由內容準備裝置20及/或伺服器裝置60。系統性描述可包括於例如媒體呈現描述(MPD)之資訊清單檔案66中或包括於會話描述協定(SDP)資料中。
· 浸入式媒體之不同來源模型的系統性描述，例如藉由內容準備裝置20及/或伺服器裝置60，即：
o 2D
o 魚眼，
o 球面投影360
o 封裝式多攝影機
o 個別多攝影機
· 對於基於SDP/RTP之發信，例如藉由內容準備裝置20及/或伺服器裝置60：
o 魚眼：
§ 使用發信魚眼之頻帶內SEI訊息
§ 使用指示方案類型(方案定義處理要求)之新SDP參數，或
§ 使用指示某些SEI訊息之存在的新SDP參數
o 投影360視訊
§ 使用發信投影、覆蓋範圍及立體模式之頻帶內SEI訊息
§ 使用指示方案類型(方案定義處理要求)之新SDP參數，或
§ 使用指示某些SEI訊息之存在的新SDP參數
o 封裝視訊內容
§ 使用將區映射至外部id之頻帶內SEI訊息
§ 使用提供組態資訊且使每一id與組態中之專用串流相關聯的新SDP參數
§ 使用指示某些SEI訊息之存在的新SDP參數
o 對於音訊
§ 使用提供內容至3D空間之映射的頻帶內後設資料
§ 使用指示所含後設資料之新SDP參數
o 對於A/V對準
§ 在媒體組件中之一者中進行旋轉發信
§ 進行新RTCP SR以提供音訊與視訊之間的空間對準
· 對於通用發信，例如藉由內容準備裝置20及/或伺服器裝置60
o 魚眼：
§ 使用發信魚眼之頻帶內SEI訊息
§ 使用指示方案類型(方案定義處理要求)之系統層級發信，或
§ 使用指示某些SEI訊息之存在的系統層級發信
o 投影360視訊
§ 使用發信投影、覆蓋範圍及立體模式之頻帶內SEI訊息
§ 使用指示方案類型(方案定義處理要求)之系統層級發信，或
§ 使用指示某些SEI訊息之存在的系統層級發信
o 封裝視訊內容
§ 使用將區映射至外部id之頻帶內SEI訊息
§ 使用提供組態資訊且使每一id與組態中之專用串流相關聯的系統層級發信
§ 使用指示某些SEI訊息之存在的系統層級發信
o 對於音訊
§ 使用提供內容至3D空間之映射的頻帶內後設資料
§ 使用指示所含後設資料之系統層級發信
o 對於A/V對準
§ 在媒體組件中之一者中進行旋轉發信
§ 在系統層級上進行對準發信
· 在浸入式媒體上行鏈路中，例如在內容準備裝置20與伺服器裝置60之間或伺服器裝置60與網路74之間，使用所有此等操作。

在一個實例中，內容準備裝置20及/或伺服器裝置60可經組態以使用包括來源集束之內容模型。來源集束可表示具有關係之來源的集合。來源集束可例如包括處於事件中之所有攝影機(例如，一級播放軌上之所有攝影機，包括安裝於汽車上之彼等攝影機)。「來源」通常可指資料提供實體，諸如攝影機、麥克風或其類似者。由該等來源產生之信號在很大程度上係獨立的，但係時間同步的。

在一個實例中，每一來源集束包括至多一個音訊源及至多一個視訊源，且此外，內容準備裝置20及/或伺服器裝置60可提供來源集束之後設資料。此後設資料可包括：
· 視訊
o 單攝影機2D內容
o 魚眼攝影機，產生一個串流
o 在來源處(亦可與所有以上攝影機一起工作)預先拼接且上傳3D內容
o 雲端拼接：多個攝影機(多達8個)，如Ozo或GoPro (6)、Google Jump
§ 每一攝影機串流作為2D視訊個別地向上串流傳輸
§ 固定關係及明確描述之幾何結構(可能僅類型即足夠及關於串流進行編號)
§ 假定輸出信號經同步及校準
§ 拼接後設資料係專有的
o 用於拼接之封裝內容：類似於先前情形，但視圖中之每一者係提供為封裝區
o 對於彼等中之每一者，描述後設資料以及編碼及遞送存在
· 音訊俘獲裝置
o 在接收器處產生空間信號與格式之組合
§ 由後設資料明確描述之單聲道信號之組合(諸如，立體混響數目)
§ 關於實務實施及產品之資訊將良好
§ ADM描述此情形
o 由明確界定之麥克風陣列產生的個別單聲道音訊源
§ 每一麥克風串流作為單聲道信號個別地向上串流傳輸
§ 固定關係及明確描述之幾何結構(可能僅類型即足夠及關於串流進行編號)
§ 假定俘獲輸出信號經同步及校準
§ 混合後設資料係專有的
o 分散式麥克風陣列
§ 類似於上述情形，但需要關於每一麥克風之詳細空間座標等
· 後設資料
o 可動態地改變之裝置或感測器位置
o 當天時間(記錄追蹤)
o 記錄資訊及
o 熱圖
o 導演剪輯(Director cut)
o 關注區
o 等。

下表1提供內容準備裝置20及/或伺服器裝置60可經由網路74提供至例如用戶端裝置40之描述性後設資料的綜述。

表 1 — 處理上文之實例使用狀況的描述性後設資料之綜述

為適當地描述來源，需要呈現內容。下文論述相關參數。

2D視訊可藉由下表2中所展示之參數描述：
表 2 — 2D 視訊參數

球面視訊可藉由下表3之參數描述。本發明之球面視訊技術大體上係關於定義於如上文所論述之H.265/HEVC之草案修正版3中的模型來描述。

與球面視訊相關之一個問題係以2D紋理模式呈現球面視訊(可能在立體模式中)。2D紋理可使用定義於下表3中之參數用於常規2D分佈。
表 3 — 球面視訊參數

圖3係說明與球面投影相關之球面座標的概念圖。特定而言，圖3之球面座標包括ϕ、θ與球面的由經裁剪輸出圖像覆蓋之區相對於球面之赤道及0經線的橫偏(yaw)、縱搖(pitch)及橫搖(roll)。

將2D紋理影像之彩色樣本以角座標(ϕ，θ)映射至球面座標空間上以用於全向視訊應用中，對於該等應用，觀察視角係自原點看向球體內部。球面座標定義為使得ϕ係方位角(經度，向東逐漸增加)且θ係仰角(緯度，向北逐漸增加)，如圖3中所描繪。

旋轉角橫偏(α)、縱搖(β)及橫搖(γ)亦用於此等語義之規格中。

相對於(x, y, z)笛卡爾座標系統，橫偏表達圍繞z (豎直，向上)軸之旋轉，縱搖圍繞y (側向，左右)軸旋轉，且橫搖圍繞x (後向前)軸旋轉。旋度係非本徵的，亦即，圍繞x、y及z固定參考軸。當自原點看向軸之正端時，角度順時針增加。

假定提供具有以下參數之信號：
· 投影係具有根據圖3之座標系統及映射的ERP。
· 信號之訊框速率提供為 FrameRate
· 完整參考360視訊具有空間解析度 FullWidthPixel 乘以 FullHeightPixel ，其中圖像縱橫比為2:1
· 該信號可遵循單聲道或立體聲。若遵循立體聲，則每只眼睛分離地提供該信號。類型在 StereoMode 參數中表達。
· 該信號可具有在 覆蓋範圍 參數中表達之受限覆蓋範圍，若存在，則在如下表達之球面域中：
o AzimuthMin 指定覆蓋球面區之最小方位角值，其在-360至360度之範圍內。
o AzimuthMax 指定覆蓋球面區之最大方位角值，其在-360至360度之範圍內。此值大於 AzimuthMin 。
o ElevationMin 指定覆蓋球面區之最小仰角值，其在-90至90度之範圍內。
o ElevationMax 指定覆蓋球面區之最大仰角值，其在-90至90度之範圍內。
· 該信號可具有在旋轉參數中表達之預旋轉，若存在，則在如下表達之球面域中：
o RotationYaw 指定橫偏旋轉角之值，其在-180至180度之範圍內。當不存在時，推斷該值等於0。
o RotationPitch 指定縱搖旋轉角之值，其在-90至90度之範圍內。當不存在時，推斷該值等於0。
o RotationRoll 指定橫搖旋轉角之值，其在-180至180度之範圍內。當不存在時，推斷該值等於0。
· 若不提供完整信號而提供其裁剪版本，則此藉由具有四個以下值之裁剪參數表達
o 頂部：相較於全像素高度，在頂部裁剪之像素之數目。
o 右方：相較於全像素高度，在右方裁剪之像素之數目。
o 底部：相較於全像素高度，在底部裁剪之像素之數目。
o 左方：相較於全像素高度，在左方裁剪之像素之數目。
· 所提供之影像序列因此具有明度分量，該明度分量具有
o 寬度 FullWidthPixel - (Cropping.Left + Cropping.Right)
o 高度 FullWidthPixel - (Cropping.Top + Cropping.Bottom)
· 可選擇裁剪參數使得在覆蓋範圍中之所有像素包括於影像中。

可如下導出樣本位置(i, j)之中心點的樣本位置之區域投影球面座標(f, q)：
f = ( AzimuthMin + ( 0.5 − i ÷ FullWidthPixel ) * ( AzimuthMax − AzimuthMin ) )
q = ( ElevationMin + ( 0.5 − j ÷ FullHeightPixel ) * ( ElevationMax − ElevationMin ) )

若不存在旋轉參數，則樣本位置(i, j)之中心點的樣本位置之全域投影球面座標(f', q')可相同於區域球面座標(f, q)。

若存在具有皆以度為單位之參數 RotationYaw (α)、 RotationPitch (β)、 RotationRoll (γ)的旋轉參數，則樣本位置(i, j)之中心點的樣本位置之全域投影球面座標(f', q')可如下基於其區域球面座標(f, q)而導出：
x₁ = Cos( f ) * Cos( q )
y₁ = Sin( f ) * Cos( q )
z₁ = Sin( q )
x₂ = Cos( β ) * Cos ( γ ) * x₁ − Cos( β ) * Sin( γ ) * y₁ + Sin( β ) * z₁
y₂ = ( Cos( α ) * Sin( γ ) + Sin( α ) * Sin( β ) * Cos( γ ) ) * x₁ +
( Cos( α ) * Cos( γ ) − Sin( α ) * Sin( β ) * Sin( γ ) ) * y₁ −
Sin( α ) * Cos( β ) * z₁
z₂ = ( Sin( α ) * Sin( γ ) − Cos( α ) * Sin( β ) * Cos( γ ) ) * x₁ +
( Sin( α ) * Cos( γ ) + Cos( α ) * Sin( β ) * Sin( γ ) ) * y₁ +
Cos( α ) * Cos( β ) * z₁
f' = Atan2( y₂ , x₂ ) * 180 ÷ π
q' = Asin( z₂ ) * 180 ÷ π

以上內容參數可直接映射至經編碼信號，或可應用預處理使得以上參數經調整。

再次參看圖1，內容準備裝置20及/或源裝置60可根據下表4提供多串流參數之多串流視訊參數：
表 4 —多串流視訊參數

內容準備裝置20及/或源裝置60可根據下表5提供多串流參數之封裝視訊參數，該表通常表示已擴展逐區封裝之實例：
表 5 —封裝視訊參數

不同播放軌可在時間上同步且在一個座標系統中對準。內容準備裝置20及/或伺服器裝置60可將後設資料提供至用戶端裝置40以提供此對準。

為將後設資料自來源遞送至接收裝置，存在若干選項。為考慮合適的遞送機制，應考慮幾個態樣：
1) 後設資料係靜態(在會話內不改變)、半靜態(通常靜態，但組態可改變)抑或動態的(隨時間相依之每個樣本潛在地改變)
2) 後設資料與整個來源集束、一個內容來源抑或內容來源之一個媒體組件相關？
3) 後設資料是否已適當地定義於輸送系統中且可重複使用？
4) 後設資料是否必須在例如某些協定層上存取
a. 用於會話建立
b. 用於能力協商
c. 在再現及顯示程序中
d. 等。

亦基於此等考慮因素，對於每一協定執行個體化，解決方案取決於可用功能性而可不同。

內容準備裝置20及/或伺服器裝置60可在不同執行個體中提供後設資料。在下表6中提供實例：
表 6 — 後設資料之實例攜載選項

在一些實例中，內容準備裝置20及/或伺服器裝置60可例如在視訊基本串流中提供如與經囊封視訊資料一起在頻帶內的參數。又，視訊基本串流提供參數以及值空間之準確語義定義。下文論述相關的實例頻帶內功能性。

序列參數集(SPS)及圖像參數集(PPS)，尤其係其視訊可用性資訊(VUI)可攜載(例如，表2的)相關2D視訊參數。

等矩形投影SEI訊息(如JCTVC-AB1005之條款D.2.41.1及D.3.41.1中所定義)提供資訊以使得能夠將輸出經解碼圖像之彩色樣本以角座標(ϕ, θ)重新映射至球面座標空間上以用於全向視訊應用中，對於該等應用，觀察視角係自原點看向球體內部。球面座標定義為使得ϕ係方位角(經度，向東逐漸增加)且θ係仰角(緯度，向北逐漸增加)，如圖3中所描繪。

內容準備裝置20及/或伺服器裝置60可經組態以根據以下實例規則而產生SEI訊息：
· 產生具有有效負載類型150之SEI訊息
· 將erp_cancel_flag設定為0
· 將erp_persistence_flag設定為1

當視訊提供全360覆蓋且不存在 覆蓋範圍 參數時，則內容準備裝置20/伺服器裝置60可將erp_explicit_coverage_range_flag設定為0。

當如由 覆蓋範圍 參數所指示，視訊不提供全360覆蓋時，則在一些實例中，內容準備裝置20及/或伺服器裝置60可經組態以執行以下操作：
· 將erp_explicit_coverage_range_flag設定為1
· 相應地使用 覆蓋範圍 參數值及定義於[JCTVC-AB1005]之D.3.41.5中的映射來設定erp_azimuth_min、erp_azimuth_max、erp_elevation_min及erp_elevation_max
· 應產生逐區封裝SEI訊息(如定義於[JCTVC-AB1005]之條款D.2.41.3及D.3.41.3中，更多細節在條款4.3.5中)，以便如下使用裁剪資訊參數最大化經編碼2D影像中之可見資訊
o 將rwp_cancel_flag設定為0
o 將rwp_persistence_flag設定為1
o 將num_packed_regions設定為1
o 將proj_picture_width設定為 FullWidthPixel
o 將proj_picture_height設定為 FullHeightPixel
o 將packing_type[0]設定為0
o 將proj_region_width[0]設定為 FullWidthPixel - ( Cropping . Left + Cropping . Right )
o 將proj_region_height[0]設定為 FullHeightPixel - ( Cropping . Top + Cropping . Bottom )
o 將proj_region_top[0]設定為 Cropping . Top
o 將proj_region_left[0]設定為 Cropping . Left
o 將transform_type[0]設定為0
o 將packed_region_width[0]設定為 FullWidthPixel - (Cropping.Left + Cropping.Right)
o 將packed_region_height[0]設定為 FullHeightPixel - (Cropping.Top + Cropping.Bottom)
o 將packed_region_top[0]設定為 Cropping.Top
o 將packed_region_left[0]設定為 Cropping.Left

當視訊係立體的時，則內容準備裝置20及/或伺服器裝置60可例如如下產生訊框封裝及適當的訊框封裝配置SEI訊息(如定義於ISO/IEC 23008-2中)：
· 產生具有有效負載類型45之SEI訊息
· 將frame_packing_arrangement_cancel_flag設定為1
· 將frame_packing_arrangement_type設定為以下值中之一者：3或4。對於關於格式中之一者的選擇之更多細節，見下文。
· 將quincunx_sampling_flag設定為0

使用訊框相容平面-立體視訊格式意謂以空間多工配置左眼及右眼影像，該空間多工產生可如習知2D影像般處理之複合影像。TS 101 547-2之附件A提供訊框相容視訊格式之資訊性綜述，及若使用具有值3或4之frame_packing_arrangement_type，可如何產生單個2D影像。

逐區封裝SEI訊息提供資訊以使得能夠將經裁剪輸出圖像之彩色樣本重新映射至投影圖像上。對於更多細節，參考JCTVC-AB1005之條款D.2.41.3及D.3.41.3。

ISO BMFF計時後設資料播放軌可用。可例如部分地自3GPP且部分地自MPEG收集不同資訊。

當位置計時後設資料以3GPP檔案格式儲存時，計時後設資料播放軌可與LocationSampleEntry邏輯框一起使用，如描述於TS26.244之條款6.12中。LocationSampleEntry之存在可指示後設資料樣本格式係自角色欄位開始的TS26.244之表8.10中的位置資訊框之欄位，亦即，如下表7中所展示：
表 7 — 位置計時後設資料樣本格式

對於此等欄位之定義，參見TS26.244之條款8.2中的位置資訊框之定義。

對於關注區，OMAF標準描述可與本發明之技術相關的導演剪輯資訊。

用戶端裝置40可使用上文所論述之後設資料中的任一者或全部，以例如選擇及擷取適當的媒體內容及/或判定如何適當地擷取、解碼、處理及/或呈現所擷取或所接收之媒體內容。

根據本發明之技術，內容準備裝置20、伺服器裝置60及/或用戶端裝置40可根據以下情形中之任一者或全部而組態：
1) 依賴於外部定義之後設資料且在適當時進行參考。
2) 若尚未得到外部定義之後設資料但工作正在進行或專有後設資料存在，則提供意謂可攜載此資料，但不定義FLUS之資料。
3) 作為第一選項，使用編碼解碼器頻帶內發信用於後設資料發信。頻帶內發信提供獨立於輸送之最穩固方式。
4) 僅在對於能力曝露、能力交換、處理最佳化或基於網路之處理有必要且重要時才向系統層級曝露頻帶內發信。
5) 為稍後階段推遲未解決問題，並不嘗試在第一階段解決所有問題且關於未解決問題與MPEG進行通信。

對於SDP/RTP應用，可在應用層級上發信來源集束。下文在表8中定義基於SDP/RTP之實例發信。
表 8

對於通用FLUS應用，可在應用層級上發信來源集束。下文在表9中定義基於FLUS之實例發信。
表 9

圖4係更詳細地說明圖1之擷取單元52的實例組件集合之方塊圖。在此實例中，擷取單元52包括eMBMS中間軟體單元100、DASH用戶端110及媒體應用程式112。

在此實例中，eMBMS中間軟體單元100進一步包括eMBMS接收單元106、快取記憶體104及代理伺服器單元102。在此實例中，eMBMS接收單元106經組態以經由eMBMS接收資料，例如根據T. Paila等人在「FLUTE-經由單向輸送之檔案遞送(File Delivery over Unidirectional Transport)」(網路工作群組，RFC 6726，2012年11月)(可在http://tools.ietf.org/html/rfc6726獲得)中所描述的經由單向輸送之檔案遞送(FLUTE)。亦即，eMBMS接收單元106可經由廣播自例如可充當BM-SC之伺服器裝置60接收檔案。

在eMBMS中間軟體單元100接收檔案之資料時，eMBMS中間軟體單元可將所接收之資料儲存於快取記憶體104中。快取記憶體104可包含電腦可讀儲存媒體，諸如快閃記憶體、硬碟、RAM或任何其他合適的儲存媒體。

代理伺服器單元102可充當DASH用戶端110之伺服器。舉例而言，代理伺服器單元102可將MPD檔案或其他資訊清單檔案提供至DASH用戶端110。代理伺服器單元102可公告MPD檔案中之區段的可用性時間，以及可擷取該等區段之超連結。此等超連結可包括對應於用戶端裝置40之本端主機位址首碼(例如，IPv4之127.0.0.1)。以此方式，DASH用戶端110可使用HTTP GET或部分GET請求向代理伺服器單位102請求區段。舉例而言，對於可自連結http://127.0.0.1/rep1/seg3獲得之區段，DASH用戶端110可建構包括對http://127.0.0.1/rep1/seg3之請求的HTTP GET請求，且將請求提交至代理伺服器單元102。代理伺服器單元102可回應於此等請求而自快取記憶體104擷取所請求之資料且將資料提供至DASH用戶端110。

DASH用戶端110可單獨地或以任何組合根據如上文所論述之任何或全部本發明技術而組態。

圖5係說明實例多媒體內容120之元素的概念圖。多媒體內容120可對應於多媒體內容64 (圖1)，或儲存於儲存媒體62中之另一多媒體內容。在圖5之實例中，多媒體內容120包括媒體呈現描述(MPD) 122及複數個表示124A至124N (表示124)。表示124A包括可選標頭資料126及區段128A至128N (區段128)，而表示124N包括可選標頭資料130及區段132A至132N (區段132)。為方便起見，使用字母N來指定表示124中之每一者中的最後一個電影片段。在一些實例中，表示124之間可存在不同數目個電影片段。

MPD 122可包含與表示124分離之資料結構。MPD 122可對應於圖1之資訊清單檔案66。同樣地，表示124可對應於圖4之表示68。一般而言，MPD 122可包括通常描述表示124之特性的資料，諸如寫碼及再現特性、調適集、MPD 122所對應之設定檔、文字類型資訊、攝影機角度資訊、分級資訊、特技模式資訊(例如，指示包括時間子序列之表示的資訊)及/或用於擷取遠端時段(例如，用於在播放期間將目標性廣告插入至媒體內容中)之資訊。

標頭資料126 (當存在時)可描述區段128之特性，例如隨機存取點(RAP，其亦被稱作串流存取點(SAP))之時間位置、區段128中之哪一者包括隨機存取點、與區段128內之隨機存取點之位元組偏移、區段128之統一資源定位符(URL)，或區段128之其他態樣。標頭資料130 (當存在時)可描述區段132之類似特性。另外或替代地，此等特性可全部包括於MPD 122內。

區段128、132包括一或多個經寫碼視訊樣本，其中之每一者可包括視訊資料之訊框或圖塊。區段128之經寫碼視訊樣本中之每一者可具有類似特性，例如高度、寬度及頻寬要求。此等特性可藉由MPD 122之資料來描述，但此資料在圖5之實例中未說明。MPD 122可包括如3GPP規格所描述之特性，其中添加了本發明中所描述的發信資訊中之任一者或全部。

區段128、132中之每一者可與唯一的統一資源定位符(URL)相關聯。因此，區段128、132中之每一者可使用諸如DASH之串流網路協定來獨立地擷取。以此方式，諸如用戶端裝置40之目的地裝置可使用HTTP GET請求來擷取區段128或132。在一些實例中，用戶端裝置40可使用HTTP部分GET請求來擷取區段128或132之特定位元組範圍。

MPD 122可包括單獨地或以任何組合根據任何或全部本發明技術而建構的資料。

圖6係說明實例視訊檔案150之元素的方塊圖，該實例視訊檔案可對應於表示之區段，諸如圖5之區段114、124中之一者。區段128、132中之每一者可包括大體上符合圖6之實例中所說明之資料配置的資料。視訊檔案150可稱為囊封一區段。如上文所描述，根據ISO基本媒體檔案格式及其擴展的視訊檔案將資料儲存於一系列物件(被稱作「邏輯框」)中。在圖6之實例中，視訊檔案150包括檔案類型(FTYP)邏輯框152、電影(MOOV)邏輯框154、區段索引(sidx)邏輯框162、電影片段(MOOF)邏輯框164及電影片段隨機存取(MFRA)邏輯框166。儘管圖6表示視訊檔案之實例，但應理解，根據ISO基本媒體檔案格式及其擴展，其他媒體檔案可包括其他類型之媒體資料(例如，音訊資料、計時文字資料或其類似者)，其在結構上類似於媒體檔案150之資料。

檔案類型(FTYP)邏輯框152通常描述視訊檔案150之檔案類型。檔案類型邏輯框152可包括資料，該資料識別描述視訊檔案150之最佳用途之規格。檔案類型邏輯框152可替代地置放於MOOV邏輯框154、電影片段邏輯框164及/或MFRA邏輯框166之前。

在一些實例中，諸如視訊檔案150之區段可包括在FTYP邏輯框152之前的MPD更新邏輯框(未圖示)。MPD更新邏輯框可包括指示對應於包括視訊檔案150之表示的MPD待更新的資訊，連同用於更新MPD之資訊。舉例而言，MPD更新邏輯框可提供待用以更新MPD之資源的URI或URL。作為另一實例，MPD更新邏輯框可包括用於更新MPD之資料。在一些實例中，MPD更新邏輯框可緊接在視訊檔案150之區段類型(STYP)邏輯框(未圖示)之後，其中STYP邏輯框可定義視訊檔案150之區段類型。在下文更詳細地論述之圖7提供關於MPD更新邏輯框之額外資訊。

在圖6之實例中，MOOV邏輯框154包括電影標頭(MVHD)邏輯框156、播放軌(TRAK)邏輯框158及一或多個電影延伸(MVEX)邏輯框160。一般而言，MVHD邏輯框156可描述視訊檔案150之一般特性。舉例而言，MVHD邏輯框156可包括描述視訊檔案150何時最初建立、視訊檔案150何時經最後修改、視訊檔案150之時間標度、視訊檔案150之播放持續時間的資料，或通常描述視訊檔案150之其他資料。

TRAK邏輯框158可包括視訊檔案150之播放軌的資料。TRAK邏輯框158可包括播放軌標頭(TKHD)邏輯框，其描述對應於TRAK邏輯框158之播放軌的特性。在一些實例中，TRAK邏輯框158可包括經寫碼視訊圖像，而在其他實例中，播放軌之經寫碼視訊圖像可包括於電影片段164中，該等電影片段可由TRAK邏輯框158及/或sidx邏輯框162之資料參考。

在一些實例中，視訊檔案150可包括多於一個播放軌。因此，MOOV邏輯框154可包括數目等於視訊檔案150中之播放軌數目的TRAK邏輯框。TRAK邏輯框158可描述視訊檔案150之對應播放軌之特性。舉例而言，TRAK邏輯框158可描述對應播放軌之時間及/或空間資訊。當囊封單元30 (圖5)包括諸如視訊檔案150之視訊檔案中的參數集播放軌時，類似於MOOV邏輯框154之TRAK邏輯框158的TRAK邏輯框可描述參數集播放軌之特性。囊封單元30可在描述參數集播放軌之TRAK邏輯框內發信序列層級SEI訊息存在於參數集播放軌中。

MVEX邏輯框160可描述對應電影片段164之特性，例如以發信視訊檔案150除包括於MOOV邏輯框154 (若存在)內之視訊資料之外亦包括電影片段164。在串流視訊資料之內容脈絡中，經寫碼視訊圖像可包括於電影片段164中，而非包括於MOOV邏輯框154中。因此，所有經寫碼視訊樣本可包括於電影片段164中，而非包括於MOOV邏輯框154中。

MOOV邏輯框154可包括數目等於視訊檔案150中之電影片段164之數目的MVEX邏輯框160。MVEX邏輯框160中之每一者可描述電影片段164中之對應一者的特性。舉例而言，每一MVEX邏輯框可包括電影延伸標頭邏輯框(MEHD)邏輯框，其描述電影片段164中之對應一者的持續時間。

如上文所提到，囊封單元30可儲存視訊樣本中之序列資料集，其並不包括實際經寫碼視訊資料。視訊樣本可大體上對應於存取單元，其為特定時間執行個體下之經寫碼圖像之表示。在AVC之內容脈絡中，經寫碼圖像包括一或多個VCL NAL單元及諸如SEI訊息之其他相關聯之非VCL NAL單元，該等VCL NAL單元含有用以建構存取單元之所有像素的資訊。因此，囊封單元30可包括電影片段164中之一者中之序列資料集，其可包括序列層級SEI訊息。囊封單元30可進一步發信如存在於電影片段164中之一者中的序列資料集及/或序列層級SEI訊息存在於對應於電影片段164中之一者的MVEX邏輯框160中之一者內。

SIDX邏輯框162係視訊檔案150之可選元素。亦即，符合3GPP檔案格式或其他此類檔案格式之視訊檔案未必包括SIDX邏輯框162。根據3GPP檔案格式之實例，SIDX邏輯框可用以識別區段(例如，含於視訊檔案150內之區段)之子區段。3GPP檔案格式將子區段定義為「具有一或多個對應媒體資料邏輯框之一或多個連續電影片段邏輯框之自含式集合，且含有藉由電影片段邏輯框參考之資料的媒體資料邏輯框必須跟在電影片段邏輯框之後且在含有關於同一播放軌之資訊的下一電影片段邏輯框之前」。3GPP檔案格式亦指示SIDX邏輯框「含有對由邏輯框記載之(子)區段之子區段參考的序列。所參考之子區段在呈現時間上連續。類似地，由區段索引邏輯框參考之位元組始終在區段內連續。所參考大小給出所參考材料中之位元組之數目的計數」。

SIDX邏輯框162通常提供表示視訊檔案150中所包括之區段之一或多個子區段的資訊。舉例而言，此資訊可包括：子區段開始及/或結束之播放時間、子區段之位元組偏移、子區段是否包括(例如，開始於)串流存取點(SAP)、SAP之類型(例如，SAP係瞬時解碼器再新(IDR)圖像、清潔隨機存取(CRA)圖像、斷鏈存取(BLA)圖像抑或其類似者)、SAP在子區段中之位置(就播放時間及/或位元組偏移而言)，及其類似者。

電影片段164可包括一或多個經寫碼視訊圖像。在一些實例中，電影片段164可包括一或多個圖像群組(GOP)，其中之每一者可包括數個經寫碼視訊圖像，例如訊框或圖像。此外，如上文所描述，在一些實例中，電影片段164可包括序列資料集。電影片段164中之每一者可包括電影片段標頭邏輯框(MFHD，圖6中未展示)。MFHD邏輯框可描述對應電影片段之特性，諸如電影片段之序號。電影片段164可按序號次序包括於視訊檔案150中。

MFRA邏輯框166可描述視訊檔案150之電影片段164內的隨機存取點。此可輔助執行特技模式，諸如執行對由視訊檔案150囊封之區段內之特定時間位置(亦即，播放時間)的尋找。在一些實例中，MFRA邏輯框166通常係可選的且並非必須包括於視訊檔案中。同樣地，諸如用戶端裝置40之用戶端裝置未必需要參考MFRA邏輯框166來正確地解碼及顯示視訊檔案150之視訊資料。MFRA邏輯框166可包括數目等於視訊檔案150之播放軌數目或在一些實例中等於視訊檔案150之媒體播放軌(例如，非提示播放軌)數目的播放軌片段隨機存取(TFRA)邏輯框(未圖示)。

在一些實例中，電影片段164可包括一或多個串流存取點(SAP)，諸如IDR圖像。同樣地，MFRA邏輯框166可提供對SAP在視訊檔案150內之位置的指示。因此，視訊檔案150之時間子序列可由視訊檔案150之SAP形成。時間子序列亦可包括其他圖像，諸如取決於SAP之P訊框及/或B訊框。時間子序列之訊框及/或圖塊可配置於區段內，使得可適當地解碼時間子序列的取決於子序列之其他訊框/圖塊的訊框/圖塊。舉例而言，在資料之階層式配置中，用於其他資料之預測的資料亦可包括於時間子序列中。

圖7係說明根據本發明之技術的用於在伺服器裝置60與用戶端裝置40之間傳送包括浸入式媒體資料之媒體資料的實例方法的流程圖。儘管出於實例之目的描述圖1之伺服器裝置60及用戶端裝置40，但應理解，諸如內容準備裝置20之其他裝置可執行此方法或類似方法。

最初，內容準備裝置20可準備描述用於浸入式媒體資料之格式化選項的後設資料。該後設資料可係例如參數集(諸如，圖像參數集(PPS)或序列參數集(SPS))、參數集之視訊可用性資訊(VUI)、資訊清單檔案之諸如DASH MPD、SDP/RTP資料的資料，或其類似者。伺服器裝置60可接著發送描述用於浸入式媒體資料之格式化選項的後設資料(200)。舉例而言，用戶端裝置40可最初例如使用HTTP或RTP請求後設資料，且伺服器裝置60可回應於請求而發送後設資料。

用戶端裝置40可接著接收後設資料(202)。用戶端裝置40可進一步判定所支援格式化選項(204)。舉例而言，在後設資料指示此等格式化選項可用之狀況下，用戶端裝置40可判定視訊輸出端44是否能夠輸出根據二維、魚眼、球面投影360、封裝式多攝影機及/或個別多攝影機方案格式化之視訊資料。用戶端裝置40可接著發送指示用戶端裝置206支援之格式化選項中之一或多者的資料(206)。

伺服器裝置60可接著接收指示所支援格式化選項之資料(208)。伺服器裝置60可選擇所支援格式化選項中之一者(210)且將具有選定格式化選項之浸入式媒體資料發送(212)至用戶端裝置40。

用戶端裝置40可接著接收浸入式媒體資料(214)。此外，用戶端裝置40可根據選定格式化選項組態再現環境(216)。亦即，用戶端裝置40可使其再現單元以適合於該格式化選項之方式再現經解碼媒體資料。舉例而言，若浸入式媒體資料包括多串流視訊資料，則用戶端裝置40可組態視訊輸出端44以再現視訊資料之兩個或多於兩個集合作為多視圖視訊資料。作為另一實例，若浸入式媒體資料係投影360視訊，則用戶端裝置40可組態視訊輸出端44以重新配置經解碼視訊資料，使得根據例如球面或立方體投影方案適當地投影經解碼視訊資料。作為又一實例，若浸入式媒體資料係封裝視訊內容，則用戶端裝置40可根據例如水平封裝、豎直封裝、梅花型封裝或其類似者之訊框封裝配置而解封裝經解碼視訊資料，以針對視訊資料之每一經解碼訊框產生兩個或多於兩個圖像。用戶端裝置40可接著再現及呈現浸入式媒體資料(218)。

以此方式，圖7表示發送包括浸入式媒體資料之媒體資料的方法之實例，該方法包括：將系統地描述用於浸入式媒體資料之不同格式化選項的後設資料發送至用戶端裝置；自用戶端裝置接收表示用戶端裝置支援以用於再現浸入式媒體資料之格式化選項中之一或多者的資料；選擇用戶端裝置支援之格式化選項中之一或多者中的一格式化選項；及將具有選定格式化選項之浸入式媒體資料發送至用戶端裝置。

圖7亦表示接收包括浸入式媒體資料之媒體資料的方法之實例，該方法包括：藉由用戶端裝置自伺服器裝置接收系統地描述用於浸入式媒體資料之不同格式化選項的後設資料；藉由用戶端裝置判定用戶端裝置支援以用於再現浸入式媒體資料之格式化選項中之一或多者；藉由用戶端裝置將表示用戶端裝置支援以用於再現浸入式媒體資料之格式化選項中之一或多者的資料發送至伺服器裝置；藉由用戶端裝置擷取具有格式化選項中之一者的浸入式媒體資料；及藉由用戶端裝置根據格式化選項中之一者組態再現環境以再現浸入式媒體資料。

圖7之技術可提供對媒體資料傳輸領域之各種改良。舉例而言，藉由以此方式提供可用格式化選項之指示，用戶端裝置可判定支援格式化選項中之哪一者，使得可作為諸如DASH或SDP/RTP之傳輸協定的部分來適當選擇格式化選項。因此，用戶端裝置及伺服器裝置可改良頻寬利用率，此係因為僅適當格式化之浸入式媒體資料將被發送至用戶端裝置。同樣地，用戶端裝置可使用選定格式化選項以適當地組態再現環境，使得浸入式媒體資料可經適當地再現以供呈現給使用者。

在一或多個實例中，所描述之功能可以硬體、軟體、韌體或其任何組合實施。若以軟體實施，則該等功能可作為一或多個指令或程式碼儲存於電腦可讀媒體上或經由電腦可讀媒體進行傳輸，且藉由基於硬體之處理單元執行。電腦可讀媒體可包括：電腦可讀儲存媒體，其對應於諸如資料儲存媒體之有形媒體；或通信媒體，其包括有助於例如根據通信協定將電腦程式自一處傳送至另一處之任何媒體。以此方式，電腦可讀媒體通常可對應於(1)非暫時性之有形電腦可讀儲存媒體，或(2)諸如信號或載波之通信媒體。資料儲存媒體可係可藉由一或多個電腦或一或多個處理器存取以擷取指令、程式碼及/或資料結構以用於實施本發明中所描述之技術的任何可用媒體。電腦程式產品可包括電腦可讀媒體。

作為實例而非限制，此類電腦可讀儲存媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器、磁碟儲存器或其他磁性儲存儲存裝置、快閃記憶體或可用以儲存呈指令或資料結構形式之所要程式碼且可由電腦存取的任何其他媒體。又，任何連接被適當地稱為電腦可讀媒體。舉例而言，若使用同軸纜線、光纖纜線、雙絞線、數位用戶線(DSL)或諸如紅外線、無線電及微波之無線技術自網站、伺服器或其他遠端源傳輸指令，則同軸纜線、光纖纜線、雙絞線、DSL或諸如紅外線、無線電及微波之無線技術包括於媒體之定義中。然而，應理解，電腦可讀儲存媒體及資料儲存媒體不包括連接、載波、信號或其他暫時性媒體，而實情為關於非暫時性有形儲存媒體。如本文中所使用，磁碟及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位影音光碟(DVD)、軟碟及藍光光碟，其中磁碟通常以磁性方式再現資料，而光碟藉由雷射以光學方式再現資料。以上各者的組合亦應包括於電腦可讀媒體之範圍內。

可藉由諸如一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化邏輯陣列(FPGA)或其他等效積體或離散邏輯電路之一或多個處理器來執行指令。因此，如本文中所使用之術語「處理器」可指前述結構或適於實施本文中所描述之技術的任何其他結構中之任一者。此外，在一些態樣中，本文所描述之功能性可提供於經組態以供編碼及解碼或併入於組合式編碼解碼器中之專用硬體及/或軟體模組內。又，該等技術可完全實施於一或多個電路或邏輯元件中。

本發明之技術可實施於包括無線手機、積體電路(IC)或IC集合(例如，晶片組)的廣泛多種裝置或設備中。在本發明中描述各種組件、模組或單元以強調經組態以執行所揭示技術之裝置的功能態樣，但未必要求由不同硬體單元來實現。確切而言，如上文所描述，各種單元可結合合適的軟體及/或韌體而組合於編碼解碼器硬體單元中或由互操作性硬體單元之集合提供，該等硬體單元包括如上文所描述之一或多個處理器。

已描述各種實例。此等及其他實例在以下申請專利範圍之範圍內。

10‧‧‧系統

20‧‧‧內容準備裝置

22‧‧‧音訊源

24‧‧‧視訊源

26‧‧‧音訊編碼器

28‧‧‧視訊編碼器

30‧‧‧囊封單元

32‧‧‧輸出介面

40‧‧‧用戶端裝置

42‧‧‧音訊輸出端

44‧‧‧視訊輸出端

46‧‧‧音訊解碼器

48‧‧‧視訊解碼器

50‧‧‧檔案處理單元

52‧‧‧擷取單元

54‧‧‧網路介面

60‧‧‧伺服器裝置

62‧‧‧儲存媒體

64‧‧‧多媒體內容

66‧‧‧資訊清單檔案

68‧‧‧表示

68A‧‧‧表示

68N‧‧‧表示

70‧‧‧請求處理單元

72‧‧‧網路介面

74‧‧‧網路

100‧‧‧增強多媒體廣播多播服務中間軟體單元

102‧‧‧代理伺服器單元

104‧‧‧快取記憶體

106‧‧‧增強多媒體廣播多播服務接收單元

110‧‧‧ 超文字傳送協定動態自適應串流用戶端

112‧‧‧ 媒體應用程式

120‧‧‧多媒體內容

122‧‧‧媒體呈現描述

124‧‧‧表示

124A‧‧‧表示

124N‧‧‧表示

126‧‧‧標頭資料

128‧‧‧區段

128A‧‧‧區段

128B‧‧‧區段

128N‧‧‧區段

130‧‧‧標頭資料

132‧‧‧區段

132A‧‧‧區段

132B‧‧‧區段

132N‧‧‧區段

150‧‧‧視訊檔案

152‧‧‧檔案類型(FTYP)邏輯框

154‧‧‧電影(MOOV)邏輯框

156‧‧‧電影標頭(MVHD)邏輯框

158‧‧‧播放軌(TRAK)邏輯框

160‧‧‧電影延伸(MVEX)邏輯框

162‧‧‧區段索引(sidx)邏輯框

164‧‧‧電影片段(MOOF)邏輯框

166‧‧‧電影片段隨機存取(MFRA)邏輯框

200‧‧‧步驟

202‧‧‧步驟

204‧‧‧步驟

206‧‧‧步驟

208‧‧‧步驟

210‧‧‧步驟

212‧‧‧步驟

214‧‧‧步驟

216‧‧‧步驟

218‧‧‧步驟

圖1係說明實施用於經由網路串流傳輸媒體資料之技術的實例系統之方塊圖。

圖2係說明根據全向媒體格式(OMAF)草案規格之實例逐區封裝程序的概念圖。

圖3係說明與球面投影相關之球面座標的概念圖。

圖4係說明擷取單元之組件之實例集合的方塊圖。

圖5係說明實例多媒體內容之元素的概念圖。

圖6係說明實例視訊檔案之元素的方塊圖，該實例視訊檔案可對應於表示之區段。

圖7係說明根據本發明之技術的用於在伺服器裝置與用戶端裝置之間傳送包括浸入式媒體資料之媒體資料的實例方法的流程圖。

Claims

一種發送包括浸入式媒體資料之媒體資料的方法，該方法包含：將系統地描述用於該浸入式媒體資料之不同格式化選項的後設資料發送至一用戶端裝置；自該用戶端裝置接收表示該用戶端裝置支援以用於再現該浸入式媒體資料之該等格式化選項中之一或多者的資料；選擇該用戶端裝置支援之該等格式化選項中之該一或多者中的一格式化選項；及將具有選定格式化選項之該浸入式媒體資料發送至該用戶端裝置。
如請求項1之方法，其中該浸入式媒體資料包含二維視訊資料或多串流視訊資料中之至少一者，且其中發送該後設資料包含作為該浸入式媒體資料之視訊資料的一序列參數集(SPS)或一圖像參數集(PPS)中之至少一者的部分來發送該後設資料。
如請求項2之方法，其中發送該後設資料包含作為該SPS或該PPS之視訊可用性資訊(VUI)的部分來發送該後設資料。
如請求項1之方法，其中該浸入式媒體資料包含魚眼視訊，且其中發送該後設資料包含作為一補充增強資訊(SEI)訊息或指示該SEI訊息或方案類型之存在的一會話描述協定(SDP)參數中之至少一者的部分來發送該後設資料。
如請求項1之方法，其中該浸入式媒體資料包含投影360視訊，且其中發送該後設資料包含發送以下各者中之至少一者：該浸入式媒體資料之一視訊基本串流的一補充增強資訊(SEI)訊息、ERP、訊框封裝配置，或指示該SEI訊息或方案類型之存在的一會話描述協定(SDP)參數。
如請求項1之方法，其中該浸入式媒體資料包含封裝視訊內容，且其中發送該後設資料包含發送以下各者中之至少一者：包括逐區封裝資訊之一補充增強資訊(SEI)訊息、定義區之間的關聯的後設資料，或指示該SEI訊息或方案類型之存在的一會話描述協定(SDP)參數。
如請求項1之方法，其中發送該後設資料包含在一會話描述協定(SDP)或一即時輸送協定(RTP)擴展標頭中發送位置資訊。
如請求項1之方法，其中發送該後設資料包含根據會話描述協定(SDP)/即時輸送協定(RTP)或HTTP動態自適應串流(DASH)中之至少一者發送該後設資料。
一種擷取包括浸入式媒體資料之媒體資料的方法，該方法包含：藉由一用戶端裝置自一伺服器裝置接收系統地描述用於該浸入式媒體資料之不同格式化選項的後設資料；藉由該用戶端裝置判定該用戶端裝置支援以用於再現該浸入式媒體資料之該等格式化選項中之一或多者；藉由該用戶端裝置將表示該用戶端裝置支援以用於再現該浸入式媒體資料之該等格式化選項中之該一或多者的資料發送至該伺服器裝置；藉由該用戶端裝置擷取具有該等格式化選項中之一者的該浸入式媒體資料；藉由該用戶端裝置根據該等格式化選項中之該一者組態一再現環境以再現該浸入式媒體資料。
如請求項9之方法，其中該浸入式媒體資料包含二維視訊資料或多串流視訊資料中之至少一者，且其中接收該後設資料包含作為該浸入式媒體資料之視訊資料的一序列參數集(SPS)或一圖像參數集(PPS)中之至少一者的部分來接收該後設資料。
如請求項10之方法，其中接收該後設資料包含作為該SPS或該PPS之視訊可用性資訊(VUI)的部分來接收該後設資料。
如請求項9之方法，其中該浸入式媒體資料包含魚眼視訊，且其中接收該後設資料包含作為一補充增強資訊(SEI)訊息或指示該SEI訊息或方案類型之存在的一會話描述協定(SDP)參數中之至少一者的部分來接收該後設資料。
如請求項9之方法，其中該浸入式媒體資料包含投影360視訊，且其中接收該後設資料包含接收以下各者中之至少一者：該浸入式媒體資料之一視訊基本串流的一補充增強資訊(SEI)訊息、ERP、訊框封裝配置，或指示該SEI訊息或方案類型之存在的一會話描述協定(SDP)參數。
如請求項9之方法，其中該浸入式媒體資料包含封裝視訊內容，且其中接收該後設資料包含接收以下各者中之至少一者：包括逐區封裝資訊之一補充增強資訊(SEI)訊息、定義區之間的關聯的後設資料，或指示該SEI訊息或方案類型之存在的一會話描述協定(SDP)參數。
如請求項9之方法，其中接收該後設資料包含在一會話描述協定(SDP)或一即時輸送協定(RTP)擴展標頭中接收位置資訊。
如請求項9之方法，其中接收該後設資料包含根據會話描述協定(SDP)/即時輸送協定(RTP)或HTTP動態自適應串流(DASH)中之至少一者接收該後設資料。
一種用於傳送包括浸入式媒體資料之媒體資料的裝置，該裝置包含：一記憶體，其經組態以儲存該媒體資料；及一或多個處理器，其實施於電路系統中且經組態以進行以下操作：傳送系統地描述用於該浸入式媒體資料之不同格式化選項的後設資料；處理表示一用戶端裝置支援以用於再現該浸入式媒體資料之該等格式化選項中之一或多者的資料；及傳送具有該用戶端裝置支援之該等格式化選項中之一者的該浸入式媒體資料。
如請求項17之裝置，其中該浸入式媒體資料包含二維視訊資料或多串流視訊資料中之至少一者，且其中該一或多個處理器經組態以作為該浸入式媒體資料之視訊資料的一序列參數集(SPS)或一圖像參數集(PPS)中之至少一者的部分來傳送該後設資料。
如請求項18之裝置，其中該一或多個處理器經組態以作為該SPS或該PPS之視訊可用性資訊(VUI)的部分來傳送該後設資料。
如請求項17之裝置，其中該浸入式媒體資料包含魚眼視訊，且其中該一或多個處理器經組態以作為一補充增強資訊(SEI)訊息或指示該SEI訊息或方案類型之存在的一會話描述協定(SDP)參數中之至少一者的部分來傳送該後設資料。
如請求項17之裝置，其中該浸入式媒體資料包含投影360視訊，且其中該一或多個處理器經組態以傳送以下各者中之至少一者：該浸入式媒體資料之一視訊基本串流的一補充增強資訊(SEI)訊息、ERP、訊框封裝配置，或指示該SEI訊息或方案類型之存在的一會話描述協定(SDP)參數。
如請求項17之裝置，其中該浸入式媒體資料包含封裝視訊內容，且其中該一或多個處理器經組態以傳送以下各者中之至少一者：包括逐區封裝資訊之一補充增強資訊(SEI)訊息、定義區之間的關聯的後設資料，或指示該SEI訊息或方案類型之存在的一會話描述協定(SDP)參數。
如請求項17之裝置，其中該一或多個處理器經組態以在一會話描述協定(SDP)或一即時輸送協定(RTP)擴展標頭中傳送位置資訊。
如請求項17之裝置，其中該一或多個處理器經組態以根據會話描述協定(SDP)/即時輸送協定(RTP)或HTTP動態自適應串流(DASH)中之至少一者傳送該後設資料。
如請求項17之裝置，其中該裝置包含一伺服器裝置，且其中該一或多個處理器經組態以選擇該用戶端裝置支援之該等格式化選項中之該一者。
如請求項17之裝置，其中該裝置包含該用戶端裝置，且其中該一或多個處理器經組態以根據該等格式化選項中之該一者組態一再現環境以再現該浸入式媒體資料。
一種電腦可讀儲存媒體，其具有儲存於其上之指令，該等指令在經執行時使一處理器進行以下操作：傳送系統地描述用於包括在媒體資料中之浸入式媒體資料之不同格式化選項的後設資料；處理表示一用戶端裝置支援以用於再現該浸入式媒體資料之該等格式化選項中之一或多者的資料；及傳送具有該用戶端裝置支援之該等格式化選項中之一者的該浸入式媒體資料。
如請求項27之電腦可讀儲存媒體，其中該浸入式媒體資料包含二維視訊資料或多串流視訊資料中之至少一者，且其中該等指令使該處理器作為該浸入式媒體資料之視訊資料的一序列參數集(SPS)或一圖像參數集(PPS)中之至少一者的部分來傳送該後設資料。
如請求項28之電腦可讀儲存媒體，其中該一或多個處理器經組態以作為該SPS或該PPS之視訊可用性資訊(VUI)的部分來傳送該後設資料。
如請求項27之電腦可讀儲存媒體，其中該浸入式媒體資料包含魚眼視訊，且其中該等指令使該處理器作為一補充增強資訊(SEI)訊息或指示該SEI訊息或方案類型之存在的一會話描述協定(SDP)參數中之至少一者的部分來傳送該後設資料。
如請求項27之電腦可讀儲存媒體，其中該浸入式媒體資料包含投影360視訊，且其中該等指令使該處理器傳送以下各者中之至少一者：該浸入式媒體資料之一視訊基本串流的一補充增強資訊(SEI)訊息、ERP、訊框封裝配置，或指示該SEI訊息或方案類型之存在的一會話描述協定(SDP)參數。
如請求項27之電腦可讀儲存媒體，其中該浸入式媒體資料包含封裝視訊內容，且其中該等指令使該處理器傳送以下各者中之至少一者：包括逐區封裝資訊之一補充增強資訊(SEI)訊息、定義區之間的關聯的後設資料，或指示該SEI訊息或方案類型之存在的一會話描述協定(SDP)參數。
如請求項27之電腦可讀儲存媒體，其中該等指令使該處理器在一會話描述協定(SDP)或一即時輸送協定(RTP)擴展標頭中傳送位置資訊。
如請求項27之電腦可讀儲存媒體，其中該等指令使該處理器根據會話描述協定(SDP)/即時輸送協定(RTP)或HTTP動態自適應串流(DASH)中之至少一者傳送該後設資料。
如請求項27之電腦可讀儲存媒體，其中該處理器包括於一伺服器裝置中，且其中該等指令使該處理器選擇該用戶端裝置支援之該等格式化選項中之該一者。
如請求項27之電腦可讀儲存媒體，其中該處理器包括於該用戶端裝置中，且其中該等指令使該處理器根據該等格式化選項中之該一者組態一再現環境以再現該浸入式媒體資料。
一種用於傳送包括浸入式媒體資料之媒體資料的裝置，該裝置包含：用於傳送系統地描述用於該浸入式媒體資料之不同格式化選項的後設資料的構件；用於處理表示一用戶端裝置支援以用於再現該浸入式媒體資料之該等格式化選項中之一或多者的資料的構件；及用於傳送具有該用戶端裝置支援之該等格式化選項中之一者的該浸入式媒體資料的構件。