TWI675588B

TWI675588B - 於分層視訊檔案格式中之樣本條目及操作點發訊設計

Info

Publication number: TWI675588B
Application number: TW105104375A
Authority: TW
Inventors: 伏努亨利; 王益魁
Original assignee: 美商高通公司
Priority date: 2015-02-11
Filing date: 2016-02-15
Publication date: 2019-10-21
Also published as: US20160234516A1; KR20170115056A; CN107211168B; EA035924B1; NZ733479A; US20190075306A1; TN2017000305A1; CA2973376C; TW201946473A; MY181352A; CL2017002016A1; EP3257250B1; SG11201705442YA; US10148969B2; AU2016219441B2; MX2017010275A; SG10201907302PA; ES2902675T3; AU2016219441A1; KR102040383B1

Abstract

一種用於處理多層視訊資料之視訊裝置包括：一資料儲存媒體，其經組態以儲存該多層視訊資料；及一或多個處理器，其經組態以進行以下操作：獲得該多層視訊資料；以一檔案格式儲存該多層視訊資料；在該檔案格式之一操作點資訊(oinf)方塊中儲存用於該多層視訊資料之每一操作點的表示格式資訊；及產生根據該檔案格式而格式化的視訊資料之一檔案。

Description

於分層視訊檔案格式中之樣本條目及操作點發訊設計

本申請案主張2015年2月11日申請之美國臨時專利申請案第62/115,075號之權利，該申請案之全部內容以引用之方式併入本文中。

本發明係關於視訊寫碼。

數位視訊能力可併入至廣泛範圍之裝置中，包括數位電視、數位直播系統、無線廣播系統、個人數位助理(PDA)、膝上型或桌上型電腦、平板電腦、電子書閱讀器、數位攝影機、數位紀錄裝置、數位媒體播放器、視訊遊戲裝置、視訊遊戲控制台、蜂巢式或衛星無線電電話(所謂的「智慧型手機」)、視訊電話會議裝置、視訊串流裝置及其類似者。數位視訊裝置實施視訊壓縮技術，諸如由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分進階視訊寫碼(AVC)所定義之標準、目前正在開發之高效率視訊寫碼(HEVC)標準及此等標準之擴展中所描述的彼等視訊壓縮技術。視訊裝置可藉由實施此等視訊壓縮技術更有效地傳輸、接收、編碼、解碼及/或儲存數位視訊資訊。

視訊壓縮技術執行空間(圖像內)預測及/或時間(圖像間)預測來減少或移除視訊序列中固有之冗餘。對於基於區塊之視訊寫碼，可將視訊圖塊(例如，視訊圖框或視訊圖框之一部分)分割成視訊區塊，其亦可被稱作樹型區塊、寫碼單元(CU)及/或寫碼節點。圖像之經框內寫碼(I)圖塊中的視訊區塊係使用相對於同一圖像中之相鄰區塊中之參考樣本的空間預測來編碼。圖像之經框間寫碼(P或B)圖塊中之視訊區塊可使用相對於同一圖像中之相鄰區塊中之參考樣本的空間預測或相對於其他參考圖像中之參考樣本的時間預測。圖像可被稱作圖框，且參考圖像可被稱作參考圖框。

在視訊資料已經編碼之後，可將視訊資料封包化以用於傳輸或儲存。可將視訊資料組譯成符合多種標準中之任一種的視訊檔案，該等標準諸如國際標准化組織(ISO)基本媒體檔案格式及其擴展，諸如AVC。

一般而言，本發明係關於視訊內容在檔案中之儲存。在一些實例中，本發明之技術係基於國際標準組織(ISO)基本媒體檔案格式(ISOBMFF)。本發明之一些實例係關於用於含有多個經寫碼層之視訊串流的儲存，其中每一層可為可調式層、紋理視圖、深度視圖等，且該等方法可適用於儲存多視圖高效率視訊寫碼(MV-HEVC)、可調式HEVC(SHVC)、三維HEVC(3D-HEVC)及其他類型之視訊資料。

在一個實例中，一種處理多層視訊資料之方法包括：獲得該多層視訊資料；以一檔案格式儲存該多層視訊資料；在該檔案格式之一操作點資訊(oinf)方塊中儲存用於該多層視訊資料之每一操作點的表示格式資訊；及產生根據該檔案格式而格式化的視訊資料之一檔案。

在另一實例中，一種處理多層視訊資料之方法包括：獲得根據一檔案格式而格式化的多層視訊資料之一檔案；判定該檔案格式之一操作點資訊(oinf)方塊中的用於該多層視訊資料之每一操作點的表示格式資訊；及基於該所判定之表示格式資訊而解碼該多層視訊資料。

在另一實例中，一種用於處理多層視訊資料之視訊裝置包括：一資料儲存媒體，其經組態以儲存該多層視訊資料；及一或多個處理器，其經組態以執行以下操作：獲得該多層視訊資料；以一檔案格式儲存該多層視訊資料；在該檔案格式之一操作點資訊(oinf)方塊中儲存用於該多層視訊資料之每一操作點的表示格式資訊；及產生根據該檔案格式而格式化的視訊資料之一檔案。

在另一實例中，一種用於處理多層視訊資料之視訊裝置包括：一資料儲存媒體，其經組態以儲存該多層視訊資料；及一或多個處理器，其經組態以執行以下操作：獲得根據一檔案格式而格式化的多層視訊資料之一檔案；判定該檔案格式之一操作點資訊(oinf)方塊中的用於該多層視訊資料之每一操作點的表示格式資訊；及基於該所判定之表示格式資訊而解碼該多層視訊資料。

在另一實例中，一種用於處理多層視訊資料之視訊裝置包括：用於獲得該多層視訊資料的構件；用於以一檔案格式儲存該多層視訊資料的構件；用於在該檔案格式之一操作點資訊(oinf)方塊中儲存用於該多層視訊資料之每一操作點的表示格式資訊的構件；及用於產生根據該檔案格式而格式化的視訊資料之一檔案的構件。

在另一實例中，一種電腦可讀儲存媒體儲存在經執行時使一或多個處理器執行以下操作的指令：獲得多層視訊資料；以一檔案格式儲存該多層視訊資料；在該檔案格式之一操作點資訊(oinf)方塊中儲存用於該多層視訊資料之每一操作點的表示格式資訊；及產生根據該檔案格式而格式化的視訊資料之一檔案。

在附圖及以下描述中闡明本發明之一或多個實例的細節。其他特徵、目標及優勢自描述、圖式及申請專利範圍將係顯而易見的。

10‧‧‧實例視訊編碼及解碼系統

12‧‧‧源裝置

14‧‧‧目的地裝置

16‧‧‧鏈路

18‧‧‧視訊源

20‧‧‧視訊編碼器

22‧‧‧輸出介面

27‧‧‧後處理實體

28‧‧‧輸入介面

29‧‧‧網路實體

30‧‧‧視訊解碼器

32‧‧‧顯示裝置

33‧‧‧儲存裝置

34‧‧‧檔案產生裝置

35‧‧‧視訊資料記憶體

37‧‧‧分割單元

41‧‧‧預測處理單元

42‧‧‧運動估計單元

44‧‧‧運動補償單元

46‧‧‧框內預測處理單元

50‧‧‧求和器

52‧‧‧變換處理單元

54‧‧‧量化單元

56‧‧‧熵編碼單元

58‧‧‧反量化單元

60‧‧‧反變換處理單元

62‧‧‧求和器

63‧‧‧濾波器單元

64‧‧‧參考圖像記憶體

79‧‧‧經寫碼圖像緩衝器

80‧‧‧熵解碼單元

81‧‧‧預測處理單元

82‧‧‧運動補償單元

84‧‧‧框內預測處理單元

86‧‧‧反量化單元

88‧‧‧反變換處理單元

90‧‧‧求和器

91‧‧‧濾波器單元

92‧‧‧參考圖像記憶體

100‧‧‧網路

102‧‧‧伺服器裝置

104A‧‧‧路由裝置

104B‧‧‧路由裝置

106‧‧‧轉碼裝置

108‧‧‧用戶端裝置

300‧‧‧檔案

302‧‧‧電影方塊

304‧‧‧媒體資料方塊

305‧‧‧樣本

306‧‧‧播放軌方塊

307‧‧‧媒體方塊

308‧‧‧媒體資訊方塊

309‧‧‧樣本表方塊

310‧‧‧SampleToGroup方塊

311‧‧‧樣本條目方塊

312‧‧‧SampleGroupDescription方塊

314‧‧‧子樣本資訊方塊

316‧‧‧操作點資訊(OINF)方塊

400‧‧‧檔案

402‧‧‧電影方塊

404‧‧‧媒體資料方塊

405‧‧‧樣本

406‧‧‧播放軌方塊

408‧‧‧播放軌方塊

圖1為說明可使用本發明中所描述之技術的實例視訊編碼及解碼系統之方塊圖。

圖2為說明可實施本發明中所描述之技術的實例視訊編碼器之方塊圖。

圖3為說明可實施本發明中所描述之技術的實例視訊解碼器之方塊圖。

圖4為說明形成網路之部分的實例裝置集合之方塊圖。

圖5A為說明根據本發明之一或多種技術的檔案之實例結構之概念圖。

圖5B為說明根據本發明之一或多種技術的檔案之實例結構之概念圖。

圖6為說明根據本發明之一或多種技術的檔案之實例結構之概念圖。

圖7為說明根據本發明之一或多種技術的檔案產生裝置之實例操作之流程圖。

圖8為說明根據本發明之一或多種技術的檔案讀取裝置之實例操作之流程圖。

ISO基本媒體檔案格式(ISOBMFF)為用於儲存媒體資料之檔案格式。ISOBMFF可擴展以支援符合特定視訊寫碼標準的視訊資料之儲存。舉例而言，ISOBMFF先前已經擴展以支援符合H.264/AVC及高效率視訊寫碼(HEVC)視訊寫碼標準的視訊資料之儲存。此外，ISOBMFF先前已經擴展以支援符合H.264/AVC之多視圖寫碼(MVC)及可調式視訊寫碼(SVC)擴展的視訊資料之儲存。MV-HEVC、3D-HEVC及SHVC為HEVC視訊寫碼標準之支援多層視訊資料的擴展。添加至ISOBMFF用於符合H.264/AVC之MVC及SVC擴展的視訊資料之儲存之特徵不足夠用於符合MV-HEVC、3D-HEVC及SHVC的視訊資料之有效儲存。換言之，若吾人將要試圖將用於符合H.264/AVC之MVC及SVC擴展的視訊資料之儲存的ISOBMFF之擴展用於符合MV-HEVC、3D-HEVC及SHVC的視訊資料之儲存，則可能出現各種問題。

舉例而言，不同於符合H.264/AVC之MVC或SVC擴展的位元串流，符合MV-HEVC、3D-HEVC或SHVC之位元串流可包括含有框內隨機存取點(IRAP)圖像及非IRAP圖像之存取單元。含有IRAP圖像及非IRAP圖像之存取單元可用於MV-HEVC、3D-HEVC及SHVC中之隨機存取。然而，ISOBMFF及其現存擴展不提供識別此類存取單元之方式。此情形可阻礙計算裝置執行隨機存取、層切換及與多層視訊資料相關聯之其他此類功能的能力。

雖然本發明之技術之描述中的許多者描述MV-HEVC、3D-HEVC及SHVC，但讀者應瞭解，本發明之技術可適用於其他視訊寫碼標準及/或其擴展。

如下文將更詳細地解釋，符合HEVC檔案格式之檔案可包括一系列物件，稱為方塊。方塊可為由唯一類型識別符及長度定義之物件導向式建置區塊。本發明描述與產生根據檔案格式之檔案相關的技術，且更明確而言，描述用於在某些方塊中定位某些類型之資訊以潛在地改良播放裝置之處理包括多操作點之檔案的能力之技術。

圖1為說明可使用本發明中所描述之技術的實例視訊編碼及解碼系統10之方塊圖。如圖1中所展示，系統10包括源裝置12，其產生稍後待由目的地裝置14解碼之經編碼視訊資料。源裝置12及目的地裝置 14可包含廣泛範圍裝置中的任一者，包括桌上型電腦、筆記型電腦(亦即，膝上型)電腦、平板電腦、機上盒、電話手持機(諸如，所謂的「智慧型」手機)、所謂的「智慧型」襯墊、電視、攝影機、顯示裝置、數位媒體播放器、視訊遊戲控制台、視訊串流傳輸裝置或其類似者。在一些狀況下，源裝置12及目的地裝置14可經裝備以用於無線通信。源裝置12及目的地裝置14可被視為視訊裝置。

在圖1之實例中，源裝置12包括視訊源18、視訊編碼器20及輸出介面22。在一些狀況下，輸出介面22可包括調變器/解調變器(數據機)及/或傳輸器。在源裝置12中，視訊源18可包括諸如視訊俘獲裝置(例如，視訊攝影機)、含有先前所俘獲視訊之視訊存檔、用以自視訊內容提供者接收視訊之視訊饋入介面，及/或用於將電腦圖形資料產生為源視訊之電腦圖形系統的源，或此類源之組合。然而，本發明中所描述之技術可大體上適用於視訊寫碼，且可應用於無線及/或有線應用。

視訊編碼器20可編碼經俘獲、經預俘獲或電腦產生之視訊。源裝置12可經由源裝置12之輸出介面22將經編碼視訊資料直接傳輸至目的地裝置14。經編碼視訊資料亦可(或替代地)儲存至儲存裝置33上以供稍後由目的地裝置14或其他裝置存取，以用於解碼及/或播放。

目的地裝置14包括輸入介面28、視訊解碼器30及顯示裝置32。在一些狀況下，輸入介面28可包括接收器及/或數據機。目的地裝置14之輸入介面28經由鏈路16接收經編碼視訊資料。經由鏈路16傳達或在儲存裝置33上提供之經編碼視訊資料可包括由視訊編碼器20所產生之多種語法元素，其供諸如視訊解碼器30之視訊解碼器在解碼該視訊資料時使用。傳輸於通信媒體上、儲存於儲存媒體上或儲存於檔案伺服器上之經編碼視訊資料內可包括此類語法元素。

顯示裝置32可與目的地裝置14整合或在目的地裝置14的外部。在一些實例中，目的地裝置14可包括整合式顯示裝置且亦可經組態以與外部顯示裝置介接。在其他實例中，目的地裝置14可為顯示裝置。一般而言，顯示裝置32向使用者顯示經解碼視訊資料，且可包含多種顯示裝置中之任一者，諸如液晶顯示器(LCD)、電漿顯示器、有機發光二極體(OLED)顯示器或另一類型之顯示裝置。

視訊編碼器20及視訊解碼器30各自可實施為多種合適編碼器電路中之任一者，諸如一或多個微處理器、數位信號處理器(DSP)、特殊應用積體電路(ASIC)、場可程式化閘陣列(FPGA)、離散邏輯、軟體、硬體、韌體或其任何組合。當該等技術部分以軟體實施時，裝置可將軟體指令儲存於合適之非暫時性電腦可讀媒體中，且使用一或多個處理器在硬體中執行指令以執行本發明之技術。視訊編碼器20及視訊解碼器30中之每一者可包括於一或多個編碼器或解碼器中，編碼器或解碼器中之任一者可整合為各別裝置中之組合式編碼器/解碼器(編碼解碼器)之部分。

目的地裝置14可經由鏈路16接收待解碼的經編碼視訊資料。鏈路16可包含能夠將經編碼視訊資料自源裝置12移動至目的地裝置14的任何類型之媒體或裝置。在一個實例中，鏈路16可包含使源裝置12能夠即時地將經編碼視訊資料直接傳輸至目的地裝置14之通信媒體。可根據通信標準(諸如，無線通信協定)調變經編碼視訊資料，且將其傳輸至目的地裝置14。通信媒體可包含任何無線或有線通信媒體，諸如射頻(RF)頻譜或一或多個實體傳輸線。通信媒體可形成基於封包之網路(諸如，區域網路、廣域網路或全球網路，諸如網際網路)的一部分。通信媒體可包括路由器、交換器、基地台或可適用於有助於自源裝置12至目的地裝置14的通信之任何其他裝備。

替代地，輸出介面22可將經編碼資料輸出至儲存裝置33。類似地，輸入介面28可存取經編碼資料儲存裝置33。儲存裝置33可包括多種分散式或局部存取式資料儲存媒體中的任一者，諸如硬碟機、藍光(Blu-ray)光碟、DVD、CD-ROM、快閃記憶體、揮發性或非揮發性記憶體或用於儲存經編碼視訊資料之任何其他合適數位儲存媒體。在另一實例中，儲存裝置33可對應於檔案伺服器或可固持由源裝置12產生之經編碼視訊的另一中間儲存裝置。目的地裝置14可經由串流傳輸或下載自儲存裝置33存取所儲存視訊資料。檔案伺服器可為能夠儲存經編碼視訊資料且將彼經編碼視訊資料傳輸至目的地裝置14之任何類型之伺服器。實例檔案伺服器包括網頁伺服器(例如，用於網站)、FTP伺服器、網路附接儲存(NAS)裝置或本端磁碟機。目的地裝置14可經由任何標準資料連接(包括網際網路連接)而存取經編碼視訊資料。此資料連接可包括適合於存取儲存於檔案伺服器上之經編碼視訊資料的無線通道(例如，Wi-Fi連接)、有線連接(例如，DSL、纜線數據機等)，或兩者之組合。經編碼視訊資料自儲存裝置33之傳輸可為串流傳輸、下載傳輸或兩者之組合。

本發明之技術不必限於無線應用或設定。該等技術可適用於支援多種多媒體應用(諸如，(例如)經由網際網路之空中電視廣播、有線電視傳輸、衛星電視傳輸、串流視訊傳輸)中之任一者的視訊寫碼、供儲存於資料儲存媒體上之數位視訊的編碼、儲存於資料儲存媒體上之數位視訊的解碼，或其他應用。在一些實例中，系統10可經組態以支援單向或雙向視訊傳輸以支援應用(諸如，視訊串流傳輸、視訊播放、視訊廣播及/或視訊電話)。

此外，在圖1之實例中，視訊寫碼系統10可包括檔案產生裝置34。檔案產生裝置34可接收由源裝置12產生的經編碼視訊資料，且產生包括經編碼視訊資料之檔案。目的地裝置14可直接或經由儲存裝置33接收由檔案產生裝置34產生的檔案。在各種實例中，檔案產生裝置34可包括各種類型之計算裝置。舉例而言，檔案產生裝置34可包含媒體感知網路元件(MANE)、伺服器計算裝置、個人計算裝置、特殊用途計算裝置、商用計算裝置或另一類型之計算裝置。在一些實例中，檔案產生裝置34為內容遞送網路之部分。檔案產生裝置34可經由諸如鏈路16之通道自源裝置12接收經編碼視訊資料。此外，目的地裝置14可經由諸如鏈路16之通道自檔案產生裝置34接收檔案。

在一些組態中，檔案產生裝置34可為與源裝置12及目的地裝置14分離之視訊裝置，而在其他組態中，檔案產生裝置34可實施為源裝置12或目的地裝置14之組件。在檔案產生裝置34為源裝置12或目的地裝置14之組件的實施中，檔案產生裝置34則可共用由視訊編碼器20及視訊解碼器30利用的相同資源(諸如，記憶體、處理器及其他硬體)中之一些資源。在檔案產生裝置34為單獨裝置之實施中，檔案產生裝置則可包括其自身的記憶體、處理器及其他硬體單元。

在其他實例中，源裝置12或另一計算裝置可產生包括經編碼視訊資料之檔案。然而，為易於解釋，本發明將檔案產生裝置34描述為產生檔案。然而應理解，一般而言，此等描述適用於計算裝置。

視訊編碼器20及視訊解碼器30可根據諸如高效率視訊寫碼(HEVC)標準或其擴展之視訊壓縮標準而操作。HEVC標準亦可被稱作ISO/IEC 23008-2。最近，已由ITU-T視訊寫碼專家組(VCEG)及ISO/IEC動畫專家組(MPEG)的視訊寫碼聯合協作小組(JCT-VC)定案HEVC之設計。最新的HEVC草案規格(且下文被稱作HEVC WD)可自http：//phenix.int-evry.fr/jct/doc_end_user/documents/14_Vienna/wg11/JCTVC-N1003-v1.zip.獲得。對HEVC之多視圖擴展(即，MV-HEVC)亦正由JCT-3V開發。題為「MV-HEVC Draft Text 5」且下文被稱作MV-HEVC WD5的MV-HEVC之最近工作草案(WD)可自http：//phenix.it-sudparis.eu/jct2/doc_end_user/documents/5_Vienna/wg11/JCT3V-E1004-v6.zip獲得。對HEVC之可調式擴展(即，SHVC)亦正由JCT-VC開發。題為「High efficiency video coding(HEVC)scalable extension draft 3」且下文被稱作SHVC WD3的SHVC之最近工作草案(WD)可自http：//phenix.it-sudparis.eu/jct/doc_end_user/documents/14_Vienna/wg11/JCTVC-N1008-v3.zip獲得。HEVC之範圍擴展之最近工作草案(WD)可自http：//phenix.int-evry.fr/jct/doc_end_user/documents/14_Vienna/wg11/JCTVC-N1005-v3.zip獲得。題為「3D-HEVC Draft Text 1」的HEVC之3D擴展之最近工作草案(WD)(即，3D-HEVC)可自http：//phenix.int-evry.fr/jct2/doc_end_user/documents/5_Vienna/wg11/JCT3V-E1001-v3.zip獲得。視訊編碼器20及視訊解碼器30可根據此等標準中之一或多者操作。

替代地，視訊編碼器20及視訊解碼器30可根據其他專屬或行業標準(諸如，ITU-T H.264標準，替代地被稱作MPEG-4第10部分，進階視訊寫碼(AVC))或此類標準之擴展而操作。然而，本發明之技術不限於任何特定寫碼標準。視訊壓縮標準之其他實例包括ITU-T H.261、ISO/IEC MPEG-1 Visual、ITU-T H.262或ISO/IEC MPEG-2 Visual、ITU-T H.263、ISO/IEC MPEG-4 Visual及ITU-T H.264(亦稱為ISO/IEC MPEG-4 AVC)，包括其可調式視訊寫碼(SVC)及多視圖視訊寫碼(MVC)擴展。

儘管圖1中未展示，但在一些態樣中，視訊編碼器20及視訊解碼器30可各自與音訊編碼器及解碼器整合，且可包括適當MUX-DEMUX單元或其他硬體及軟體以處置共同資料串流或單獨資料串流中之音訊及視訊兩者的編碼。若適用，則在一些實例中，MUX-DEMUX單元可符合ITU H.223多工器協定或其他協定(諸如，使用者資料報協定(UDP))。

JCT-VC開發了HEVC標準。HEVC標準化努力係基於視訊寫碼裝置之演進型模型(被稱作HEVC測試模型(HM))。HM根據(例如)ITU-T H.264/AVC假定視訊寫碼裝置相對於現存裝置之若干額外能力。舉例而言，H.264/AVC提供九個框內預測編碼模式，而HM可提供多達三十三個框內預測編碼模式。

一般而言，HM之工作模型描述視訊圖框或圖像可劃分成包括明度樣本及色度樣本兩者之樹型區塊或最大寫碼單元(LCU)之序列。樹型區塊亦可被稱作寫碼樹單元(CTU)。樹型區塊具有與H.264/AVC標準之巨集區塊類似的目的。圖塊包括按寫碼次序之許多連續樹型區塊。視訊圖框或圖像可分割成一或多個圖塊。每一樹型區塊可根據四分樹而分裂成若干寫碼單元(CU)。舉例而言，作為四分樹之根節點的樹型區塊可分裂成四個子代節點，且每一子節點又可為親代節點並分裂成另四個子代節點。作為四分樹之葉節點的最後未分裂子節點包含寫碼節點(亦即，經寫碼視訊區塊)。與經寫碼位元串流相關聯之語法資料可定義樹型區塊可分裂的最大次數，且亦可定義寫碼節點之最小大小。

CU包括寫碼節點以及與該寫碼節點相關聯之預測單元(PU)及變換單元(TU)。CU之大小對應於寫碼節點之大小，且形狀必須為正方形。CU之大小可在自8×8像素高達具有最大64×64像素或大於64×64像素的樹型區塊之大小的範圍內。每一CU可含有一或多個PU及一或多個TU。與CU相關聯之語法資料可描述(例如)CU至一或多個PU之分割。分割模式可在CU經跳過或經直接模式編碼、經框內預測模式編碼抑或經框間預測模式編碼之間不同。PU可經分割成非正方形形狀。與CU相關聯之語法資料亦可描述(例如)CU根據四分樹至一或多個TU之分割。TU的形狀可為正方形或非正方形。

HEVC標準允許根據TU進行變換，該等變換對於不同CU可不同。通常基於針對經分割LCU所定義之給定CU內的PU之大小而對TU設定大小，但可並非總是此狀況。TU的大小通常與PU相同或比PU 小。在一些實例中，可使用被稱為「殘餘四分樹」(RQT)之四分樹結構而將對應於CU之殘餘樣本再分為較小單元。RQT之葉節點可被稱作TU。與TU相關聯之像素差值可經變換以產生可加以量化之變換係數。

一般而言，PU包括與預測程序相關之資料。舉例而言，當PU經框內模式編碼時，PU可包括描述用於PU之框內預測模式的資料。作為另一實例，當PU經框間模式編碼時，PU可包括定義PU之運動向量的資料。定義PU之運動向量之資料可描述(例如)運動向量之水平分量、運動向量之垂直分量、運動向量之解析度(例如，四分之一像素精度或八分之一像素精度)、運動向量所指向之參考圖像，及/或運動向量之參考圖像清單(例如，清單0、清單1或清單C)。

一般而言，TU用於變換及量化程序。具有一或多個PU之給定CU亦可包括一或多個變換單元(TU)。在預測之後，視訊編碼器20可計算對應於PU之殘餘值。殘餘值包含像素差值，該等像素差值可變換成變換係數，經量化，且使用TU進行掃描以產生串列化變換係數以供用於熵寫碼。本發明通常使用術語「視訊區塊」來指CU之寫碼節點(亦即，寫碼區塊)。在一些特定狀況下，本發明亦可使用術語「視訊區塊」來指樹型區塊(亦即，LCU或CU)，其包括寫碼節點以及PU及TU。

視訊序列通常包括視訊圖框或圖像系列。圖像群組(GOP)大體上包含一系列視訊圖像中之一或多者。GOP可在GOP之標頭、圖像中之一或多者之標頭或別處中包括語法資料，該語法資料描述包括於GOP中之圖像之數目。圖像之每一圖塊可包括描述該各別圖塊之編碼模式的圖塊語法資料。視訊編碼器20通常對個別視訊圖塊內之視訊區塊進行操作，以便編碼視訊資料。視訊區塊可對應於CU內之寫碼節點。視訊區塊可具有固定或變化之大小，且可根據指定寫碼標準而大小不同。

作為一實例，HM支援以各種PU大小進行的預測。假定特定CU之大小為2N×2N，則HM支援以2N×2N或N×N之PU大小進行的框內預測，及以2N×2N、2N×N、N×2N或N×N之對稱PU大小進行的框間預測。HM亦支援以2N×nU、2N×nD、nL×2N及nR×2N之PU大小進行之框間預測之不對稱分割。在不對稱分割中，CU之一個方向未分割，而另一方向分割成25%及75%。CU之對應於25%分割之部分由「n」其後接著「上(Up)」、「下(Down)」、「左(Left)」或「右(Right)」之指示來指示。因此，例如，「2N×nU」指水平上以頂部之2N×0.5N PU及底部之2N×1.5N PU分割的2N×2N CU。

在本發明中，「N×N」與「N乘N」可互換地使用以指視訊區塊在垂直維度與水平維度方面之像素尺寸，例如，16×16像素或16乘16像素。一般而言，16×16區塊在垂直方向上具有16個像素(y=16)且在水平方向上具有16個像素(x=16)。同樣地，N×N區塊通常在垂直方向上具有N個像素且在水平方向上具有N個像素，其中N表示非負整數值。可按列及行來配置區塊中之像素。此外，區塊未必需要在水平方向上與垂直方向上具有同一數目個像素。舉例而言，區塊可包含N×M個像素，其中M未必等於N。

在使用CU之PU進行框內預測性或框間預測性寫碼之後，視訊編碼器20可計算CU之TU的殘餘資料。PU可包含空間域中(亦被稱作像素域)之像素資料，且TU可包含在將變換(例如，離散餘弦變換(DCT)、整數變換、小波變換或概念上類似的變換)應用於殘餘視訊資料之後的變換域中之係數。該殘餘資料可對應於未經編碼圖像之像素與對應於PU之預測值之間的像素差。視訊編碼器20可形成包括CU之殘餘資料的TU，且接著變換該等TU以產生CU之變換係數。

在進行用以產生變換係數之任何變換之後，視訊編碼器20可對變換係數執行量化。量化通常指量化變轉換係數以可能減少用以表示係數的資料之量，從而提供進一步壓縮的程序。量化程序可減少與一些或所有係數相關聯的位元深度。舉例而言，可在量化期間將n位元值降值捨位至m位元值，其中n大於m。

在一些實例中，視訊編碼器20可使用預定義掃描次序來掃描經量化變換係數以產生可經熵編碼之串列化向量。在其他實例中，視訊編碼器20可執行自適應性掃描。在掃描經量化變換係數以形成一維向量之後，視訊編碼器20可(例如)根據內容脈絡自適應性可變長度寫碼(CAVLC)、內容脈絡自適應性二進位算術寫碼(CABAC)、基於語法之內容脈絡自適應性二進位算術寫碼(SBAC)、機率區間分割熵(PIPE)寫碼或另一熵編碼方法來熵編碼一維向量。視訊編碼器20亦可熵編碼與經編碼視訊資料相關聯之語法元素以供視訊解碼器30在解碼視訊資料時使用。

為執行CABAC，視訊編碼器20可將內容脈絡模型內之內容脈絡指派給待傳輸之符號。該內容脈絡可能係關於(例如)符號之相鄰值是否為非零。為執行CAVLC，視訊編碼器20可選擇用於待傳輸之符號的可變長度碼。可變長度寫碼(VLC)中之碼字可經建構以使得相對較短碼對應於更可能之符號，而較長碼對應於較不可能之符號。以此方式，相對於(例如)針對待傳輸之每一符號使用相等長度碼字，使用VLC可達成位元節省。機率判定可基於指派給符號之內容脈絡而進行。

視訊編碼器20可輸出包括形成經寫碼圖像及相關聯資料之表示的位元序列之位元串流。術語「位元串流」可為用以指網路抽象層(NAL)單元串流(例如，一連串NAL單元)或位元組串流(例如，含有開始碼首碼之NAL單元串流及如由HEVC標準之附錄B指定之NAL單元的囊封)之集合性術語。NAL單元為含有NAL單元中之資料之類型的指示及含有彼資料的呈按需要穿插有仿真阻止位元之原始位元組序列有效負載(RBSP)之形式的位元組之語法結構。NAL單元中之每一者可包括NAL單元標頭且可囊封RBSP。NAL單元標頭可包括指示NAL單元類型碼之語法元素。藉由NAL單元之NAL單元標頭指定的NAL單元類型碼指示NAL單元之類型。RBSP可為含有囊封於NAL單元內之整數數目個位元組的語法結構。在一些情況下，RBSP包括零個位元。

不同類型之NAL單元可囊封不同類型之RBSP。舉例而言，第一類型之NAL單元可囊封PPS之RBSP、第二類型之NAL單元可囊封圖塊片段之RBSP，第三類型之NAL單元可囊封SEI之RBSP，等等。囊封視訊寫碼資料之RBSP(與參數集及SEI訊息之RBSP相對比)的NAL單元可被稱作視訊寫碼層(VCL)NAL單元。含有參數集(例如，VPS、SPS、PPS等)之NAL單元可被稱作參數集NAL單元。

本發明可參考囊封片段圖塊之RBSP作為經寫碼圖塊NAL單元的NAL單元。如HEVC WD中所定義，圖塊片段為在影像塊掃描中經連續排序且含於單一NAL單元中的整數數目個CTU。相比而言，在HEVC WD中，圖塊可為含於一個獨立圖塊片段及同一存取單元內的在下一獨立圖塊片段(若存在)之前的所有後續相關圖塊片段(若存在)中的整數數目個CTU。獨立圖塊片段為圖塊片段標頭之語法元素之值並非自先前圖塊片段之值予以推斷的圖塊片段。相依圖塊片段為圖塊片段標頭之一些語法元素之值係自按解碼次序先前獨立圖塊片段之值予以推斷的圖塊片段。經寫碼圖塊NAL單元之RBSP可包括圖塊片段標頭及圖塊資料。圖塊片段標頭為經寫碼圖塊片段中的含有與表示於圖塊片段中之第一或所有CTU有關之資料元素的一部分。圖塊標頭為獨立圖塊片段之圖塊片段標頭，該獨立圖塊片段為當前圖塊片段或按解碼次序位於當前相依圖塊片段之前的最近獨立圖塊片段。

VPS為包含適用於零或多個完整經寫碼視訊序列(CVS)之語法元素的語法結構。SPS為含有適用於零或多個完整CVS之語法元素的語法結構。SPS可包括識別在SPS處於作用中時在作用中的VPS之語法元素。因此，VPS之語法元素可比SPS之語法元素更一般化地適用。

參數集(例如，VPS、SPS、PPS等)可含有直接或間接自圖塊之圖塊標頭參考的識別。參考程序被稱為「啟動」。因此，當視訊解碼器30正解碼特定圖塊時，由該特定圖塊之圖塊標頭中之語法元素直接或間接參考的參數集據稱為「經啟動」。取決於參數集類型，啟動可基於每一圖像或基於每一序列發生。舉例而言，圖塊之圖塊標頭可包括識別PPS之語法元素。因此，當視訊寫碼器寫碼圖塊時，可啟動PPS。此外，PPS可包括識別SPS之語法元素。因此，當識別SPS之PPS經啟動時，可啟動SPS。SPS可包括識別VPS之語法元素。因此，當識別VPS之SPS經啟動時，啟動VPS。

視訊解碼器30可接收由視訊編碼器20產生之位元串流。此外，視訊解碼器30可剖析位元串流以自該位元串流獲得語法元素。視訊解碼器30可至少部分基於自位元串流獲得之語法元素而重建構視訊資料之圖像。重建構視訊資料之程序可與由視訊編碼器20執行之程序大體互逆。舉例而言，視訊解碼器30可使用PU之運動向量判定當前CU之PU的預測性區塊。此外，視訊解碼器30可反量化當前CU之TU之係數區塊。視訊解碼器30可對係數區塊執行反變換，以重建構當前CU之TU的變換區塊。藉由將當前CU之PU之預測性區塊的樣本添加至當前CU之TU之變換區塊的對應樣本，視訊解碼器30可重建構當前CU之寫碼區塊。藉由重建構圖像之每一CU的寫碼區塊，視訊解碼器30可重建構圖像。

在HEVC WD中，CVS可開始於瞬時解碼再新(IDR)圖像，或斷鏈存取(BLA)圖像，或為位元串流中之第一圖像的清潔隨機存取(CRA)圖像，包括並非IDR或BLA圖像之所有後續圖像。IDR圖像僅含有I圖塊(亦即，僅使用框內預測之圖塊)。IDR圖像可為按解碼次序在位元串流中之第一圖像，或可稍後出現在位元串流中。每一IDR圖像為按解碼次序CVS之第一圖像。在HEVC WD中，IDR圖像可為框內隨機存取點(IRAP)圖像，對於該圖像，每一VCL NAL單元具有等於IDR_W_RADL或IDR_N_LP之nal_unit_type。

IDR圖像可用於隨機存取。然而，按解碼次序在IDR圖像之後的圖像不可使用在IDR圖片之前解碼的圖像作為參考。因此，依賴於IDR圖像用於隨機存取之位元串流與使用額外類型之隨機存取圖像的位元串流相比可具有顯著較低的寫碼效率。在至少一些實例中，IDR存取單元為含有IDR圖像之存取單元。

在HEVC中引入CRA圖像之概念以允許按解碼次序在CRA圖像之後但按輸出次序在CRA圖像之前的圖像將在該CRA圖像之前解碼的圖像用於參考。按解碼次序在CRA圖像之後，但按輸出次序在CRA圖像之前的圖像被稱作與CRA圖像相關聯之前置圖像(或CRA圖像之前置圖像)。亦即，為改良寫碼效率，在HEVC中引入CRA圖像之概念，以允許按解碼次序在CRA圖像之後但按輸出次序在CRA圖像之前的圖像將在CRA圖像之前解碼的圖像用於參考。CRAL存取單元為經寫碼圖像為CRA圖像之存取單元。在HEVC WD中，CRA圖像為框內隨機存取圖像，對於該圖像，每一VCL NAL單元具有等於CRA_NUT之nal_unit_type。

CRA圖像之前置圖像在解碼開始於IDR圖像或按解碼次序在該CRA圖像之前出現的CRA圖像之情況下可正確地解碼。然而，在發生自CRA圖像的隨機存取時，CRA圖像之前置圖像可為非可解碼的。因此，視訊解碼器通常在隨機存取解碼期間解碼CRA圖像之前置圖像。為防止自取決於解碼開始於何處而可能不可用之參考圖像的誤差傳播，按解碼次序及輸出次序兩者在CRA圖像之後的圖像不可將按解碼次序或輸出次序在CRA圖像之前的任何圖像(其包括前置圖像)用於參考。

BLA圖像之概念係在引入CRA圖像之後在HEVC中引入的，且係基於CRA圖像之概念。BLA圖像通常源自在CRA圖像之位置處拼接的位元串流，且在該拼接之位元串流中，將拼接點CRA圖像改變至BLA圖像。因此，BLA圖像可為在原始位元串流處之CRA圖像，且CRA圖像由位元串流拼接器在該CRA圖像之位置處的位元串流拼接之後改變為BLA圖像。在一些情況下，含有RAP圖像之存取單元可在本文中被稱作RAP存取單元。BLA存取單元為含有BLA圖像之存取單元。在HEVC WD中，BLA圖像可為框內隨機存取圖像，對於該圖像，每一VCL NAL單元具有等於BLA_W_LP、BLA_W_RADL或BLA_N_LP之nal_unit_type。

一般而言，IRAP圖像僅含有I圖塊，且可為BLA圖像、CRA圖像或IDR圖像。舉例而言，HEVC WD指示IRAP圖像可為每一VCL NAL單元具有在BLA_W_LP至RSV_IRAP_VCL23之範圍中(包括BLA_W_LP及RSV_IRAP_VCL23)的nal_unit_type之經寫碼圖像。此外，HEVC WD指示按解碼次序在位元串流中之第一圖像必須為IRAP圖像。HEVC WD之表7-1展示NAL單元類型碼及NAL單元類型類別。以下再現HEVC WD之表7-1。

BLA圖像與CRA圖像之間的一個差異如下。對於CRA圖像，若解碼開始於按解碼次序在CRA圖像之前的RAP圖像，則相關聯之前置圖像可正確地解碼。然而，當發生自CRA圖像之隨機存取時(亦即，當解碼開始於該CRA圖像時，或換言之，當該CRA圖像為位元串流中之第一圖像時)，與該CRA圖像相關聯之前置圖像不可正確地解碼。相比之下，可能不存在與BLA圖像相關聯之前置圖像可解碼之情形，甚至當解碼開始於按解碼次序在BLA圖像之前的RAP圖像時亦如此。

與特定CRA圖像或特定BLA圖像相關聯之前置圖像中之一些圖像可為可正確解碼的，甚至當該特定CRA圖像或該特定BLA圖像為位元串流中之第一圖像時亦如此。此等前置圖像可被稱作可解碼前置圖像(DLP)或隨機存取可解碼前置(RADL)圖像。在HEVC WD中，RADL圖像可為每一VCL NAL單元具有等於RADL_R或RADL_N之nal_unit_type的經寫碼圖像。此外，HEVC WD指示所有RADL圖像為前置圖像且不將RADL圖像用作用於同一相關聯之IRAP圖像的後置圖像之解碼程序的參考圖像。當存在時，所有RADL圖像按解碼次序在同一相關聯之IRAP圖像的所有後置圖像之前。HEVC WD指示RADL存取單元可為經寫碼圖像為RADL圖像之存取單元。後置圖像可為按輸出次序在相關聯之IRAP圖像之後的圖像(亦即，按解碼次序之先前IRAP圖像)。

其他前置圖像可被稱作非可解碼前置圖像(NLP)或隨機存取跳過前置(RASL)圖像。在HEVC WD中，RASL圖像可為每一VCL NAL單元具有等於RASL_R或RASL_N之nal_unit_type的經寫碼圖像。所有RASL圖像皆為相關聯之BLA圖像或CRA圖像的前置圖像。

假設必要參數集在其需要啟動時可用，則IRAP圖像及按解碼次序所有後續非RASL圖像可正確地解碼，而不執行按解碼次序在IRAP圖像之前的任何圖像之解碼程序。在位元串流中可存在僅含有並非IRAP圖像之I圖塊的圖像。

在多視圖寫碼中，可存在來自不同視點的同一場景之多個視圖。術語「存取單元」可用以指對應於同一時間執行個體之圖像集。因此，視訊資料可經概念化為隨時間發生之一系列存取單元。「視圖分量」可為單一存取單元中之視圖的經寫碼表示。在本發明中，「視圖」可指與同一視圖識別符相關聯之一連串或一組視圖分量。視圖分量可含有紋理視圖分量及深度視圖分量。在本發明中，「視圖」可指與同一視圖識別符相關聯之一組或一連串一或多個視圖分量。

紋理視圖分量(亦即，紋理圖像)可為單一存取單元中的視圖之紋理之經寫碼表示。紋理視圖可為與視圖次序索引之相同值相關聯的一連串紋理視圖分量。視圖之視圖次序索引可指示該視圖相對於其他視圖之攝影機位置。深度視圖分量(亦即，深度圖像)可為單一存取單元中的視圖之深度之經寫碼表示。深度視圖可為與視圖次序索引之相同值相關聯的一組或一連串一或多個深度視圖分量。

在MV-HEVC、3D-HEVC及SHVC中，視訊編碼器可產生包含一系列NAL單元之位元串流。位元串流之不同NAL單元可與位元串流之不同層相關聯。可將層定義為具有同一層識別符之VCL NAL單元及相關聯之非VCL NAL單元的集合。層可等效於多視圖視訊寫碼中之視圖。在多視圖視訊寫碼中，層可含有具有不同時間執行個體之同一層的所有視圖分量。每一視圖分量可為屬於特定時間執行個體處之特定視圖的視訊場景之經寫碼圖像。在3D視訊寫碼之一些實例中，層可含有特定視圖之所有經寫碼深度圖像或特定視圖之經寫碼紋理圖像。在3D視訊寫碼之其他實例中，層可含有特定視圖之紋理視圖分量及深度視圖分量兩者。類似地，在可調式視訊寫碼之情況下，層通常對應於具有不同於其他層中之經寫碼圖像之視訊特性的經寫碼圖像。此類視訊特性通常包括空間解析度及品質等級(例如，信雜比)。在HEVC及其擴展中，可在一個層內藉由將具有特定時間位準之圖像群組定義為子層來達成時間可按比例調整性。

對於位元串流之每一各別層，可在不參考任何較高層中之資料之情況下解碼較低層中之資料。在可調式視訊寫碼中，例如，可在不參考增強層中之資料之情況下解碼基礎層中之資料。一般而言，NAL 單元可僅囊封單一層之資料。因此，可自位元串流移除囊封位元串流之最高剩餘層之資料的NAL單元而不影響位元串流之剩餘層中之資料的可解碼性。在多視圖寫碼及3D-HEVC中，較高層可包括額外視圖分量。在SHVC中，較高層可包括信雜比(SNR)增強資料、空間增強資料及/或時間增強資料。在MV-HEVC、3D-HEVC及SHVC中，若視訊解碼器可在不參考任何其他層之資料之情況下解碼層中的圖像，則該層可被稱作「基礎層」。基礎層可符合HEVC基礎規格(例如，HEVC WD)。

在SVC中，除基礎層外之層可被稱作「增強層」，且可提供增強自位元串流解碼的視訊資料之視覺品質之資訊。SVC可增強空間解析度、信雜比(亦即，品質)或時間速率。在可調式視訊寫碼(例如，SHVC)中，「層表示」可為單一存取單元中的空間層之經寫碼表示。為易於解釋，本發明可將視圖分量及/或層表示稱作「視圖分量/層表示」或簡單地稱作「圖像」。

為實施HEVC中之層，NAL單元之標頭包括nuh_layer_id語法元素，其先前被稱作在最終HEVC標準之前的各種工作草案中之nuh_reserved_zero_6bits語法元素。在基礎HEVC標準中，nuh_layer_id語法元素限於值0。然而，在MV-HEVC、3D-HEVC及SVC中，nuh_layer_id語法元素可大於0以指定層之識別符。位元串流之具有指定不同值之nuh_layer_id語法元素的NAL單元屬於位元串流之不同層。

在一些實例中，若NAL單元與多視圖寫碼(例如，MV-HEVC)、3DV寫碼(例如，3D-HEVC)或可調式視訊寫碼(例如，SHVC)中之基礎層有關，則該NAL單元之nuh_layer_id語法元素等於0。可在不參考位元串流之任何其他層中之資料的情況下解碼位元串流之基礎層中的資料。若NAL單元不與多視圖寫碼、3DV或可調式視訊寫碼中之基礎層有關，則該NAL單元之nuh_layer_id語法元素可具有非零值。

此外，層內之一些視圖分量/層表示可在不參考同一層內之其他視圖分量/層表示的情況下加以解碼。因此，囊封層之某些視圖分量/層表示之資料的NAL單元可自位元串流移除，而不影響該層中的其他視圖分量/層表示之可解碼性。移除囊封此類視圖分量/層表示之資料的NAL單元可減小位元串流之圖框速率。可在不參考在層內之其他視圖分量/層表示的情況下解碼的在該層內之視圖分量/層表示之子集可在本文中被稱作「子層」或「時間子層」。

NAL單元可包括指定NAL單元之時間識別符(亦即，TemporalId)的temporal_id語法元素。NAL單元之時間識別符識別NAL單元所屬於之子層。因此，位元串流之每一子層可具有不同時間識別符。一般而言，若層之第一NAL單元之時間識別符小於同一層之第二NAL單元之時間識別符，則可在不參考由第二NAL單元囊封之資料的情況下解碼由第一NAL單元囊封之資料。

位元串流可與複數個操作點相關聯。位元串流之每一操作點與層識別符集合(例如，nuh_layer_id值之集合)及時間識別符相關聯。可將該層識別符集合表示為OpLayerIdSet，且可將時間識別符表示為TemporalID。若NAL單元之層識別符在操作點之層識別符集合中，且NAL單元之時間識別符小於或等於操作點之時間識別符，則NAL單元與操作點相關聯。因此，操作點可對應於該位元串流中的NAL單元之子集。HEVC將操作點定義為位元串流，其係藉由子位元串流提取程序之操作而自另一位元串流產生，其中該另一位元串流、目標最高TemporalId及目標層識別符清單作為輸入。

如上所介紹，本發明係關於基於ISO基本媒體檔案格式(ISOBMFF)將視訊內容儲存在檔案中。詳言之，本發明描述用於儲存含有多個經寫碼層之視訊串流的各種技術，其中每一層可為可調式層、紋理視圖、深度視圖或其他類型之層或視圖。本發明之技術可適用於(例如)儲存MV-HEVC視訊資料、SHVC視訊資料、3D-HEVC視訊資料及/或其他類型之視訊資料。

現將簡要地論述檔案格式及檔案格式標準。檔案格式標準包括ISO基本媒體檔案格式(ISOBMFF、ISO/IEC 14496-12，下文為「ISO/IEC 14996-12」)及自ISOBMFF導出之其他檔案格式標準，包括MPEG-4檔案格式(ISO/IEC 14496-14)、3GPP檔案格式(3GPP TS 26.244)及AVC檔案格式(ISO/IEC 14496-15，下文為「ISO/IEC 14996-15」)。因此，ISO/IEC 14496-12指定ISO基本媒體檔案格式。其他文件針對特定應用擴展ISO基本媒體檔案格式。舉例而言，ISO/IEC 14496-15描述呈ISO基本媒體檔案格式的NAL單元結構化視訊之攜載。H.264/AVC及HEVC以及其擴展為NAL單元結構化視訊之實例。ISO/IEC 14496-15包括描述H.264/AVCNAL單元之攜載的章節。另外，ISO/IEC 14496-15之第8章描述HEVC NAL單元之攜載。

將ISOBMFF用作用於許多編碼解碼器囊封格式(諸如，AVC檔案格式)以及用於許多多媒體容器格式(諸如，MPEG-4檔案格式、3GPP檔案格式(3GP)及DVB檔案格式)之基礎。除諸如音訊及視訊之連續媒體外，諸如影像之靜態媒體以及後設資料可儲存於符合ISOBMFF之檔案中。根據ISOBMFF結構化之檔案可用於許多目的，包括本端媒體檔案播放、遠端檔案之漸進下載、用於經由HTTP之動態自適應性串流傳輸(DASH)之片段、用於待串流傳輸之內容及其封包化指令之容器，及所接收之即時媒體串流的紀錄。因此，儘管最初針對儲存而設計，但ISOBMFF已證明對串流傳輸(例如，用於漸進下載或DASH)有價值。出於串流傳輸目的，可使用在ISOBMFF中定義之電影分段。

符合HEVC檔案格式之檔案可包含一系列稱作方塊之物件。方塊可為由唯一類型識別符及長度定義之物件導向式建置區塊。舉例而言，方塊可為ISOBMFF中之基本語法結構，包括四字元寫碼方塊類型、方塊之位元組計數及有效負載。換言之，方塊可為包含經寫碼方塊類型、方塊之位元組計數及有效負載的語法結構。在一些情況下，在符合HEVC檔案格式之檔案中的所有資料可含於方塊內，且在不處於方塊中之檔案中可能不存在資料。因此，ISOBMFF檔案可由一連串方塊組成，且方塊可含有其他方塊。舉例而言，方塊之有效負載可包括一或多個額外方塊。在本發明中別處詳細描述之圖5A、圖5B及圖6展示根據本發明之一或多種技術的檔案內之實例方塊。

符合ISOBMFF之檔案可包括各種類型之方塊。舉例而言，符合ISOBMFF之檔案可包括檔案類型方塊、媒體資料方塊、電影方塊、電影分段方塊等。在此實例中，檔案類型方塊包括檔案類型及相容性資訊。媒體資料方塊可含有樣本(例如，經寫碼圖像)。電影方塊(「moov」)含有用於存在於檔案中之連續媒體串流的後設資料。可將連續媒體串流中之每一者在檔案中表示為播放軌。舉例而言，電影方塊可含有關於電影之後設資料(例如，樣本之間的邏輯及時序關係，以及指向樣本之位置的指標)。電影方塊可包括若干類型之子方塊。電影方塊中之子方塊可包括一或多個播放軌方塊。播放軌方塊可包括關於電影之個別播放軌的資訊。播放軌方塊可包括指定單一播放軌之總體資訊的播放軌標頭方塊。此外，播放軌方塊可包括含有媒體資訊方塊之媒體方塊。媒體資訊方塊可包括含有媒體樣本在播放軌中之資料索引的樣本表方塊。樣本表方塊中之資訊可用以按時間(且對於播放軌之樣本中之每一者，按類型、大小、容器及至樣本之彼容器的偏移)定位樣本。因此，將用於播放軌之後設資料圍封於播放軌方塊(「trak」)中，而將播放軌之媒體內容圍封於媒體資料方塊(「mdat」)中或直接圍封於單獨檔案中。用於播放軌之媒體內容包含一連串樣本 (例如，由一連串樣本組成)，諸如音訊或視訊存取單元。

ISOBMFF指定以下類型之播放軌：媒體播放軌，其含有基本媒體串流；提示播放軌，其包括媒體傳輸指令或表示所接收之封包串流；及計時後設資料播放軌，其包含時間同步之後設資料。用於每一播放軌之後設資料包括樣本描述條目之清單，每一條目提供在播放軌中使用之寫碼或囊封格式及對於處理彼格式所需要之初始化資料。每一樣本與播放軌之樣本描述條目中之一者相關聯。

ISOBMFF實現藉由各種機制指定樣本特定後設資料。樣本表方塊(「stbl」)內之特定方塊已經標準化以對共同需求作出回應。舉例而言，同步樣本方塊(「stss」)為樣本表方塊內之方塊。同步樣本方塊用以列出播放軌之隨機存取樣本。本發明可將由同步樣本方塊列出之樣本稱作同步樣本。在另一實例中，樣本分群機制實現根據四字元分群類型將樣本映射成共用指定為檔案中之樣本群組描述條目之同一性質的樣本之群組。已在ISOBMFF中指定若干分群類型。

樣本表方塊可包括一或多個SampleToGroup方塊及一或多個樣本群組描述方塊(亦即，SampleGroupDescription方塊)。SampleToGroup方塊可用以判定樣本所屬於之樣本群組，連同該樣本群組之相關聯描述。換言之，SampleToGroup方塊可指示樣本所屬於之群組。SampleToGroup方塊可具有「sbgp」之方塊類型。SampleToGroup方塊可包括分群類型元素(例如，grouping_type)。分群類型元素可為識別樣本分群之類型(亦即，用以形成樣本群組之準則)的整數。此外，SampleToGroup方塊可包括一或多個條目。SampleToGroup方塊中之每一條目可與播放軌中之一系列不同的非重疊連續樣本相關聯。每一條目可指示一樣本計數元素(例如，sample_count)及一群組描述索引元素(例如，group_description_index)。條目之樣本計數元素可指示與該條目相關聯的樣本之數目。換言之，條目之樣本計數元素可為給出具有相同樣本群組描述符的連續樣本之數目之整數。群組描述索引元素可識別含有與該條目相關聯之樣本之描述的SampleGroupDescription方塊。多個條目之群組描述索引元素可識別同一SampleGroupDescription方塊。

當前檔案格式設計可具有一或多個問題。為基於ISOBMFF儲存特定視訊編碼解碼器之視訊內容，可能需要關於彼視訊編碼解碼器之檔案格式規格。為儲存含有諸如MV-HEVC及SHVC之多個層的視訊串流，可重新使用來自SVC及MVC檔案格式的概念中之一些概念。然而，許多部分不能直接用於SHVC及MV-HEVC視訊串流。HEVC檔案格式之直接應用具有至少下列缺點：SHVC及MV-HEVC位元串流可開始於含有基礎層中之IRAP圖像但亦可含有其他層中之其他非IRAP圖像的存取單元，或反之亦然。同步樣本當前不允許指示此點用於隨機存取。

本發明描述對以上問題之潛在解決方案，以及提供其他潛在改良，以實現含有多個層的視訊串流之高效且靈活儲存。本發明中所描述之技術潛在地適用於用於儲存由任何視訊編碼解碼器寫碼之此視訊內容的任何檔案格式，但該描述對基於HEVC檔案格式儲存SHVC及MV-HEVC視訊串流為特定的，其在ISO/IEC 14496-15之條款8中指定。

以下描述本發明之一些技術之實例實施。以下描述之實例實施係基於在MPEG輸出文件W13478中的14496-15之最新整合規格。以下包括對附錄A之改變(藉由下劃線展示)及添加之章節(第9章針對SHVC，且第10章針對MV-HEVC)。換言之，本發明之特定實例可修改ISO/IEC 14496-15之附錄A，且可將第9章及/或第10章添加至ISO/IEC 14496-15。藉由下劃線及雙下劃線展示之文字可具有與本發明之實例的特定相關性。儘管在本文中描述之實例中各處使用術語 SHVC，但本發明之設計實際上不僅將僅支援SHVC編碼解碼器，而是可支援包括MV-HEVC、3D-HEVC之所有多層編碼解碼器，除非另外明確地提及。

ISOBMFF規格指定適用於DASH之六種類型之串流存取點(SAP)。前兩個SAP類型(類型1及類型2)對應於H.264/AVC及HEVC中之IDR圖像。第三SAP類型(類型3)對應於開放GOP隨機存取點，因此對應於HEVC中之BLA或CRA圖像。第四SAP類型(類型4)對應於GDR隨機存取點。

在當前L-HEVC檔案格式中，一些高層級資訊(例如，位元串流中之層、位元速率、圖框速率、時間子層、平行度、操作點等的資訊)係在LHEVCSampleEntry、HEVCLHVCSampleEntry、LHVCDecoderConfigurationRecord、播放軌內容資訊('tcon')及OperationPointsInformationBox('oinf')中用信號發送。在一個實例中，上述方塊之語法設計如下：

基於以上方塊之當前結構及其中所含之資訊，為播放檔案中之內容，播放器可經組態以首先尋找'oinf'方塊(在檔案中僅一者)以知曉包括何些操作點，且接著選擇該等操作點中之一者待播放。視訊播放器接著可檢查'tcon'方塊(含有L-HEVC視訊的每一播放軌中之一者)以知曉哪些播放軌含有所選擇操作點之層。

牢記當前設計之上述基本使用，本發明提議將更多資訊(諸如，表示格式(其包括空間解析度、位元深度及色彩格式)、位元速率及圖框速率)包括至'oinf'方塊中以實現操作點的選擇。每一播放軌中之樣本條目包括此類資訊之一個集合，但僅針對特定操作點。當多個操作點含於一個播放軌中時，其他操作點之資訊遺漏。

另一問題係關於LHEVCDecoderConfigurationRecord中之許多欄位的語義不清晰且其中之一些欄位令人混淆的實情。舉例而言，設定檔、階層及層級(PTL)、chromaFormat、bitDepthLumaMinus8及bitDepthChromaMinus8為層特定性質，但當前據稱適用於藉由operationPointIdx指示的操作點。當操作點含有一個以上層時，語義簡單而言係不清晰的。

實際上，基於設計之習知基本使用的步驟，樣本條目中之資訊中之一些資訊實際上無用，尤其在'oinf'方塊中存在足夠資訊用於操作點選擇時。

又一問題為在SHVC及MV-HEVC中，僅針對每一必要層(亦即，為輸出層之層或藉由操作點內之輸出層直接或間接參考的層或其兩者)而非針對任何不必要層(並非必要層之層)用信號發送PTL。因此，在檔案格式設計中，針對不必要層用信號發送PTL可能並非必要的。

下文列出對本發明中所描述之方法及技術的概述。實例詳述實施係在稍後章節中提供。本發明之方法及技術可獨立地應用或可以組合方式應用。

本發明之第一技術包括移除在LHEVC樣本條目及HEVCLHVC樣本條目內MPEG4BitRateBox()在LHEVCConfigurationBox之後的發訊。實情為，實現針對'oinf'方塊中之每一操作點用信號發送位元速率資訊。

本發明之第二技術包括針對'oinf'方塊中之每一操作點用信號發送關於表示格式(其包括空間解析度、位元深度及色彩格式)之資訊。

本發明之第三技術包括自LHEVCDecoderConfigurationRecord移除已提供於'oinf'方塊中或提議待添加至'oinf'方塊之PTL資訊、表示格式資訊及圖框速率資訊。LHEVCDecoderConfigurationRecord中之剩餘資訊適用於播放軌中所含之所有層。在第三技術之另一實例中，重建構LHEVCDecoderConfigurationRecord之設計，以使得針對每一層用信號發送表示格式資訊及圖框速率資訊及可能額外參數/資訊(例如，平行度資訊)。LHEVCDecoderConfigurationRecord中之語法元素無正負號int(2)parallelismType可指示平行解碼特徵之何類型可用於解碼層中之圖像。影像塊、波前及圖塊為可用於促進平行處理的圖像片段機制之實例。

本發明之第四技術包括自LHEVCDecoderConfigurationRecord移除operationPointIdx。在第四技術之另一實例中，實現與播放軌相關聯的操作點索引之清單在LHEVCDecoderConfigurationRecord中的發訊。

本發明之第五技術包括改變'oinf'方塊中之layer_count欄位之語義以僅對操作點之必要層進行計數。

下文描述本發明之方法及技術的實例實施。在以下實例中，展示相對於HEVC及LHEVC檔案格式之文字改變。在識別符[START INSERTION]與[END INSERTION]之間展示添加之文字。在識別符[START DELETION]與[END DELETION]之間展示刪除之文字。

下文描述第一實施。

此章節描述對本發明技術1、2、3(不包括其實例a.)、4(不包括其實例a.)及5之LHEVCSampleEntry、HEVCLHVCSampleEntry、LHVCDecoderConfigurationRecord及OperationPointsInformationBox('oinf')之發訊的詳細修改。

...

layer_count：此欄位指示為[START INSERTION]該[END INSERTION][START DELETION]一[END DELETION]操作點之一部分的[START INSERTION]必要[END INSERTION]層之數目。

...

[START INSERTION]

minPicWidth指定如藉由用於操作點之串流的ISO/IEC 23008-2中之pic_width_in_luma_samples參數所定義的明度寬度指示符之最小值。

minPicHeight指定如藉由用於操作點之串流的ISO/IEC 23008-2中之pic_height_in_luma_samples參數所定義的明度高度指示符之最小值。

maxPicWidth指定如藉由用於操作點之串流的ISO/IEC 23008-2中之pic_width_in_luma_samples參數所定義的明度寬度指示符之最大值。

maxPicHeight指定如藉由用於操作點之串流的ISO/IEC 23008-2中之pic_height_in_luma_samples參數所定義的明度高度指示符之最大值。

maxChromaFormat指定如藉由用於操作點之串流的ISO/IEC 23008-2中之chroma_format_idc參數所定義的chroma_format指示符之最大值。

maxBitDepthMinus8指定如分別藉由用於操作點之串流之ISO/IEC 23008-2中的bit_depth_luma_minus8及bit_depth_chroma_minus8參數所定義的明度及色度位元深度指示符之最大值。

frame_rate_info_flag等於0指示針對操作點不存在圖框速率資訊。值1指示針對操作點存在圖框速率資訊。

bit_rate_info_flag等於0指示針對操作點不存在位元速率資訊。值1指示針對操作點存在位元速率資訊。

avgFrameRate給出操作點之以圖框/(256秒)為單位的平均圖框速率。值0指示未指定之平均圖框速率。

constantFrameRate等於1指示操作點之串流具有恆定圖框速率。值2指示操作點之串流中的每一時間層之表示具有恆定圖框速率。值0指示操作點之串流可能或可能不具有恆定圖框速率。

maxBitRate給出在一秒之任何窗口內的操作點之串流的以位元/秒計的最大位元速率。

avgBitRate給出操作點之串流的以位元/秒計的平均位元速率。

...

[END INSERTION]

下文描述第二實施。

此章節描述對本發明實例3(a)之LHVCDecoderConfigurationRecord之發訊的詳細修改。

[START INSERTION]

num_layers指定播放軌中之層之數目。

layer_id指定層ID值，針對該層ID值而提供此回圈中之資訊。

[END INSERTION]

下文描述第三實施。

此章節描述對本發明實例4(a)之LHVCDecoderConfigurationRecord之發訊的詳細修改。

[START INSERTION]numOperationPoints：此欄位用信號發送可供用於播放軌的操作點之數目。[END INSERTION]

operationPointIdx：此欄位用信號發送在操作點資訊方塊中記載的操作點之索引。[START DELETION]在LHEVCDecoderConfigurationRecord中之general_profile_space、general_tier_flag、general_profile_idc、general_profile_compatibility_flags、general_constraint_indicator_flag及 general_level_idc的值應與操作點資訊方塊中的第operationPointIdx個操作點之各別值相同。[END DELETION][START INSERTION]操作點資訊方塊中的第operationPointIdx個操作點中之max_temporal_id的值應小於或等於numTemporalLayers之值。[END INSERTION]

注意，播放軌可與一個或[START DELETION]表示[END DELETION]一個以上輸出層集合[START DELETION]且因此與一個以上設定檔[START DELETION]相關聯。播放器可藉由調查針對操作點資訊方塊中之第operationPointIdx個操作點而提供的資訊來找出對應於[START INSERTION]具有索引operationPointIdx之所選擇操作點的[END INSERTION]LHEVCDecoderConfigurationRecord中之設定檔資訊的哪些層待解碼及哪些層待輸出。

注意，對於包括於播放軌中之每一輔助圖像層，建議在nalUnit內包括含有指定輔助圖像層之特性的宣告性SEI訊息(諸如，用於深度輔助圖像層之深度表示資訊SEI訊息)之SEI NAL單元。

圖2為說明可實施本發明中所描述之技術的實例視訊編碼器20之方塊圖。視訊編碼器20可經組態以輸出單一視圖、多視圖、可調式、3D及其他類型之視訊資料。視訊編碼器20可經組態以將視訊輸出至後處理實體27。後處理實體27意欲表示可處理來自視訊編碼器20之經編碼視訊資料的視訊實體(諸如，MANE或拼接/編輯裝置)之實例。在一些情況下，後處理處理實體可為網路實體之實例。在一些視訊編碼系統中，後處理實體27及視訊編碼器20可為單獨裝置之部分，而在其他情況下，關於後處理實體27描述之功能性可由包含視訊編碼器20之同一裝置執行。後處理實體27可為視訊裝置。在一些實例中，後處理實體27可與圖1之檔案產生裝置34相同。

視訊編碼器20可執行視訊圖塊內之視訊區塊之框內寫碼及框間寫碼。框內寫碼依賴於空間預測以減少或移除給定視訊圖框或圖像內之視訊中的空間冗餘。框間寫碼依賴於時間預測以減少或移除視訊序列之鄰近圖框或圖像內之視訊中的時間冗餘。框內模式(I模式)可指若干基於空間之壓縮模式中的任一者。框間模式(諸如，單向預測(P模式)或雙向預測(B模式))可指若干基於時間之壓縮模式中的任一者。

在圖2之實例中，視訊編碼器20包括分割單元37、預測處理單元41、濾波器單元63、參考圖像記憶體64、求和器50、變換處理單元52、量化單元54及熵編碼單元56。預測處理單元41包括運動估計單元42、運動補償單元44及框內預測處理單元46。為進行視訊區塊重建構，視訊編碼器20亦包括反量化單元58、反變換處理單元60及求和器62。濾波器單元63意欲表示一或多個迴路濾波器，諸如解區塊濾波器、自適應性迴路濾波器(ALF)及樣本自適應性偏移(SAO)濾波器。儘管濾波器單元63在圖2中展示為迴路濾波器，但在其他組態中，濾波器單元63可實施為迴路後濾波器。

視訊編碼器20之視訊資料記憶體35可儲存待由視訊編碼器20之組件編碼的視訊資料。儲存於視訊資料記憶體35中之視訊資料可(例如)自視訊源18獲得。參考圖像記憶體64可為儲存參考視訊資料以供視訊編碼器20在編碼視訊資料時(例如，在框內或框間寫碼模式中)使用的參考圖像記憶體。視訊資料記憶體35及參考圖像記憶體64可由多種記憶體裝置中之任一者形成，諸如動態隨機存取記憶體(DRAM)(包括同步DRAM(SDRAM))、磁阻式RAM(MRAM)、電阻式RAM(RRAM)或其他類型之記憶體裝置。視訊資料記憶體35及參考圖像記憶體64可由同一記憶體裝置或單獨記憶體裝置來提供。在各種實例中，視訊資料記憶體35可與視訊編碼器20之其他組件一起在晶片上，或相對於彼等組件在晶片外。

如圖2中所展示，視訊編碼器20接收視訊資料，且分割單元37將資料分割成視訊區塊。此分割亦可包括分割成圖塊、影像塊或其他較大單元，以及(例如)根據LCU及CU之四分樹結構的視訊區塊分割。視訊編碼器20大體上說明編碼待編碼視訊圖塊內之視訊區塊的組件。可將圖塊劃分成多個視訊區塊(且可能劃分成被稱作影像塊之視訊區塊集合)。預測處理單元41可基於誤差結果(例如，寫碼速率及失真程度)而為當前視訊區塊選擇複數個可能寫碼模式中之一者(諸如，複數個框內寫碼模式中之一者或複數個框間寫碼模式中之一者)。預測處理單元41可將所得經框內或經框間寫碼區塊提供至求和器50以產生殘餘區塊資料，且提供至求和器62以重建構經編碼區塊以供用作參考圖像。

預測處理單元41內之框內預測處理單元46可執行當前視訊區塊相對於在與待寫碼之當前區塊相同之圖框或圖塊中的一或多個相鄰區塊之框內預測性寫碼，以提供空間壓縮。預測處理單元41內之運動估計單元42及運動補償單元44執行當前視訊區塊相對於一或多個參考圖像中之一或多個預測性區塊的框間預測性寫碼，以提供時間壓縮。

運動估計單元42可經組態以根據視訊序列之預定圖案來判定用於視訊圖塊之框間預測模式。預定圖案可將序列中之視訊圖塊指明為P圖塊、B圖塊或GPB圖塊。運動估計單元42及運動補償單元44可高度整合，但為概念目的而分開來說明。由運動估計單元42執行之運動估計為產生運動向量之程序，該等運動向量估計視訊區塊之運動。舉例而言，運動向量可指示當前視訊圖框或圖像內之視訊區塊的PU相對於參考圖像內之預測性區塊的移位。

預測性區塊為就像素差而言被發現緊密地匹配待寫碼之視訊區塊之PU的區塊，該像素差可由絕對差和(SAD)、平方差和(SSD)或其他差量度判定。在一些實例中，視訊編碼器20可計算儲存於參考圖像記憶體64中之參考圖像之子整數像素位置的值。舉例而言，視訊編碼器20可內插參考圖像之四分之一像素位置、八分之一像素位置或其他分數像素位置的值。因此，運動估計單元42可執行關於全像素位置及分數像素位置之運動搜尋且輸出具有分數像素精度之運動向量。

運動估計單元42藉由比較PU之位置與參考圖像之預測性區塊的位置而計算經框間寫碼圖塊中之視訊區塊的PU之運動向量。參考圖像可選自第一參考圖像清單(清單0)或第二參考圖像清單(清單1)，其中之每一者識別儲存於參考圖像記憶體64中之一或多個參考圖像。運動估計單元42將計算出之運動向量發送至熵編碼單元56及運動補償單元44。

由運動補償單元44執行之運動補償可涉及基於由運動估計判定之運動向量而提取或產生預測性區塊，可能執行達子像素精確度之內插。在接收到當前視訊區塊之PU的運動向量後，運動補償單元44即可在參考圖像清單中之一者中定位運動向量所指向之預測性區塊。視訊編碼器20可藉由自正被寫碼之當前視訊區塊的像素值減去預測性區塊之像素值從而形成像素差值來形成殘餘視訊區塊。像素差值形成區塊之殘餘資料，且可包括明度差分量及色度差分量兩者。求和器50表示執行此減法運算之一或多個組件。運動補償單元44亦可產生與視訊區塊及視訊圖塊相關聯之語法元素以供視訊解碼器30在解碼視訊圖塊之視訊區塊時使用。

如上文所描述，作為由運動估計單元42及運動補償單元44所執行之框間預測的替代例，框內預測處理單元46可對當前區塊進行框內預測。詳言之，框內預測處理單元46可判定框內預測模式以用以編碼當前區塊。在一些實例中，框內預測處理單元46可(例如)在單獨編碼遍次期間使用各種框內預測模式來編碼當前區塊，且框內預測單元46(或在一些實例中，模式選擇單元40)可自受測模式中選擇待使用之適當框內預測模式。舉例而言，框內預測處理單元46可使用對於各種受測框內預測模式之速率-失真分析來計算速率-失真值，且在受測模式當中選擇具有最好速率-失真特性之框內預測模式。速率-失真分析大體上判定經編碼區塊與原始未經編碼區塊(其經編碼以產生經編碼區塊)之間的失真(或誤差)之量，以及用以產生經編碼區塊之位元速率(亦即，位元之數目)。框內預測處理單元46可自各種經編碼區塊之失真及速率計算比率以判定哪一框內預測模式展現區塊之最好速率-失真值。

在任何狀況下，在選擇用於區塊之框內預測模式之後，框內預測處理單元46可將指示用於區塊之所選擇框內預測模式之資訊提供至熵編碼單元56。熵編碼單元56可根據本發明之技術編碼指示所選擇框內預測模式之資訊。視訊編碼器20可在所傳輸之位元串流中包括以下各者：組態資料，其可包括複數個框內預測模式索引表及複數個經修改之框內預測模式索引表(亦稱作碼字映射表)；各種區塊之編碼內容脈絡的定義；及待用於該等內容脈絡中之每一者的最有可能之框內預測模式、框內預測模式索引表及經修改之框內預測模式索引表的指示。

在預測處理單元41經由框間預測或框內預測產生當前視訊區塊之預測性區塊之後，視訊編碼器20可藉由自當前視訊區塊減去預測性區塊而形成殘餘視訊區塊。殘餘區塊中之殘餘視訊資料可包括於一或多個TU中且被應用於變換處理單元52。變換處理單元52使用諸如離散餘弦變換(DCT)或概念上類似變換之變換將殘餘視訊資料變換成殘餘變換係數。變換處理單元52可將殘餘視訊資料自像素域轉換至變換域(諸如，頻域)。

變換處理單元52可將所得變換係數發送至量化單元54。量化單元54量化變換係數以進一步減小位元速率。量化程序可減小與一些或所有係數相關聯的位元深度。可藉由調整量化參數來修改量化程度。在一些實例中，量化單元54可接著執行對包括經量化變換係數之矩陣的掃描。替代地，熵編碼單元56可執行掃描。

在量化之後，熵編碼單元可熵編碼表示經量化變換係數之語法元素。舉例而言，熵編碼單元56可執行內容脈絡自適應性可變長度寫碼(CAVLC)、內容脈絡自適應性二進位算術寫碼(CABAC)、基於語法之內容脈絡自適應性二進位算術寫碼(SBAC)、機率區間分割熵(PIPE)寫碼或另一熵編碼方法或技術。在由熵編碼單元56進行熵編碼之後，經編碼位元串流可被傳輸至視訊解碼器30，或經存檔以供視訊解碼器30稍後傳輸或擷取。熵編碼單元56亦可熵編碼正經寫碼之當前視訊圖塊的運動向量及其他語法元素。

反量化單元58及反變換處理單元60分別應用反量化及反變換以在像素域中重建構殘餘區塊，從而供稍後用作參考圖像之參考區塊。運動補償單元44可藉由將殘餘區塊加至參考圖像清單中之一者內的參考圖像中之一者之預測性區塊來計算參考區塊。運動補償單元44亦可將一或多個內插濾波器應用至經重建構殘餘區塊，以計算子整數像素值來在運動估計中使用。求和器62將經重建構殘餘區塊加至由運動補償單元44所產生之經運動補償預測區塊以產生用於儲存於參考圖像記憶體64中之參考區塊。參考區塊可由運動估計單元42及運動補償單元44用作參考區塊以框間預測後續視訊圖框或圖像中之區塊。

視訊編碼器20表示經組態以產生可使用本發明中所描述之檔案格式技術儲存之視訊資料的視訊寫碼器之實例。

圖3為說明可實施本發明中所描述之技術的實例視訊解碼器30之方塊圖。視訊解碼器30可經組態以解碼單一視圖、多視圖、可調式、3D及其他類型之視訊資料。在圖3之實例中，視訊解碼器30包括熵解碼單元80、預測處理單元81、反量化單元86、反變換處理單元88、求和器90、濾波器單元91，及參考圖像記憶體92。預測處理單元81包括運動補償單元82及框內預測處理單元84。在一些實例中，視訊解碼器 30可執行大體上互逆於關於來自圖2之視訊編碼器20所描述的編碼編次之解碼編次。

經寫碼圖像緩衝器(CPB)79可接收及儲存位元串流之經編碼視訊資料(例如，NAL單元)。儲存於CPB 79中之視訊資料可(例如)自鏈路16、(例如)自諸如攝影機之本端視訊源、經由視訊資料之有線或無線網路通信或藉由存取實體資料儲存媒體而獲得。CPB 79可形成儲存來自經編碼視訊位元串流之經編碼視訊資料的視訊資料記憶體。CPB 79可為儲存參考視訊資料以供視訊解碼器30在解碼視訊資料時(例如，在框內或框間寫碼模式中)使用之參考圖像記憶體。CPB 79及參考圖像記憶體92可由多種記憶體裝置中之任一者形成，諸如動態隨機存取記憶體(DRAM)(包括同步DRAM(SDRAM))、磁阻式RAM(MRAM)、電阻式RAM(RRAM)或其他類型之記憶體裝置。CPB 79及參考圖像記憶體92可由同一記憶體裝置或單獨記憶體裝置提供。在各種實例中，CPB 79可與視訊解碼器30之其他組件一起在晶片上，或相對於彼等組件在晶片外。

在解碼程序期間，視訊解碼器30自視訊編碼器20接收表示經編碼視訊圖塊之視訊區塊及相關聯語法元素的經編碼視訊位元串流。視訊解碼器30可自網路實體29接收經編碼視訊位元串流。網路實體29可(例如)為伺服器、MANE、視訊編輯器/拼接器或經組態以實施上文所描述之技術中之一或多者的其他此類裝置。網路實體29可包括或可不包括視訊編碼器，諸如視訊編碼器20。本發明中所描述之技術中之一些可由網路實體29在網路實體29將經編碼視訊位元串流傳輸至視訊解碼器30之前實施。在一些視訊解碼系統中，網路實體29及視訊解碼器30可為單獨裝置之部分，而在其他情況下，關於網路實體29描述之功能性可由包含視訊解碼器30之同一裝置執行。可將網路實體29視為視訊裝置。此外，在一些實例中，網路實體29為圖1之檔案產生裝置 34。

視訊解碼器30之熵解碼單元80熵解碼位元串流之特定語法元素以產生經量化係數、運動向量及其他語法元素。熵解碼單元80將運動向量及其他語法元素轉遞至預測處理單元81。視訊解碼器30可在視訊圖塊層級及/或視訊區塊層級接收語法元素。

當視訊圖塊經寫碼為經框內寫碼(I)圖塊時，預測處理單元81之框內預測處理單元84可基於來自當前圖框或圖像之先前經解碼區塊的經用信號發送之框內預測模式及資料而產生用於當前視訊圖塊之視訊區塊的預測資料。當視訊圖框經寫碼為經框間寫碼(亦即，B、P或GPB)圖塊時，預測處理單元81之運動補償單元82基於自熵解碼單元80接收之運動向量及其他語法元素而產生當前視訊圖塊之視訊區塊的預測性區塊。預測性區塊可自參考圖像清單中之一者內的參考圖像中之一者產生。視訊解碼器30可基於儲存於參考圖像記憶體92中之參考圖像使用預設建構技術來建構參考圖框清單：清單0及清單1。

運動補償單元82藉由剖析運動向量及其他語法元素來判定用於當前視訊圖塊之視訊區塊的預測資訊，且使用該預測資訊以產生正經解碼之當前視訊區塊之預測性區塊。舉例而言，運動補償單元82使用所接收之語法元素中的一些以判定用以寫碼視訊圖塊之視訊區塊之預測模式(例如，框內預測或框間預測)、框間預測圖塊類型(例如，B圖塊、P圖塊或GPB圖塊)、圖塊之參考圖像清單中之一或多者的建構資訊、圖塊之每一經框間編碼視訊區塊之運動向量、圖塊之每一經框間寫碼視訊區塊之框間預測狀態及用以解碼當前視訊圖塊中之視訊區塊的其他資訊。

運動補償單元82亦可執行基於內插濾波器之內插。運動補償單元82可使用如由視訊編碼器20在視訊區塊之編碼期間所使用的內插濾波器，以計算參考區塊之子整數像素的內插值。在此狀況下，運動補償單元82可自所接收語法元素判定由視訊編碼器20所使用之內插濾波器，且可使用該等內插濾波器以產生預測性區塊。

反量化單元86反量化(亦即，解量化)位元串流中所提供且由熵解碼單元80解碼之經量化變換係數。反量化程序可包括使用由視訊編碼器20針對視訊圖塊中之每一視訊區塊計算之量化參數，以判定量化程度及(同樣地)應該應用之反量化程度。反變換處理單元88將反變換(例如，反DCT、反整數變換或概念上類似之反變換程序)應用於變換係數，以便在像素域中產生殘餘區塊。

在運動補償單元82基於運動向量及其他語法元素而產生當前視訊區塊之預測性區塊之後，視訊解碼器30藉由將來自反變換處理單元88之殘餘區塊與由運動補償單元82所產生之對應預測性區塊求和而形成經解碼視訊區塊。求和器90表示執行此求和運算之一或多個組件。若需要，亦可使用迴路濾波器(在寫碼迴路中或在寫碼迴路後)以使像素轉變平滑，或以其他方式改良視訊品質。濾波器單元91意欲表示一或多個迴路濾波器(諸如，解區塊濾波器、自適應性迴路濾波器(ALF)及樣本自適應性偏移(SAO)濾波器)。儘管濾波器單元91在圖3中展示為迴路濾波器，但在其他組態中，濾波器單元91可實施為迴路後濾波器。接著將給定圖框或圖像中之經解碼視訊區塊儲存於參考圖像記憶體92中，該參考圖像記憶體儲存用於後續運動補償之參考圖像。參考圖像記憶體92亦儲存用於稍後在顯示裝置(諸如，圖1之顯示裝置32)上呈現的經解碼視訊。

圖3之視訊解碼器30表示經組態以解碼可使用本發明中所描述之檔案格式技術儲存之視訊資料的視訊解碼器之實例。

圖4為說明形成網路100之部分之實例裝置集合的方塊圖。在此實例中，網路100包括路由裝置104A、104B(路由裝置104)及轉碼裝置106。路由裝置104及轉碼裝置106意欲表示可形成網路100之部分的少數裝置。諸如交換器、集線器、閘道器、防火牆、橋接器及其他此類裝置之其他網路裝置亦可包括在網路100內。此外，可沿著伺服器裝置102與用戶端裝置108之間的網路路徑提供額外網路裝置。在一些實例中，伺服器裝置102可對應於源裝置12(圖1)，而用戶端裝置108可對應於目的地裝置14(圖1)。

一般而言，路由裝置104實施一或多個路由協定以經由網路100交換網路資料。在一些實例中，路由裝置104可經組態以執行代理或快取操作。因此，在一些實例中，路由裝置104可被稱作代理裝置。一般而言，路由裝置104執行路由協定以發現經由網路100之路線。藉由執行此類路由協定，路由裝置104B可發現自本身經由路由裝置104A至伺服器裝置102之網路路線。

本發明之技術可由諸如路由裝置104及轉碼裝置106之網路裝置實施，但亦可由用戶端裝置108實施。以此方式，路由裝置104、轉碼裝置106及用戶端裝置108表示經組態以執行本發明之技術的裝置之實例。此外，圖1之裝置以及圖2中所說明之編碼器20及圖3中所說明之解碼器30亦為可經組態以執行本發明之技術中之一或多者的裝置之實例。

圖5A為說明根據本發明之一或多種技術的檔案300之實例結構的概念圖。在圖5A之實例中，檔案300包括一電影方塊302及複數個媒體資料方塊304。儘管在圖5A之實例中說明為在同一檔案中，但在其他實例中，電影方塊302及媒體資料方塊304可在單獨檔案中。如上文所指示，方塊可為由唯一類型識別符及長度定義之物件導向式建構區塊。舉例而言，方塊可為ISOBMFF中之基本語法結構，包括四字元寫碼方塊類型、方塊之位元組計數及有效負載。

電影方塊302可含有用於檔案300之播放軌的後設資料。檔案300之每一播放軌可包含媒體資料之連續串流。媒體資料方塊304中之每一者可包括一或多個樣本305。樣本305中之每一者可包含音訊或視訊存取單元。如在本發明中別處所描述，在多視圖寫碼(例如，MV-HEVC及3D-HEVC)及可調式視訊寫碼(例如，SHVC)中，每一存取單元可包含多個經寫碼圖像。舉例而言，存取單元可針對每一層包括一或多個經寫碼圖像。

此外，在圖5A之實例中，電影方塊302包括播放軌方塊306。播放軌方塊306可圍封用於檔案300之播放軌的後設資料。在其他實例中，電影方塊302可包括用於檔案300之不同播放軌的多個播放軌方塊。播放軌方塊306包括媒體方塊307。媒體方塊307可含有宣告關於播放軌內之媒體資料之資訊的所有物件。媒體方塊307包括媒體資訊方塊308。媒體資訊方塊308可含有宣告播放軌之媒體之特性資訊的所有物件。媒體資訊方塊308包括樣本表方塊309。樣本表方塊309可指定樣本特定後設資料。

在圖5A之實例中，樣本表方塊309包括SampleToGroup方塊310及SampleGroupDescription方塊312，且SampleGroupDescription方塊312包括oinf方塊316。在其他實例中，樣本表方塊309可包括除SampleToGroup方塊310及SampleGroupDescription方塊312外的其他方塊，及/或可包括多個SampleToGroup方塊及SampleGroupDescription方塊。SampleToGroup方塊310可將樣本(例如，樣本305中之特定者)映射至一群樣本。SampleGroupDescription方塊312可指定由該群樣本(亦即，樣本群組)中之樣本共用的性質。此外，樣本表方塊309可包括複數個樣本條目方塊311。樣本條目方塊311中之每一者可對應於該群樣本中之一樣本。在一些實例中，樣本條目方塊311為擴展基本樣本群組描述類別之隨機可存取樣本條目類別之執行個體。

根據本發明之一或多種技術，SampleGroupDescription方塊312可指定樣本群組中之每一樣本含有至少一個IRAP圖像。以此方式，檔案產生裝置34可產生一檔案，該檔案包含含有用於在檔案300中之播放軌之後設資料的播放軌方塊306。用於播放軌之媒體資料包含一連串樣本305。該等樣本中之每一者可為多層視訊資料(例如，SHVC、MV-HEVC或3D-HEVC視訊資料)之視訊存取單元。此外，作為產生檔案300之部分，檔案產生裝置34可在檔案300中產生記載含有至少一個IRAP圖像之所有樣本305的額外方塊(亦即，樣本表方塊309)。換言之，額外方塊識別含有至少一個IRAP圖像之所有樣本305。在圖5A之實例中，額外方塊定義記載(例如，識別)含有至少一個IRAP圖像之所有樣本305之一樣本群組。換言之，該額外方塊指定含有至少一個IRAP圖像之樣本305屬於一樣本群組。

根據本發明之技術，SampleGroupDescription方塊312可包括oinf方塊316。oinf方塊可儲存用於視訊資料之每一操作點的表示格式資訊。表示格式資訊可包括空間解析度、位元深度或色彩格式中之一或多者。另外，oinf方塊可儲存指示視訊資料之操作點的必要層之數目的層計數。oinf方塊可另外儲存用於視訊資料之每一操作點的位元速率資訊。因此，歸因於在oinf方塊中用信號發送之位元速率資訊，可能不存在對於在組態方塊之後用信號發送位元速率方塊的需要。

另外，可能不存在對於在檔案格式之解碼器組態紀錄中儲存設定檔、階層及層級(PTL)資訊、表示格式資訊及圖框速率資訊的需要。在解碼器組態紀錄中之所有其他資訊可與播放軌中之視訊資料的所有層相關聯。視訊資料之每一層的解碼器組態紀錄可儲存表示格式資訊及圖框速率資訊。解碼器組態紀錄可儲存用於視訊資料之每一層的平行度資訊。檔案通常僅包括一播放軌之一個解碼器組態紀錄，但一播放軌可含有一或多個層及一或多個操作點。PTL資訊、表示格式資訊及圖框速率資訊可與每一層或每一OP相關聯。因此，不同於僅支援一個層之HEVC檔案格式，解碼器組態紀錄可能不能夠恰當地促進支援多個層之LHEVC檔案格式的此關聯。

解碼器組態紀錄可能不將操作點索引儲存於解碼器組態紀錄中，其中操作點索引係指操作點資訊方塊中記載的操作點之索引。將操作點索引儲存於解碼器組態紀錄中可引起播放播放軌(亦即，與解碼器組態紀錄相關聯)之裝置播放由彼操作點索引參考的操作點。然而，可能存在更多可用操作點。移除操作點索引可更好地使播放裝置能夠識別由檔案支援之所有操作點。解碼器組態紀錄可儲存與視訊資料之播放軌相關聯的操作點索引之清單。解碼器組態紀錄可(例如)自圖5A之樣本條目方塊311中之資訊導出。

解碼器組態紀錄儲存諸如用於每一樣本中以指示其所含有NAL單元之長度的長度欄位之大小以及參數集(若儲存於樣本條目中)的資訊。解碼器組態紀錄可(例如)係外部成框的(例如，其大小必須由含有其的結構供應)。解碼器組態紀錄亦可含有用以識別所遵循規格之版本的版本欄位，其中藉由版本編號之改變指示紀錄之不相容的改變。相比之下，此紀錄之相容擴展可不需要組態版本碼之改變。解碼器組態紀錄亦可包括諸如general_profile_space、general_tier_flag、general_profile_idc、general_profile_compatibility_flags、general_constraint_indicator_flags、general_level_idc、min_spatial_segmentation_idc、chroma_format_idc、bit_depth_luma_minus8及bit_depth_chroma_minus8的若干HEVC語法元素之值，該等語法元素在HEVC中定義。解碼器組態紀錄可含有與含有組態紀錄、時間子層之數目、片段資訊、所支援的平行度類型及參數集NAL單元(例如，VPS、SPS、PPS、SEI等)之播放軌相關聯的一般資訊。

此外，根據本發明之一或多種技術，樣本條目方塊311中之每一者可包括指示對應樣本中之所有經寫碼圖像是否為IRAP圖像的值(例如，all_pics_are_IRAP)。在一些實例中，該值等於1指定該樣本中並非所有經寫碼圖像皆為IRAP圖像。該值等於0指定不需要樣本群組中之每一樣本中的每一經寫碼圖像為IRAP圖像。

在一些實例中，當特定樣本中之並非所有經寫碼圖像皆為IRAP圖像時，檔案產生裝置34可在用於該特定樣本之樣本條目方塊311中之一者中包括指示該特定樣本中之IRAP圖像之數目的值(例如，num_IRAP_pics)。另外，檔案產生裝置34可在用於該特定樣本之樣本條目中包括指示該特定樣本中之IRAP圖像之層識別符的值。檔案產生裝置34亦可在用於該特定樣本之樣本條目中包括指示該特定樣本之IRAP圖像中的VCL NAL單元之NAL單元類型的值。

此外，在圖5A之實例中，樣本表方塊309包括子樣本資訊方塊314。儘管圖5A之實例僅展示一個子樣本資訊方塊，但樣本表方塊309可包括多個子樣本資訊方塊。一般而言，子樣本資訊方塊經設計以含有子樣本資訊。子樣本為樣本之一系列鄰接位元組。ISO/IEC 14496-12指示應針對給定寫碼系統(諸如，H.264/AVC或HEVC)供應子樣本之特定定義。

ISO/IEC 14496-15之第8.4.8章指定用於HEVC的子樣本之定義。特定言之，ISO/IEC 14496-15之第8.4.8章指定對於子樣本資訊方塊(ISO/IEC 14496-12之8.7.7)在HEVC串流中之使用，基於子樣本資訊方塊之旗標欄位的值而定義子樣本。根據本發明之一或多種技術，若子樣本資訊方塊314中之旗標欄位等於5，則對應於子樣本資訊方塊314之子樣本含有一個經寫碼圖像及相關聯之非VCL NAL單元。相關聯之非VCL NAL單元可包括含有適用於經寫碼圖像之SEI訊息的NAL單元及含有適用於經寫碼圖像之參數集(例如，VPS、SPS、PPS等)的NAL單元。

因此，在一個實例中，檔案產生裝置34可產生檔案(例如，檔案 300)，該檔案包含含有用於檔案中之播放軌之後設資料的播放軌方塊(例如，播放軌方塊306)。在此實例中，用於播放軌之媒體資料包含一連串樣本，該等樣本中之每一者為多層視訊資料(例如，SHVC、MV-HEVC或3D-HEVC視訊資料)之視訊存取單元。此外，在此實例中，作為檔案產生裝置34產生檔案之部分，檔案產生裝置34可在檔案中產生子樣本資訊方塊(例如，子樣本資訊方塊314)，該子樣本資訊方塊含有指定在該子樣本資訊方塊中給出之子樣本資訊之類型的旗標。當旗標具有特定值時，對應於子樣本資訊方塊之子樣本含有正好一個經寫碼圖像及與該經寫碼圖像相關聯之零個或多個非VCL NAL單元。

此外，根據本發明之一或多種技術，若子樣本資訊方塊314之旗標欄位等於0，則子樣本資訊方塊314進一步包括DiscardableFlag值、NoInterLayerPredFlag值、LayerId值及TempId值。若子樣本資訊方塊314之旗標欄位等於5，則子樣本資訊方塊314可包括DiscardableFlag值、VclNalUnitType值、LayerId值、TempId值、NoInterLayerPredFlag值、SubLayerRefNalUnitFlag值及保留值。

SubLayerRefNalUnitFlag等於0指示子樣本中之所有NAL單元為子層非參考圖像之VCL NAL單元，如在ISO/IEC 23008-2(亦即，HEVC)中所指定。SubLayerRefNalUnitFlag等於1指示子樣本中之所有NAL單元為子層參考圖像之VCL NAL單元，如在ISO/IEC 23008-2(亦即，HEVC)中所指定。因此，當檔案產生裝置34產生子樣本資訊方塊314且旗標具有特定值(例如，5)時，檔案產生裝置34在子樣本資訊方塊314中包括指示子樣本中之所有NAL單元是否為子層非參考圖像之VCL NAL單元的額外旗標。

DiscardableFlag值指示子樣本中之VCL NAL單元之discardable_flag值的值。如在ISO/IEC 14496-15之第A.4章中所指定，在且僅在所有提取之或聚集之NAL單元具有設定至1之discardable_flag的情況下，應將discardable_flag值設定至1，且否則，將其設定至0。若含有NAL單元之位元串流可在無NAL單元之情況下正確地解碼，則NAL單元可具有設定至1之discardable_flag。因此，若含有NAL單元之位元串流可在無NAL單元之情況下正確地解碼，則NAL單元可為「可捨棄的」。子樣本中之所有VCL NAL單元應具有相同discardable_flag值。因此，當檔案產生裝置34產生子樣本資訊方塊314且旗標具有特定值(例如，5)時，檔案產生裝置34在子樣本資訊方塊314中包括指示子樣本之所有VCL NAL單元是否可捨棄之額外旗標(例如，discardable_flag)。

NoInterLayerPredFlag值指示子樣本中之VCL NAL單元之inter_layer_pred_enabled_flag的值。在且僅在所有提取之或聚集之VCL NAL單元具有設定至1之inter_layer_pred_enabled_flag的情況下，應將inter_layer_pred_enabled_flag設定至1，且否則，將其設定至0。子樣本中之所有VCL NAL單元應具有相同inter_layer_pred_enabled_flag值。因此，當檔案產生裝置34產生子樣本資訊方塊314且旗標具有特定值(例如，5)時，檔案產生裝置34在子樣本資訊方塊314中包括指示是否針對子樣本之所有VCL NAL單元啟用層間預測之額外值(例如，inter_layer_pred_enabled_flag)。

LayerId指示子樣本中之NAL單元的nuh_layer_id值。子樣本中之所有NAL單元應具有相同nuh_layer_id值。因此，當檔案產生裝置34產生子樣本資訊方塊314且旗標具有特定值(例如，5)時，檔案產生裝置34在子樣本資訊方塊314中包括指示子樣本之每一NAL單元之層識別符的額外值(例如，LayerId)。

TempId指示子樣本中之NAL單元的TemporalId值。子樣本中之所有NAL單元應具有相同TemporalId值。因此，當檔案產生裝置34產生子樣本資訊方塊314且旗標具有特定值(例如，5)時，檔案產生裝置34在子樣本資訊方塊314中包括指示子樣本之每一NAL單元之時間識別符的額外值(例如，TempId)。

VclNalUnitType指示子樣本中的VCL NAL單元之nal_unit_type語法元素。nal_unit_type語法元素為NAL單元之NAL單元標頭中的語法元素。nal_unit_type語法元素指定NAL單元中所含的RBSP之類型。子樣本中之所有nal_unit_type VCL NAL單元應具有相同nal_unit_type值。因此，當檔案產生裝置34產生子樣本資訊方塊314且旗標具有特定值(例如，5)時，檔案產生裝置34在子樣本資訊方塊314中包括指示子樣本之VCL NAL單元之NAL單元類型的額外值(例如，VclNalUnitType)。子樣本之所有VCL NAL單元具有相同NAL單元類型。

圖5B為說明根據本發明之一或多種技術的檔案300之替代實例結構的概念圖。在圖5B之實例中，oinf方塊316作為與樣本表方塊309分離之方塊包括於媒體資訊方塊308中，而非如圖5A中所展示，oinf方塊316包括於樣本群組描述方塊312中。圖5B中之各種方塊的內容及功能另外可與關於圖5A描述的相同。

圖6為說明根據本發明之一或多種技術的檔案300之實例結構之概念圖。如在ISO/IEC 14496-15之第8.4.9章中所指定，HEVC允許檔案格式樣本僅用於參考且不用於輸出。舉例而言，HEVC允許非顯示參考圖像在視訊中。

此外，ISO/IEC 14496-15之第8.4.9章指定當任何此非輸出樣本存在於播放軌中時，應如下約束檔案。

1. 非輸出樣本應被給予在輸出的樣本之時間範圍外之組成時間。

2. 應使用不包括非輸出樣本之組成時間的編輯清單。

3. 當播放軌包括CompositionOffsetBox(‘ctts’)時，a. 應使用CompositionOffsetBox之版本1，b. sample_offset之值應針對每一非輸出樣本而設定為等於-2³¹，c. CompositionToDecodeBox(‘cslg’)應含於播放軌之SampleTableBox(‘stbl’)中，且d. 當對於播放軌存在CompositionToDecodeBox時，方塊中之leastDecodeToDisplayDelta欄位之值應等於CompositionOffsetBox中的最小組成偏移而不包括非輸出樣本之sample_offset值。

注意：因此，leastDecodeToDisplayDelta大於-2³¹。

如在ISO/IEC 14496-12中所指定，CompositionOffsetBox提供解碼時間與組成時間之間的偏移。CompositionOffsetBox包括sample_offset值之集合。sample_offset值中之每一者為給出組成時間與解碼時間之間的偏移之非負整數。組成時間指將輸出樣本所在之時間。解碼時間指將解碼樣本所在之時間。

如上文所指示，經寫碼圖塊NAL單元可包括圖塊片段標頭。圖塊片段標頭可為經寫碼圖塊片段之部分，且可含有關於圖塊片段中之第一或所有CTU之資料元素。在HEVC中，圖塊片段標頭包括pic_output_flag語法元素。一般而言，pic_output_flag語法元素包括於圖像之圖塊的第一圖塊片段標頭中。因此，本發明可將圖像之圖塊的第一圖塊片段標頭之pic_output_flag稱作圖像之pic_output_flag。

如在HEVC WD之第7.4.7.1章中所指定，pic_output_flag語法元素影響經解碼圖像輸出及移除程序，如在HEVC WD之附錄C中所指定。一般而言，若用於圖塊片段的圖塊片段標頭之pic_output_flag語法元素為1，則輸出包括對應於該圖塊片段標頭之圖塊的圖像。否則，若用於圖塊片段的圖塊片段標頭之pic_output_flag語法元素為0，則可解碼包括對應於該圖塊片段標頭之圖塊的圖像以供用作參考圖像，但不輸出該圖像。

根據本發明之一或多種技術，在ISO/IEC 14496-15之第8.4.9章中對HEVC的參考可由對應的對SHVC、MV-HEVC或3D-HEVC的參考替換。此外，根據本發明之一或多種技術，當存取單元含有具有等於1之pic_output_flag的一些經寫碼圖像及具有等於0之pic_output_flag的一些其他經寫碼圖像時，必須使用至少兩個播放軌來儲存串流。對於該等播放軌中之每一各別者，各別播放軌之每一樣本中的所有經寫碼圖像具有相同pic_output_flag值。因此，播放軌中之第一者中的所有經寫碼圖像具有等於0之pic_output_flag，且播放軌中之第二者中的所有經寫碼圖像具有等於1之pic_output_flag。

因此，在圖6之實例中，檔案產生裝置34可產生檔案400。類似於在圖5A之實例中的檔案300，檔案400包括一電影方塊402及一或多個媒體資料方塊404。媒體資料方塊404中之每一者可對應於檔案400之不同播放軌。電影方塊402可含有用於檔案400之播放軌的後設資料。檔案400之每一播放軌可包含媒體資料之連續串流。媒體資料方塊404中之每一者可包括一或多個樣本405。樣本405中之每一者可包含音訊或視訊存取單元。

如上文所指示，在一些實例中，當存取單元含有具有等於1之pic_output_flag的一些經寫碼圖像及具有等於0之pic_output_flag的一些其他經寫碼圖像時，必須使用至少兩個播放軌來儲存串流。因此，在圖6之實例中，電影方塊402包括播放軌方塊406及播放軌方塊408。播放軌方塊406及408中之每一者圍封用於檔案400之不同播放軌的後設資料。舉例而言，播放軌方塊406可圍封用於具有具等於0之pic_output_flag的經寫碼圖像且不具有具等於1之pic_output_flag的圖像的播放軌之後設資料。播放軌方塊408可圍封用於具有具等於1之pic_output_flag的經寫碼圖像且不具有具等於0之pic_output_flag的圖像的播放軌之後設資料。

因此，在一個實例中，檔案產生裝置34可產生包含圍封(例如，包含)媒體內容之媒體資料方塊(例如，媒體資料方塊404)的檔案(例如，檔案400)。媒體內容包含一連串樣本(例如，樣本405)。樣本中之每一者可為多層視訊資料之存取單元。在此實例中，當檔案產生裝置34回應於位元串流之至少一個存取單元包括具有等於1之圖像輸出旗標的經寫碼圖像及具有等於0之圖像輸出旗標的經寫碼圖像的判定而產生檔案時，檔案產生裝置34可使用至少兩個播放軌將位元串流儲存在檔案中。對於來自至少兩個播放軌之每一各別播放軌，各別播放軌之每一樣本中的所有經寫碼圖像具有相同之圖像輸出旗標值。允許輸出具有等於1之圖像輸出旗標的圖像，且允許將具有等於0之圖像輸出旗標的圖像用作參考圖像，但不允許將其輸出。

圖7為說明根據本發明之一或多種技術的檔案產生裝置34之實例操作之流程圖。圖7之操作連同本發明之其他流程圖中所說明的操作為實例。根據本發明之技術的其他實例操作可包括更多、更少或不同動作。

在圖7之實例中，檔案產生裝置34產生檔案。作為產生檔案之部分，檔案產生裝置34獲得多層視訊資料(170)且以檔案格式儲存多層視訊資料(172)。檔案產生裝置34在檔案格式之oinf方塊中儲存用於多層視訊資料之每一操作點的表示格式資訊(174)。檔案產生裝置34產生根據檔案格式而格式化的視訊資料之檔案(176)。表示格式資訊可包括空間解析度、位元深度或色彩格式中之一或多者。檔案產生裝置34可另外或替代地在檔案格式之oinf方塊中儲存用於多層視訊資料之每一操作點的位元速率資訊及/或可不在檔案格式之組態方塊之後用信號發送位元速率方塊。檔案產生裝置34可另外或替代地不在檔案格式之解碼器組態紀錄中儲存設定檔、階層及層級(PTL)資訊、表示格式資訊及圖框速率資訊，且使解碼器組態紀錄中之所有其他資訊與播放軌中之多層視訊資料的所有層相關聯。檔案產生裝置34可另外或替代地在檔案格式之oinf方塊中儲存層計數，其中層計數指示多層視訊資料之操作點的必要層之數目。

oinf方塊可包括於媒體資訊方塊中，且oinf方塊可包括於樣本群組描述方塊中。樣本群組描述方塊可包括於樣本表方塊中，且樣本表方塊可包括於媒體資訊方塊中。

檔案產生裝置34可在多層視訊資料之每一層的解碼器組態紀錄中儲存表示格式資訊及圖框速率資訊。檔案產生裝置34可另外或替代地在多層視訊資料之每一層的解碼器組態紀錄中儲存平行度資訊。檔案產生裝置34可不在檔案格式之解碼器組態紀錄中儲存操作點索引。檔案產生裝置34可另外或替代地在檔案格式之解碼器組態紀錄中儲存與多層視訊資料之播放軌相關聯的操作點索引之清單。

圖8為說明檔案讀取裝置(諸如，目的地裝置14、後處理實體27或網路實體29)之實例操作的流程圖。圖8之操作連同本發明之其他流程圖中所說明的操為實例。根據本發明之技術的其他實例操作可包括更多、更少或不同動作。

在圖8之實例中，檔案讀取裝置獲得根據檔案格式而格式化的多層視訊資料之檔案(180)。檔案讀取裝置針對檔案格式判定檔案格式之oinf方塊中的用於多層視訊資料之每一操作點的表示格式資訊(182)。檔案讀取裝置可能結合諸如視訊解碼器30之視訊解碼器基於所判定之表示格式資訊而解碼多層視訊資料(184)。

在一或多個實例中，所描述功能可以硬體、軟體、韌體或其任何組合來實施。若以軟體實施，則該等功能可作為一或多個指令或程式碼而在電腦可讀媒體上儲存或經由電腦可讀媒體傳輸，且由基於硬體之處理單元執行。電腦可讀媒體可包括電腦可讀儲存媒體(其對應於諸如資料儲存媒體之有形媒體)或通信媒體，通信媒體包括(例如)根據通信協定促進電腦程式自一處傳送至另一處的任何媒體。以此方式，電腦可讀媒體大體可對應於(1)為非暫時性的有形電腦可讀儲存媒體，或(2)通信媒體，諸如信號或載波。資料儲存媒體可為可由一或多個電腦或一或多個處理器存取以擷取用於實施本發明中所描述之技術的指令、碼及/或資料結構的任何可用媒體。電腦程式產品可包括電腦可讀媒體。

藉由實例而非限制，此類電腦可讀儲存媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器、磁碟儲存器或其他磁性儲存裝置、快閃記憶體或可用於儲存呈指令或資料結構形式之所要程式碼且可由電腦存取的任何其他媒體。又，將任何連接適當地稱為電腦可讀媒體。舉例而言，若使用同軸纜線、光纖纜線、雙絞線、數位用戶線(DSL)或無線技術(諸如，紅外線、無線電及微波)自網站、伺服器或其他遠端源傳輸指令，則同軸纜線、光纖纜線、雙絞線、DSL或無線技術(諸如，紅外線、無線電及微波)包括於媒體之定義中。然而，應理解，電腦可讀儲存媒體及資料儲存媒體不包括連接、載波、信號或其他暫時性媒體，而是有關非暫時性有形儲存媒體。如本文中所使用，磁碟及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位多功能光碟(DVD)、軟性磁碟及藍光(Blu-ray)光碟，其中磁碟通常以磁性方式再現資料，而光碟用雷射以光學方式再現資料。以上各者之組合亦應包括於電腦可讀媒體之範疇內。

可由諸如一或多個數位信號處理器(DSP)、一般用途微處理器、特殊應用積體電路(ASIC)、場可程式化邏輯陣列(FPGA)或其他等效積體或離散邏輯電路之一或多個處理器來執行指令。因此，如本文中所使用之術語「處理器」可指上述結構或適合於實施本文中所描述之技術的任何其他結構中之任一者。此外，在一些態樣中，本文中所描述之功能性可提供於經組態用於編碼及解碼之專用硬體及/或軟體模組內，或併入組合式編碼解碼器中。此外，該等技術可完全實施於一或多個電路或邏輯元件中。

本發明之技術可在廣泛多種裝置或設備中實施，該等裝置或設備包括無線手機、積體電路(IC)或IC之集合(例如，晶片集合)。本發明中描述各種組件、模組或單元以強調經組態以執行所揭示技術之裝置的功能態樣，但未必要求由不同硬體單元來實現。確切而言，如上文所描述，可將各種單元組合於編碼解碼器硬體單元中，或藉由互操作性硬體單元(包括如上文所描述之一或多個處理器)之集合結合合適軟體及/或韌體來提供該等單元。

已描述各種實例。此等及其他實例處於以下申請專利範圍之範疇內。

Claims

一種處理多層視訊資料之方法，該方法包含：獲得包含多於一個操作點之多層視訊資料；以一檔案格式儲存該多層視訊資料，其中該檔案格式包括一操作點資訊(oinf)方塊，該oinf方塊識別包括於該多層視訊資料中之該等操作點；在該oinf方塊中儲存用於該多層視訊資料之每一操作點的表示格式資訊，其中該表示格式資訊包含一空間解析度、一位元深度或一色彩格式中之一或多者；及產生根據該檔案格式而格式化的視訊資料之一檔案。
如請求項1之方法，其進一步包含：在該檔案格式之該oinf方塊中儲存用於該多層視訊資料之每一操作點的位元速率資訊；及不在該檔案格式之一組態方塊之後用信號發送一位元速率方塊。
如請求項1之方法，其進一步包含：不在該檔案格式之一解碼器組態紀錄中儲存設定檔、階層及層級(PTL)資訊、表示格式資訊及圖框速率資訊；及使該解碼器組態紀錄中之所有資訊與一播放軌中的該多層視訊資料之所有層相關聯。
如請求項1之方法，其進一步包含：在用於該多層視訊資料之每一層的一解碼器組態紀錄中儲存表示格式資訊及圖框速率資訊。
如請求項4之方法，其進一步包含：在用於該多層視訊資料之每一層的該解碼器組態紀錄中儲存平行度資訊。
如請求項1之方法，其進一步包含：不在該檔案格式之一解碼器組態紀錄中儲存一操作點索引。
如請求項1之方法，其進一步包含：在該檔案格式之一解碼器組態紀錄中儲存與該多層視訊資料之一播放軌相關聯的多個操作點索引之一清單。
如請求項1之方法，其進一步包含：在該檔案格式之該oinf方塊中儲存一層計數，其中該層計數指示該多層視訊資料之一操作點的多個必要層之一數目。
如請求項1之方法，其中該oinf方塊包括於一媒體資訊方塊中。
如請求項9之方法，其中該oinf方塊進一步包括於一樣本群組描述方塊中，其中該樣本群組描述方塊包括於一樣本表方塊中，且其中該樣本表方塊包括於該媒體資訊方塊中。
如請求項1之方法，其中該多層視訊資料之每一操作點分別包含一位元串流，該位元串流係藉由利用另一位元串流之一子位元串流提取程序的操作而自該另一位元串流產生。
一種用於處理多層視訊資料之視訊裝置，該裝置包含：一資料儲存媒體，其經組態以儲存該多層視訊資料；及一或多個處理器，其經組態以進行以下操作：獲得包含多於一個操作點之多層視訊資料；以一檔案格式儲存該多層視訊資料，其中該檔案格式包括一操作點資訊(oinf)方塊，該oinf方塊識別包括於該多層視訊資料中之該等操作點；在該oinf方塊中儲存用於該多層視訊資料之每一操作點的表示格式資訊，其中該表示格式資訊包含一空間解析度、一位元深度或一色彩格式中之一或多者；及產生根據該檔案格式而格式化的視訊資料之一檔案。
如請求項12之裝置，其中該一或多個處理器經進一步組態以：在該檔案格式之該oinf方塊中儲存用於該多層視訊資料之每一操作點的位元速率資訊；及不在該檔案格式之一組態方塊之後用信號發送一位元速率方塊。
如請求項12之裝置，其中該一或多個處理器經進一步組態以：不在該檔案格式之一解碼器組態紀錄中儲存設定檔、階層及層級(PTL)資訊、表示格式資訊及圖框速率資訊；及使該解碼器組態紀錄中之所有資訊與一播放軌中的該多層視訊資料之所有層相關聯。
如請求項12之裝置，其中該一或多個處理器經進一步組態以：在用於該多層視訊資料之每一層的一解碼器組態紀錄中儲存表示格式資訊及圖框速率資訊。
如請求項15之裝置，其中該一或多個處理器經進一步組態以：在用於該多層視訊資料之每一層的該解碼器組態紀錄中儲存平行度資訊。
如請求項12之裝置，其中該一或多個處理器經進一步組態以：不在該檔案格式之一解碼器組態紀錄中儲存一操作點索引。
如請求項12之裝置，其中該一或多個處理器經進一步組態以：在該檔案格式之一解碼器組態紀錄中儲存與該多層視訊資料之一播放軌相關聯的多個操作點索引之一清單。
如請求項12之裝置，其中該一或多個處理器經進一步組態以：在該檔案格式之該oinf方塊中儲存一層計數，其中該層計數指示該多層視訊資料之一操作點的多個必要層之一數目。
如請求項12之裝置，其中該oinf方塊包括於一媒體資訊方塊中。
如請求項20之裝置，其中該oinf方塊進一步包括於一樣本群組描述方塊中，其中該樣本群組描述方塊包括於一樣本表方塊中，且其中該樣本表方塊包括於該媒體資訊方塊中。
如請求項12之裝置，其中該多層視訊資料之每一操作點分別包含一位元串流，該位元串流係藉由利用另一位元串流之一子位元串流提取程序的操作而自該另一位元串流產生。
一種用於處理多層視訊資料之視訊裝置，該裝置包含：用於獲得包含多於一個操作點之多層視訊資料的構件；用於以一檔案格式儲存該多層視訊資料的構件，其中該檔案格式包括一操作點資訊(oinf)方塊，該oinf方塊識別包括於該多層視訊資料中之該等操作點；用於在該oinf方塊中儲存用於該多層視訊資料之每一操作點的表示格式資訊的構件，其中該表示格式資訊包含一空間解析度、一位元深度或一色彩格式中之一或多者；及用於產生根據該檔案格式而格式化的視訊資料之一檔案的構件。
如請求項23之裝置，其中該oinf方塊包括於一媒體資訊方塊中。
如請求項24之裝置，其中該oinf方塊進一步包括於一樣本群組描述方塊中，其中該樣本群組描述方塊包括於一樣本表方塊中，且其中該樣本表方塊包括於該媒體資訊方塊中。
一種儲存多個指令的非暫時性電腦可讀儲存媒體，該等指令在經執行時使一或多個處理器：獲得包含多於一個操作點之多層視訊資料；以一檔案格式儲存該多層視訊資料，其中該檔案格式包括一操作點資訊(oinf)方塊，該oinf方塊識別包括於該多層視訊資料中之該等操作點；在該oinf方塊中儲存用於該多層視訊資料之每一操作點的表示格式資訊，其中該表示格式資訊包含一空間解析度、一位元深度或一色彩格式中之一或多者；及產生根據該檔案格式而格式化的視訊資料之一檔案。
如請求項26之非暫時性電腦可讀儲存媒體，其中該oinf方塊包括於一媒體資訊方塊中。
如請求項27之非暫時性電腦可讀儲存媒體，其中該oinf方塊進一步包括於一樣本群組描述方塊中，其中該樣本群組描述方塊包括於一樣本表方塊中，且其中該樣本表方塊包括於該媒體資訊方塊中。