TW201838419A - 包含用於視頻寫碼之子圖像位元流之視頻內容之信令傳輸 - Google Patents

包含用於視頻寫碼之子圖像位元流之視頻內容之信令傳輸 Download PDF

Info

Publication number
TW201838419A
TW201838419A TW107109900A TW107109900A TW201838419A TW 201838419 A TW201838419 A TW 201838419A TW 107109900 A TW107109900 A TW 107109900A TW 107109900 A TW107109900 A TW 107109900A TW 201838419 A TW201838419 A TW 201838419A
Authority
TW
Taiwan
Prior art keywords
sub
track
image
video
box
Prior art date
Application number
TW107109900A
Other languages
English (en)
Inventor
益魁 王
Original Assignee
美商高通公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商高通公司 filed Critical 美商高通公司
Publication of TW201838419A publication Critical patent/TW201838419A/zh

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/30Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on the same track as the main recording
    • G11B27/3027Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on the same track as the main recording used signal is digitally coded
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • H04N21/2353Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2365Multiplexing of several video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4347Demultiplexing of several video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4348Demultiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Library & Information Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Display Devices Of Pinball Game Machines (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

在各種實施中,提供對ISOBMFF之修改及/或添加以處理視訊資料。自記憶體獲得複數個子圖像位元流,每一子圖像位元流包含該視訊資料之一空間部分且每一子圖像位元流獨立地經寫碼。在至少一個檔案中,分別儲存該複數個子圖像位元流作為複數個子圖像播放軌。將描述該複數個子圖像播放軌之後設資料儲存於根據一檔案格式之一媒體檔案內之一播放軌邏輯框中。提供包含描述該複數個子圖像播放軌之該後設資料的一子圖像基本播放軌。

Description

包含用於視訊寫碼之子圖像位元流之視訊內容之信令傳輸
本申請案係關於可用於視訊寫碼之與一或多種媒體檔案格式有關的視訊內容之信令傳輸,該一或多種媒體檔案格式諸如ISO基本媒體檔案格式(ISOBMFF)及/或自ISOBMFF導出之檔案格式。舉例而言,本申請案係關於用於同虛擬實境(VR)一起使用之與一或多種媒體檔案格式有關的視訊內容之信令傳輸。作為另一實例,本申請案係關於用於與一或多種媒體檔案格式有關的視訊內容之信令傳輸的方法、裝置及系統,該視訊內容包含用於與視訊寫碼一起使用之子圖像位元流。
視訊寫碼標準包含ITU-T H.261;ISO/IEC MPEG-1 Visual;ITU-T H.262或ISO/IEC MPEG-2 Visual;ITU-T H.263;ISO/IEC MPEG-4 Visual;ITU-T H.264或ISO/IEC MPEG-4 AVC,包含其被稱為可調式視訊寫碼(SVC)之可調式視訊寫碼擴展及其多視圖視訊寫碼擴展即多視圖視訊寫碼(MVC)擴展;及亦被稱為ITU-T H.265及ISO/23008-2的高效視訊寫碼(HEVC),包含其可調式寫碼擴展(亦即,可調式高效視訊寫碼SHVC)及多視圖擴展(亦即,多視圖高效視訊寫碼MV-HEVC)。
描述了用於對包含儲存於複數個子圖像播放軌中之複數個子圖像位元流之視訊進行信令傳輸的技術。更特定言之,描述了用於信令傳輸途徑之技術,該等信令傳輸途徑能夠對子圖像播放軌、全圖像之空間解析度以及整個視訊內容之計時後設資料之間的關係進行信令傳輸。 在一些實例中,描述了對單獨及獨立的子圖像位元流進行編碼及解碼之技術。獨立的子圖像位元流可應用於例如常規二維(2D)環境以及虛擬實境(VR)環境。VR為使用者提供該使用者存在於非實體世界中之感知,該非實體世界係藉由呈現經由使得使用者能夠與彼世界交互之移動而相關的自然及/或合成影像及聲音而建立。 在一些實例中,上文所描述之方法、設備及電腦可讀媒體進一步包括自記憶體獲得複數個子圖像位元流,每一子圖像位元流包含視訊資料之一空間部分且每一子圖像位元流獨立地經寫碼。在一些實例中,在至少一個檔案中分別儲存該複數個子圖像位元流作為複數個子圖像播放軌,且在根據一檔案格式之媒體檔案內之播放軌邏輯框中儲存描述與該複數個子圖像播放軌相關聯之參數的後設資料。 在一些實例中,上文所描述之方法、設備及電腦可讀媒體進一步包含儲存與該複數個子圖像播放軌相關聯之一子圖像基本播放軌。 在一些實例中,該等參數包含以下各者中之一或多者:虛擬實境資料包含2維視訊資料抑或3維視訊資料之指示、該視訊資料為預拼接視訊資料或後拼接視訊資料之指示,或該視訊資料之映射類型。在一些實例中,該等參數儲存於方案資訊邏輯框中之檔案中。 在一些實例中,檔案格式係基於國際標準組織(ISO)基本媒體檔案格式。 根據一實例,一種處理視訊資料之方法包含:自記憶體獲得複數個子圖像位元流,每一子圖像位元流包含該視訊資料之一空間部分且每一子圖像位元流獨立地經寫碼;在至少一個檔案中分別儲存該複數個子圖像位元流作為複數個子圖像播放軌;以及在根據一檔案格式之媒體檔案內之播放軌邏輯框中儲存描述該複數個子圖像播放軌之後設資料。該媒體檔案視情況可包含至少一個檔案。同樣地,該方法可視情況包含儲存與該複數個子圖像播放軌相關聯之子圖像基本播放軌,以及基於播放軌邏輯框之樣本描述邏輯框內之樣本項類型來指示子圖像基本播放軌。根據一實例,子圖像基本播放軌視情況包含描述該複數個子圖像播放軌之後設資料。同樣地,後設資料可視情況包含與該複數個子圖像播放軌之一集合相關聯的完整圖像之空間解析度。檔案格式視情況可係基於國際標準組織(ISO)基本媒體檔案格式及/或藉由ISO/IEC 14496-12第12部分識別之ISO基本媒體檔案格式之條款8.3.4中所闡述的TrackGroupTypeBox之後向相容擴展。 根據另一實例,一種處理視訊資料之方法包含:自記憶體獲得複數個子圖像位元流,每一子圖像位元流包含該視訊資料之一空間部分且每一子圖像位元流獨立地經寫碼;在至少一個檔案中分別儲存該複數個子圖像位元流作為複數個子圖像播放軌;以及在根據一檔案格式之媒體檔案內之播放軌邏輯框中儲存描述該複數個子圖像播放軌之後設資料。該方法可視情況包含在播放軌邏輯框內將播放軌群組類型儲存為指示與該播放軌邏輯框相關聯之播放軌係子圖像播放軌群組中之一者的值,該子圖像播放軌群組表示該視訊資料之單一表示。該方法亦可視情況包含在播放軌邏輯框內儲存指定播放軌分組類型之播放軌群組類型邏輯框。檔案格式視情況可係基於國際標準組織(ISO)基本媒體檔案格式及/或藉由ISO/IEC 14496-12第12部分識別之ISO基本媒體檔案格式之條款8.3.4中所闡述的TrackGroupTypeBox之後向相容擴展。 根據另一實例,一種處理視訊資料之方法包含:自記憶體獲得複數個子圖像位元流,每一子圖像位元流包含該視訊資料之一空間部分且每一子圖像位元流獨立地經寫碼;在至少一個檔案中分別儲存該複數個子圖像位元流作為複數個子圖像播放軌;以及在根據一檔案格式之媒體檔案內之播放軌邏輯框中儲存描述該複數個子圖像播放軌之後設資料。該方法可視情況包含在播放軌邏輯框內儲存指定播放軌分組類型之播放軌群組類型邏輯框。同樣地,播放軌分組類型可視情況指示額外資訊可供添加至播放軌邏輯框。此外,當該播放軌分組類型指示額外資訊可供添加至播放軌邏輯框時,該方法可視情況包含在該播放軌邏輯框內儲存該播放軌中之子圖像的子圖像列索引資訊及子圖像行索引資訊。 根據另一實例,一種處理視訊資料之方法包含:自記憶體獲得複數個子圖像位元流,每一子圖像位元流包含該視訊資料之一空間部分且每一子圖像位元流獨立地經寫碼;在至少一個檔案中分別儲存該複數個子圖像位元流作為複數個子圖像播放軌;以及在根據一檔案格式之媒體檔案內之播放軌邏輯框中儲存描述該複數個子圖像播放軌之後設資料。在子圖像位元流內經編碼之子圖像可視情況以子圖像列及子圖像行之方式定義。在子圖像位元流內經編碼之子圖像可視情況可分組為影像塊,使得該等影像塊為經定義影像塊列及影像塊行。 根據另一實例,一種處理視訊資料之方法包含:自記憶體獲得複數個子圖像位元流,每一子圖像位元流包含該視訊資料之一空間部分且每一子圖像位元流獨立地經寫碼;在至少一個檔案中分別儲存該複數個子圖像位元流作為複數個子圖像播放軌;以及在根據一檔案格式之媒體檔案內之播放軌邏輯框中儲存描述該複數個子圖像播放軌之後設資料。當播放軌分組類型指示額外資訊可供添加至播放軌邏輯框時,該方法可視情況在該播放軌邏輯框內儲存對應於該播放軌中之子圖像之左上角像素的座標。當播放軌分組類型指示額外資訊可供添加至播放軌邏輯框時,該方法可視情況在該播放軌邏輯框內儲存表示完整圖像之大小的資訊。 根據一實例,提供一種用於解碼視訊資料之裝置,該裝置包含:記憶體,其經組態以儲存至少一個檔案及媒體檔案,該媒體檔案根據一檔案格式經格式化且該至少一個檔案包含複數個子圖像播放軌;以及處理器,其與該記憶體通信,該處理器經組態以:處理該媒體檔案;以及自媒體檔案內之播放軌邏輯框獲得描述包含於該至少一個檔案內之該複數個子圖像播放軌之後設資料。根據一相關實例,該裝置可經操作以執行上文所闡述之例示性方法操作中之類似操作。該裝置可視情況為無線通信裝置,且進一步包含經組態以傳輸複數個子圖像位元流之傳輸器。該裝置可視情況為蜂巢式電話,且該複數個子圖像位元流可視情況根據蜂巢式通信標準調變以供傳輸。 根據另一實例,提供一種用於處理視訊資料之裝置,該裝置包含:記憶體,其經組態以儲存複數個子圖像位元流,每一子圖像位元流包含該視訊資料之一空間部分且每一子圖像位元流獨立地經寫碼;以及處理器,其與該記憶體通信,該處理器經組態以:自記憶體獲得複數個子圖像位元流;在至少一個檔案中分別儲存該複數個子圖像位元流作為複數個子圖像播放軌;以及在根據一檔案格式之媒體檔案內之播放軌邏輯框中儲存描述該複數個子圖像播放軌之後設資料。根據一相關實例,該裝置可經操作以執行上文所闡述之例示性方法操作中之類似操作。 根據一相關實例,提供一種裝置,其包含:用於自記憶體獲得複數個子圖像位元流之裝置,每一子圖像位元流包含該視訊資料之一空間部分且每一子圖像位元流獨立地經寫碼;用於在至少一個檔案中分別儲存該複數個子圖像位元流作為複數個子圖像播放軌之構件;以及用於在根據一檔案格式之媒體檔案內之播放軌邏輯框中儲存描述該複數個子圖像播放軌之後設資料的構件。該裝置可規定該媒體檔案包含該至少一個檔案。該裝置可視情況提供用於儲存與該複數個子圖像播放軌相關聯之子圖像基本播放軌的構件,或用於基於播放軌邏輯框之樣本描述邏輯框內之樣本項類型來指示子圖像基本播放軌的構件。該裝置可視情況規定子圖像基本播放軌包含描述該複數個子圖像播放軌之後設資料,或該裝置可視情況規定後設資料包含與該複數個子圖像播放軌之一集合相關聯的完整圖像之空間解析度。同樣地,該裝置可提供基於國際標準組織(ISO)基本媒體檔案格式之檔案格式。此外,該裝置可視情況提供用於在播放軌邏輯框內將播放軌群組類型儲存為指示與該播放軌邏輯框相關聯之播放軌係子圖像播放軌群組中之一者的值的構件,該子圖像播放軌群組表示該視訊資料之單一表示。播放軌群組類型視情況可為藉由ISO/IEC 14496-12第12部分識別之ISO基本媒體檔案格式之條款8.3.4中所闡述的TrackGroupTypeBox之後向相容擴展。 根據一相關實例,該裝置可視情況提供用於在播放軌邏輯框內儲存指定播放軌分組類型之播放軌群組類型邏輯框的構件。播放軌分組類型可視情況指示額外資訊可供添加至播放軌邏輯框。此外,播放軌分組類型可視情況指示額外資訊可供添加至播放軌邏輯框,在該播放軌邏輯框內儲存該播放軌中之子圖像的子圖像列索引資訊及子圖像行索引資訊,或指示在子圖像位元流內經編碼之子圖像以子圖像列及子圖像行之方式定義。在子圖像位元流內經編碼之子圖像視情況可分組為影像塊,使得該等影像塊為經定義影像塊列及影像塊行。播放軌分組類型可視情況指示額外資訊可供添加至播放軌邏輯框,在該播放軌邏輯框內儲存對應於該播放軌中之子圖像之左上角像素的座標。此外,當該播放軌分組類型指示額外資訊可供添加至播放軌邏輯框時,該裝置可提供用於在該播放軌邏輯框內儲存表示完整圖像之大小之資訊的構件。 根據另一相關實例,提供一種非暫時性電腦可讀媒體,其上儲存有指令,該等指令在經執行時使得電子裝置之一或多個處理器:自記憶體獲得複數個子圖像位元流,每一子圖像位元流包含該視訊資料之一空間部分且每一子圖像位元流獨立地經寫碼;在至少一個檔案中分別儲存該複數個子圖像位元流作為複數個子圖像播放軌;以及在根據一檔案格式之一媒體檔案內之一播放軌邏輯框中儲存描述該複數個子圖像播放軌之後設資料。該一或多個處理器可規定該媒體檔案包含該至少一個檔案。該一或多個處理器可視情況提供用於儲存與該複數個子圖像播放軌相關聯之子圖像基本播放軌的指令,或用於基於播放軌邏輯框之樣本描述邏輯框內之樣本項類型來指示子圖像基本播放軌的指令。該一或多個處理器可視情況提供該子圖像基本播放軌包含描述該複數個子圖像播放軌之後設資料的指令,或該一或多個處理器可視情況規定該後設資料包含與該複數個子圖像播放軌之一集合相關聯的完整圖像之空間解析度。同樣地,該一或多個處理器可提供基於國際標準組織(ISO)基本媒體檔案格式之檔案格式。此外,該一或多個處理器可視情況提供用於在播放軌邏輯框內將播放軌群組類型儲存為指示與該播放軌邏輯框相關聯之播放軌係子圖像播放軌群組中之一者的值的指令,該子圖像播放軌群組表示視訊資料之單一表示。播放軌群組類型視情況可為藉由ISO/IEC 14496-12第12部分識別之ISO基本媒體檔案格式之條款8.3.4中所闡述的TrackGroupTypeBox之後向相容擴展。 根據一相關實例,該一或多個處理器可視情況提供用於在播放軌邏輯框內儲存指定播放軌分組類型之播放軌群組類型邏輯框的指令。播放軌分組類型可視情況指示額外資訊可供添加至播放軌邏輯框。此外,播放軌分組類型可視情況指示額外資訊可供添加至播放軌邏輯框,在該播放軌邏輯框內儲存該播放軌中之子圖像的子圖像列索引資訊及子圖像行索引資訊,或指示在子圖像位元流內經編碼之子圖像以子圖像列及子圖像行之方式定義。在子圖像位元流內經編碼之子圖像視情況可分組為影像塊,使得該等影像塊為經定義影像塊列及影像塊行。播放軌分組類型可視情況指示額外資訊可供添加至播放軌邏輯框,在該播放軌邏輯框內儲存對應於該播放軌中之子圖像之左上角像素的座標。此外,當播放軌分組類型指示額外資訊可供添加至播放軌邏輯框時,該一或多個處理器可提供用於在播放軌邏輯框內儲存表示完整圖像之大小之資訊的指令。 此發明內容並不意欲識別所主張主題之關鍵或基本特徵,亦不意欲單獨使用以確定所主張主題之範疇。應參考此專利之整個說明書之適當部分、任何或所有圖式及每一申請專利範圍來理解主題。 在參考以下說明書、申請專利範圍及隨附圖式後,前述內容連同其他特徵及實例將變得更顯而易見。
優先權之主張 本專利申請案主張2017年3月23日申請之標題為「SIGNALLING OF VIDEO CONTENT INCLUDING SUB-PICTURE BITSTREAMS」之臨時申請案第62/475,832號以及2018年3月21申請之美國非臨時申請案第15/927,993號的優先權,該等申請案之全部內容在此明確地以引用之方式併入本文中。下文提供本發明之某些態樣及實例。此等態樣及實施例中之一些可獨立地應用並且其中之一些可以將對熟習此項技術者顯而易見之組合來應用。在以下描述中,出於解釋之目的,闡述特定細節以便提供對本發明之實例的透徹理解。然而,將顯而易見的係,各種實例可在無此等特定細節之情況下得以實踐。圖式及描述不意欲為限定性的。隨後描述僅提供實例,且並不意欲限制本發明之範疇、適用性或組態。確切而言,實例之隨後描述將為熟習此項技術者提供用於實施例示性實施例之能夠實現的描述。應理解,可在不背離如所附申請專利範圍中所闡述之本發明之精神及範疇的情況下對元件之功能及配置進行各種改變。 在以下描述中,給出特定細節以提供對實例之透徹理解。然而,一般技術者應瞭解,實例可在無此等特定細節之情況下加以實踐。舉例而言,電路、系統、網路、處理程序及其他組件可以方塊圖形式展示為組件以免以不必要的細節混淆實例。在其他情況下,可在無不必要之細節的情況下展示熟知電路、處理程序、演算法、結構及技術以便避免混淆實例。 另外,應注意,個別實例可描述為被描繪為流程圖、流圖、資料流圖、結構圖或方塊圖之處理程序。儘管流程圖可能將操作描述為順序處理程序,但許多操作可並行地或同時加以執行。另外,操作之次序可以重新配置。處理程序在其操作完成時終止,但可具有不包含於圖中之額外步驟。處理程序可對應於方法、函式、程序、次常式、子程式等。當處理程序對應於函式時,其終止可對應於函式傳回至呼叫函式或主函式。 術語「電腦可讀媒體」包含但不限於攜帶型或非攜帶型儲存裝置、光儲存裝置,及能夠儲存、含有或攜載指令及/或資料之各種其他媒體。電腦可讀媒體可包含非暫時性媒體,其中可儲存資料並且不包含無線地或經由有線連接傳播之載波及/或暫時電子信號。非暫時性媒體之實例可包含(但不限於)磁碟或磁帶、諸如緊密光碟(CD)或數位化通用光碟(DVD)之光學儲存媒體、快閃記憶體、記憶體或記憶體裝置。電腦可讀媒體可具有儲存於其上之程式碼及/或機器可執行指令,該等程式碼及/或機器可執行指令可表示程序、函式、子程式、程式、常式、次常式、模組、套裝軟體、類別或者指令、資料結構或程式語句陳述式之任何組合。一個碼段可藉由傳遞及/或接收資訊、資料、引數、參數或記憶體內容而耦接至另一碼段或硬體電路。資訊、引數、參數、資料等可經由包含記憶體共用、訊息傳遞、符記傳遞、網路傳輸或其類似者之任何合適方式傳遞、轉遞或傳輸。 此外,可由硬體、軟體、韌體、中間軟體、微碼、硬體描述語言或其任何組合來實施實例。當實施於軟體、韌體、中間軟體或微碼中時,用以執行必要任務之程式碼或碼段(例如,電腦程式產品)可儲存於電腦可讀或機器可讀媒體中。處理器可執行必要任務。 虛擬實境(VR)描述可在看起來真實或實體方式內交互之三維的電腦產生的環境。大體而言,體驗虛擬實境環境之使用者使用諸如頭戴顯示器(HMD)且視需要亦衣物(例如,配備有感測器之手套)的電子裝備以與虛擬環境交互。隨著使用者在真實世界中移動,在虛擬環境中呈現之影像亦改變,從而向使用者給予使用者正在虛擬環境內移動之感知。在一些狀況下,虛擬環境包含與使用者之移動相關之聲音,從而向使用者給予聲音來源於特定方向或來源之視聽。虛擬實境視訊可以極高品質被俘獲且呈現,從而潛在地提供真實沉浸式虛擬實境體驗。虛擬實境應用包含遊戲、訓練、教育、體育視訊及線上購物以及其他。 虛擬實境系統通常包含視訊俘獲裝置及視訊顯示裝置,且可能亦包含諸如伺服器、資料儲存裝置及資料傳輸裝備之其他中間裝置。視訊俘獲裝置可包含攝影機集合,即多個攝影機之集合,每一攝影機定向於不同方向且俘獲不同視圖。少達六個攝影機可用以俘獲以攝影機集合之位置為中心的全360度視圖。一些視訊俘獲裝置可使用較少攝影機,諸如主要俘獲側對側視圖之視訊俘獲裝置。視訊通常包含圖框,其中圖框為場景之電子寫碼靜態影像。攝影機每秒俘獲特定數目個圖框,其通常被稱作攝影機之圖框速率。 為了提供無縫的360度視圖,藉由攝影機集合中之每一攝影機俘獲的視訊通常經歷影像拼接。在360度視訊產生之狀況下的影像拼接涉及組合或合併其中視訊圖框重疊或將以其他方式連接之區域中的鄰近攝影機之視訊圖框。結果將為大體球形圖框,但類似於麥卡托(Mercator)投影,經合併之資料通常以平面樣式表示。舉例而言,經合併視訊圖框中之像素可經映射至立方體形狀或某一其他三維平面形狀(例如,角錐形、八面體、十面體等)之平面上。視訊俘獲及視訊顯示裝置通常按光柵原理操作,此意謂視訊圖框作為像素柵格處置,因此,正方形或矩形平面通常用以表示球面環境。 映射至平面表示之虛擬實境視訊圖框可經編碼及/或壓縮以供儲存及/或傳輸。編碼及/或壓縮可使用視訊編碼解碼器(例如,H.265/HEVC相容編碼解碼器、H.264/AVC相容編碼解碼器或其他合適的編碼解碼器)實現,且產生經壓縮之視訊位元流或位元流群組。下文進一步詳細地描述使用視訊編碼解碼器對視訊資料進行編碼。 一或多個經編碼視訊位元流可以媒體格式或檔案格式經儲存及/或封裝。一或多個所儲存位元流可(例如)經由網路傳輸至接收器裝置,該接收器裝置可解碼並呈現視訊以供顯示。此接收器裝置在本文中可被稱作視訊顯示裝置。舉例而言,虛擬實境系統可(例如使用國際標準組織(ISO)基本媒體檔案格式及/或所導出檔案格式)由經編碼視訊資料產生經封裝檔案。舉例而言,視訊編碼解碼器可編碼視訊資料,且封裝引擎可藉由將視訊資料封裝於一或多個ISO格式媒體檔案中而產生媒體檔案。替代地或另外,可將經儲存位元流自儲存媒體直接提供至接收器裝置。 接收器裝置亦可實施編碼解碼器以解碼及/或解壓縮經編碼視訊位元流。接收器裝置可支援媒體或檔案格式,其用以將視訊位元流封裝至一檔案(或多個檔案)中、提取視訊(及亦可能音訊)資料以產生經編碼視訊資料。舉例而言,接收器裝置可用經封裝視訊資料剖析媒體檔案以產生經編碼視訊資料,且接收器裝置中之編碼解碼器可解碼經編碼視訊資料。 接收器裝置接著可將經解碼視訊信號發送至呈現裝置(例如,視訊顯示裝置)。舉例而言,呈現裝置包含頭戴顯示器、虛擬實境電視及其他180度或360度顯示裝置。一般而言,頭戴顯示器能夠追蹤穿戴者頭部之移動及/或穿戴者眼睛之移動。頭戴顯示器可使用追蹤資訊來呈現360度視訊中對應於穿戴者正觀看之方向的部分,使得穿戴者以與穿戴者將體驗真實世界相同之方式體驗虛擬環境。呈現裝置可以俘獲視訊之相同圖框速率或以不同圖框速率呈現視訊。 檔案格式標準可定義用於將視訊(及亦可能音訊)資料封裝及解封裝成一或多個檔案的格式。檔案格式標準包含國際標準化組織(ISO)基本媒體檔案格式(ISOBMFF,定義於ISO/IEC 14496-12中);及自ISOBMFF導出之其他檔案格式,包含運動圖像專家組(MPEG) MPEG-4檔案格式(定義於ISO/IEC 14496-15中)、第三代合作夥伴計劃(3GPP)檔案格式(定義於3GPP TS 26.244中)及進階視訊寫碼(AVC)檔案格式及高效率視訊寫碼(HEVC)檔案格式(皆定義於ISO/IEC 14496-15中)。 ISOBMFF用作用於許多編碼解碼器封裝格式(例如,AVC檔案格式或任何其他合適之編碼解碼器封裝格式)以及用於許多多媒體容器格式(例如,MPEG-4檔案格式、3GPP檔案格式(3GP)、DVB檔案格式或任何其他合適之多媒體容器格式)之基礎。ISOBMFF基本檔案格式可用於連續媒體,其亦被稱作串流媒體。 除了連續媒體(例如,音訊及視訊)之外,靜態媒體(例如,影像)及後設資料可儲存於符合ISOBMFF之檔案中。根據ISOBMFF結構化的檔案可用於許多目的,包含本端媒體檔案播放、遠端檔案之漸進式下載、用作HTTP動態自適應串流(DASH)之片段、用作待串流傳輸的內容之容器(在此狀況下容器包含封包化指令)、用於記錄接收之即時媒體串流,或其他用途。 邏輯框為ISOBMFF中之基本語法結構,包含四字元寫碼邏輯框類型、邏輯框之位元組計數及有效負載。ISOBMFF檔案包含一連串邏輯框,且邏輯框可含有其他邏輯框。電影邏輯框(「moov」)含有用於存在於檔案中之連續媒體串流的後設資料,每一媒體串流在檔案中表示為播放軌。將用於播放軌之後設資料圍封於播放軌邏輯框(「trak」)中,而將播放軌之媒體內容圍封於媒體資料邏輯框(「mdat」)中或直接圍封於單獨檔案中。用於播放軌之媒體內容由一連串樣本組成,諸如音訊或視訊存取單元。 ISOBMFF指定以下類型之播放軌:媒體播放軌,其含有基本媒體串流;提示播放軌,其包含媒體傳輸指令或表示接收之封包串流;及計時後設資料播放軌,其包括時間同步之後設資料。 儘管原先針對儲存而設計,但ISOBMFF已證明用於串流傳輸(例如,用於漸進式下載或DASH)極有價值。出於串流傳輸目的,可使用在ISOBMFF中定義之電影片段。 每一播放軌之後設資料包含樣本描述項之清單,每一項提供在播放軌中使用之寫碼或封裝格式以及處理彼格式所需要之初始化資料。每一樣本與播放軌之樣本描述項中之一者相關聯。 ISOBMFF能夠藉由各種機制指定樣本特定後設資料。樣本表邏輯框(「stbl」)內之特定邏輯框已經標準化以回應普通需求。舉例而言,同步樣本邏輯框(「stss」)用以列舉播放軌之隨機存取樣本。樣本分組機制能夠根據四字元分組類型將樣本映射至共用指定為檔案中之樣本群組描述項之同一性質的樣本群組中。已在ISOBMFF中指定若干分組類型。 一般而言,虛擬實境(VR)為虛擬存在於藉由呈現經由浸入使用者之移動而相關的自然及/或合成影像及聲音所建立的非實體世界中,從而允許浸入使用者與彼世界互動之能力。隨著在呈現裝置(諸如但不限於頭戴顯示器(HMD))及VR視訊(通常亦被稱作360度視訊)創建方面取得的最新進展,可提供顯著的體驗品質。VR應用包含遊戲、訓練、教育、運動視訊、線上購物、成人娛樂等。 典型的VR系統包含以下各者: 1)攝影機集合,其通常包含指向不同方向之多個個別攝影機且理想地共同覆蓋圍繞該攝影機集合之所有視點。 2)影像拼接,其中藉由多個個別攝影機拍攝的視訊圖像在時域中經同步並在空間域中拼接,以形成球面視訊,但映射成矩形格式,諸如等矩形(如世界地圖)或立方體映射。 3)呈所映射矩形格式之視訊可使用視訊編碼解碼器加以編碼/壓縮,例如H.265/HEVC、H.264/AVC、目前開發中之壓縮技術及/或即將出現的視訊壓縮技術/視訊壓縮標準。 4)經壓縮之視訊位元流可以媒體格式經儲存及/或封裝,並經由有線或無線網路傳輸至接收器(可能只傳輸僅覆蓋使用者所感知之區域的子集)。 5)接收器接收可能以一種格式封裝之視訊位元流或其部分,並將經解碼視訊信號或其部分發送至呈現裝置。 6)呈現裝置可例如為HMD,其可追蹤頭部移動/定位及甚至眼睛移動瞬間,且呈現視訊之對應部分,以為使用者提供沉浸式體驗。 全向媒體應用程式格式(OMAF)係藉由MPEG開發以定義允許全向媒體應用程式之媒體應用程式格式,其聚焦於具有360°視訊及相關聯音訊之VR應用程式。OMAF指定可用於將球面或360°視訊轉換成二維矩形視訊之投影方法之清單。OMAF進一步指定使用ISO基本媒體檔案格式(ISOBMFF)儲存全向媒體及相關聯後設資料,以及使用HTTP動態自適應串流(DASH)對全向媒體進行封裝、信令傳輸及串流傳輸之方式。OMAF進一步指定可用於壓縮及播放全向媒體信號之視訊及音訊編碼解碼器以及媒體寫碼組態。OMAF經標準化為ISO/IEC 23000-20,且其被稱作OMAF委員會草案(Committee Draft;CD)之最新草案規格可獲自MPEG (SC29之工作小組11)。 虛擬實境應用中可提供檢視區相關視訊寫碼。OMAF委員會草案(CD)在條款A.3處包含針對基於檢視區相關視訊寫碼之全向視訊串流的若干方法之描述。該等方法中的一些係基於HEVC影像塊,而該等方法中之一者係基於子圖像位元流之編碼及解碼。作為舉例,檢視區相關視訊寫碼之信令傳輸可尤其係關於基於子圖像位元流之編碼及解碼的方法。 子圖像位元流寫碼方案係其中源視訊內容之子圖像序列在預處理期間(例如在編碼之前)形成以使得每一子圖像位元流可獨立於彼此加以編碼的方法。舉例而言,源視訊內容在編碼之前分離(例如拆分)成子圖像序列。所得(亦即分離後)子圖像序列隨後經編碼成各別子圖像位元流。可藉由各種視訊編碼解碼器(諸如AVC或HEVC)提供單獨且獨立的編碼。一般技術者將識別到,可利用其他視訊編碼技術(諸如VP9)以及處於開發中之其他技術(諸如VP10及AV1)。一般熟習此項技術者亦將顯而易見的係,本發明之最新呈現態樣及實例與子圖像基本播放軌之創建、修改及/或指定有關。 如上文所提及,子圖像位元流寫碼方案(或方法)允許可彼此單獨且獨立地加以編碼的與源視訊內容相關聯之子圖像位元流。根據本發明之態樣,子圖像基本播放軌在利用子圖像位元流方法時提供益處。 在子圖像位元流方法中,視訊內容按以下方式經編碼並儲存於基於ISOBMFF之檔案中。源視訊在源視訊內容經編碼之前分裂成子圖像序列。每一子圖像序列涵蓋(亦即包含或包括)完整源視訊內容之空間區域之子集。每一子圖像序列隨後彼此獨立地經編碼為單一位元流。此位元流被稱為子圖像位元流。可由同一子圖像序列編碼出若干不同位元流,例如單一子圖像序列可以不同位元速率加以編碼,從而得到複數個不同的子圖像位元流。每一子圖像位元流經封裝於檔案中作為其自身各別播放軌。此播放軌被稱為子圖像播放軌。 對基於子圖像之方法之當前改良及最佳化認識到對VR應用中之解碼複雜度及傳輸頻寬之最佳化的需求。 在子圖像位元流方法中,每一子圖像位元流封裝於檔案中作為其自身播放軌且由此可用於串流傳輸。在接收器側,基於定向/檢視區後設資料來選擇待串流傳輸之播放軌。用戶端(例如目的地裝置)通常接收涵蓋整個全向內容之播放軌。針對當前檢視區接收更佳品質或更高解析度播放軌,該更佳品質或更高解析度係相比於覆蓋其餘當前非可見區域之品質或解析度。使用單獨的解碼器執行個體解碼每一播放軌。子圖像有可能重疊,例如以提供防護頻帶功能性。 針對包含儲存於多個子圖像播放軌中之多個子圖像位元流之視訊內容的儲存及信令傳輸之現有設計具有多個問題。第一個問題為當前子圖像位元流方法中未提供子圖像播放軌之間的關係之指示。此情形將使得檔案剖析器計算出(亦即判定)子圖像播放軌之哪一集合攜載整個視訊內容之一個完整表示變得困難。 另一問題為,不存在整個圖像(亦即整個視訊內容)之空間解析度之指示。換言之,需要擷取並剖析所有子圖像播放軌以計算出整個圖像之大小,此操作係繁瑣的,如在許多情況下僅需要此等播放軌之一子集。 另一問題與ISOBMFF播放軌參考類型『cdsc』有關。計時後設資料播放軌可用於傳信媒體播放軌之計時資訊,並且經由播放軌參考類型『cdsc』而與該媒體播放軌關聯。此媒體播放軌亦被稱作計時後設資料播放軌之參考(媒體)播放軌。然而,媒體內容可表示於多個媒體播放軌中,例如視訊內容攜載於影像塊基本播放軌及多個影像塊播放軌中,或視訊內容攜載於多個子圖像播放軌中。在(影像塊基本播放軌及多個影像塊播放軌之)前一情形中,直接選擇影像塊基本播放軌作為計時後設資料播放軌之參考媒體播放軌,且播放軌參考類型『cdsc』之語義解釋為「此播放軌描述由參考影像塊基本播放軌及所有相關聯影像塊播放軌所表示之視訊內容」。然而,在(根據子圖像位元流方法之多個子圖像播放軌之)後一情形中,並不需要選擇子圖像播放軌中之任一者作為參考播放軌,因為此情形解釋為「計時後設資料播放軌含有僅關於視訊內容之該子圖像部分之資訊」。換言之,計時後設資料播放軌將含有僅關於單一子圖像播放軌之資訊,且因此不會提供關於構成整個視訊內容之子圖像播放軌集合的資訊。 圖1為說明包含編碼裝置104及解碼裝置112之系統100之實例的方塊圖。編碼裝置104可為源裝置之部分,且解碼裝置112可為接收裝置之部分。源裝置及/或接收裝置可包含電子裝置,諸如行動或固定電話手機(例如,智慧型手機、蜂巢式電話、行動台或其類似者)、桌上型電腦、膝上型或筆記型電腦、平板電腦、機上盒、電視、攝影機、顯示裝置、數位媒體播放器、視訊遊戲桌面、視訊串流裝置或任何其他合適的電子裝置。在一些實例中,源裝置及接收裝置可包含用於無線通信之一或多個無線收發器。本文中所描述之寫碼技術適用於各種多媒體應用中之視訊寫碼,該等多媒體應用包含串流視訊傳輸(例如經由網際網路或蜂巢式通信環境)、電視廣播或傳輸、編碼數位視訊以供儲存於資料儲存媒體上、解碼儲存於資料儲存媒體上之數位視訊或其他應用。在一些實例中,系統100可支援單向或雙向視訊傳輸以支援諸如視訊會議、視訊串流、視訊播放、視訊廣播、遊戲及/或視訊電話之應用。 圖1說明實例視訊編碼及解碼系統100,其可利用如本發明中所描述之視訊寫碼技術及檔案格式技術。如圖1中所展示,可利用系統100視訊源102及編碼裝置104來產生經編碼視訊資料,該經編碼視訊資料將在稍後時間由包含視訊目的地裝置122及解碼裝置112之目的地模組解碼。在圖1之實例中,可與編碼裝置104一起包含於無線裝置(未圖示)中之視訊源102以及可與解碼裝置112一起包含於無線裝置(未圖示)中之視訊目的地裝置存在於單獨裝置上。具體而言,視訊源模組102為源模組之部分,且視訊目的地模組122為目的地裝置之部分。然而,應注意,源模組102及目的地模組122可在同一裝置上或為同一裝置之部分。作為舉例,一無線裝置(未圖示)可包含視訊源102、編碼裝置104及一傳輸器(未圖示)。無線通信裝置可視情況為一蜂巢式電話,且一經編碼視訊位元流可藉由傳輸器傳輸且根據一蜂巢式通信標準調變。同樣地,無線裝置(未圖示)可包含視訊目的地裝置122、解碼裝置112及一接收器(未圖示)。無線通信裝置可視情況為一蜂巢式電話,且經編碼視訊位元流可藉由接收器接收且根據一蜂巢式通信標準調變。 再次參看圖1,視訊源102及視訊目的地裝置122可包括廣泛範圍裝置中之任一者或包含在廣泛範圍裝置中之任一者中,包含桌上型電腦、筆記型(亦即膝上型)電腦、平板電腦、機上盒、電話手持機(諸如所謂的「智慧型」電話)、所謂的「智慧型」平板、電視、攝影機、顯示裝置、數位媒體播放器、視訊遊戲桌面、視訊串流裝置、汽車/車輛、可穿戴設備等等。在一些情況下,視訊源102及視訊目的地裝置122可經裝備以用於無線通信。 視訊目的地裝置122可經由鏈路120接收待解碼之經編碼視訊資料。鏈路120可包括能夠將經編碼視訊資料自視訊源102移動至視訊目的地裝置122之任何類型的媒體或裝置。作為實例,鏈路120可包括使得視訊源102能夠即時地將經編碼視訊資料直接傳輸至視訊目的地裝置122之通信媒體。可根據通信標準(諸如,無線通信協定)調變經編碼視訊資料,且將經編碼視訊資料傳輸至目的地裝置122。通信媒體可包括任何無線或有線通信媒體,諸如,射頻(RF)頻譜或一或多個實體傳輸線。通信媒體可形成基於封包之網路(諸如,區域網路、廣域網路或諸如網際網路之全域網路)之部分。通信媒體可包含路由器、交換器、基地台或可用於促進自視訊源102至視訊目的地裝置122之通信的任何其他裝備。 藉由使用視訊寫碼標準或協定以產生經編碼視訊位元流,編碼裝置104 (或編碼器)可用以編碼視訊資料,包含虛擬實境視訊資料。視訊寫碼標準包含ITU-T H.261;ISO/IEC MPEG-1 Visual;ITU-T H.262或ISO/IEC MPEG-2 Visual;ITU-T H.263;ISO/IEC MPEG-4 Visual;及ITU-T H.264 (亦稱為ISO/IEC MPEG-4 AVC),包含其可調式視訊寫碼擴展及多視圖視訊寫碼擴展(分別稱為SVC及MVC)。ITU-T視訊寫碼專家組(VCEG)及ISO/IEC移動圖像專家組(MPEG)之視訊寫碼聯合協作小組(JCT-VC)已完成較近期的視訊寫碼標準(高效率視訊寫碼(HEVC))。HEVC之各種擴展致力於多層視訊寫碼,且亦正由JCT-VC開發,包含HEVC之多視圖擴展(稱作MV-HEVC)及HEVC之可調式擴展(稱作SHVC)或任何其他合適的寫碼協定。 本文中所描述之實施描述使用HEVC標準或其擴展之實例。然而,本文中所描述之技術及系統亦可適用於其他寫碼標準,諸如AVC、MPEG、其擴展或已可用或尚不可用或尚未開發之其他合適的寫碼標準。因此,雖然可參考特定視訊寫碼標準描述本文中所描述之技術及系統,但一般熟習此項技術者將瞭解,描述不應解釋為僅適用於彼特定標準。 視訊源102可將視訊資料提供至編碼裝置104。視訊源102可為源裝置之部分,或可為除源裝置以外的裝置之部分。視訊源102可包含視訊俘獲裝置(例如,視訊攝影機、攝影機電話、視訊電話或其類似者)、含有經儲存視訊之視訊存檔、提供視訊資料之視訊伺服器或內容提供者、自視訊伺服器或內容提供者接收視訊之視訊饋入介面、用於產生電腦圖形視訊資料之電腦圖形系統、此等源之組合或任何其他合適的視訊源。視訊源102之一個實例可包含網際網路協定攝影機(IP攝影機)。IP攝影機為可用於監測、住家安全或其他合適應用的一種數位視訊攝影機。不同於類比閉路電視(CCTV)攝影機,IP攝影機可經由電腦網路及網際網路發送及接收資料。 來自視訊源102之視訊資料可包含一或多個輸入圖像或圖框。圖像或圖框為作為視訊之部分的靜態影像。編碼裝置104之編碼器引擎106 (或編碼器)編碼視訊資料以產生經編碼視訊位元流。在一些實例中,經編碼視訊位元流(或「視訊位元流」或「位元流」)為一系列之一或多個經寫碼視訊序列。經寫碼視訊序列(CVS)包含一系列存取單元(AU),其始於在基礎層中具有隨機存取點圖像且具有某些屬性之AU,直至且不包含在基礎層中具有隨機存取點圖像且具有某些屬性之下一AU。舉例而言,開始CVS之隨機存取點圖像的某些屬性可包含等於1之RASL旗標(例如,NoRaslOutputFlag)。否則,隨機存取點圖像(具有等於0之RASL旗標)不會開始CVS。存取單元(AU)包含一或多個經寫碼圖像及對應於共用相同輸出時間之經寫碼圖像的控制資訊。圖像之經寫碼圖塊在位元流層級封裝至被稱為網路抽象層(NAL)單元之資料單元中。舉例而言,HEVC視訊位元流可包含一或多個CVS,該一或多個CVS包含NAL單元。兩種類別之NAL單元存在於HEVC標準中,包含視訊寫碼層(VCL) NAL單元及非VCL NAL單元。VCL NAL單元包含經寫碼圖像資料之一個圖塊或圖塊片段(如下描述),且非VCL NAL單元包含關於一或多個經寫碼圖像之控制資訊。 NAL單元可含有形成視訊資料之經寫碼表示(諸如,視訊中之圖像的經寫碼表示)的位元序列(例如,經編碼視訊位元流、位元流之CVS或類似者)。編碼器引擎106藉由將每一圖像分割成多個圖塊而產生圖像之經寫碼表示。圖塊接著被分割成明度樣本及色度樣本之寫碼樹型區塊(CTB)。明度樣本之CTB及色度樣本之一或多個CTB連同樣本之語法被稱為寫碼樹型單元(CTU)。CTU為用於HEVC編碼之基本處理單元。CTU可經分裂成具有不同大小之多個寫碼單元(CU)。CU含有被稱為寫碼區塊(CB)之明度及色度樣本陣列。 明度及色度CB可進一步被分裂成預測區塊(PB)。PB為使用用於框間預測之相同運動參數的明度或色度分量的樣本之區塊。明度PB及一或多個色度PB連同相關聯語法形成預測單元(PU)。在位元流中針對每一PU傳信運動參數集合,且該運動參數集合用於明度PB及一或多個色度PB之框間預測。CB亦可被分割成一或多個變換區塊(TB)。TB表示色彩分量之樣本之正方形區塊,對該正方形區塊應用同一二維變換以用於寫碼預測殘餘信號。變換單元(TU)表示明度及色度樣本之TB以及對應語法元素。 CU之大小對應於寫碼節點之大小,且可為正方形形狀。舉例而言,CU之大小可為8×8樣本、16×16樣本、32×32樣本、64×64樣本或達至對應CTU之大小的任何其他適當大小。片語「N×N」在本文中用於指就豎直及水平尺寸而言視訊區塊之像素尺寸(例如,8像素×8像素)。可按列及行來排列區塊中之像素。在一些實例中,區塊在水平方向上可具有與在豎直方向上不同數目個像素。與CU相關聯之語法資料可描述例如將CU分割成一或多個PU。分割模式可在CU經框內預測模式編碼抑或經框間預測模式編碼之間有所不同。PU可經分割成非正方形形狀。與CU相關聯之語法資料亦可描述(例如)根據CTU將CU分割成一或多個TU。TU可為正方形或非正方形形狀。 根據HEVC標準,可使用變換單元(TU)來執行變換。TU可針對不同CU而變化。可基於給定CU內之PU的大小而對TU設定大小。TU可與PU大小相同或小於PU。在一些實例中,可使用被稱為殘餘四分樹(RQT)之四分樹結構將對應於CU之殘餘樣本再分成較小單元。RQT之葉節點可對應於TU。可變換與TU相關聯之像素差值以產生變換係數。變換係數可隨後由編碼器引擎106量化。 一旦視訊資料之圖像被分割成CU,編碼器引擎106便使用預測模式來預測每一PU。接著自原始視訊資料中減去預測以得到殘餘(下文描述)。對於每一CU,可使用語法資料在位元流內部傳信預測模式。預測模式可包含框內預測(或圖像內預測)或框間預測(或圖像間預測)。使用框內預測時,使用(例如) DC預測以發現PU之平均值、使用平坦預測以使平坦表面擬合於PU、使用方向預測以自相鄰資料外插或使用任何其他合適類型之預測,自同一圖像中之相鄰影像資料預測每一PU。使用框間預測時,使用運動補償預測自一或多個參考圖像(按輸出次序在當前圖像之前或之後)中之影像資料預測每一PU。可(例如)在CU層級決定是否使用圖像間預測抑或圖像內預測來寫碼圖像區域。在一些實例中,圖像之一或多個圖塊經指派有圖塊類型。圖塊類型包含I圖塊、P圖塊及B圖塊。I圖塊(圖框內,可獨立地解碼)為僅僅藉由框內預測寫碼的圖像之圖塊,且因此可獨立地解碼,此係由於I圖塊僅僅需要圖框內之資料以預測圖塊之任一區塊。P圖塊(單向預測圖框)為可藉由框內預測及藉由單向框間預測寫碼的圖像之圖塊。P圖塊內之每一區塊係藉由框內預測或框間預測而寫碼。當應用框間預測時,區塊僅僅藉由一個參考圖像加以預測,且因此參考樣本僅僅來自一個圖框之一個參考區。B圖塊(雙向預測性圖框)為可藉由框內預測及框間預測寫碼的圖像之圖塊。B圖塊之區塊可自兩個參考圖像進行雙向預測,其中每一圖像貢獻一個參考區,且兩個參考區之樣本集合經加權(例如具有相同權重)以產生雙向預測區塊之預測信號。如上文所解釋,一個圖像之圖塊被獨立寫碼。在一些狀況下,圖像可僅作為一個圖塊而被寫碼。 PU可包含與預測過程有關之資料。舉例而言,當使用框內預測編碼PU時,PU可包含描述用於PU之框內預測模式的資料。作為另一實例,當使用框間預測來編碼PU時,PU可包含定義用於PU之運動向量的資料。定義PU之運動向量之資料可描述(例如)運動向量之水平分量、運動向量之豎直分量、運動向量之解析度(例如,四分之一像素精度或八分之一像素精度)、運動向量所指向的參考圖像,及/或運動向量之參考圖像清單(例如,清單0、清單1或清單C)。 編碼裝置104接著可執行變換及量化。舉例而言,在預測之後,編碼器引擎106可計算對應於PU之殘餘值。殘餘值可包括像素差值。在預測執行之後可能剩餘的任何殘餘資料係使用區塊變換進行變換,該區塊變換可基於離散餘弦變換、離散正弦變換、整數變換、小波變換或其他合適之變換函式。在一些情況下,一或多種區塊變換(例如大小32×32、16×16、8×8、4×4或其類似者)可應用於每一CU中之殘餘資料。在一些實例中,TU可用於由編碼器引擎106實施之變換及量化過程。具有一或多個PU之給定CU亦可包含一或多個TU。如下文進一步詳細描述,可使用區塊變換將殘餘值變換成變換係數,且接著可使用TU來量化及掃描殘餘值以產生用於熵寫碼之串列化變換係數。 在一些實例中,在使用CU之PU進行框內預測性或框間預測性寫碼之後,編碼器引擎106可計算CU之TU的殘餘資料。PU可包括空間域(或像素域)中之像素資料。在應用區塊變換之後,TU可包括變換域中之係數。如先前所提及,殘餘資料可對應於未經編碼圖像之像素與對應於PU之預測值之間的像素差值。編碼器引擎106可形成包含CU之殘餘資料的TU,且接著可變換TU以產生CU之變換係數。 編碼器引擎106可執行變換係數之量化。量化藉由量化變換係數以減少用以表示係數之資料的量而提供進一步壓縮。舉例而言,量化可減少與係數中之一些或所有相關聯的位元深度。在一個實例中,具有n位元值之係數可在量化期間經降值捨位為m位元值,其中n大於m。 在執行量化後,經寫碼視訊位元流包含經量化變換係數、預測資訊(例如預測模式、運動向量或其類似者)、分割資訊及任何其他合適的資料,諸如其他語法資料。接著可藉由編碼器引擎106對經寫碼視訊位元流之不同元素進行熵編碼。在一些實例中,編碼器引擎106可利用預定義掃描次序掃描經量化變換係數以產生可經熵編碼的串列化向量。在一些實例中,編碼器引擎106可執行自適應性掃描。在掃描經量化變換係數以形成向量(例如,一維向量)之後,編碼器引擎106可熵編碼向量。舉例而言,編碼器引擎106可使用上下文自適應性可變長度寫碼、上下文自適應性二進位算術寫碼、基於語法之上下文自適應性二進位算術寫碼、機率區間分割熵寫碼或另一合適的熵編碼技術。 編碼裝置104之輸出端110可經由通信鏈路120將組成經編碼視訊位元流資料之NAL單元發送至接收裝置之解碼裝置112。解碼裝置112之輸入端114可接收NAL單元。通信鏈路120可包含由無線網路、有線網路或有線網路與無線網路之組合提供的通道。無線網路可包含任何無線介面或無線介面之組合,且可包含任何適合之無線網路(例如,網際網路或其他廣域網路、基於封包之網路、WiFiTM、射頻(RF)、UWB、WiFi-Direct、蜂巢式、長期演進(LTE)、WiMaxTM或其類似者)。有線網路可包含任何有線介面(例如,光纖、乙太網路、電力線乙太網路、經由同軸纜線之乙太網路、數位信號線(DSL)或其類似者)。可使用各種設備來實施有線及/或無線網路,該等設備諸如基地台、路由器、存取點、橋接器、閘道器、交換器或其類似者。可根據通信標準(諸如,無線通信協定)調變經編碼視訊位元流資料,且將其傳輸至接收裝置。 在一些實例中,編碼裝置104可將經編碼視訊位元流資料儲存於儲存裝置108中。輸出端110可自編碼器引擎106或自儲存裝置108擷取經編碼視訊位元流資料。儲存裝置108可包含多種分散式或本端存取之資料儲存媒體中之任一者。舉例而言,儲存裝置108可包含硬碟機、儲存光碟、快閃記憶體、揮發性或非揮發性記憶體或用於儲存經編碼視訊資料之任何其他合適的數位儲存媒體。 解碼裝置112之輸入端114接收經編碼視訊位元流資料,且可將視訊位元流資料提供至解碼器引擎116,或提供至儲存裝置118以供稍後由解碼器引擎116使用。解碼器引擎116可藉由熵解碼(例如使用熵解碼器)以及擷取組成經編碼視訊資料之一或多個經寫碼視訊序列的元素來解碼經編碼視訊位元流。解碼器引擎116可接著重新按比例調整經編碼視訊位元流資料且對經編碼視訊位元流資料執行反變換。殘餘資料接著經傳遞至解碼器引擎116之預測級。解碼器引擎116接著預測像素之區塊(例如,PU)。在一些實例中,預測經添加至反變換之輸出(殘餘資料)。 解碼裝置112可將經解碼視訊輸出至視訊目的地裝置122,視訊目的地裝置可包含用於將經解碼視訊資料顯示給內容之消費者的顯示器或其他輸出裝置。在一些實例中,視訊目的地裝置122可為包含解碼裝置112之接收裝置之部分。在一些實例中,視訊目的地裝置122可為不同於接收裝置的單獨裝置之部分。 補充增強資訊(SEI)訊息可包含於視訊位元流中。舉例而言,SEI訊息可用於攜載並非為由解碼裝置112解碼位元流所必需的資訊(例如,後設資料)。此資訊用於改良經解碼輸出之顯示或處理(例如,此類資訊可由解碼器側實體使用以改良內容之可視性)。SEI訊息可封裝至非VCL NAL中之視訊位元流中。 在一些實例中,視訊編碼裝置104及/或視訊解碼裝置112可分別與音訊編碼裝置及音訊解碼裝置整合。視訊編碼裝置104及/或視訊解碼裝置112亦可包含實施上文所描述之寫碼技術所必要的其他硬體或軟體,諸如一或多個微處理器、數位信號處理器(DSP)、特殊應用積體電路(ASIC)、場可程式化閘陣列(FPGA)、離散邏輯、軟體、硬體、韌體或其任何組合。視訊編碼裝置104及視訊解碼裝置112可整合為各別裝置中之組合式編碼器/解碼器(編碼解碼器)之部分。 HEVC標準之擴展包含多視圖視訊寫碼擴展(被稱作MV-HEVC)及可調式視訊寫碼擴展(被稱作SHVC)。MV-HEVC及SHVC擴展共用分層寫碼之概念,其中不同層包含於經編碼視訊位元流中。經寫碼視訊序列中之每一層係由唯一層識別符(ID)定址。層ID可存在於NAL單元之標頭中以識別NAL單元所相關聯之層。在MV-HEVC中,不同層可表示視訊位元流中之同一場景的不同視圖。在SHVC中,提供以不同空間解析度(或圖像解析度)或不同重建構保真度表示視訊位元流之不同可調式層。可調式層可包含基層(層ID = 0)及一或多個增強層(層ID = 1、2、…n)。基層可符合HEVC之第一版本的設定檔,且表示位元流中之最低可用層。與基層相比,增強層具有增加之空間解析度、時間解析度或圖框速率及/或重建構保真度(或品質)。增強層經階層式組織,且可(或可不)取決於較低層。在一些實例中,可使用單一標準編碼解碼器來寫碼不同層(例如,使用HEVC、SHVC或其他寫碼標準來編碼所有層)。在一些實例中,可使用多標準編碼解碼器來寫碼不同層。舉例而言,可使用AVC來寫碼基層,同時可使用HEVC標準之SHVC及/或MV-HEVC擴展來寫碼一或多個增強層。一般而言,層包含VCL NAL單元之集合及非VCL NAL單元之對應集合。NAL單元經指派有特定層ID值。在層可取決於較低層的意義上,層可為階層式的。 如先前所描述,HEVC位元流包含一組NAL單元,包含VCL NAL單元及非VCL NAL單元。非VCL NAL單元可含有具有與經編碼視訊位元流相關之高層級資訊的參數集以及其他資訊。舉例而言,參數集可包含視訊參數集(VPS)、序列參數集(SPS)及圖像參數集(PPS)。參數集之目標之實例包含位元速率效率、差錯恢復(error resiliency)及提供系統層介面。圖塊為視訊圖框中與該同一圖框中之任何其他區分離編碼的空間不同區。每一圖塊參考單一作用中PPS、SPS及VPS以存取解碼裝置112可用於解碼圖塊之資訊。可針對每一參數集寫碼識別符(ID),包含VPS ID、SPS ID及PPS ID。SPS包含SPS ID及VPS ID。PPS包含PPS ID及SPS ID。每一圖塊標頭包含PPS ID。使用ID,可識別給定圖塊之作用中參數集。 VCL NAL單元包含形成經寫碼視訊位元流之經寫碼圖像資料。各種類型之VCL NAL單元經定義於HEVC標準中。在單層位元流中,如第一HEVC標準中所定義,含於AU中的VCL NAL單元具有相同NAL單元類型值,其中NAL單元類型值定義AU之類型及AU內的經寫碼圖像之類型。舉例而言,特定AU之VCL NAL單元可包含瞬時解碼再新(IDR) NAL單元(值19),使得AU為IDR AU且AU之經寫碼圖像為IDR圖像。VCL NAL單元之給定類型係關於含於VCL NAL單元(例如,VCL NAL單元中的圖像之圖塊或圖塊片段)中之圖像或其部分。三類圖像經定義於HEVC標準中,包含前置圖像、後置圖像及框內隨機存取(IRAP)圖像(亦稱作「隨機存取圖像」)。在多層位元流中,AU內的圖像之VCL NAL單元具有相同NAL單元類型值及相同類型的經寫碼圖像。舉例而言,含有類型IDR之VCL NAL單元的圖像被稱為AU中之IDR圖像。在另一實例中,當AU含有為基層(層ID等於0)處之IRAP圖像的圖像時,AU為IRAP AU。 如上文所論述編碼之視訊位元流可寫入或封裝於一或多個檔案中,以便將位元流自編碼裝置104傳遞至解碼裝置112。舉例而言,輸出端110可包含檔案寫入引擎,其經組態以產生含有位元流之一或多個檔案。輸出端110可經由通信鏈路120將一或多個檔案傳輸至解碼器裝置112。替代地或另外,一或多個檔案可儲存於儲存媒體(例如磁帶、磁碟或硬碟機或某一其他媒體)上以供稍後傳輸至解碼裝置112。 解碼器裝置112可例如在輸入端114中包含檔案剖析引擎。檔案剖析引擎可讀取經由通信鏈路120或自儲存媒體接收之檔案。檔案剖析引擎可進一步自檔案提取樣本,並重建構位元流以供由解碼器引擎116解碼。在一些狀況下,經重建構位元流可與由編碼器引擎106產生的位元流相同。在一些狀況下,編碼器引擎106可已產生具有用於解碼位元流之若干可能選項的位元流,在該狀況下,經重建構位元流可包含所有可能選項中之僅一者或少於所有可能選項。 如上文所論述經編碼之視訊位元流可使用ISOBMFF、自ISOBMFF導出之檔案格式、某一其他檔案格式及/或包含ISOBMFF之檔案格式的組合來寫入或封裝至一或多個檔案中。一或多個檔案可使用視訊播放器裝置播放,可經傳輸且接著經顯示,及/或被儲存。 圖2說明根據ISOBMFF格式化之含有用於視訊呈現之資料及後設資料的ISO基本媒體檔案200之實例。ISOBMFF經設計成含有呈靈活且可擴展格式之計時媒體資訊,該格式有助於媒體之互換、管理、編輯及呈現。媒體之呈現對於含有呈現之系統可為「本端的」,或呈現可係經由網路或其他串流遞送機構。 如ISOBMFF規範中所定義,「呈現」為通常藉由已由視訊俘獲裝置依序俘獲而相關或由於某一其他原因而相關的圖像序列。本文中,呈現亦可被稱作電影或視訊呈現。呈現可包含音訊。單一呈現可含於一或多個檔案中,其中一個檔案含有用於整個呈現之後設資料。後設資料包含資訊,諸如時序及成框資料、描述符、指標、參數,及描述呈現之其他資訊。後設資料自身並不包含視訊及/或音訊資料。除含有後設資料之檔案以外的檔案無需根據ISOBMFF而格式化,且僅僅需要經格式化以使得此等檔案可由後設資料參考。 ISO基本媒體檔案之檔案結構為面向對象的結構,且檔案中之個別對象之結構可直接自對象之類型來推斷。ISOBMFF規範將ISO基本媒體檔案中之對象稱作「邏輯框」。ISO基本媒體檔案經建構為可含有其他邏輯框之一系列邏輯框。邏輯框一般包含提供邏輯框之大小及類型的標頭。大小描述邏輯框之整個大小,包含標頭、欄位及含於邏輯框內之所有邏輯框。播放器裝置不能識別之類型的邏輯框通常被忽略並跳過。 圖2說明,在檔案之頂部層級,ISO基本媒體檔案200可包含檔案類型邏輯框210、電影邏輯框220及一或多個電影片段邏輯框230a…230n。在包含在此層級但在此實例中並未表示之其他邏輯框包含自由空閒邏輯框、後設資料邏輯框及媒體資料邏輯框以及其他。 ISO基本媒體檔案可包含藉由邏輯框類型「ftyp」識別之檔案類型邏輯框210。檔案類型邏輯框210識別最適合於剖析檔案之ISOBMFF規範。「最」在此情況下意謂,ISO基本媒體檔案200可能已根據特定ISOBMFF規範格式化,但很可能與規範之其他反覆(iteration)相容。此最合適規範被稱作主流品牌。播放器裝置可使用主流品牌來判定裝置是否能夠解碼並顯示檔案之內容。檔案類型邏輯框210亦可包含版本號,該版本號可用以指示ISOBMFF規範之版本。檔案類型邏輯框210亦可包含相容品牌之清單,該清單包含檔案相容之其他品牌的清單。ISO基本媒體檔案可與多於一個主流品牌相容。 當ISO基本媒體檔案200包含檔案類型邏輯框210時,僅存在一個檔案類型邏輯框。ISO基本媒體檔案200可省略檔案類型邏輯框210以便與早期播放器裝置相容。當ISO基本媒體檔案200不包含檔案類型邏輯框210時,播放器裝置可假定預設主流品牌(例如「mp41」)、次要版本(例如,「0」)及相容品牌(例如,「mp41」)。檔案類型邏輯框210通常儘可能早地置放於ISO基本媒體檔案200中。 ISO基本媒體檔案可進一步包含電影邏輯框220,其含有用於呈現之後設資料。電影邏輯框220係藉由邏輯框類型「moov」識別。ISO/IEC 14496-12規定,呈現可僅包含一個電影邏輯框220,無論該呈現含於一個檔案中抑或多個檔案中。通常,電影邏輯框220靠近ISO基本媒體檔案之開始。電影邏輯框220包含電影標頭邏輯框222,且可包含一或多個播放軌邏輯框224以及其他邏輯框。 藉由邏輯框類型「mvhd」識別之電影標頭邏輯框222可包含與媒體無關且與作為整體之呈現相關的資訊。舉例而言,電影標頭邏輯框222可包含資訊,諸如產生時間、修改時間、時間標度及/或針對呈現之持續時間以及其他。電影標頭邏輯框222亦可包含識別呈現中之下一播放軌的識別符。舉例而言,在所說明之實例中,識別符可指向電影邏輯框220所含有之播放軌邏輯框224。 藉由邏輯框類型「trak」識別之播放軌邏輯框224可含有用於呈現之播放軌的資訊。呈現可包含一或多個播放軌,其中每一播放軌獨立於呈現中之其他播放軌。每一播放軌可包含對於播放軌中之內容特定的時間及空間資訊,且每一播放軌可與一媒體邏輯框相關聯。播放軌中之資料可為媒體資料,在此狀況下,播放軌為媒體播放軌;或資料可為用於串流傳輸協定之封包化資訊,在此狀況下,播放軌為提示播放軌。舉例而言,媒體資料包含視訊及音訊資料。在所說明之實例中,實例播放軌邏輯框224包含播放軌標頭邏輯框224a及媒體邏輯框224b。播放軌邏輯框可包含其他邏輯框,諸如播放軌參考邏輯框、播放軌群組邏輯框、編輯邏輯框、使用者資料邏輯框、後設邏輯框及其他邏輯框。 藉由邏輯框類型「tkhd」識別之播放軌標頭邏輯框224a可指定含於播放軌邏輯框224中之播放軌的特性。舉例而言,播放軌標頭邏輯框224a可包含播放軌之產生時間、修改時間、持續時間、播放軌識別符、層識別符、群組識別符、音量、寬度及/或高度,以及其他。對於媒體播放軌,播放軌標頭邏輯框224a可進一步識別播放軌是否經啟用,播放軌是否應作為呈現之部分而播放,或播放軌是否可用以預覽呈現,以及其他。播放軌之呈現通常假定為處於呈現之開始處。播放軌邏輯框224可包含此處未說明之編輯清單邏輯框,該編輯清單邏輯框可包含顯式時刻表圖。時刻表圖可指定播放軌之偏移時間以及其他,其中偏移指示在呈現開始之後播放軌之開始時間。 在所說明之實例中,播放軌邏輯框224亦包含由邏輯框類型「mdia」識別之媒體邏輯框224b。媒體邏輯框224b可含有關於播放軌中之媒體資料的對象及資訊。舉例而言,媒體邏輯框224b可含有處理常式參考邏輯框,其可識別播放軌之媒體類型及藉以呈現播放軌中之媒體的處理程序。作為另一實例,媒體邏輯框224b可含有媒體資訊邏輯框,其可指定播放軌中媒體的特性。媒體資訊邏輯框可進一步包含樣本表,其中每一樣本描述一塊媒體資料(例如視訊或音訊資料),包含(例如)樣本之資料的位置。樣本之資料儲存於下文進一步論述之媒體資料邏輯框中。如同大部分其他邏輯框,媒體邏輯框224b亦可包含媒體標頭邏輯框。 在所說明之實例中,實例ISO基本媒體檔案200亦包含呈現之多個片段230a、230b、230c、230n。片段230a、230b、203c、230n並非ISOBMFF邏輯框,而是描述電影片段邏輯框232及該電影片段邏輯框232所參考之媒體資料邏輯框238。電影片段邏輯框232及媒體資料邏輯框238係頂層邏輯框,但此處分組在一起以指示電影片段邏輯框232與媒體資料邏輯框238之間的關係。 藉由邏輯框類型「moof」識別之電影片段邏輯框232可藉由包含原本將儲存於電影邏輯框220中之額外資訊而擴展呈現。使用電影片段邏輯框232,呈現可經遞增地建置。電影片段邏輯框232可包含電影片段標頭邏輯框234及播放軌片段邏輯框236以及此處未說明之其他邏輯框。 藉由邏輯框類型「mfhd」識別之電影片段標頭邏輯框234可包含序號。播放器裝置可使用序號來驗證片段230a包含資料之下一片段以供呈現。在一些狀況下,檔案之內容或用於呈現之檔案可無序地被提供至播放器裝置。舉例而言,網路封包可以與最初傳輸封包之次序不同的次序頻繁地到達。在此等狀況下,序號可輔助播放器裝置判定片段之正確次序。 電影片段邏輯框232亦可包含藉由邏輯框類型「traf」識別之一或多個播放軌片段邏輯框236。電影片段邏輯框232可包含一組播放軌片段,每播放軌零個或多個。播放軌片段可含有零或多個播放軌行程,其中之每一者描述播放軌的樣本之連續行程。除添加樣本至播放軌外,播放軌片段可用以將空閒時間添加至播放軌。 藉由邏輯框類型「mdat」識別之媒體資料邏輯框238含有媒體資料。在視訊播放軌中,媒體資料邏輯框238將含有視訊圖框。媒體資料邏輯框可替代地或另外包含音訊資料。呈現可包含含於一或多個個別檔案中之零個或大於零個媒體資料邏輯框。媒體資料藉由後設資料描述。在所說明之實例中,媒體資料邏輯框238中之媒體資料可藉由包含於播放軌片段邏輯框236中之後設資料來描述。在其他實例中,媒體資料邏輯框中之媒體資料可藉由電影邏輯框220中之後設資料來描述。後設資料可藉由檔案200內之絕對偏移參考特定媒體資料,以使得媒體資料邏輯框238內之媒體資料標頭及/或自由空間可被跳過。 ISO基本媒體檔案200中之其他片段230b、230c、230n可含有類似於針對第一片段230a說明之彼等的邏輯框,及/或可含有其他邏輯框。 除支援媒體之本端播放外,ISOBMFF包含對經由網路串流傳輸媒體資料的支援。包含一個電影呈現之一或多個檔案可包含稱為提示播放軌之額外播放軌,其含有可在形成並以封包形式傳輸該一或多個檔案時輔助串流伺服器的指令。舉例而言,此等指令可包含用於伺服器以供發送之資料(例如標頭資訊)或對媒體資料之片段的參考。檔案可包含用於不同串流傳輸協定之單獨提示播放軌。提示播放軌亦可在不需要重新格式化檔案之情況下添加至檔案。 用於對媒體資料進行串流傳輸之一種方法為經由超文字傳送協定(HTTP)或DASH (定義於ISO/IEC 23009-1:2014)之動態自適應串流。被稱為MPEG-DASH之DASH為啟用媒體內容使用習知HTTP網頁伺服器之高品質串流傳輸的自適應位元速率串流傳輸技術。DASH藉由將媒體內容分成一系列基於HTTP之小檔案片段來操作,其中每一片段含有短時間間隔之內容。使用DASH,伺服器可以不同位元速率提供媒體內容。正播放媒體之用戶端裝置可在下載下一片段時自替代性位元速率做出選擇,且因此適應於改變網路條件。DASH使用網際網路之HTTP網頁伺服器基礎架構來經由全球資訊網遞送內容。DASH獨立於用以編碼並解碼媒體內容之編碼解碼器,且因此與諸如H.264及HEVC之編碼解碼器以及其他裝置一起操作。 雖然ISOBMFF靈活且可擴展,並且廣泛用於儲存及傳輸各種類型之媒體,但其不包含指示單獨經寫碼且獨立的子圖像播放軌之間關係的機制。缺少此機制將使得檔案剖析器計算出視訊播放軌之哪一集合攜載整個視訊內容之一個表示變得困難。 ISOBMFF在利用單獨經寫碼且獨立的子圖像播放軌時亦未提供整個圖像之空間解析度的指示。缺少此指示意謂需要擷取並剖析所有子圖像播放軌以計算整個圖像之大小,此操作係繁瑣的,在許多情況下僅需要此等播放軌之一子集。 ISOBMFF在利用單獨經寫碼且獨立的子圖像播放軌時具有與播放軌參考類型『cdsc』有關的問題。計時後設資料播放軌可用於傳信媒體播放軌之計時資訊,並且經由播放軌參考類型『cdsc』而與該媒體播放軌關聯。此媒體播放軌亦被稱作計時後設資料播放軌之參考(媒體)播放軌。然而,媒體內容可表示於多個媒體播放軌中,例如視訊內容攜載於影像塊基本播放軌及多個影像塊播放軌中,或視訊內容攜載於多個子圖像播放軌中。在(影像塊基本播放軌及多個影像塊播放軌之)前一情形中,直接選擇影像塊基本播放軌作為計時後設資料播放軌之參考媒體播放軌,且播放軌參考類型『cdsc』之語義解釋為「此播放軌描述由參考影像塊基本播放軌及所有相關聯影像塊播放軌所表示之視訊內容」。然而,在(多個子圖像播放軌之)後一情形中,並不需要選擇子圖像播放軌中之任一者作為參考播放軌,因為此情形解釋為「計時後設資料播放軌含有僅關於視訊內容之該子圖像部分之資訊」。 在各種實施中,ISOBMFF及/或自ISOBMFF導出之檔案格式可經修改及/或擴展以解決上文藉由實例闡述之問題以及下文闡述之實例。下文闡述之實例及實施例可尤其具有關於控制及處理虛擬實境內容之適用性。 子圖像基本播放軌為使用處理常式類型『vide』之視訊媒體播放軌,且可用於記錄(亦即提供/包含)視訊內容中對於視訊內容之所有子圖像播放軌而言共同的一些「全域」資訊(亦即,適用於、關聯於或描述複數個子圖像播放軌之資訊)。子圖像基本播放軌不含有經寫碼視訊資料單元。舉例而言,在基於NAL單元之視訊(諸如AVC及HEVC)之上下文中,子圖像基本播放軌不含有任何VCL NAL單元。ISOBMFF之樣本描述邏輯框(「stsd」)內之特定樣本項類型(例如『spbt』)係用於(例如,用以指示)子圖像基本播放軌。 此全域資訊之一個實例可為視訊內容之整個圖像之空間解析度,以及子圖像中之每一者相對於整個圖像之各別位置及各別大小,其中每一子圖像藉由含有給定子圖像所對應之子圖像位元流的播放軌識別符(ID)識別。此等參數可含於子圖像基本播放軌之樣本項中。特定言之,此實例可應用於VR應用以及非VR應用。 此全域資訊之另一實例可為全域全向媒體特定資訊,諸如與如OMAF CD中所指定類似的投影、分區封裝、定向及/或覆蓋度(coverage)。全域全向媒體特定資訊亦可在子圖像基本播放軌之樣本項中進行傳信,且可或可以不在子圖像播放軌內傳信,該等子圖像播放軌較佳地與子圖像基本播放軌一樣亦使用受限制方案樣本項類型。 圖3說明用以指定視訊媒體播放軌為子圖像基本播放軌之ISO基本媒體檔案300。檔案類型邏輯框310可視情況用於指示檔案300包含虛擬實境內容。舉例而言,檔案類型邏輯框310亦可用以指定品牌值,該品牌值指示檔案與虛擬實境品牌相容。在各種實施中,檔案類型邏輯框310中列出之相容品牌亦可用以提供可選品牌指示符,其可用以提供虛擬實境相關參數。舉例而言,一個相容品牌值可指示虛擬實境內容為2維(2-D)的,而另一相容品牌值可指示虛擬實境內容為3維(3-D)的。作為另一實例,相容品牌值可用以指示映射類型;亦即,虛擬實境視訊之球面表示已被映射成等矩形、立方體或角錐形格式,抑或某一其他格式以供儲存於檔案300中。在各種實施中,諸如視訊之維度及/或映射之資訊可替代地或另外使用檔案類型邏輯框310中之可選欄位來指示。 電影邏輯框320可包含一電影標頭邏輯框322及視情況選用之一或多個播放軌邏輯框324。電影標頭邏輯框322可視情況用以指示由電影邏輯框320描述之電影或呈現包含虛擬實境內容。電影邏輯框320可包含描述作為整體之呈現的資訊。播放軌邏輯框324可包含針對呈現中之一播放軌的資訊。播放軌邏輯框324可包含一播放軌標頭邏輯框324a及零個或大於零個媒體資料邏輯框324b。 檔案300可包含一檔案類型邏輯框310,其可指定ISOBMFF之品牌或特定反覆或ISOBMFF之檔案300與之相容的導出。檔案300亦可包含一電影邏輯框320,其可含有用於一呈現之後設資料。檔案300可視情況亦包含一或多個片段330a、330b、330c、330n,如上文所論述。 電影邏輯框320可包含一電影標頭邏輯框322及一或多個播放軌邏輯框324,以及此處未說明之其他邏輯框。電影標頭邏輯框322可包含描述作為整體之呈現的資訊。播放軌邏輯框324可包含針對呈現中之一播放軌的資訊。播放軌邏輯框324可包含一播放軌標頭邏輯框324a及零個或大於零個媒體資料邏輯框324b。 媒體資料邏輯框324b可包含一處理常式邏輯框342c以及其他邏輯框。亦可被稱作一處理常式參考邏輯框之處理常式邏輯框342c可指示播放軌之媒體類型。播放軌之媒體類型定義播放軌中之媒體資料藉以呈現之程序。媒體類型之實例包含視訊及音訊以及其他。媒體呈現所用之方式可包含針對媒體之格式。舉例而言,播放器裝置用於傳遞播放軌中之視訊資料的一格式(例如縱橫比、解析度、圖框速率等)可儲存於視訊播放軌中,且藉由處理常式邏輯框342c之一視訊處理常式版本識別。在一些狀況下,檔案300可包含針對任何類型之後設資料串流的一通用處理常式。在此等狀況下,視訊內容之特定格式可藉由描述內容之一樣本項來識別。 在一些情況下,媒體資料邏輯框324b可包含一處理常式邏輯框342c。處理常式邏輯框324c可用於對一播放軌之內容包含一視訊處理常式類型『vide』進行信令傳輸。處理常式類型『vide』可用於記錄視訊內容中對所有子圖像播放軌而言共同的一些全域資訊。子圖像基本播放軌不含有經寫碼視訊資料單元。舉例而言,在基於NAL單元之視訊(諸如AVC及HEVC)之上下文中,子圖像基本播放軌不含有任何VCL NAL單元。 在各種實施中,處理常式邏輯框342c可用以指示,藉由媒體資料邏輯框324b參考之媒體內容包含虛擬實境內容。舉例而言,處理常式邏輯框342c可包含播放軌中含有之視訊內容為虛擬實境視訊的可選指示符(例如,呈保留位元或新變數形式)。並不經組態以讀取可選指示符之視訊播放器可忽略可選指示符。 在一些實施中,視訊處理常式邏輯框可視情況亦包含描述虛擬實境內容之參數,諸如虛擬實境視訊為2-D抑或3-D,虛擬實境視訊為預拼接抑或後拼接,及/或虛擬實境視訊之映射。在各種實施中,可在各種其他邏輯框中指示與可在播放軌邏輯框324中找到之虛擬實境內容相關的參數。舉例而言,可在播放軌標頭邏輯框324a中傳信該等參數。替代地或另外,可在媒體標頭邏輯框(由邏輯框類型「mdhd」識別)中及/或在視訊媒體標頭邏輯框(由邏輯框類型「vmhd」識別)中傳信該等參數,前述各者此處並未予以說明。替代地或另外,參數可指示於樣本項中及/或指示於可置放在播放軌邏輯框324之頂層處的新定義邏輯框中。 圖4說明可包含在ISO基本媒體檔案中且可包含用於子圖像基本播放軌之特定樣本項類型(例如『spbt』)的媒體邏輯框440之實例。如上文所論述,媒體邏輯框可包含於播放軌邏輯框中,且可含有描述播放軌中之媒體資料的對象及資訊。在所說明的實例中,媒體邏輯框440包含媒體資訊邏輯框442。媒體邏輯框440亦可包含此處未說明之其他邏輯框。 媒體資訊邏輯框442可含有描述關於播放軌中之媒體之特性資訊的對象。舉例而言,媒體資訊邏輯框442可包含描述播放軌中之媒體資訊之位置的資料資訊邏輯框。作為另一實例,當播放軌包含視訊資料時,媒體資訊邏輯框442可包含視訊媒體標頭。視訊媒體標頭可含有獨立於視訊媒體之寫碼的一般呈現資訊。當播放軌包含音訊資料時,媒體資訊邏輯框442亦可包含聲音媒體標頭。 媒體資訊邏輯框442亦可包含樣本表邏輯框444,如所說明實例中所提供。藉由邏輯框類型「stbl」識別之樣本表邏輯框444可提供播放軌中之媒體樣本的位置(例如就檔案而言之位置)以及樣本之時間資訊。使用藉由樣本表邏輯框444提供之資訊,播放器裝置可以正確時間次序定位樣本,判定樣本之類型,及/或判定大小、容器及容器內之樣本的偏移以及其他。 樣本表邏輯框444可包含由邏輯框類型「stsd」識別之樣本描述邏輯框446。樣本描述邏輯框446可提供關於(例如)用於樣本之寫碼類型之詳細資訊,及針對彼寫碼類型需要之任何初始化資訊。儲存於樣本描述邏輯框中之資訊可特定針對於包含樣本之播放軌的類型。舉例而言,在播放軌為視訊播放軌時,可針對樣本描述使用一種格式,且在播放軌為提示播放軌時,可使用一不同格式。作為另一實例,針對樣本描述之格式亦可取決於提示播放軌之格式而發生變化。 樣本描述邏輯框446可包含一或多個樣本項邏輯框448a、448b、448c。樣本項類型為摘要類別,且因此通常樣本描述邏輯框包含特定樣本項邏輯框,諸如用於視訊資料之視覺樣本項或用於音訊樣本之音訊樣本項以及其他實例。樣本項邏輯框可儲存針對特定樣本之參數。舉例而言,對於視訊樣本而言,樣本項邏輯框可包含視訊樣本之寬度、高度、水平解析度、豎直解析度、圖框計數及/或深度以及其他。作為另一實例,對於音訊樣本而言,樣本項可包含通道計數、通道佈局及/或取樣速率以及其他。 圖5說明指示子圖像基本播放軌可經選擇作為計時後設資料播放軌之參考媒體播放軌的ISO基本媒體檔案500之實例。播放軌參考類型『cdsc』之語義解釋為「此播放軌描述由參考子圖像基本播放軌及所有相關聯子圖像播放軌所表示之視訊內容」。檔案500可包含檔案類型邏輯框510,其可指定ISOBMFF之品牌或特定反覆或ISOBMFF之檔案500與之相容的導出。檔案500亦可包含電影邏輯框520,其可含有用於呈現之後設資料。檔案500可視情況亦包含一或多個片段530a、530b、530c、530n,如上文所論述。 電影邏輯框520可包含電影標頭邏輯框522及一或多個播放軌邏輯框524,以及此處未說明之其他邏輯框。電影標頭邏輯框522可包含描述作為整體之呈現的資訊。播放軌邏輯框524可包含針對呈現中之播放軌的資訊。播放軌邏輯框524可包含播放軌標頭邏輯框524a及零個或大於零個媒體資料邏輯框524b。 如上文所論述,在一些情況下,播放軌參考邏輯框524b可包含內容描述參考『cdsc』524c,其解釋為「此播放軌描述由參考子圖像基本播放軌及所有相關聯子圖像播放軌表示之視訊內容」。此情形解決了對包含儲存於多個子圖像播放軌中之多個子圖像位元流的視訊內容進行儲存及信令傳輸的問題。計時後設資料播放軌可用於傳信媒體播放軌之計時資訊,並且經由播放軌參考類型『cdsc』而與該媒體播放軌關聯。此媒體播放軌亦被稱作計時後設資料播放軌之參考(媒體)播放軌。然而,媒體內容可表示於多個媒體播放軌中,例如視訊內容攜載於影像塊基本播放軌及多個影像塊播放軌中,或視訊內容攜載於多個子圖像播放軌中。在(影像塊基本播放軌及多個影像塊播放軌之)基於HEVC圖塊之情形中,直接選擇影像塊基本播放軌作為計時後設資料播放軌之參考媒體播放軌,且播放軌參考類型『cdsc』之語義解釋為「此播放軌描述由參考影像塊基本播放軌及所有相關聯影像塊播放軌所表示之視訊內容」。然而,在多個單獨經寫碼且獨立的子圖像播放軌之情形中,並不需要選擇子圖像播放軌中之任一者作為參考播放軌,因為此情形意謂計時後設資料播放軌含有僅關於視訊內容之該子圖像部分之資訊。 圖6說明其中與子圖像基本播放軌機制一起使用之ISO基本媒體檔案600能夠對所有子圖像播放軌進行分組之實例,該等子圖像播放軌各自具有指代子圖像基本播放軌之特定類型(例如『spbs』)的播放軌參考。檔案600可包含檔案類型邏輯框610,其可指定ISOBMFF之品牌或特定反覆或ISOBMFF之檔案600與之相容的導出。檔案600亦可包含電影邏輯框620,其可含有用於呈現之後設資料。檔案600可視情況亦包含一或多個片段630a、630b、630c、630n,如上文所論述。 在圖6之實例中,檔案類型邏輯框610可用於基於子圖像之方法中,其中視訊內容按以下方式經編碼且儲存在基於ISOBMFF之檔案中。源視訊在編碼前經分裂成子圖像序列。每一子圖像序列涵蓋整個視訊內容之空間區域之一子集。每一子圖像序列隨後彼此獨立地經編碼為單一位元流。此位元流被稱為子圖像位元流。可由同一子圖像序列編碼出若干位元流,例如用於不同位元速率。每一子圖像位元流經封裝於檔案中作為其自身播放軌。此播放軌被稱為子圖像播放軌。類似於基於HEVC影像塊之檢視區相關視訊寫碼方案,此基於子圖像之方法亦可用於VR應用中之解碼複雜度及傳輸頻寬之最佳化。 圖7說明其中子圖像基本播放軌可含有指向所有相關聯子圖像播放軌之新特定類型(例如『sptk』)之播放軌參考的ISO基本媒體檔案700之實例。此播放軌參考可指示子圖像播放軌之間的關係。檔案700可包含檔案類型邏輯框710,其可指定ISOBMFF之品牌或特定反覆或ISOBMFF之檔案700與之相容的導出。檔案700亦可包含電影邏輯框720,其可含有用於呈現之後設資料。檔案700可視情況亦包含一或多個片段730a、730b、730c、730n,如上文所論述。 電影邏輯框720可包含電影標頭邏輯框722及一或多個播放軌邏輯框724,以及此處未說明之其他邏輯框。電影標頭邏輯框722可包含描述作為整體之呈現的資訊。播放軌邏輯框724可包含針對呈現中之播放軌的資訊。播放軌邏輯框724可包含播放軌標頭邏輯框724a及零個或大於零個使用者資料邏輯框724b。 如上文所論述,在一些情況下,播放軌參考邏輯框724b可含有新類型邏輯框724c,其提供對指向所有相關聯子圖像播放軌之特定類型(例如『sptk』)的參考。在基於OMAF CD子圖像之方法中,視訊內容按以下方式經編碼並儲存在基於ISOBMFF之檔案中。源視訊在編碼前經分裂成子圖像序列。每一子圖像序列涵蓋整個視訊內容之空間區域之一子集。每一子圖像序列隨後彼此獨立地經編碼為單一位元流。此位元流被稱為子圖像位元流。可由同一子圖像序列編碼出若干位元流,例如用於不同位元速率。每一子圖像位元流經封裝於檔案中作為其自身播放軌。此播放軌被稱為子圖像播放軌。經由使用子圖像基本播放軌,特定類型(諸如『sptk』)之參考可經分組以供處理。 藉助於上文闡述之實例,每一子圖像播放軌仍然可獨立地剖析及解碼。可替代地,參數集攜載於子圖像基本播放軌中,且每一子圖像播放軌可利用子圖像基本播放軌之存在來用於媒體解碼。其要求為,當編碼子圖像播放軌之位元流時,具有不同內容的特定類型之參數集應使用不同參數集ID。 上文所識別之問題的另一解決方案為,使用ISOBMFF之條款8.3.4中之播放軌群組設計,經由如下文進一步描述之TrackGroupTypeBox的後向相容擴展。 圖8說明定義例如藉由等於『subp』之track_group_type識別之新播放軌分組類型的ISO基本媒體檔案800之實例。此播放軌群組類型指示當前播放軌為攜載整個視訊內容之一個表示的一組子圖像播放軌中之一者。檔案800可包含檔案類型邏輯框810,其可指定ISOBMFF之品牌或特定反覆或ISOBMFF之檔案800與之相容的導出。檔案800亦可包含電影邏輯框820,其可含有用於呈現之後設資料。檔案800可視情況亦包含一或多個片段830a、830b、830c、830n,如上文所論述。 電影邏輯框820可包含電影標頭邏輯框822及一或多個播放軌邏輯框824,以及此處未說明之其他邏輯框。電影標頭邏輯框822可包含描述作為整體之呈現的資訊。播放軌邏輯框824可包含針對呈現中之播放軌的資訊。播放軌邏輯框824可包含播放軌標頭邏輯框824a及零個或大於零個播放軌群組邏輯框824b。 播放軌群組邏輯框824b能夠指示播放軌之群組,其中每一群組共用一特定特性或群組內之播放軌具有特定關係。邏輯框含有零個或大於零個邏輯框,且該特定特性或關係藉由所含邏輯框之邏輯框類型指示。所含邏輯框包含識別符,其可用於推斷播放軌屬於同一播放軌群組。在播放軌群組邏輯框內含有所含邏輯框之相同類型且在此等所含邏輯框內具有相同識別符值的播放軌屬於同一播放軌群組。播放軌群組不會用於指示播放軌之間的相依關係。替代地,播放軌參考邏輯框用於此目的。 就語義而言,track_group_type指示分組類型,且應被設定成以下值或註冊值或來自所導出規範或註冊之值中的一者。 舉例而言,『msrc』之track_group_type指示此播放軌屬於多源呈現。在track_group_type『msrc』之群組類型邏輯框內具有track_group_id之相同值的播放軌經映射為來源於同一源。舉例而言,視訊電話通話之記錄可具有關於兩個參與者之音訊及視訊兩者,且與一個參與者之音訊播放軌及視訊播放軌相關聯的track_group_id之值不同於與另一參與者之播放軌相關聯的track_group_id之值。track_group_id及track_group_type對識別檔案內之播放軌群組。含有具有track_group_id之相同值之特定播放軌群組類型邏輯框的播放軌屬於同一播放軌群組。 在此實例中,定義例如藉由等於『subp』之track_group_type識別的新播放軌分組類型。在TrackGroupTypeBox中,當track_group_type等於新播放軌分組類型(例如『subp』)時,可添加更多資訊。此資訊之一個實例為當前播放軌中之子圖像的子圖像列索引及子圖像行索引。其要求為,子圖像必須在子圖像列及子圖像行中。為了實現更靈活的子圖像組態,對對應於子圖像之左上角像素的像素(亦即,明度樣本)在整個圖像上之座標(亦即,水平偏移及豎直偏移)進行傳信。此相較於傳信子圖像列索引及子圖像行索引而言可為較佳的。座標可存在於任一像素之單元中或存在於相對單元中。在後一情況中,應對同樣在相對單元中的整個圖像之寬度及高度以及子圖像之寬度及高度進行傳信。 在TrackGroupTypeBox中,當track_group_type等於新播放軌分組類型(例如『subp』)時,可添加更多資訊。此資訊之一個實例為整個圖像之大小。可另外或可替代地,當track_group_type等於新播放軌分組類型時,可提供其他資訊,例如上文描述為全域資訊之資訊。針對用於基於檢視區相關視訊寫碼之全向視訊串流的基於子圖像位元流之編碼及解碼的方法,源視訊在編碼前經分裂成子圖像序列。每一子圖像序列涵蓋整個視訊內容之空間區域之一子集。每一子圖像序列隨後彼此獨立地經編碼為單一位元流。此位元流被稱為子圖像位元流。可由同一子圖像序列編碼出若干位元流,例如用於不同位元速率。每一子圖像位元流經封裝於檔案中作為其自身播放軌,該播放軌被稱為子圖像播放軌。由於每一子圖像係獨立地進行編碼,因此目前不存在用以判定整個圖像之大小的機制。如上文所闡述,可追蹤頭部移動及/或眼睛移動瞬間並呈現視訊之對應部分以為使用者傳遞沉浸式體驗的VR內容呈現裝置(諸如HMD)具有固有的處理及儲存限制。為了傳遞高質量的沉浸式使用者體驗,VR內容呈現裝置可使用整個圖像之大小資訊作為選擇具有合適位元速率及品質之子圖像序列的準則。藉助於在TrackGroupTypeBox中傳信整個圖像大小,此資訊在所有子圖像播放軌中重複。 經由TrackGroupTypeBox之後向相容擴展,攜載整個視訊內容之一個表示的所有子圖像播放軌將與track_group_id之相同值及新播放軌分組類型相關聯。子圖像播放軌中之任一者隨後可經選擇作為計時後設資料播放軌之參考媒體播放軌,且播放軌參考類型『cdsc』之語義解釋為「此播放軌描述由屬於同一播放軌群組之參考子圖像播放軌及所有其他相關聯子圖像播放軌所表示之視訊內容」。 圖9及圖10分別展示編碼裝置900及解碼裝置1000之特定細節。圖9為說明可實施本發明中所描述之技術中之一或多者的實例編碼裝置900之方塊圖。編碼裝置900可(例如)產生本文中所描述之語法結構(例如,VPS、SPS、PPS或其他語法元素之語法結構)。編碼裝置900可執行視訊圖塊內之視訊區塊的框內預測及框間預測寫碼。如先前所描述,框內寫碼至少部分地依賴於空間預測以減少或移除給定視訊圖框或圖像內之空間冗餘。框間寫碼至少部分地依賴於時間預測以減少或移除視訊序列之鄰近或周圍圖框內的時間冗餘。框內模式(I模式)可指若干基於空間之壓縮模式中的任一者。框間模式(諸如,單向預測(P模式)或雙向預測(B模式))可指若干基於時間之壓縮模式中的任一者。 編碼裝置900包含分割單元35、預測處理單元41、濾波器單元63、圖像記憶體64、求和器50、變換處理單元52、量化單元54及熵編碼單元56。預測處理單元41包含運動估計單元42、運動補償單元44及框內預測處理單元46。對於視訊區塊重建構,編碼裝置900亦包含反量化單元58、反變換處理單元60及求和器62。濾波器單元63意欲表示一或多個迴路濾波器,諸如解區塊濾波器、自適應性迴路濾波器(ALF)及樣本自適應性偏移(SAO)濾波器。儘管濾波器單元63在圖9中展示為迴路中濾波器,但在其他組態中,濾波器單元63可實施為迴路後濾波器。後處理裝置57可對由編碼裝置900產生之經編碼視訊資料執行額外處理。在一些情況下,本發明之技術可藉由編碼裝置900實施。然而,在其他情況下,本發明之技術中的一或多者可藉由後處理裝置57實施。 如圖9中所展示,編碼裝置900接收視訊資料,且分割單元35將資料分割成視訊區塊。分割亦可包含分割成圖塊、圖塊片段、影像塊或其他較大單元,以及例如根據LCU及CU之四分樹結構的視訊區塊分割。編碼裝置900通常說明對待編碼視訊圖塊內之視訊區塊進行編碼的組件。圖塊可劃分成多個視訊區塊(且可能劃分成被稱作影像塊之視訊區塊集合)。預測處理單元41可基於誤差結果(例如,寫碼速率及失真等級,或其類似者)選擇複數個可能寫碼模式中之一者(諸如,複數個框內預測寫碼模式中之一者或複數個框間預測寫碼模式中之一者)以用於當前視訊區塊。預測處理單元41可將所得經框內或框間寫碼區塊提供至求和器50以產生殘餘區塊資料且提供至求和器62以重建構經編碼區塊以用作參考圖像。 預測處理單元41內之框內預測處理單元46可執行當前視訊區塊相對於與待寫碼的當前區塊在同一圖框或圖塊中的一或多個相鄰區塊之框內預測寫碼以提供空間壓縮。預測處理單元41內之運動估計單元42及運動補償單元44執行當前視訊區塊相對於一或多個參考圖像中之一或多個預測性區塊之框間預測性寫碼,以提供時間壓縮。 運動估計單元42可經組態以根據視訊序列之預定圖案來判定用於視訊圖塊之框間預測模式。預定圖案可將序列中之視訊圖塊指定為P圖塊、B圖塊或GPB圖塊。運動估計單元42及運動補償單元44可高度整合,但出於概念目的而單獨說明。由運動估計單元42執行之運動估計為產生運動向量之過程,該等運動向量估計視訊區塊之運動。運動向量(例如)可指示當前視訊圖框或圖像內之視訊區塊的預測單元(PU)相對於參考圖像內之預測性區塊的移位。 預測性區塊為就像素差而言被發現緊密地匹配待寫碼視訊區塊之PU之區塊,該像素差可由絕對差和(SAD)、平方差和(SSD)或其他差度量判定。在一些實例中,編碼裝置900可計算儲存於圖像記憶體64中之參考圖像的子整數像素位置之值。舉例而言,編碼裝置900可內插該參考圖像之四分之一像素位置、八分之一像素位置或其他分率像素位置之值。因此,運動估計單元42可執行關於全像素位置及分數像素位置之運動搜尋且輸出具有分數像素精度之運動向量。 運動估計單元42藉由比較PU之位置與參考圖像之預測性區塊的位置而計算經框間寫碼圖塊中之視訊區塊的PU的運動向量。參考圖像可選自第一參考圖像清單(清單0)或第二參考圖像清單(清單1),該等清單中之每一者識別儲存於圖像記憶體64中之一或多個參考圖像。運動估計單元42將所計算之運動向量發送至熵編碼單元56及運動補償單元44。 由運動補償單元44執行之運動補償可涉及基於由運動估計(可能執行內插至子像素精度)判定之運動向量而擷取或產生預測性區塊。在接收到當前視訊區塊之PU的運動向量之後,運動補償單元44可在參考圖像清單中定位運動向量所指向之預測性區塊。編碼裝置900藉由自正經寫碼之當前視訊區塊之像素值減去預測性區塊之像素值從而形成像素差值來形成殘餘視訊區塊。像素差形成用於區塊之殘餘資料,且可包含明度及色度差分量兩者。求和器50表示執行此減法運算之一或多個組件。運動補償單元44亦可產生與視訊區塊及視訊圖塊相關聯之語法元素,以供解碼裝置1000用於解碼視訊圖塊之視訊區塊。 如上文所描述,作為由運動估計單元42及運動補償單元44所執行之框間預測的替代方案,框內預測處理單元46可對當前區塊進行框內預測。特定而言,框內預測處理單元46可判定框內預測模式以用以編碼當前區塊。在一些實例中,框內預測處理單元46可例如在單獨編碼遍次期間使用各種框內預測模式來編碼當前區塊,且框內預測處理單元46 (或在一些實例中模式選擇單元40)可自所測試模式選擇適當的框內預測模式來使用。舉例而言,框內預測處理單元46可使用對各種所測試框內預測模式之速率-失真分析來計算速率-失真值,且可在所測試模式間選擇具有最佳速率-失真特性之框內預測模式。速率-失真分析大體上判定經編碼區塊與原始未經編碼區塊(其經編碼以產生經編碼區塊)之間的失真(或誤差)量,以及用以產生經編碼區塊之位元速率(亦即,位元之數目)。框內預測處理單元46可根據各種經編碼區塊之失真及速率計算比率以判定哪一框內預測模式展現該區塊之最佳速率-失真值。 在任何情況下,在選擇用於區塊之框內預測模式後,框內預測處理單元46可將指示用於區塊之所選框內預測模式的資訊提供至熵編碼單元56。熵編碼單元56可編碼指示所選框內預測模式之資訊。編碼裝置900可將各種區塊之編碼上下文之定義以及待用於上下文中之每一者的最可能的框內預測模式、框內預測模式索引表及經修改框內預測模式索引表之指示包含於經傳輸位元流組態資料中。位元流組態資料可包含複數個框內預測模式索引表及複數個經修改框內預測模式索引表(亦被稱作碼字映射表)。 在預測處理單元41經由框間預測或框內預測產生當前視訊區塊之預測性區塊之後,編碼裝置900藉由自當前視訊區塊減去預測性區塊而形成殘餘視訊區塊。殘餘區塊中之殘餘視訊資料可包含於一或多個TU中且被應用於變換處理單元52。變換處理單元52使用諸如離散餘弦變換(DCT)或概念上類似變換之變換將殘餘視訊資料變換成殘餘變換係數。變換處理單元52可將殘餘視訊資料自像素域轉換至變換域(諸如,頻域)。 變換處理單元52可將所得變換係數發送至量化單元54。量化單元54量化變換係數以進一步減少位元速率。量化過程可減小與係數中之一些或所有相關聯的位元深度。可藉由調整量化參數來修改量化程度。在一些實例中,量化單元54可接著執行對包含經量化變換係數之矩陣的掃描。替代地,熵編碼單元56可執行掃描。 在量化之後,熵編碼單元56對經量化變換係數進行熵編碼。舉例而言,熵編碼單元56可執行上下文自適應性可變長度寫碼(CAVLC)、上下文自適應性二進位算術寫碼(CABAC)、基於語法之上下文自適應性二進位算術寫碼(SBAC)、機率區間分割熵(PIPE)寫碼或另一熵編碼技術。在由熵編碼單元56進行熵編碼之後,可將經編碼位元流傳輸至解碼裝置1000,或加以存檔以供稍後由解碼裝置1000傳輸或擷取。熵編碼單元56亦可熵編碼正經寫碼之當前視訊圖塊之運動向量及其他語法元素。 反量化單元58及反變換處理單元60分別應用反量化及反變換以重建構像素域中之殘餘區塊以供稍後用作參考圖像之參考區塊。運動補償單元44可藉由將殘餘區塊添加至參考圖像清單內之參考圖像中之一者的預測性區塊來計算參考區塊。運動補償單元44亦可將一或多個內插濾波器應用於經重建構殘餘區塊以計算用於運動估計之子整數像素值。求和器62將經重建構殘餘區塊添加至由運動補償單元44產生之運動補償預測區塊,以產生用於儲存於圖像記憶體64中之參考區塊。參考區塊可由運動估計單元42及運動補償單元44用作參考區塊以對後續視訊圖框或圖像中之區塊進行框間預測。 以此方式,圖9之編碼裝置900表示經組態以產生經編碼視訊位元流之語法的視訊編碼器之實例。編碼裝置900可(例如)產生如上文所描述之VPS、SPS及PPS參數集。編碼裝置900可執行本文中所描述之技術中的任一者,包含上文關於圖9及圖10所描述的處理程序。本發明之技術已大體上關於編碼裝置900加以描述,但如上文所提及,本發明之技術中的一些亦可藉由後處理裝置57實施。 圖10為說明實例解碼裝置1000之方塊圖。解碼裝置1000包含熵解碼單元80、預測處理單元81、反量化單元86、反變換處理單元88、求和器90、濾波器單元91及圖像記憶體92。預測處理單元81包含運動補償單元82及框內預測處理單元84。在一些實例中,解碼裝置1000可執行與關於圖9之編碼裝置900所描述之編碼遍次大體上互逆的解碼遍次。 在解碼過程期間,解碼裝置1000接收經編碼視訊位元流,其表示經編碼視訊圖塊之視訊區塊及藉由編碼裝置900發送之相關聯語法元素。在一些實例中,解碼裝置1000可自編碼裝置900接收經編碼視訊位元流。在一些實例中,解碼裝置1000可自網路實體79接收經編碼視訊位元流,該網路實體諸如伺服器、媒體感知網路元件(MANE)、視訊編輯器/切割器,或經組態以實施上文所描述之技術中之一或多者的其他此種裝置。網路實體79可或可不包含編碼裝置900。本發明中所描述之技術中的一些可在網路實體79將經編碼視訊位元流傳輸至解碼裝置1000之前由網路實體79實施。在一些視訊解碼系統中,網路實體79及解碼裝置1000可為單獨裝置之部分,而在其他情況下,關於網路實體79所描述之功能性可由包括解碼裝置1000之同一裝置執行。 解碼裝置1000之熵解碼單元80對位元流進行熵解碼以產生經量化係數、運動向量及其他語法元素。熵解碼單元80將運動向量及其他語法元素轉送至預測處理單元81。解碼裝置1000可接收視訊圖塊層級及/或視訊區塊層級之語法元素。熵解碼單元80可處理並剖析諸如VPS、SPS及PPS之一或多個參數集中之固定長度語法元素及可變長度語法元素兩者。 當視訊圖塊被寫碼為經框內寫碼(I)圖塊時,預測處理單元81之框內預測處理單元84可基於經發信框內預測模式及來自當前圖框或圖像之先前經解碼區塊的資料而產生當前視訊圖塊之視訊區塊的預測資料。當視訊圖框經寫碼為經框間寫碼(亦即B、P或GPB)圖塊時,預測處理單元81之運動補償單元82基於自熵解碼單元80接收到之運動向量及其他語法元素而產生當前視訊圖塊之視訊區塊的預測性區塊。預測性區塊可自參考圖像清單內之參考圖像中的一者產生。解碼裝置1000可基於儲存於圖像記憶體92中之參考圖像使用預設建構技術來建構參考圖框清單(清單0及清單1)。 運動補償單元82藉由剖析運動向量及其他語法元素來判定用於當前視訊圖塊之視訊區塊的預測資訊,並使用該預測資訊以產生經解碼當前視訊區塊之預測性區塊。舉例而言,運動補償單元82可使用參數集中之一或多個語法元素以判定用於寫碼視訊圖塊之視訊區塊之預測模式(例如,框內預測或框間預測)、框間預測圖塊類型(例如,B圖塊、P圖塊或GPB圖塊)、圖塊之一或多個參考圖像清單之建構資訊、圖塊之每一框間編碼視訊區塊之運動向量、圖塊之每一框間寫碼視訊區塊之框間預測狀態,及用以解碼當前視訊圖塊中之視訊區塊的其他資訊。 運動補償單元82亦可執行基於內插濾波器之內插。運動補償單元82可使用如在編碼視訊區塊期間由編碼裝置900使用的內插濾波器來計算參考區塊之子整數像素的內插值。在此狀況下,運動補償單元82可自所接收語法元素判定由編碼裝置900使用之內插濾波器,且可使用內插濾波器來產生預測性區塊。 反量化單元86反量化或解量化位元流中所提供且由熵解碼單元80解碼之經量化變換係數。反量化過程可包含使用由編碼裝置900針對視訊圖塊中之每一視訊區塊計算的量化參數來判定量化程度及同樣應應用之反量化程度。反變換處理單元88將反變換(例如,反DCT或其他合適之反變換)、反整數變換或概念上類似的反變換處理程序應用於變換係數以便在像素域中產生殘餘區塊。 在運動補償單元82基於運動向量及其他語法元素而產生當前視訊區塊之預測性區塊之後,解碼裝置1000藉由將來自反變換處理單元88之殘餘區塊與由運動補償單元82產生之對應預測性區塊求和而形成經解碼視訊區塊。求和器90表示執行此求和運算之一或多個組件。若需要,亦可使用迴路濾波器(在寫碼迴路中或在寫碼迴路後)以使像素轉變平滑,或以其他方式改良視訊品質。濾波器單元91意欲表示一或多個迴路濾波器,諸如解區塊濾波器、自適應性迴路濾波器(ALF)及樣本自適應性偏移(SAO)濾波器。儘管濾波器單元91在圖10中展示為迴路中濾波器,但在其他組態中,濾波器單元91可實施為迴路後濾波器。給定圖框或圖像中之經解碼視訊區塊隨後儲存於圖像記憶體92中,該圖像記憶體儲存用於後續運動補償之參考圖像。圖像記憶體92亦儲存經解碼視訊以供稍後呈現於顯示裝置上,該顯示裝置諸如圖1中所展示之視訊目的地裝置122。 在前面描述中,本申請案之態樣係參考其特定實例加以描述,但熟習此項技術者將認識到,本發明不限於此。因此,儘管本文中已詳細描述申請案之說明性實例,但應理解,本發明概念可以其他方式不同地體現並使用,且所附申請專利範圍意欲解釋為包含除先前技術所限制外的此等變化。上文所描述之發明之各種特徵及態樣可單獨地或聯合地使用。另外,實例可用於超出本文所描述之彼等環境及應用之任何數目個環境及應用,而不脫離本說明書之更廣精神及範疇。因此,本說明書及圖式被視為說明性而非限定性。出於說明之目的,以特定次序描述方法。應瞭解,在替代性實例中,可以與所描述之次序不同之次序來執行該等方法。 在組件被描述為「經組態以」執行某些操作之情況下,可(例如)藉由設計電子電路或其他硬體以執行操作、藉由程式化可程式化電子電路(例如,微處理器或其他適合之電子電路)以執行操作或其任何組合來實現此組態。 結合本文中所揭示之實例而描述之各種說明性邏輯區塊、模組、電路及演算法步驟可被實施為電子硬體、電腦軟體或兩者之組合。為了清楚地說明硬體與軟體之此可互換性,各種說明性組件、區塊、模組、電路及步驟已在上文大體按其功能性加以描述。此功能性實施為硬體抑或軟體取決於特定應用及強加於整個系統之設計約束。熟習此項技術者可針對每一特定應用而以變化之方式實施所描述之功能性,但不應將此等實施決策解釋為致使脫離本發明之範疇。 本文中描述之技術可以硬體、軟體、韌體或其任何組合實施。此等技術可實施於多種裝置中之任何者中,諸如,通用電腦、無線通信裝置手機或具有多種用途(包含在無線通信裝置手機及其他裝置中之應用)之積體電路裝置。可將描述為模組或組件之任何特徵共同實施於整合式邏輯裝置中或分開實施為離散但可互操作之邏輯裝置。若以軟體實施,則該等技術可至少部分地由包括程式碼之電腦可讀資料儲存媒體實現,該程式碼包含在被執行時執行上文所描述之方法中之一或多者的指令。電腦可讀資料儲存媒體可形成電腦程式產品之部分,電腦程式產品可包含封裝材料。電腦可讀媒體可包括記憶體或資料儲存媒體,諸如,隨機存取記憶體(RAM),諸如,同步動態隨機存取記憶體(SDRAM)、唯讀記憶體(ROM)、非揮發性隨機存取記憶體(NVRAM)、電可抹除可程式化唯讀記憶體(EEPROM)、快閃記憶體、磁性或光學資料儲存媒體及其類似者。另外或替代地,該等技術可至少部分地由電腦可讀通信媒體實現,該電腦可讀通信媒體載送或傳達呈指令或資料結構之形式且可由電腦存取、讀取及/或執行的程式碼,諸如,傳播之信號或波。 程式碼可由可包含一或多個處理器之處理器執行,諸如,一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化邏輯陣列(FPGA)或其他等效積體或離散邏輯電路。此處理器可經組態以執行本發明中所描述之技術中之任一者。通用處理器可為微處理器;但在替代例中,處理器可為任何習知處理器、控制器、微控制器或狀態機。處理器亦可經實施為計算裝置之組合,例如,DSP與微處理器之組合、複數個微處理器、結合DSP核心之一或多個微處理器或任何其他此類組態。因此,如本文中所使用之術語「處理器」可指前述結構中之任一者、前述結構之任何組合或適合於實施本文中所描述之技術的任何其他結構或設備。此外,在一些實例中,本文中描述之功能性可提供於經組態用於編碼及解碼之專用軟體模組或硬體模組內,或併入於組合式視訊編碼器-解碼器(編碼解碼器)中。 本文中所論述之寫碼技術可體現於實例視訊編碼及解碼系統中。系統包含源裝置,其提供稍後將由目的地裝置解碼之經編碼視訊資料。詳言之,源裝置經由電腦可讀媒體將視訊資料提供至目的地裝置。源裝置及目的地裝置可包括廣泛範圍裝置中之任一者,包含桌上型電腦、筆記型(亦即,膝上型)電腦、平板電腦、機上盒、電話手持機(諸如所謂的「智慧型」電話)、所謂的「智慧型」平板、電視、攝影機、顯示裝置、數位媒體播放器、視訊遊戲桌面、視訊串流裝置或其類似者。在一些狀況下,源裝置及目的地裝置可經裝備以用於無線通信。 目的地裝置可經由電腦可讀媒體接收待解碼之經編碼視訊資料。電腦可讀媒體可包括能夠將經編碼視訊資料自源裝置移動至目的地裝置的任何類型之媒體或裝置。在一個實例中,電腦可讀媒體可包括通信媒體以使得源裝置能夠即時地將經編碼視訊資料直接傳輸至目的地裝置。可根據通信標準(諸如,無線通信協定)調變經編碼視訊資料,且將經編碼視訊資料傳輸至目的地裝置。通信媒體可包括任何無線或有線通信媒體,諸如射頻(RF)頻譜或一或多個實體傳輸線。通信媒體可形成基於封包之網路(諸如,區域網路、廣域網路或諸如網際網路之全域網路)之部分。通信媒體可包含路由器、交換器、基地台或可用於促進自源裝置至目的地裝置之通信的任何其他裝備。 在一些實例中,經編碼資料可自輸出介面輸出至儲存裝置。類似地,經編碼資料可由輸入介面自儲存裝置存取。儲存裝置可包含多種分散式或本端存取之資料儲存媒體中之任一者,諸如,硬碟機、藍光光碟、DVD、CD-ROM、快閃記憶體、揮發性或非揮發性記憶體或用於儲存經編碼視訊資料之任何其他合適之數位儲存媒體。在另一實例中,儲存裝置可對應於檔案伺服器或可儲存由源裝置產生之經編碼視訊的另一中間儲存裝置。目的地裝置可經由串流傳輸或下載自儲存裝置存取所儲存之視訊資料。檔案伺服器可為能夠儲存經編碼視訊資料且將彼經編碼視訊資料傳輸至目的地裝置的任何類型之伺服器。實例檔案伺服器包含網頁伺服器(例如,用於網站)、FTP伺服器、網路附加儲存(NAS)裝置或本端磁碟機。目的地裝置可經由任何標準資料連接(包含網際網路連接)來存取經編碼視訊資料。此連接可包含無線通道(例如,Wi-Fi連接)、有線連接(例如,DSL、電纜數據機等)或適用於存取儲存於檔案伺服器上之經編碼視訊資料的兩者之組合。經編碼視訊資料自儲存裝置之傳輸可為串流傳輸、下載傳輸或其組合。 本發明之技術不必限於無線應用或設定。該等技術可應用於支援多種多媒體應用中之任一者的視訊寫碼,該等多媒體應用諸如空中電視廣播、有線電視傳輸、衛星電視傳輸、網際網路串流視訊傳輸(諸如,經由HTTP之動態自適應性串流(DASH))、經編碼至資料儲存媒體上之數位視訊、儲存於資料儲存媒體上的數位視訊之解碼或其他應用。在一些實例中,系統可經組態以支援單向或雙向視訊傳輸從而支援諸如視訊串流、視訊播放、視訊廣播及/或視訊電話之應用。 在一個實例中,源裝置包含視訊源、視訊編碼器及輸出介面。目的地裝置可包含輸入介面、視訊解碼器及顯示裝置。源裝置之視訊編碼器可經組態以應用本文中所揭示之技術。在其他實例中,源裝置及目的地裝置可包含其他組件或配置。舉例而言,源裝置可自外部視訊源(諸如,外部攝影機)接收視訊資料。同樣地,目的地裝置可與外部顯示裝置介接,而非包含整合式顯示裝置。 以上實例系統僅為一個實例。用於並行地處理視訊資料之技術可由任何數位視訊編碼及/或解碼裝置來執行。儘管本發明之技術一般由視訊編碼裝置執行,但該等技術亦可由視訊編碼器/解碼器(通常被稱作「編碼解碼器」)執行。此外,本發明之技術亦可由視訊預處理器執行。源裝置及目的地裝置僅為源裝置產生經寫碼視訊資料以供傳輸至目的地裝置之此類寫碼裝置的實例。在一些實例中,源裝置及目的地裝置可以大體上對稱之方式操作,使得該等裝置中之每一者包含視訊編碼及解碼組件。因此,實例系統可支援視訊裝置之間的單向或雙向視訊傳輸,例如用於視訊串流、視訊播放、視訊廣播或視訊電話。 視訊源可包含視訊俘獲裝置,諸如視訊攝影機、含有先前俘獲之視訊的視訊存檔及/或用以自視訊內容提供者接收視訊之視訊饋入介面。作為另一替代方案,視訊源可產生基於電腦圖形之資料作為源視訊,或實況視訊、存檔視訊及電腦產生之視訊的組合。在一些狀況下,若視訊源為視訊攝影機,則源裝置及目的地裝置可形成所謂的攝影機電話或視訊電話。然而,如上文所提及,本發明中所描述之技術一般可適用於視訊寫碼,且可適用於無線及/或有線應用。在每一情況下,可由視訊編碼器編碼所俘獲、經預俘獲或電腦產生之視訊。經編碼視訊資訊接著可由輸出介面輸出至電腦可讀媒體上。 如所提及,電腦可讀媒體可包含暫態媒體,諸如無線廣播或有線網路傳輸;或儲存媒體(亦即,非暫時性儲存媒體),諸如硬碟、隨身碟、緊密光碟、數位視訊光碟、藍光光碟或其他電腦可讀媒體。在一些實例中,網路伺服器(未圖示)可例如經由網路傳輸而自源裝置接收經編碼視訊資料且將經編碼視訊資料提供至目的地裝置。類似地,媒體生產設施(諸如,光碟衝壓設施)之計算裝置可自源裝置接收經編碼視訊資料且生產含有經編碼視訊資料之光碟。因此,在各種實例中,電腦可讀媒體可理解為包含各種形式之一或多個電腦可讀媒體。 目的地裝置之輸入介面自電腦可讀媒體接收資訊。電腦可讀媒體之資訊可包含由視訊編碼器定義之語法資訊(其亦由視訊解碼器使用),該語法資訊包含描述區塊及其他經寫碼單元(例如,圖像群組(GOP))之特性及/或處理的語法元素。顯示裝置將經解碼視訊資料顯示給使用者,且可包括多種顯示裝置中之任一者,諸如陰極射線管(CRT)、液晶顯示器(LCD)、電漿顯示器、有機發光二極體(OLED)顯示器或另一類型之顯示裝置。已描述了本發明之各種實例及實施例。
35‧‧‧分割單元
40‧‧‧模式選擇單元
41‧‧‧預測處理單元
42‧‧‧運動估計單元
44‧‧‧運動補償單元
46‧‧‧框內預測處理單元
50‧‧‧求和器
52‧‧‧變換處理單元
54‧‧‧量化單元
56‧‧‧熵編碼單元
57‧‧‧後處理裝置
58‧‧‧反量化單元
60‧‧‧反變換處理單元
62‧‧‧求和器
63‧‧‧濾波器單元
64‧‧‧圖像記憶體
79‧‧‧網路實體
80‧‧‧熵解碼單元
81‧‧‧預測處理單元
82‧‧‧運動補償單元
84‧‧‧框內預測處理單元
86‧‧‧反量化單元
88‧‧‧反變換處理單元
90‧‧‧求和器
91‧‧‧濾波器單元
92‧‧‧圖像記憶體
100‧‧‧系統
102‧‧‧視訊源
104‧‧‧編碼裝置
106‧‧‧編碼器引擎
108‧‧‧儲存裝置
110‧‧‧輸出端
112‧‧‧解碼裝置
114‧‧‧輸入端
116‧‧‧解碼器引擎
118‧‧‧儲存裝置
120‧‧‧鏈路
122‧‧‧視訊目的地裝置
200‧‧‧ISO基本媒體檔案
210‧‧‧檔案類型邏輯框
220‧‧‧電影邏輯框
222‧‧‧電影標頭邏輯框
224‧‧‧播放軌邏輯框
224a‧‧‧播放軌標頭邏輯框
224b‧‧‧媒體邏輯框
230a‧‧‧片段
230b‧‧‧片段
230c‧‧‧片段
230n‧‧‧片段
232‧‧‧電影片段邏輯框
234‧‧‧電影片段標頭邏輯框
236‧‧‧播放軌片段邏輯框
238‧‧‧媒體資料邏輯框
300‧‧‧ISO基本媒體檔案
310‧‧‧檔案類型邏輯框
320‧‧‧電影邏輯框
322‧‧‧電影標頭邏輯框
324‧‧‧播放軌邏輯框
324a‧‧‧播放軌標頭邏輯框
324b‧‧‧媒體資料邏輯框
324c‧‧‧處理常式邏輯框
330a‧‧‧片段
330b‧‧‧片段
330c‧‧‧片段
330n‧‧‧片段
440‧‧‧媒體邏輯框
442‧‧‧媒體資訊邏輯框
444‧‧‧樣本表邏輯框
446‧‧‧樣本描述邏輯框
448a‧‧‧樣本項邏輯框
448b‧‧‧樣本項邏輯框
448c‧‧‧樣本項邏輯框
500‧‧‧ISO基本媒體檔案
510‧‧‧檔案類型邏輯框
520‧‧‧電影邏輯框
522‧‧‧電影標頭邏輯框
524‧‧‧播放軌邏輯框
524a‧‧‧播放軌標頭邏輯框
524b‧‧‧媒體資料邏輯框
524c‧‧‧內容描述參考
530a‧‧‧片段
530b‧‧‧片段
530c‧‧‧片段
530n‧‧‧片段
600‧‧‧ISO基本媒體檔案
610‧‧‧檔案類型邏輯框
620‧‧‧電影邏輯框
630a‧‧‧片段
630b‧‧‧片段
630c‧‧‧片段
630n‧‧‧片段
700‧‧‧ISO基本媒體檔案
710‧‧‧檔案類型邏輯框
720‧‧‧電影邏輯框
722‧‧‧電影標頭邏輯框
724‧‧‧播放軌邏輯框
724a‧‧‧播放軌標頭邏輯框
724b‧‧‧使用者資料邏輯框
724c‧‧‧新類型邏輯框
730a‧‧‧片段
730b‧‧‧片段
730c‧‧‧片段
730n‧‧‧片段
800‧‧‧ISO基本媒體檔案
810‧‧‧檔案類型邏輯框
820‧‧‧電影邏輯框
822‧‧‧電影標頭邏輯框
824‧‧‧播放軌邏輯框
824a‧‧‧播放軌標頭邏輯框
824b‧‧‧播放軌群組邏輯框
824c‧‧‧Track_group_type
830a‧‧‧片段
830b‧‧‧片段
830c‧‧‧片段
830n‧‧‧片段
900‧‧‧編碼裝置
1000‧‧‧解碼裝置
圖1為說明包含編碼裝置104及解碼裝置112之系統100之實例的方塊圖。 圖2說明根據ISOBMFF格式化之含有用於視訊呈現之資料及後設資料的ISO基本媒體檔案200之實例。 圖3說明用以指定視訊媒體播放軌為子圖像基本播放軌之ISO基本媒體檔案300。 圖4說明可包含在ISO基本媒體檔案中且可包含用於子圖像基本播放軌之特定樣本項類型(例如『spbt』)的媒體邏輯框440之實例。 圖5說明指示子圖像基本播放軌可經選擇作為計時後設資料播放軌之參考媒體播放軌的ISO基本媒體檔案500之實例。 圖6說明其中與子圖像基本播放軌機制一起使用之ISO基本媒體檔案600能夠對所有子圖像播放軌進行分組之實例,該等子圖像播放軌各自具有指代子圖像基本播放軌之特定類型(例如『spbs』)的播放軌參考。 圖7說明其中子圖像基本播放軌可含有指向所有相關聯子圖像播放軌之特定類型(例如『strk』)之播放軌編號的ISO基本媒體檔案700之實例。 圖8說明定義例如藉由等於『subp』之track_group_type識別之新播放軌分組類型的ISO基本媒體檔案800之實例。 圖9為說明可實施本發明中所描述之技術中之一或多者的實例編碼裝置900之方塊圖。 圖10為說明實例解碼裝置1000之方塊圖。

Claims (38)

  1. 一種處理視訊資料之方法,其包括: 自記憶體獲得複數個子圖像位元流,每一子圖像位元流包含該視訊資料之一空間部分且每一子圖像位元流獨立地經寫碼; 在至少一個檔案中分別儲存該複數個子圖像位元流作為複數個子圖像播放軌;以及在根據一檔案格式之一媒體檔案內之一播放軌邏輯框中儲存描述該複數個子圖像播放軌之後設資料。
  2. 如請求項1之處理視訊資料之方法,其中該媒體檔案包含該至少一個檔案。
  3. 如請求項1之方法,其進一步包括: 儲存與該複數個子圖像播放軌相關聯之一子圖像基本播放軌。
  4. 如請求項3之方法,其進一步包括: 基於該播放軌邏輯框之一樣本描述邏輯框內之一樣本項類型來指示該子圖像基本播放軌。
  5. 如請求項3之方法,其中該子圖像基本播放軌包含描述該複數個子圖像播放軌之該後設資料。
  6. 如請求項1之方法,其中該後設資料包括與該複數個子圖像播放軌之一集合相關聯的一完整圖像之一空間解析度。
  7. 如請求項1之方法,其中該檔案格式係基於一國際標準組織(ISO)基本媒體檔案格式。
  8. 如請求項1之方法,其進一步包括: 在該播放軌邏輯框內,將一播放軌群組類型儲存為指示與該播放軌邏輯框相關聯之一播放軌係一子圖像播放軌群組中之一者的一值,該子圖像播放軌群組表示該視訊資料之一單一表示。
  9. 如請求項8之方法,其中該播放軌群組類型為藉由ISO/IEC 14496-12第12部分識別之該ISO基本媒體檔案格式之條款8.3.4中所闡述的TrackGroupTypeBox之一後向相容擴展。
  10. 如請求項1之方法,其進一步包括: 在該播放軌邏輯框內儲存指定一播放軌分組類型之一播放軌群組類型邏輯框。
  11. 如請求項10之方法,其中該播放軌分組類型指示額外資訊可供添加至該播放軌邏輯框。
  12. 如請求項11之方法,其中當該播放軌分組類型指示額外資訊可供添加至該播放軌邏輯框時,在該播放軌邏輯框內儲存該播放軌中之子圖像的子圖像列索引資訊及子圖像行索引資訊。
  13. 如請求項11之方法,其中在該子圖像位元流內經編碼之子圖像以子圖像列及子圖像行之方式定義。
  14. 如請求項11之方法,其中在該子圖像位元流內經編碼之子圖像可分組為影像塊,使得該等影像塊為經定義影像塊列及影像塊行。
  15. 如請求項11之方法,其中當該播放軌分組類型指示額外資訊可供添加至該播放軌邏輯框時,在該播放軌邏輯框內儲存對應於該播放軌中之子圖像之一左上角像素的座標。
  16. 如請求項11之方法,其中當該播放軌分組類型指示額外資訊可供添加至該播放軌邏輯框時,在該播放軌邏輯框內儲存表示一完整圖像之一大小的資訊。
  17. 一種用於對視訊資料進行解碼之裝置,該裝置包括: 記憶體,其經組態以儲存至少一個檔案及一媒體檔案,該媒體檔案根據一檔案格式經格式化且該至少一個檔案包含複數個子圖像播放軌;以及 一處理器,其與該記憶體通信,該處理器經組態以: 處理該媒體檔案;以及 自該媒體檔案內之一播放軌邏輯框獲得描述包含於該至少一個檔案內之該複數個子圖像播放軌之後設資料。
  18. 如請求項17之裝置,其中該媒體檔案包含該至少一個檔案。
  19. 如請求項17之裝置,其中該處理器進一步經組態以自該媒體檔案獲得與該複數個子圖像播放軌相關聯之一子圖像基本播放軌。
  20. 如請求項19之裝置,其中該處理器進一步經組態以基於該播放軌邏輯框之一樣本描述邏輯框內之一樣本項類型來判定該子圖像基本播放軌之一存在。
  21. 如請求項19之裝置,其中該處理器進一步經組態以自該子圖像基本播放軌獲得描述該複數個子圖像播放軌之該後設資料。
  22. 如請求項17之裝置,其中該後設資料包括與該複數個子圖像播放軌之一集合相關聯的一完整圖像之一空間解析度。
  23. 如請求項17之裝置,其中該檔案格式係基於一國際標準組織(ISO)基本媒體檔案格式。
  24. 如請求項17之裝置,其中該處理器進一步經組態以基於該播放軌邏輯框內之一群組類型欄位之一值來判定與該播放軌邏輯框相關聯之一播放軌係一子圖像播放軌群組中之一者,該子圖像播放軌群組表示該視訊資料之一單一表示。
  25. 如請求項25之裝置,其中該處理器進一步經組態以自該播放軌邏輯框之一播放軌群組類型邏輯框獲得該播放軌中之子圖像的子圖像列索引資訊及子圖像行索引資訊。
  26. 一種用於處理視訊資料之裝置,該裝置包括: 記憶體,其經組態以儲存複數個子圖像位元流,每一子圖像位元流包含該視訊資料之一空間部分且每一子圖像位元流獨立地經寫碼;以及 一處理器,其與該記憶體通信,該處理器經組態以: 自該記憶體獲得該複數個子圖像位元流; 在至少一個檔案中分別儲存該複數個子圖像位元流作為複數個子圖像播放軌;以及 在根據一檔案格式之一媒體檔案內之一播放軌邏輯框中儲存描述該複數個子圖像播放軌之後設資料。
  27. 如請求項26之裝置,其中該媒體檔案包含該至少一個檔案。
  28. 如請求項26之裝置,其中該處理器進一步經組態以儲存與該複數個子圖像播放軌相關聯之一子圖像基本播放軌。
  29. 如請求項28之裝置,其中該處理器進一步經組態以設定該播放軌邏輯框之一樣本描述邏輯框內之一樣本項類型之一值,該值指示該子圖像基本播放軌之一存在。
  30. 如請求項28之裝置,其中該子圖像基本播放軌包含描述該複數個子圖像播放軌之該後設資料。
  31. 如請求項26之裝置,其中該後設資料包括與該複數個子圖像播放軌之一集合相關聯的一完整圖像之一空間解析度。
  32. 如請求項26之裝置,其中該檔案格式係基於一國際標準組織(ISO)基本媒體檔案格式。
  33. 如請求項26之裝置,其中該處理器進一步經組態以在該播放軌邏輯框內將一播放軌群組類型儲存為指示與該播放軌邏輯框相關聯之一播放軌係一子圖像播放軌群組中之一者的一值,該子圖像播放軌群組表示該視訊資料之一單一表示。
  34. 如請求項33之裝置,其中該處理器進一步經組態以在該播放軌邏輯框之一播放軌群組類型邏輯框內儲存該播放軌中之子圖像的子圖像列索引資訊及子圖像行索引資訊。
  35. 如請求項26之裝置,其中該裝置為一無線通信裝置,其進一步包括: 一傳輸器,其經組態以傳輸該複數個子圖像位元流。
  36. 如請求項35之裝置,其中該無線通信裝置為一蜂巢式電話,且該複數個子圖像位元流進一步根據一蜂巢式通信標準調變以供傳輸。
  37. 一種裝置,其包括: 用於自記憶體獲得複數個子圖像位元流之構件,每一子圖像位元流包含該視訊資料之一空間部分且每一子圖像位元流獨立地經寫碼; 用於在至少一個檔案中分別儲存該複數個子圖像位元流作為複數個子圖像播放軌之構件;以及 用於在根據一檔案格式之一媒體檔案內之一播放軌邏輯框中儲存描述該複數個子圖像播放軌之後設資料的構件。
  38. 一種非暫時性電腦可讀媒體,其上儲存有指令,該等指令在經執行時使得一電子裝置之一或多個處理器: 自記憶體獲得複數個子圖像位元流,每一子圖像位元流包含該視訊資料之一空間部分且每一子圖像位元流獨立地經寫碼; 在至少一個檔案中分別儲存該複數個子圖像位元流作為複數個子圖像播放軌;以及 在根據一檔案格式之一媒體檔案內之一播放軌邏輯框中儲存描述該複數個子圖像播放軌之後設資料。
TW107109900A 2017-03-23 2018-03-22 包含用於視頻寫碼之子圖像位元流之視頻內容之信令傳輸 TW201838419A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201762475832P 2017-03-23 2017-03-23
US62/475,832 2017-03-23
US15/927,993 2018-03-21
US15/927,993 US11062738B2 (en) 2017-03-23 2018-03-21 Signalling of video content including sub-picture bitstreams for video coding

Publications (1)

Publication Number Publication Date
TW201838419A true TW201838419A (zh) 2018-10-16

Family

ID=63581773

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107109900A TW201838419A (zh) 2017-03-23 2018-03-22 包含用於視頻寫碼之子圖像位元流之視頻內容之信令傳輸

Country Status (9)

Country Link
US (1) US11062738B2 (zh)
EP (1) EP3603095A1 (zh)
KR (1) KR102614206B1 (zh)
CN (1) CN110431849B (zh)
AU (1) AU2018240385A1 (zh)
BR (1) BR112019019339A2 (zh)
SG (1) SG11201907473WA (zh)
TW (1) TW201838419A (zh)
WO (1) WO2018175802A1 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10962780B2 (en) * 2015-10-26 2021-03-30 Microsoft Technology Licensing, Llc Remote rendering for virtual images
WO2018182144A1 (ko) * 2017-03-29 2018-10-04 엘지전자 주식회사 360 비디오를 전송하는 방법, 360 비디오를 수신하는 방법, 360 비디오 전송 장치, 360 비디오 수신 장치
CN107071515B (zh) * 2017-04-08 2018-12-07 腾讯科技(深圳)有限公司 一种图片文件处理方法及系统
GB2567625B (en) * 2017-10-12 2020-07-15 Canon Kk Method, device, and computer program for generating timed media data
WO2019195036A1 (en) 2018-04-03 2019-10-10 Futurewei Technologies, Inc. File format signaling of error mitigation in sub-picture bitstream based viewport dependent video coding
WO2019192870A1 (en) 2018-04-05 2019-10-10 Canon Kabushiki Kaisha Method and apparatus for encapsulating images or sequences of images with proprietary information in a file
KR102188270B1 (ko) * 2018-07-06 2020-12-09 엘지전자 주식회사 360 비디오 데이터의 서브픽처 기반 처리 방법 및 그 장치
WO2020008758A1 (ja) * 2018-07-06 2020-01-09 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
WO2020071709A1 (ko) * 2018-10-01 2020-04-09 삼성전자 주식회사 비디오 컨텐츠를 전송하는 방법 및 장치 및 비디오 컨텐츠를 수신하는 방법 및 장치
US11272178B2 (en) 2018-12-20 2022-03-08 Telefonaktiebolaget Lm Ericsson (Publ) Video encoding and decoding
GB2585052B (en) * 2019-06-26 2023-07-26 Canon Kk Method and apparatus for encapsulating panorama images in a file
CN114073073B (zh) * 2019-07-08 2023-06-06 华为技术有限公司 一种支持混合nal单元的编解码方法和编解码器
KR20220071228A (ko) * 2019-09-27 2022-05-31 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 병합 친화적인 파일 형식
CN112911299B (zh) * 2019-12-03 2023-02-28 浙江宇视科技有限公司 一种视频码率控制方法、装置、电子设备和存储介质
WO2021133065A1 (ko) * 2019-12-23 2021-07-01 엘지전자 주식회사 픽처 분할 기반 영상 코딩 장치 및 방법
CN114930868A (zh) * 2019-12-31 2022-08-19 诺基亚技术有限公司 用于视频编码和视频解码的方法、装置和计算机程序产品
CN115428454A (zh) 2020-04-06 2022-12-02 字节跳动有限公司 使用参数集的视频编解码
WO2021211364A1 (en) * 2020-04-12 2021-10-21 Bytedance Inc. Coding of instantaneous decoding refresh subpictures
CN111726655B (zh) * 2020-07-02 2022-09-06 中影华夏寰宇(北京)电影科技有限公司 视频处理装置、方法和系统
CN116406505A (zh) * 2020-09-24 2023-07-07 Lg电子株式会社 媒体文件处理方法和装置
US20230328261A1 (en) * 2020-09-24 2023-10-12 Lg Electronics Inc. Media file processing method and device therefor
CN116569557A (zh) * 2020-12-14 2023-08-08 Lg电子株式会社 支持以样本为单位的随机访问的媒体文件生成/接收方法和设备及发送媒体文件的方法
US20240089518A1 (en) * 2021-01-26 2024-03-14 Lg Electronics Inc. Media file processing method and device

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060047674A1 (en) 2004-09-01 2006-03-02 Mohammed Zubair Visharam Method and apparatus for supporting storage of multiple camera views
KR20070100755A (ko) * 2005-01-25 2007-10-11 네로 아게 디비디 비디오 형식 데이터의 작성 방법, 디비디 비디오데이터 복구 방법 및 디비디 비디오 데이터 구조
RU2492585C2 (ru) * 2008-07-16 2013-09-10 Нокиа Корпорейшн Способ и устройство для группирования треков и подмножеств треков
GB2551296B (en) 2013-04-09 2018-02-28 Canon Kk Method, device, and computer program for encapsulating partitioned timed media data
GB2516825B (en) * 2013-07-23 2015-11-25 Canon Kk Method, device, and computer program for encapsulating partitioned timed media data using a generic signaling for coding dependencies
GB2542282B (en) * 2013-10-22 2018-08-01 Canon Kk Method, device, and computer program for encapsulating partitioned timed media data in a server
GB2519745B (en) * 2013-10-22 2018-04-18 Canon Kk Method of processing disordered frame portion data units
US9648348B2 (en) * 2013-10-23 2017-05-09 Qualcomm Incorporated Multi-layer video file format designs

Also Published As

Publication number Publication date
CN110431849B (zh) 2021-10-22
CN110431849A (zh) 2019-11-08
WO2018175802A1 (en) 2018-09-27
US20180277164A1 (en) 2018-09-27
SG11201907473WA (en) 2019-10-30
KR102614206B1 (ko) 2023-12-14
BR112019019339A2 (pt) 2020-04-14
AU2018240385A1 (en) 2019-08-29
KR20190131077A (ko) 2019-11-25
EP3603095A1 (en) 2020-02-05
US11062738B2 (en) 2021-07-13

Similar Documents

Publication Publication Date Title
CN110431849B (zh) 包含用于视频译码的子图片位流的视频内容的信令传输
TWI692974B (zh) 在媒體檔案中虛擬實境視訊之儲存
TWI712309B (zh) 容器檔案及視訊位元串流中關注區域之增強信令傳輸
US10917564B2 (en) Systems and methods of generating and processing files for partial decoding and most interested regions
TWI712313B (zh) 感興趣區之發信號之系統及方法
EP3602261B1 (en) Advanced signalling of regions of interest in omnidirectional visual media
US20200382796A1 (en) Immersive Media Metrics for Virtual Reality Content With Multiple Viewpoints
TW201841511A (zh) 用於視訊之改良式限制方案設計