TWI700917B - 使用全向媒體格式處理媒體資料 - Google Patents
使用全向媒體格式處理媒體資料 Download PDFInfo
- Publication number
- TWI700917B TWI700917B TW107123734A TW107123734A TWI700917B TW I700917 B TWI700917 B TW I700917B TW 107123734 A TW107123734 A TW 107123734A TW 107123734 A TW107123734 A TW 107123734A TW I700917 B TWI700917 B TW I700917B
- Authority
- TW
- Taiwan
- Prior art keywords
- sample
- track
- data
- synthesis time
- media
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims description 82
- 238000000034 method Methods 0.000 claims abstract description 66
- 239000000203 mixture Substances 0.000 claims abstract description 27
- 230000008569 process Effects 0.000 claims abstract description 25
- 230000004044 response Effects 0.000 claims abstract description 17
- 230000015572 biosynthetic process Effects 0.000 claims description 119
- 238000003786 synthesis reaction Methods 0.000 claims description 119
- 238000005538 encapsulation Methods 0.000 claims description 38
- 238000003860 storage Methods 0.000 claims description 32
- 238000004806 packaging method and process Methods 0.000 claims description 20
- 239000002131 composite material Substances 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 7
- 230000000875 corresponding effect Effects 0.000 description 32
- 239000012634 fragment Substances 0.000 description 32
- 238000002360 preparation method Methods 0.000 description 27
- 230000006978 adaptation Effects 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 16
- 230000005540 biological transmission Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 101100412093 Schizosaccharomyces pombe (strain 972 / ATCC 24843) rec16 gene Proteins 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005304 joining Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- FMYKJLXRRQTBOR-UBFHEZILSA-N (2s)-2-acetamido-4-methyl-n-[4-methyl-1-oxo-1-[[(2s)-1-oxohexan-2-yl]amino]pentan-2-yl]pentanamide Chemical group CCCC[C@@H](C=O)NC(=O)C(CC(C)C)NC(=O)[C@H](CC(C)C)NC(C)=O FMYKJLXRRQTBOR-UBFHEZILSA-N 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- AWSBQWZZLBPUQH-UHFFFAOYSA-N mdat Chemical compound C1=C2CC(N)CCC2=CC2=C1OCO2 AWSBQWZZLBPUQH-UHFFFAOYSA-N 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000012925 reference material Substances 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234327—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
- H04N21/23605—Creation or processing of packetized elementary streams [PES]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/238—Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
- H04N21/2387—Stream processing in response to a playback request from an end-user, e.g. for trick-play
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
- H04N21/43072—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
- H04N21/43074—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of additional data with content streams on the same device, e.g. of EPG data or interactive icon with a TV program
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/63—Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
- H04N21/633—Control signals issued by server directed to the network components or client
- H04N21/6332—Control signals issued by server directed to the network components or client directed to client
- H04N21/6336—Control signals issued by server directed to the network components or client directed to client directed to decoder
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/816—Monomedia components thereof involving special video data, e.g 3D video
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/85406—Content authoring involving a specific file format, e.g. MP4 format
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8547—Content authoring involving timestamps for synchronizing content
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本發明係關於一種器件,其包括一處理器,該處理器經組態以處理具有一第一合成時間之一第一軌的一第一樣本,判定與該第一軌相關聯的一第二軌在該第一合成時間處是否具有一可用樣本,當該第二軌在該第一合成時間處具有該可用樣本時,選擇該第二軌之該可用樣本作為與該第一樣本之該第一合成時間具有一共同合成時間的一第二樣本,當該第二軌在該第一合成時間處不具有該可用樣本時,選擇具有為一最近可用的前一合成時間之一合成時間之該第二軌之一樣本作為與該第一樣本之該第一合成時間具有該共同合成時間之該第二樣本,且回應於選擇該第二樣本而處理該第二樣本。
Description
本發明係關於經編碼視訊資料之儲存及傳送。
數位媒體能力可併入至廣泛範圍的器件中,包括數位電視、數位直播系統、無線廣播系統、個人數位助理(PDA)、膝上型或桌上型電腦、數位攝影機、數位記錄器件、數位媒體播放器、視訊遊戲器件、視訊遊戲控制台、蜂巢式或衛星無線電電話、視訊電話會議器件及類似者。數位視訊器件實施視訊壓縮技術,諸如由MPEG-2、MPEG-4、ITU-T H.263或ITU-T H.264/MPEG-4,第10部分,進階視訊寫碼(AVC)、ITU-T H.265 (亦稱為高效率視訊寫碼(HEVC))所界定的標準及此等標準之擴展(諸如,可調式擴展及多視圖擴展)中描述的視訊壓縮技術,以更有效地傳輸並接收數位視訊資訊。
在媒體資料已編碼之後,可將媒體資料封包化以用於傳輸或儲存。可以將媒體資料組譯成符合多種標準中之任一者的媒體檔案,該等標準諸如國際標準化組織(International Organization for Standardization,ISO)基本媒體檔案格式(BMFF)及其擴展,諸如AVC。
大體而言,本發明描述與處理及傳輸(例如,發送及/或接收或檢索)媒體資料以用於虛擬實境(virtual reality,VR)、擴增實境及/或360度視訊應用中相關的技術。特定言之,本發明描述用於處理符合全向媒體格式之媒體資料的技術。
在一個實例中,處理媒體資料之方法包括:處理媒體檔案之第一軌的一第一樣本,第一軌具有第一合成時間;判定第二軌(第二軌與第一軌相關聯)在第一合成時間處是否具有可用樣本;當第二軌在第一合成時間處具有可用樣本時,選擇第二軌之可用樣本作為與第一樣本之第一合成時間具有共同合成時間的第二樣本;當第二軌在第一合成時間處不具有可用樣本時,選擇具有為最近可用的前一合成時間之合成時間之第二軌之樣本作為與第一樣本之第一合成時間具有共同合成時間之第二樣本;且回應於選擇第二樣本而處理第二樣本。
在另一實例中,用於處理媒體資料之器件包括經組態以儲存視訊資料之記憶體,及經組態以進行以下操作之包含電路系統的處理器:處理具有第一合成時間之第一軌的一第一樣本;判定與第一軌相關聯之第二軌在第一合成時間處是否具有可用樣本;當第二軌在第一合成時間處具有可用樣本時,選擇第二軌之可用樣本作為與第一樣本之第一合成時間具有共同合成時間的第二樣本;當第二軌在第一合成時間處不具有可用樣本時,選擇具有為最近可用的前一合成時間之合成時間之第二軌之樣本作為與第一樣本之第一合成時間具有共同合成時間之第二樣本;且回應於選擇第二樣本而處理第二樣本。
在另一實例中,用於處理媒體資料之器件包括:用於處理媒體檔案之第一軌之第一樣本的構件,該第一軌具有第一合成時間;用於判定媒體檔案之第二軌(第二軌與第一軌相關聯)在第一合成時間處是否具有可用樣本的構件;當第二軌在第一合成時間處具有可用樣本時,用於選擇第二軌之可用樣本作為與第一樣本之第一合成時間具有共同合成時間之第二樣本的構件;當第二軌在第一合成時間處不具有可用樣本時,用於選擇具有為最近可用的前一合成時間之合成時間之第二軌之樣本作為與第一樣本之第一合成時間具有共同合成時間之第二樣本的構件;以及用於回應於選擇第二樣本而處理第二樣本的構件。
在另一實例中,電腦可讀儲存媒體其上儲存有指令,當執行該等指令時,使得處理器進行以下操作:處理第一軌的一第一樣本,第一軌具有第一合成時間;判定與第二軌在第一合成時間處是否具有可用樣本,第二軌與第一軌相關聯;當第二軌在第一合成時間處具有可用樣本時,選擇第二軌之可用樣本作為與第一樣本之第一合成時間具有共同合成時間的第二樣本;當第二軌在第一合成時間處不具有可用樣本時,選擇具有為最近可用的前一合成時間之合成時間之第二軌之樣本作為與第一樣本之第一合成時間具有共同合成時間之第二樣本;且回應於選擇第二樣本而處理第二樣本。
在以下隨附圖式及描述中闡述一或多個實例之細節。其他特徵、目標及優點將自實施方式及圖式以及申請專利範圍而顯而易見。
本申請案主張2017年7月10日申請之美國臨時申請案第62/530,746號之權益,該申請案之全部內容以引用之方式併入本文中。
本發明之技術可應用於符合根據ISO基本媒體檔案格式(ISOBMFF)、對ISOBMFF之擴展、可調式視訊寫碼(SVC)檔案格式、進階視訊編碼(AVC)檔案格式、高效視訊寫碼(HEVC)檔案格式、第三代合作夥伴計劃(3GPP)檔案格式,及/或多視圖視訊寫碼(MVC)檔案格式或其他視訊檔案格式中之任一者囊封的視訊資料的視訊檔案。ISO BMFF之草案指定於ISO/IEC 14496-12中,可自phenix.int-evry.fr/mpeg/doc_end_user/documents/111_Geneva/wg11/w15177-v6-w15177.zip獲得。另一實例檔案格式MPEG-4檔案格式之草案指定於ISO/IEC 14496-15中,可自wg11.sc29.org/doc_end_user /documents/115_Geneva/wg11/w16169-v2-w16169.zip獲得。
ISOBMFF用作許多編解碼器囊封格式(諸如AVC檔案格式)以及用於許多多媒體容器格式(諸如MPEG-4檔案格式、3GPP檔案格式(3GP)及數位視訊廣播(DVB)檔案格式)之基礎。
除諸如音訊及視訊之連續媒體之外,諸如影像之靜態媒體以及後設資料可儲存於符合ISOBMFF之檔案中。根據ISOBMFF結構化之檔案可用於許多用途,包括局部媒體檔案播放、遠端檔案之逐漸下載、用於經由HTTP之動態自適應串流(DASH)之區段、用於待串流之內容及其封包化指令之容器及接收之即時媒體串流的記錄。
邏輯框為ISOBMFF中之基本語法結構,包括四字元寫碼邏輯框類型、邏輯框之位元組計數及有效負載。ISOBMFF檔案包括一序列之邏輯框,且邏輯框可含有其他邏輯框。根據ISOBMFF,電影邏輯框(「moov」)含有存在於檔案中之連續媒體流之後設資料,每一連續媒體流在檔案中表示為軌。根據ISOBMFF,將用於軌之後設資料圍封於軌邏輯框(「trak」)中,而將軌之媒體內容圍封於媒體資料邏輯框(「mdat」)中或直接設置於單獨檔案中。用於軌之媒體內容包括一序列樣本,諸如音訊或視訊存取單元。
ISOBMFF指定以下類型之軌:媒體軌,其含有基本媒體串流;提示軌,其包括媒體傳輸指令或表示接收之封包串流;及計時後設資料軌,其包含時間同步之後設資料。
盡最初針對儲存而設計,但已證明ISOBMFF對於串流(例如,用於逐漸下載或DASH)極有價值。為了串流目的,可使用在ISOBMFF中定義之電影片段。
每一軌之後設資料包括樣本描述項之清單,每一項提供在軌中使用之寫碼或封裝格式及對於處理彼格式需要之初始化資料。各樣本與軌之樣本描述項中之一者相關聯。
ISOBMFF實現藉由各種機構指定樣本特定後設資料。樣本表邏輯框(「stbl」)內之特定邏輯框已經標準化以回應普通需求。舉例而言,同步樣本邏輯框(「stss」)用以列舉軌之隨機存取樣本。樣本分群機構實現根據四字元分群類型將樣本映射成共用指定為檔案中之樣本群組描述項之同一性質的樣本群組。已在ISOBMFF中指定若干分群類型。
虛擬實境(VR)為虛擬地存在於藉由再現自然及/或合成影像及與沉浸使用者之運動相關的聲音而建立的虛擬非實體世界中的能力,從而允許與該虛擬世界交互。在再現器件(諸如頭戴式顯示器(HMD))及VR視訊(常常亦稱作360度視訊)創建中做出之最新進展下,可提供顯著體驗品質。VR應用包括遊戲、訓練、教育、運動視訊、線上購物、夾帶等。
典型VR系統包括如下組件及步驟: 1) 攝影機套件,其通常包括在不同方向上指向之多個個別攝影機,理想地共同地涵蓋圍繞該攝影機套件之所有視點。 2) 影像拼接,其中藉由多個個別攝影機拍攝的視訊圖像在時域中經同步並在空間域中拼接,以形成球體視訊,但映射至矩形格式,諸如等矩形(如世界地圖)或立方體映射。 3) 映射矩形格式中之視訊係使用視訊編解碼器,例如,H.265/HEVC或H.264/AVC,來編碼/壓縮。 4) 一或多種經壓縮之視訊位元流可以媒體格式儲存且/或囊封且經由網路傳輸(可能僅覆蓋正被使用者所見區域之子組,有時稱為檢視區)至接收器件(例如,用戶端器件)。 5) 接收器件接收可能以檔案格式囊封之一或多種視訊位元流或其部分,並將經解碼視訊信號或其部分傳送至再現器件(其可作為接收器件包括於同一用戶端器件中)。 6) 再現器件可為例如HMD,其可追蹤頭部運動及甚至眼睛運動時刻,且可再現視訊之對應部分,以使得向使用者提供沉浸式體驗。
全向媒體格式(OMAF)係由移動圖像專家組(Moving Pictures Experts Group,MPEG)開發以定義實現全向媒體應用之媒體格式,其集中於具有360°視訊及相關聯音訊之VR應用上。OMAF指定可用於將球體或360度視訊轉換成二維矩形視訊的一系列投影方法,繼而如何使用ISO基本媒體檔案格式(ISOBMFF)儲存全向媒體及相關聯後設資料,及如何使用HTTP動態自適應串流(DASH)囊封、發信及串流全向媒體,及最終哪些視訊及音訊編解碼器以及媒體寫碼組態可用於壓縮及播放全向媒體信號。OMAF將成為ISO/IEC 23090-2,且草案規範可自wg11.sc29.org/doc_end_user/documents/119_Torino/wg11/m40849-v1-m40849_OMAF_text_Berlin_output.zip獲得。
在諸如DASH之HTTP串流協定中,頻繁使用之操作包括HEAD、GET及部分GET。HEAD操作檢索與給定的統一資源定位符(URL)或統一資源名稱(URN)相關聯之檔案的標頭,但不檢索與URL或URN相關聯之有效負載。GET操作檢索與給定URL或URN相關之整個檔案。部分GET操作接收位元組範圍作為輸入參數且檢索檔案之連續數目個位元組,其中位元組之數目對應於所接收位元組範圍。因此,可提供電影片段以用於HTTP串流,此係因為部分GET操作能夠得到一或多個單獨的電影片段。在電影片段中,可能存在不同軌之若干軌片段。在HTTP串流中,媒體表呈現可為用戶端可存取之資料之結構化集合。用戶端可請求且下載媒體資料資訊以向使用者呈現串流服務。
DASH指定於ISO/IEC 23009-1中,且為用於HTTP (自適應性)串流應用之標準。ISO/IEC 23009-1主要指定媒體呈現描述(MPD)之格式(亦稱為資訊清單或資訊清單檔案)及媒體片段格式。MPD描述可在伺服器器件上得到的媒體且在適當媒體時間處使DASH用戶端自主地下載適當媒體版本。
在使用HTTP串流來串流3GPP資料之實例中,可能存在多媒體內容之視訊及/或音訊資料的多個表示。如下文所解釋,不同表示可對應於不同編碼特性(例如,視訊編碼標準之不同設定檔或層級)、不同編碼標準或編碼標準之擴展(諸如多視圖及/或可縮放擴展)或不同位元速率。此等表示之資訊清單可在媒體呈現描述(MPD)資料結構中定義。媒體呈現可對應於HTTP串流用戶端器件可存取之資料的結構化集合。HTTP串流用戶端器件可請求且下載媒體資料資訊以向用戶端器件之使用者呈現串流服務。媒體呈現可在MPD資料結構中描述,MPD資料結構可包括MPD之更新。
媒體呈現可含有一或多個時段之序列。每一週期可延長,直至下一週期開始為止,或在最後一個週期的情況下,直至媒體呈現結束為止。每一週期可含有針對同一媒體內容之一或多個表示。表示可為音訊、視訊、計時文字或其他此類資料之數個替代性經編碼版本中之一者。表示可因編碼類型而異(例如,對於視訊資料,因位元速率、解析度及/或編碼解碼器而異,及對於音訊資料,因位元速率、語言及/或編解碼器而異)而異。術語表示可用以指代經編碼音訊或視訊資料對應於多媒體內容之特定週期且以特定方式編碼之部分。
特定週期之表示可指派至由MPD中之屬性(其指示表示所屬之適應集合)指示之群組。同一適應集合中之表示通常被視為彼此之替代,此係因為用戶端器件可在此等表示之間動態地且順暢地切換,例如執行頻寬適應。舉例而言,特定週期之視訊資料之每一表示可指派至同一適應集合,以使得可選擇該等表示中之任一者進行解碼以呈現對應週期之多媒體內容的媒體資料(諸如視訊資料或音訊資料)。在一些實例中,一個週期內之媒體內容可由來自群組0 (若存在)之一個表示來表示,或由來自每一非零群組的至多一個表示之組合來表示。週期之每一表示之時序資料可相對於該週期之開始時間來表達。
表示可包括一或多個區段。每一表示可包括初始化區段,或表示之每一區段可自初始化。當存在時,初始化區段可含有用於存取表示之初始化資訊。大體而言,初始化區段不含有媒體資料。區段可由識別符唯一地參考,諸如統一資源定位符(URL)、統一資源名稱(URN)或統一資源識別符(URI)。MPD可為每一區段提供識別符。在一些實例中,MPD亦可提供呈範圍屬性之形式的位元組範圍,該等範圍屬性可對應於可由URL、URN或URI存取之檔案內之區段的資料。
可選擇不同表示以用於大體上同時檢索不同類型之媒體資料。舉例而言,用戶端器件可選擇音訊表示、視訊表示及計時文字表示,自該等表示檢索區段。在一些實例中,用戶端器件可選擇特定適應集合以用於執行頻寬調適。亦即,用戶端器件可選擇包括視訊表示之適應集合、包括音訊表示之適應集合及/或包括計時文字之適應集合。替代地,用戶端器件可選擇某些類型之媒體(例如,視訊)之適應集合,並直接選擇其他類型之媒體(例如,音訊及/或計時文字)之表示。
用於基於DASH之HTTP串流的典型程序包括以下步驟: 1) DASH用戶端獲取串流內容之MPD,例如,影片。MPD包括關於串流內容的不同替代表示之資訊(例如,位元速率、視訊解析度、訊框速率、音訊語言),以及HTTP資源之URL (初始化區段及媒體區段)。 2) 基於MPD中之資訊及可供DASH用戶端使用之本地資訊,例如網路頻寬、解碼/顯示能力及使用者偏好,DASH用戶端每次請求期望之表示、一個片段(或其一部分)。 3) 當該DASH用戶端偵測到網路頻寬變化時,其請求具有較好匹配位元速率之不同表示之區段,理想地自以隨機存取點開始的區段開始。
HTTP串流「會話」期間,為對使用者請求作出回應以反向搜尋過去位置或正向搜尋未來位置,該DASH用戶端請求始於接近所要位置且理想地開始於隨機存取點之區段的過去或未來區段。使用者亦可請求快進內容,其可藉由請求足夠用於解碼僅經框內編碼視訊圖像或僅視訊流之時間子組的資料實現。
視訊資料可根據各種視訊寫碼標準編碼。此類視訊寫碼標準包括ITU-T H.261、ISO/IEC MPEG-1 Visual、ITU-T H.262或ISO/IEC MPEG-2 Visual、ITU-T H.263、ISO/IEC MPEG-4 Visual、ITU-T H.264或ISO/IEC MPEG-4 AVC,包括其可調式視訊寫碼(SVC)及多視圖視訊寫碼(MVC)擴展,及高效視訊寫碼(HEVC),亦被稱作ITU-T H.265及ISO/IEC 23008-2,包括其可調式寫碼擴展(亦即,可調式高效視訊寫碼,SHVC)及多視圖擴展(亦即,多視圖高效視訊寫碼,MV-HEVC)。
本發明描述可能添加至OMAF草案規範之各種約束,以改良媒體資料之處理(諸如囊封、解囊封、編碼及/或解碼)。大體而言,此類約束使得器件能夠藉由資料組譯器/構造器(諸如內容準備器件或伺服器器件)或藉由資料剖析器(諸如用戶端器件,例如檔案處理單元或解囊封單元)來推斷媒體位元流之特徵,從而使得不必考慮根據約束不會發生之事件。舉例而言,若約束指定某些資料僅可在條件為真時存在,若條件為假,則不必處理受約束之資料。另外或替代地,若資料存在,則所述條件可推斷為真。更特定而言,可形成對應於位元流之上下文背景無關文法,其考慮各種條件來指定後續資料是否對應於受約束之資料。同樣,可根據上下文背景無關文法實施並組態資料產生單元及資料剖析單元。
圖1為說明實施用於經由網路串流媒體資料之技術的實例系統10之方塊圖。在此實例中,系統10包括內容準備器件20、伺服器器件60及用戶端器件40。用戶端器件40及伺服器器件60藉由網路74以通信方式耦接,網路74可包含網際網路。在一些實例中,內容準備器件20與伺服器器件60亦可藉由網路74或另一網路耦接,或可直接以通信方式耦接。在一些實例中,內容準備器件20及伺服器器件60可包含相同器件。
在圖1之實例中,內容準備器件20包含音訊源22及視訊源24。音訊源22可包含(例如)麥克風,其產生表示待藉由音訊編碼器26編碼之所擷取音訊資料的電信號。可替代地,音訊源22可包含儲存先前記錄之音訊資料的儲存媒體、音訊資料產生器(諸如,電腦化之合成器)或任何其他音訊資料源。視訊源24可包含:視訊攝影機,其產生待藉由視訊編碼器28編碼之視訊資料;儲存媒體,其編碼有先前記錄之視訊資料;視訊資料產生單元,諸如電腦圖形源;或任何其他視訊資料源。內容準備器件20未必在所有實例中均以通信方式耦接至伺服器器件60,而可將多媒體內容儲存至由伺服器器件60讀取之單獨媒體。
原始音訊及視訊資料可包含類比或數位資料。類比資料在藉由音訊編碼器26及/或視訊編碼器28編碼之前可被數位化。音訊源22可在說話參與者正在說話時自說話參與者獲得音訊資料,且視訊源24可同時獲取說話參與者之視訊資料。在其他實例中,音訊源22可包含包含所儲存之音訊資料的電腦可讀儲存媒體,且視訊源24可包含包含所儲存之視訊資料的電腦可讀儲存媒體。以此方式,本發明中所描述之技術可應用於實況、串流、即時音訊及視訊資料或所存檔的、預先記錄的音訊及視訊資料。
對應於視訊訊框之音訊訊框通常為含有藉由音訊源22擷取(或產生)之音訊資料的音訊訊框,音訊資料同時伴隨含於視訊訊框內的藉由視訊源24擷取(或產生)之視訊資料。舉例而言,當說話參與者通常藉由說話而產生音訊資料時,音訊源22擷取音訊資料,且視訊源24同時(即,在音訊源22正擷取音訊資料的同時)擷取說話參與者之視訊資料。因此,音訊訊框在時間上可對應於一或多個特定視訊訊框。因此,對應於視訊訊框之音訊訊框大體上對應於同時擷取到的音訊資料及視訊資料且音訊訊框及視訊訊框分別包含同時擷取到的音訊資料及視訊資料的情形。
在一些實例中,音訊編碼器26可對每一經編碼音訊訊框中表示記錄經編碼音訊訊框的音訊資料之時間的時戳進行編碼,且類似地,視訊編碼器28可對每一經編碼視訊訊框中表示記錄經編碼視訊訊框的視訊資料之時間的時戳進行編碼。在此等實例中,對應於視訊訊框之音訊訊框可包含:包含時戳之音訊訊框及包含相同時戳之視訊訊框。內容準備器件20可包括內部時脈,音訊編碼器26及/或視訊編碼器28可根據該內部時脈產生時戳,或音訊源22及視訊源24可使用該內部時脈以分別使音訊資料及視訊資料與時戳相關聯。
在一些實例中,音訊源22可向音訊編碼器26發送對應於記錄音訊資料之時間的資料,且視訊源24可向視訊編碼器28發送對應於記錄視訊資料之時間的資料。在一些實例中,音訊編碼器26可對經編碼音訊資料中之序列識別符進行編碼以指示經編碼音訊資料之相對時間排序,但未必指示記錄音訊資料之絕對時間,且相似地,視訊編碼器28亦可使用序列識別符來指示經編碼視訊資料之相對時間排序。類似地,在一些實例中,序列識別符可映射或以其他方式與時戳相關。
音訊編碼器26通常產生經編碼音訊資料之串流,而視訊編碼器28產生經編碼視訊資料之串流。每一個別資料串流(不論音訊或視訊)可被稱作基本串流。基本串流為表示之單個經數位寫碼(可能經壓縮)之分量。舉例而言,表示之經寫碼視訊或音訊部分可為基本串流。基本串流可在被囊封於視訊檔案內之前被轉換成封包化基本串流(PES)。在相同表示內,可使用串流ID來區分屬於一個基本串流的PES封包與屬於其他基本流的PES封包。基本串流之資料之基本單元為封包化基本串流(PES)封包。因此,經寫碼視訊資料大體對應於基本視訊串流。類似地,音訊資料對應於一或多個各別基本串流。
許多視訊寫碼標準(諸如,ITU-T H.264/進階視訊編碼(AVC)及ITU-T H.265/高效視訊寫碼(HEVC))界定無誤差位元串流之語法、語義及解碼過程,該等無誤差位元串流中之任一者符合特定設定檔或層級。視訊寫碼標準通常並不指定編碼器,但編碼器具有保證所產生之位元串流對於一致解碼器而言係標準相容之任務。在視訊寫碼標準之上下文背景中,「設定檔」對應於演算法、特徵或工具及施加至演算法、特徵或工具之限制的子集。如由H.264標準所定義,例如「設定檔」為由H.264標準指定的完整位元串流語法之子集。「層級」對應於解碼器資源消耗,諸如(例如),解碼器記憶體及計算之限制,該等限制係關於圖像解析度、位元速率及區塊處理速率。設定檔可用profile_idc (設定檔指示符)值傳信,而層級可用level_idc (層級指示符)值傳信。
舉例而言,H.264標準認為,在由給定設定檔之語法所強加的界限內,仍然可能要求編碼器及解碼器之效能有較大變化,此取決於位元串流中之語法元素(諸如,經解碼圖像之指定大小)所取的值。H.264標準進一步認為,在許多應用中,實施能夠處理特定設定檔內之語法之所有假設使用的解碼器既不實際又不經濟。因此,H.264標準將「層級」定義為強加於位元串流中之語法元素之值上的約束之指定集。此等約束可為對值的簡單限制。可替代地,此等約束條件可呈對值之算術組合(例如,圖像寬度乘以圖像高度乘以每秒解碼的圖像數目)之約束的形式。H.264標準進一步規定,個別實施對於每一所支援設定檔可支援不同層級。
符合設定檔之解碼器一般支援設定檔中所定義之所有特徵。舉例而言,作為寫碼特徵,B圖像寫碼在H.264/AVC之基線設定檔不被支援,但在H.264/AVC之其他設定檔中被支援。符合一層級之解碼器應能夠對不需要超出該層級中所定義之限制的資源之任何位元串流進行解碼。設定檔及層級之定義可對可解譯性有幫助。舉例而言,在視訊傳輸期間,可針對整個傳輸工作階段協商及同意一對設定檔定義及層級定義。更確切地說,在H.264/AVC中,水平可定義對需要處理之宏塊數目、經解碼圖像緩衝器(DPB)大小、經寫碼圖像緩衝器(CPB)大小、垂直運動向量範圍、每兩個連續MB之運動向量的最大數目,以及B塊是否可具有小於8×8像素的子宏塊分區的限制。以此方式,解碼器可判定解碼器是否能夠適當地對位元串流進行解碼。
在圖1之實例中,內容準備器件20之囊封單元30自視訊編碼器28接收包含經寫碼視訊資料之基本串流且自音訊編碼器26接收包含經寫碼音訊資料之基本串流。在一些實例中,視訊編碼器28及音訊編碼器26可各自包括用於自經編碼資料形成PES封包之封包化器。在其他實例中,視訊編碼器28及音訊編碼器26可各自與用於自經編碼資料形成PES封包之相應封包化器介接。在另外其他實例中,囊封單元30可包括用於自經編碼音訊及視訊資料形成PES封包之封包化器。
視訊編碼器28可以多種方式對多媒體內容之視訊資料進行編碼,從而以各種位元速率且以各種特性產生多媒體內容之不同表示,該等特性諸如像素解析度、訊框速率、對各種寫碼標準之符合性、對各種寫碼標準之各種設定檔及/或設定檔層級之符合性、具有一或多個視圖之表示(例如,對於二維或三維播放)或其他此類特性。如本發明中所使用,表示可包含音訊資料、視訊資料、文字資料(例如,用於封閉字幕)或其他此類資料中之一者。表示可包括諸如音訊基本串流或視訊基本串流之基本串流。每一PES封包可包括識別PES封包所屬之基本串流的stream_id。囊封單元30負責將基本串流組譯成各種表示之視訊檔案(例如,區段)。
囊封單元30自音訊編碼器26及視訊編碼器28接收表示之基本串流的PES封包且自該等PES封包形成對應的網路抽象層(NAL)單元。寫碼視訊區段可經組織成NAL單元,其提供「網路友好」視訊表示定址應用程式,諸如視訊電話、儲存器、廣播或串流。NAL單元可分類為視訊寫碼層(VCL) NAL單元及非VCL NAL單元。VCL單元可含有核心壓縮引擎,且可包括區塊、宏塊及/或圖塊層級資料。其他NAL單元可為非VCL NAL單元。在一些實例中,一個時間執行個體中之經寫碼圖像(通常呈現為初級寫碼圖像)可含於存取單元中,該存取單元可包括一或多個NAL單元。
非VCL NAL單元可尤其包括參數集NAL單元及SEI NAL單元。參數集可含有序列層級標頭資訊(在序列參數集(SPS)中)及不頻繁改變的圖像層級標頭資訊(在圖像參數集(PPS)中)。對於參數集(例如,PPS及SPS),不頻繁改變的資訊不需要關於每一序列或圖像重複,因此可改良寫碼效率。此外,使用參數集可實現重要標頭資訊之帶外傳輸,從而避免對用於抗誤碼之冗餘傳輸的需要。在帶外傳輸實例中,參數集NAL單元可在與其他NAL單元(諸如,SEI NAL單元)不同之頻道上傳輸。
補充增強資訊(SEI)可含有對於對來自VCL NAL單元之經寫碼圖像樣本進行解碼並非必需的資訊,但可輔助與解碼、顯示、抗誤碼及其他目的相關的過程。SEI訊息可含於非VCL NAL單元中。SEI訊息為一些標準規範之標準化部分,且因此對於標準相容之解碼器實施並非始終係必選的。SEI訊息可為序列層級SEI訊息或圖像層級SEI訊息。某一序列層級資訊可含於SEI訊息中,諸如SVC之實例中的可縮放性資訊SEI訊息,及MVC中的視圖可縮放性資訊SEI訊息。此等實例SEI訊息可傳達關於例如操作點之提取及操作點之特性的資訊。另外,囊封單元30可形成資訊清單檔案,諸如描述表示之特徵的媒體呈現描述符(MPD)。囊封單元30可根據可擴展標示語言(XML)來格式化MPD。
囊封單元30可向輸出介面32提供多媒體內容之一或多個表示的資料以及資訊清單檔案(例如,MPD)。輸出介面32可包含網路介面或用於對儲存媒體進行寫入之介面,諸如通用串流匯流排(USB)介面、CD或DVD寫入器或燒錄器、至磁性或快閃儲存媒體之介面,或用於儲存或傳輸媒體資料之其他介面。囊封單元30可向輸出介面32提供多媒體內容之表示中之每一者的資料,該輸出介面可經由網路傳輸或儲存媒體向伺服器器件60發送該資料。在圖1之實例中,伺服器件60包括儲存各種多媒體內容64之儲存媒體62,每一多媒體內容64包括各別資訊清單檔案66及一或多個表示68A至68N (表示68)。在一些實例中,輸出介面32亦可將資料直接發送至網路74。
在一些實例中,表示68可分成若干適應集合。亦即,表示68之各種子集可包括各別共同特性集合,諸如編解碼器、設定檔及層級、解析度、視圖數目、區段之檔案格式、可識別待與待解碼及呈現之表示及/或音訊資料(例如,由揚聲器發出)一起顯示的本文之語言或其他特性的文本類型資訊、可描述適應集合中之表示之場景的攝影機角度或真實世界攝影機視角的攝影機角度資訊、描述對於特定觀眾之內容適合性的分級資訊,或其類似資訊。
資訊清單檔案66可包括指示對應於特定適應集合之表示68之子集以及該等適應集合之共同特性的資料。資訊清單檔案66亦可包括表示適應集合之個別表示的個別特性(諸如位元速率)之資料。以此方式,適應集合可提供簡化網路頻寬調適。調適應集合中之表示可使用資訊清單檔案66之適應集合元素的子代元素來指示。
伺服器器件60包括請求處理單元70及網路介面72。在一些實例中,伺服器器件60可包括複數個網路介面。此外,伺服器器件60之特徵中之任一者或全部可在內容遞送網路之其他器件(諸如,路由器、橋接器、代理器件、交換器或其他器件)上實施。在一些實例中,內容分發網之中間器件可快取多媒體內容64之資料,且包括實質上符合伺服器器件60之彼等組件之組件。大體而言,網路介面72經組態以經由網路74來傳送及接收資料。
請求處理單元70經組態以自用戶端器件,諸如用戶端器件40接收對儲存媒體62之資料的網路請求。舉例而言,請求處理單元70可實施超文字傳送協定(HTTP)版本1.1,如RFC 2616中由R.Fielding等人於1999年6月在Network Working Group, IETF的「Hypertext Transfer Protocol - HTTP/1.1」,中所描述。亦即,請求處理單元70可經組態以接收HTTP GET或部分GET請求,且回應於該等請求而提供多媒體內容64之資料。請求可指定表示68中之一者的區段,例如使用區段之URL。在一些實例中,該等請求亦可指定區段之一或多個位元組範圍,因此包含部分GET請求。請求處理單元70可經進一步組態以服務於HTTP HEAD請求以提供表示68中之一者之區段的標頭資料。在任何情況下,請求處理單元70可經組態以處理該等請求以向請求器件(諸如用戶端器件40)提供所請求之資料。
另外地或替代性地,請求處理單元70可經組態以經由諸如eMBMS之廣播或多播協定而遞送媒體資料。內容準備器件20可以與所描述大體上相同的方式產生DASH區段及/或子區段,但伺服器器件60可使用eMBMS或另一廣播或多播網路傳送協定來遞送此等區段或子區段。舉例而言,請求處理單元70可經組態以自用戶端器件40接收多播群組加入請求。亦即,伺服器器件60可向客戶端器件(包括用戶端器件40)通告與多播群組相關聯之網際網路協定(IP)位址,其與特定媒體內容(例如,實況事件之廣播)相關聯。用戶端器件40轉而可呈送加入多播群組之請求。此請求可遍及網路74 (例如,構成網路74之路由器)傳播,以促使該等路由器將去往與多播群組相關之IP位址的訊務導向至訂用的用戶端器件(諸如用戶端器件40)。
如圖1之實例中所說明,多媒體內容64包括資訊清單檔案66,該資訊清單檔案66可對應於媒體呈現描述(MPD)。資訊清單檔案66可含有不同替代表示68 (例如,具有不同品質之視訊服務)的描述,且該描述可包括例如表示68之編解碼器資訊、設定檔值、層級值、位元速率及其他描述性特性。用戶端器件40可檢索媒體呈現之MPD以判定如何存取表示68之區段。
詳言之,檢索單元52可檢索用戶端器件40之組態資料(未展示)以判定視訊解碼器48之解碼能力及視訊輸出端44之再現能力。組態資料亦可包括由用戶端器件40之使用者選擇的語言偏好中之任一者或全部、對應於由用戶端器件40之使用者設定的深度偏好之一或多個攝影機視角及/或由用戶端器件40之使用者選擇的分級偏好。舉例而言,檢索單元52可包含經組態以呈送HTTP GET及部分GET請求之網頁瀏覽器或媒體用戶端。檢索單元52可對應於由用戶端器件40之一或多個處理器或處理單元(未展示)執行的軟體指令。在一些實例中,關於檢索單元52所描述的功能性之全部或部分可在硬體或硬體、軟體及/或韌體之組合中實施,其中可提供必需的硬體以執行軟體或韌體之指令。
檢索單元52可將用戶端器件40之解碼及再現能力與由資訊清單檔案66之資訊所指示之表示68的特性進行比較。檢索單元52可最初檢索清單檔案66之至少一部分以判定表示68之特性。舉例而言,檢索單元52可請求描述一或多個適應集合之特性的資訊清單檔案66之一部分。檢索單元52可選擇表示68(例如,適應集)之具有可由用戶端器件40之寫碼及再現能力所滿足之特徵的子集合。檢索單元52可接著判定用於適應集合中之表示的位元速率,判定網路頻寬之當前可用量,且自具有網路頻寬可滿足之位元速率的表示中之一者檢索區段。
大體而言,較高位元速率表示可產生較高品質之視訊播放,而較低位元速率表示可在可用網路頻寬減少時提供足夠品質之視訊播放。因此,當可用網路頻寬相對高時,檢索單元52可自相對高位元速率之表示檢索資料,而當可用網路頻寬較低時,檢索單元52可自相對低位元速率之表示檢索資料。以此方式,用戶端器件40可經由網路74串流多媒體資料,同時亦適應網路74之改變的網路頻寬可用性。
另外或可替代地,檢索單元52可經組態以根據諸如eMBMS或IP多播之廣播或多播網路協定來接收資料。在此等實例中,檢索單元52可呈送加入與特定媒體內容相關聯之多播網路群組的請求。在加入多播群組之後,檢索單元52可在其他請求未發出至伺服器器件60或內容準備器件20的情況下接收多播群組之資料。檢索單元52可呈送當不再需要多播群組之資料時離開多播群組的請求,例如停止播放或將通道改變至不同多播群組。
網路介面54可接收所選表示之區段的資料且將該資料提供至檢索單元52,該檢索單元轉而可將該資料提供至檔案處理單元50。檔案處理單元50可將視訊檔案之元素解囊封為組成性PES串流,將該等PES串流解封包化以檢索經編碼資料,且取決於經編碼資料為音訊串流之部分或視訊串流之部分(例如如由該串流之PES封包標頭所指示)而將經編碼資料傳送至音訊解碼器46或視訊解碼器48。音訊解碼器46解碼經編碼音訊資料,且將經解碼音訊資料發送至音訊輸出端42,而視訊解碼器48解碼經編碼視訊資料,且將經解碼視訊資料發送至視訊輸出端44,經解碼視訊資料可包括串流之複數個視圖。
視訊編碼器28、視訊解碼器48、音訊編碼器26、音訊解碼器46、囊封單元30、檢索單元52及檔案格式處理單元50各自可經實施為如可應用之多種合適的處理電路中之任一者,諸如一或多個微處理器、數位信號處理器(DSP)、特定應用積體電路(ASIC)、場可程式化閘陣列(FPGA)、離散邏輯電路、軟體、硬體、韌體或其任何組合。視訊編碼器28及視訊解碼器48中之每一者可包括於一或多個編碼器或解碼器中,編碼器或解碼器中之任一者可經整合為組合式視訊編碼器/解碼器(CODEC)之部分。同樣地,音訊編碼器26及音訊解碼器46中之每一者可包括於一或多個編碼器或解碼器中,編碼器或解碼器中之任一者可經整合為組合式CODEC之部分。包括視訊編碼器28、視訊解碼器48、音訊編碼器26、音訊解碼器46、囊封單元30、檢索單元52及/或檔案格式處理單元50之裝置可包含積體電路、微處理器及/或諸如蜂巢式電話的無線通信器件。
用戶端器件40、伺服器器件60及/或內容準備器件20可經組態以根據本發明之技術操作。出於實例之目的,本發明關於用戶端器件40及伺服器器件60描述此等技術。然而,應理解,替代伺服器器件60 (或除此之外),內容準備器件20可經組態以執行此等技術。
囊封單元30可形成包含識別NAL單元所屬之程序之標頭的NAL單元以及有效負載,例如音訊資料、視訊資料或描述NAL單元對應之傳送或程序流的資料。舉例而言,在H.264/AVC中,NAL單元包括1位元組標頭及不同大小之有效負載。在有效負載中包括視訊資料之NAL單元可包含各種精細度水準之視訊資料。舉例而言,NAL單元可包含視訊資料區塊、複數個區塊、視訊資料之圖塊或視訊資料之整個圖像。囊封單元30可自視訊編碼器28接收呈基本串流之PES封包形式的經編碼視訊資料。囊封單元30可使每一基本串流與對應程序相關聯。
囊封單元30亦可組譯來自複數個NAL單元之存取單元。大體而言,存取單元可包含用於表示視訊資料之訊框以及對應於該訊框之音訊資料(當此音訊資料可用時)的一或多個NAL單元。存取單元通常包括一個輸出時間執行個體之所有NAL單元,例如一個時間執行個體之所有音訊及視訊資料。舉例而言,若每一視圖具有20訊框/秒(fps)之訊框速率,則每一時間執行個體可對應於0.05秒之時間間隔。在此時間間隔期間,可同時呈現相同存取單元(相同時間執行個體)之所有視圖的特定訊框。在一個實例中,存取單元可包含一個時間執行個體中之經寫碼圖像,其可呈現為初級經寫碼圖像。
因此,存取單元可包含共同時間執行個體之所有音訊訊框及視訊訊框,例如對應於時間X之所有視圖。本發明亦將特定視圖之經編碼圖像稱為「視圖分量」。亦即,視圖分量可包含在特定時間針對特定視圖的經編碼圖像(或訊框)。因此,存取單元可定義為包含共同時間執行個體之所有視圖分量。存取單元之解碼次序未必與輸出或顯示次序相同。
媒體呈現可包括媒體呈現描述(MPD),該媒體呈現描述可含有不同替代表示(例如,具有不同品質之視訊服務)的描述,且該描述可包括例如編碼解碼器資訊、設定檔值及層級值。MPD為資訊清單檔案(諸如資訊清單檔案66)之一個實例。用戶端器件40可檢索媒體呈現之MPD以判定如何存取各種呈現之電影片段。電影片段可位於視訊檔案之電影片段邏輯框(moof邏輯框)中。
資訊清單檔案66 (其可包含例如MPD)可通告表示68之區段之可用性。亦即,MPD可包括指示表示68中之一者之第一區段變得可用時之掛鐘時間的資訊,以及指示表示68內之區段之持續時間的資訊。以此方式,用戶端器件40之檢索單元52可基於開始時間以及在特定區段之前的區段之持續時間而判定每一區段可用的時間。
在囊封單元30已基於所接收之資料將NAL單元及/或存取單元組譯成視訊檔案之後,囊封單元30將視訊檔案傳遞至輸出介面32以用於輸出。在一些實例中,囊封單元30可將視訊檔案儲存在本端,或經由輸出介面32將視訊檔案發送至遠端伺服器,而非將視訊檔案直接發送至用戶端器件40。輸出介面32可包含例如傳輸器、收發器、用於將資料寫入至諸如光碟機、磁性媒體驅動機(例如,軟碟機)之電腦可讀媒體的器件、通用串列匯流排(USB)端、網路介面,或其他輸出介面。輸出介面32將視訊檔案輸出至電腦可讀媒體,諸如傳送傳輸信號、磁性媒體、光學媒體、記憶體、隨身碟或其他電腦可讀媒體。
網路介面54可經由網路74來接收NAL單元或存取單元,且經由檢索單元52來將NAL單元或存取單元提供至檔案處理單元50。檔案處理單元50可將視訊檔案之元素解囊封為組成性PES串流,將該等PES串流解封包化以檢索經編碼資料,且取決於經編碼資料為音訊串流之部分或視訊串流之部分(例如如由該串流之PES封包標頭所指示)而將經編碼資料傳送至音訊解碼器46或視訊解碼器48。音訊解碼器46解碼經編碼音訊資料,且將經解碼音訊資料發送至音訊輸出端42,而視訊解碼器48解碼經編碼視訊資料,且將經解碼視訊資料發送至視訊輸出端44,經解碼視訊資料可包括串流之複數個視圖。
OMAF草案規範之第3.1項,「時間平行樣本」之定義如下: 時間平行樣本:具有相同解碼時間之相關軌中之樣本,或當具有相同解碼時間之樣本不可用時,具有相對於軌中之特定樣本之解碼時間最近的前一解碼時間的相關軌中之樣本。
該術語用於OMAF草案規範之第7.1.1項中指定之子圖像合成軌。然而,使用子圖像合成軌之此定義將需要檔案合成器(諸如囊封單元30)或甚至視訊編碼器(諸如視訊編碼器28)為屬於同一合成圖像之所有子圖像產生相同的解碼時間。此可能並非所要的,因為自視訊寫碼觀點來看,子圖像位元串流通常彼此獨立。
因此,內容準備器件20、伺服器器件60及/或用戶端器件40可根據如下「時間平行樣本」之定義經組態: 時間平行樣本:具有相同合成時間之相關軌中之樣本,或當具有相同合成時間之樣本不可用時,具有相對於軌中之特定樣本之合成時間最近的前一合成時間的相關軌中之樣本。
改變的術語(或與基於合成時間之相同或類似定義不同的術語,其亦被稱作表示時間)用於子圖像合成軌。以此方式,囊封單元30及視訊編碼器28將不需要為屬於同一合成圖像之所有子圖像產生相同的解碼時間,充分允許子圖像位元串流在視訊寫碼觀點上完全彼此獨立。以此方式,囊封單元30、視訊編碼器28、檢索單元52、檔案處理單元50及/或視訊解碼器48可將第一樣本及時間平行樣本處理為具有相同或類似合成時間但未必具有相同解碼時間之第一樣本。
特定言之,囊封單元30及/或檔案處理單元50可處理媒體檔案之第一軌之第一樣本。第一樣本具有第一合成(亦即表示)時間。囊封單元30及/或檔案處理單元50可接著判定與第一軌相關聯之媒體檔案之第二軌在第一合成時間處是否具有可用樣本。當第二軌在第一合成時間處具有可用樣本時,囊封單元30及/或檔案處理單元50可選擇第二軌之可用樣本作為與第一樣本之第一合成時間具有共同合成時間的第二樣本。然而,當第二軌在第一合成時間處不具有可用樣本時,囊封單元30及/或檔案處理單元50可選擇具有為最近可用的前一合成時間之合成時間的第二軌之樣本作為與第一樣本之第一合成時間具有共同合成時間的第二樣本。在任一情況下,回應於選擇第二樣本,囊封單元30及/或檔案處理單元50可處理第二樣本。
OMAF草案規範之第7.1.2項指定合成限制邏輯框。此邏輯框之存在指示軌不意欲在無其他可見軌之情況下單獨存在。當此邏輯框不存在時,軌可能或可能不意欲在無其他可見軌存在之情況下單獨存在。本發明認識到,不必將合成限制邏輯框包括於不屬於子圖像合成軌群組或並非圖像塊軌之軌的樣本項中。此係因為僅由屬於子圖像合成軌群組或圖像塊軌之軌攜載的視訊串流可含有有意義地單獨存在之不充分視訊材料。然而,習知地,合成限制邏輯框可包括於任何可見軌之樣本項中。
因此,除上文所論述之技術之外或替代地,內容準備器件20、伺服器器件60及/或用戶端器件40可根據指定以下內容之約束經組態:樣本項含有其合成限制邏輯框之軌應屬於子圖像合成軌群組或應為圖像塊軌。約束可進一步指定,在後一種情況中(包括合成限制邏輯框之軌為圖像塊軌),合成限制邏輯框之存在指示圖像塊軌連同相關之圖像塊基本軌不適用於表示,即使在該軌之資料可解碼時。
因此,當軌包括合成限制邏輯框時,內容準備器件20、伺服器器件60及/或用戶端器件40中之任一者或所有可經組態以推斷關於軌之特徵,諸如判定軌屬於子圖像合成軌群組亦或軌為圖像塊軌。另外或替代地,當相應軌不屬於子圖像合成軌群組且不為圖像塊軌時,內容準備器件20、伺服器器件60及/或用戶端器件40可經組態以避免處理對應於合成限制邏輯框之資料(例如,可推斷合成限制邏輯框不存在)。
OMAF草案規範之第7.2.3項指定投影全向視訊邏輯框。此邏輯框提供關於投影類型及其他此類資料之資訊。 OMAF草案規範定義此邏輯框作為Box()結構之擴展,如下所示: aligned(8) class ProjectedOmniVideoBox extends Box('povd') { ProjectionFormatBox(); // mandatory // optional boxes }
然而,本發明認識到,此定義不允許不同版本之投影全向視訊邏輯框,以及其他缺點。因此,除上文所論述之技術或替代地,內容準備器件20、伺服器器件60及/或用戶端器件40可根據投影全向視訊邏輯框之定義組態為FullBox()結構之擴展,如下所示: aligned(8) class ProjectedOmniVideoBox extends FullBox('povd', 0, 0) { ProjectionFormatBox(); // mandatory // optional boxes }
OMAF草案規範之第7.2.5項指定逐區域封裝(region-wise packing ,RWP)邏輯框。RWP使得能夠操控(調整大小、改變位置、旋轉,及鏡像處理)投影圖像之任何矩形區域。目前,投影圖像之區域可重疊。然而,本發明認識到,不存在允許重疊之技術益處。因此,允許此類重疊將使設計更複雜,這增加實施方案成本以及用於測試實施方案之成本。
因此,除上文所論述之技術之外或替代地,內容準備器件20、伺服器器件60及/或用戶端器件40可根據避免重疊投影區域之限制,例如根據以下約束經組態: 藉由proj_reg_width[i]、proj_reg_height[i]、proj_reg_top[i]及proj_reg_left[i]指定之矩形應不與藉由proj_reg_width[j]、proj_reg_height[j]、proj_reg_top[j]及proj_reg_left[j]指定之矩形重疊,j之任何值在0至i-1 (包括端點)之範圍內。
OMAF草案規範之第7.2.6項指定全局覆蓋資訊邏輯框。當不存在逐區域封裝邏輯框時,內容覆蓋整個球面。因此,本發明認識到,在此情況下,全局覆蓋資訊邏輯框不必存在。然而,目前全局覆蓋資訊邏輯框可在逐區域封裝邏輯框不存在時存在。
因此,除上文所論述之技術之外或替代地,內容準備器件20、伺服器器件60及/或用戶端器件40可根據指定以下內容之約束經組態:當逐區域封裝邏輯框不存在時,全局覆蓋資訊框不應存在。替代地,該約束可能需要全局覆蓋資訊邏輯框指示:當逐區域封裝邏輯框不存在時,覆蓋度為整個球面。
OMAF草案規範之第8.2.1項指定投影格式(PF)描述符。OMAF草案規範之第8.2.2項指定逐區域封裝(RWPK)描述符。OMAF草案規範指定逐區域封裝僅適用於投影全向視訊。因此,本發明認識到,當PF描述符不存在時,不必使RWPK描述符存在。然而,目前當PF描述符不存在時,RWPK描述符仍可能存在。
因此,除上文所論述之技術之外或替代地,內容準備器件20、伺服器器件60及/或用戶端器件40可根據以下關於RWPK描述符之存在的約束中之任一者或所有來組態: 1) 當PF描述符不直接存在於MPD中時,不應有RWPK描述符直接存在於MPD中。 2) 當PF描述符不直接存在於MPD中且不直接存在於AdaptationSet元素中時,不應有RWPK描述符直接存在於AdaptationSet元素中。 3) 當PF描述符不直接存在於Representation元素中,不直接存在於含有Representation元素之AdaptationSet元素中,且不直接存在於MPD中時,不應有RWPK描述符直接存在於Representation元素中。
OMAF草案規範之第8.2.1項指定投影格式(PF)描述符。OMAF草案規範之第8.2.3項指定內容覆蓋(CC)描述符。僅對於投影全向視訊存在檔案格式層級之覆蓋傳信。因此,本發明認識到,當PF描述符不存在時,不必使CC描述符存在。然而,目前當PF描述符不存在時,CC描述符仍可能存在。
因此,除上文所論述之技術之外或替代地,內容準備器件20、伺服器器件60及/或用戶端器件40可根據以下關於CC描述符之存在的約束來組態: 當PF描述符不直接存在於MPD或AdaptationSet元素中時,不應有RWPK描述符存在於AdaptationSet元素中。
亦即,當PF描述符不直接存在於媒體檔案之一或多個軌之MPD或AdaptationSet元素中時,內容準備器件20、伺服器器件60及/或用戶端器件40可經組態以避免處理MPD之AdaptationSet元素之RWPK描述符。為避免處理RWPK描述符,內容準備器件20、伺服器器件60及/或用戶端器件40可經組態以跳過處理RWPK描述符,且將習知地在RWPK描述符之前的資料之後的資料視為習知地在RWPK描述符之後的資料。
圖2為更詳細地說明圖1之檢索單元52之組件之實例集合的方塊圖。在此實例中,檢索單元52包括eMBMS介體單元100、DASH用戶端110及媒體應用112。
在此實例中,eMBMS介體單元100進一步包括eMBMS接收單元106、快取記憶體104及伺服器單元102。在此實例中,eMBMS接收單元106經組態以經由eMBMS接收資料,例如,根據T.Paila等人在「FLUTE-File Delivery over Unidirectional Transport」 Network Working Group, RFC6726, 2012年11月 (可於http://tools.ietf.org/html/rfc6726獲得)中所描述的歷經單向輸送之檔案傳遞(File Delivery over Unidirectional Transport,FLUTE)。亦即,eMBMS接收單元106可經由廣播而自(例如)伺服器器件60 (其可充當BM-SC)接收檔案。
當eMBMS介體單元100接收檔案之資料時,eMBMS介體單元可將所接收之資料儲存於快取記憶體104中。快取記憶體104可包含電腦可讀儲存媒體,諸如快閃記憶體、硬碟、RAM或任何其他合適的儲存媒體。
本端伺服器單元102可充當DASH用戶端110之伺服器。舉例而言,本端伺服器單元102可將MPD檔案或其他資訊清單檔案提供至DASH用戶端110。本端伺服器單元102可通告MPD檔案中之區段之可用性時間,以及可檢索該等區段之超連結。此等超連結可包括對應於用戶端器件40之本機主機位址首碼(例如,IPv4之127.0.0.1)。以此方式,DASH用戶端110可使用HTTP GET或部分GET請求向本機伺服器單元102請求區段。舉例而言,對於可自鏈接http://127.0.0.1/rep1/seg3獲得之區段,DASH用戶端110可建構包括針對http://127.0.0.1/rep1/seg3之請求的HTTP GET請求,且將請求呈送至本端伺服器單元102。本端伺服器102可自快取記憶體104檢索所請求之資料且回應於此等請求而將資料提供至DASH用戶端110。
圖3為說明實例多媒體內容120之元素的概念圖。多媒體內容120可對應於多媒體內容64 (圖1),或對應於儲存於儲存媒體62中之另一多媒體內容。在圖3之實例中,多媒體內容120包括媒體呈現描述(MPD) 122及複數個表示124A至124N (表示124)。表示124A包括可選標頭資料126及區段128A至128N (區段128),而表示124N包括可選標頭資料130及區段132A至132N (區段132)。為了方便起見,使用字母N來指定表示124中之每一者中的最後一個電影片段。在一些實例中,表示124之間可存在不同數目之電影片段。
MPD 122可包含與表示124分開之資料結構。MPD 122可對應於圖1之資訊清單檔案66。同樣,表示124可對應於圖2之表示68。大體而言,MPD 122可包括大體上描述表示124之特徵的資料,諸如寫碼及再現特徵、適應集合、MPD 122所對應之設定檔、文字類型資訊、攝影機角度資訊、分級資訊、特技模式資訊(例如,指示包括時間子序列之表示的資訊)及/或用於檢索遠端週期(例如,用於在播放期間將針對性廣告插入至媒體內容中)之資訊。
標頭資料126 (當存在時)可描述區段128之特性,例如,隨機存取點(RAP,其亦被稱作串流存取點(SAP))之時間位置、區段128中之哪一者包括隨機存取點、與區段128內之隨機存取點之偏移的位元組、區段128之統一資源定位符(URL),或區段128之其他態樣。標頭資料130 (當存在時)可描述區段132之相似特性。另外或替代地,此等特性可完全包括於MPD 122內。
區段128、132包括一或多個經寫碼視訊樣本,其中之每一者可包括視訊資料之訊框或截塊。區段128之經寫碼視訊樣本中之每一者可具有類似特性,例如,高度、寬度及頻寬要求。此類特性可藉由MPD 122之資料來描述,但此資料在圖3之實例中未說明。MPD 122可包括如3GPP規範所描述之特性,並且添加了本發明中所描述的發信資訊中之任一者或全部。
區段128、132中之每一者可與唯一的統一資源定位符(URL)相關聯。因此,區段128、132中之每一者可使用串流網路協定(諸如,DASH)來獨立地檢索。以此方式,諸如用戶端器件40之目的地器件可使用HTTP GET請求來檢索區段128或132。在一些實例中,用戶端器件40可使用HTTP部分GET請求來檢索區段128或132之特定位元組範圍。
MPD 122可包括根據本發明之技術中之任一者或所有單獨地或以任何組合構造之資料。舉例來說,MPD 122可包括描述適應集合之適應集合元素,其可包括可彼此切換用於頻寬適應之表示124中之一或多者。此外,MPD 122可包括投影格式(PF)描述符。在一些實例中,當PF描述符不直接存在於MPD 122或其適應集元素中時,MPD 122在適應集合中可能缺少逐區域封裝(RWPK)描述符。亦即,當MPD 122不包括直接地或在適應集合元素中之PF描述符時,內容準備器件20可避免添加RWPK描述符,且檔案處理單元50可避免嘗試處理RWPK描述符。
圖4為說明一實例視訊檔案150之元素之方塊圖,該實例視訊檔案可對應於表示之區段,諸如,圖3之區段114、124中之一者。視訊檔案150亦表示媒體檔案之一實例。區段128、132中之每一者可包括實質上符合圖4之實例中所說明之資料之佈置的資料。 據稱視訊檔案150可囊封一區段。如上所述,根據ISO基本媒體檔案格式及其擴展的視訊檔案將資料儲存於一系列對象(稱為「邏輯框」)中。在圖4之實例中,視訊檔案150包括檔案類型(FTYP)邏輯框152、電影(MOOV)邏輯框154、區段索引(sidx)邏輯框162、電影片段(MOOF)邏輯框164及電影片段隨機存取(MFRA)邏輯框166。儘管圖4表示視訊檔案之實例,但應理解,根據ISO基本媒體檔案格式及其擴展,其他媒體檔案可包括在結構上類似於媒體檔案150之資料的其他類型之媒體資料(例如,音訊資料、計時文本資料或其類似者)。
檔案類型(FTYP)邏輯框152通常描述視訊檔案150之檔案類型。檔案類型邏輯框152可包括識別描述視訊檔案150之最佳用途之規範的資料。檔案類型邏輯框152可替代地置放在MOOV邏輯框154、電影片段邏輯框164及/或MFRA邏輯框166之前。
在一些實例中,區段(諸如,視訊檔案150)可包括在FTYP邏輯框152之前的MPD更新邏輯框(未展示)。MPD更新邏輯框可包括指示對應於包括視訊檔案150之表示之MPD待更新的資訊,以及用於更新MPD之資訊。舉例而言,MPD更新邏輯框可提供待用以更新MPD之資源的URI或URL。作為另一實例,MPD更新邏輯框可包括用於更新MPD之資料。在一些實例中,MPD更新邏輯框可緊接在視訊檔案150之區段類型(STYP)邏輯框(未圖示)之後,其中STYP邏輯框可定義視訊檔案150之區段類型。在下文更詳細地論述之圖7提供關於MPD更新邏輯框之額外資訊。
在圖4之實例中,MOOV邏輯框154包括電影標頭(MVHD)邏輯框156、軌(TRAK)邏輯框158及一或多個電影擴展(MVEX)邏輯框160。大體而言,MVHD邏輯框156可描述視訊檔案150之一般特徵。舉例而言,MVHD邏輯框156可包括描述視訊檔案150最初建立之時間、視訊檔案150經最後修改之時間、視訊檔案150之時間標度、視訊檔案150之播放持續時間的資料,或大體上描述視訊150之其他資料。
TRAK邏輯框158可包括視訊檔案150之軌的資料。TRAK框158可包括描述對應於TRAK邏輯框158之軌之特徵地軌標頭(TKHD)邏輯框軌。在一些實例中,TRAK邏輯框158可包括經寫碼視訊圖像,而在其他實例中,軌之經寫碼視訊圖像可包括於電影片段164中,其可由TRAK邏輯框158及/或sidx邏輯框162之資料參考。
在一些實例中,視訊檔案150可包括超過一個軌。相應地,MOOV邏輯框154可包括等於視訊檔案150中之軌數目的數個TRAK邏輯框軌。TRAK邏輯框158可描述視訊檔案150之對應軌之特性。舉例而言,TRAK邏輯框158可描述相對應軌之時間及/或空間資訊。當囊封單元30 (圖3)包括視訊檔案(諸如,視訊檔案150)中之參數集軌時,類似於MOOV邏輯框154之TRAK邏輯框158的TRAK邏輯框可描述參數集軌之特性。囊封單元30可在描述參數集軌之TRAK邏輯框內傳信序列層級SEI訊息在參數集軌中之存在。
MVEX邏輯框160可描述對應電影片段164之特性,例如,以傳信除視訊資料包括於MOOV邏輯框154 (若存在)內之外,視訊檔案150亦包括電影片段164。在串流視訊資料之情況下,經寫碼視訊圖像可包括於電影片段164中,而非包括於MOOV邏輯框154中。相應地,所有經寫碼視訊樣本可包括於電影片段164中,而非包括於MOOV邏輯框154中。
MOOV邏輯框154可包括等於視訊檔案150中之電影片段164之數目的數個MVEX邏輯框160。MVEX邏輯框160中之每一者可描述電影片段164中之對應電影片段之特性。舉例而言,每一MVEX邏輯框可包括描述電影片段164中之對應電影片段之時間持續的電影擴展標頭邏輯框(MEHD)邏輯框。
如上文所指出,囊封單元30可儲存不包括實際經寫碼視訊資料之視訊樣本中之序列資料集。視訊樣本可大體上對應於存取單元,其為特定時間執行個體下之經寫碼圖像之表示。在AVC之上下文背景中,經寫碼圖像包括一或多個VCL NAL單元及其他相關聯非VCL NAL單元(諸如,SEI訊息),該等VCL NAL單元含有用以構造存取單元之所有像素的資訊。因此,囊封單元30可包括電影片段164中之一者中之序列資料集,其可包括序列層級SEI訊息。囊封單元30可進一步將序列資料集及/或序列層級SEI訊息之傳信為存在於對應於電影片段164中之一者的MVEX邏輯框160中之一者內的電影片段164中之一者中。
SIDX邏輯框162為視訊檔案150之可選元素。亦即,符合3GPP檔案格式或其他此等檔案格式之視訊檔案未必包括SIDX邏輯框162。根據3GPP檔案格式之實例,SIDX邏輯框可用以識別區段(例如,含於視訊檔案150內之區段)之子區段。3GPP檔案格式將子區段定義為「具有一或多個對應媒體資料邏輯框之一或多個連續電影片段邏輯框及含有由電影片段邏輯框引用之資料的媒體資料邏輯框必須跟在電影片段邏輯框之後,並在含有關於同一軌之資訊的下一個電影片段邏輯框之前的自含式集合」。3GPP檔案格式亦指示SIDX邏輯框「含有對由邏輯框記錄之(子)片段之子片段參考的序列。所引用的子區段在呈現時間上為連續的。相似地,由區段索引邏輯框參考之位元組始終在片段內連續。所參考大小給出所參考材料中之位元組之數目的計數」。
SIDX邏輯框162通常提供表示包括於視訊檔案150中之區段之一或多個子區段的資訊。舉例而言,此類資訊可包括子區段開始及/或結束處之播放時間、子區段之位元組偏移、子區段是否包括(例如,始於)串流存取點(SAP)、SAP之類型(例如,SAP是否為瞬時解碼器刷新(IDR)圖像、清潔隨機存取(CRA)圖像、斷鏈存取(BLA)圖像,或其類似者)、SAP在子區段中之位置(就播放時間及/或位元組偏移而言),及其類似者。
電影片段164可包括一或多個經寫碼視訊圖像。在一些實例中,電影片段164可包括一或多個圖像群組(group of pictures,GOP),其中之每一者可包括數個經寫碼視訊圖像,例如訊框或圖像。另外,如上文所描述,在一些實例中,電影片段164可包括序列資料集。電影片段164中之每一者可包括電影片段標頭邏輯框(MFHD,圖4中未展示)。MFHD邏輯框可描述對應電影片段之特性,諸如電影片段之序號。電影片段164可按序號次序包括於視訊檔案150中。
MFRA邏輯框166可描述視訊檔案150之電影片段164內的隨機存取點。此可輔助執行特技模式,諸如執行對由視訊檔案150囊封之區段內之特定時間位置(即,播放時間)的尋找。在一些實例中,MFRA框166通常係可選的且無需包括於視訊檔案中。同樣,用戶端器件(諸如用戶端器件40)未必需要參考MFRA邏輯框166來對視訊檔案150之視訊資料進行正確解碼及顯示。MFRA邏輯框166可包括等於視訊檔案150之軌之數目或在一些實例中等於視訊檔案150之媒體軌(例如,非提示軌)之數目的數個軌片段隨機存取(TFRA)邏輯框(圖中未示)。
在一些實例中,電影片段164可包括一或多個串流存取點(SAP),諸如IDR圖像。同樣地,MFRA邏輯框166可提供對SAP在視訊檔案150內之位置的指示。因此,視訊檔案150之時間子序列可由視訊檔案150之SAP形成。時間子序列亦可包括其他圖像,諸如取決於SAP之P訊框及/或B訊框。時間子序列之訊框及/或圖塊可配置於區段內,以使得時間子序列的取決於子序列之其他訊框/圖塊之訊框/圖塊可被恰當地解碼。舉例而言,在資料之階層式配置中,用於其他資料之預測的資料亦可包括於時間子序列中。
視訊檔案150可包括根據本發明之技術中之任一者或所有單獨地或以任何組合形式構造之資料。舉例來說,視訊檔案150可包括至少兩個彼此相關聯之軌。在一些實例中,可認為在一個軌之樣本具有第一合成時間,且與第一軌相關聯之另一軌之樣本具有同一第一合成時間或在該樣本不可用之情況下具有第一合成時間之前最近之合成時間時,相關聯之軌的樣本具有共同合成時間。
大體而言,當兩個軌之間存在相關性時,可認為兩個軌相關聯。舉例而言,可自軌中之一者之視訊資料預測軌中之另一者的視訊資料。作為一個實例,軌中之一者可包括SVC之基層視訊資料,且軌中之另一者可包括SVC之增強層視訊資料。作為另一實例,軌中之一者可包括MVC之視訊資料之基本視圖,且軌中之另一者可包括MVC之視訊資料之另一視圖。作為又一實例,基本圖像塊軌可具有相關聯之圖像塊軌。在一些實例中,軌可包括一立體視圖對之相應視圖之視訊資料。在另外其他實例中,後設資料軌、音訊軌及/或計時文字軌可與相應之視訊軌相關聯。
另外或替代地,樣本項含有合成限制邏輯框的視訊檔案150之軌可屬於子圖像合成軌群組或為圖像塊軌。在該軌為圖像塊軌之情況下,合成限制邏輯框之存在可指示圖像塊軌,且相關聯之圖像塊基本軌不適用於表示,但圖像塊軌及圖像塊基本軌之媒體資料仍為可解碼的。
另外或替代地,視訊檔案150可包括擴展ISO BMFF之FullBox資料結構的投影全向視訊邏輯框(ProjectedOmniVideoBox)。在一些實例中,投影全向視訊邏輯框可包含於MOOV邏輯框154中。藉由擴展FullBox資料結構而非ISO BMFF之Box資料結構,投影全向視訊邏輯框可允許不同版本之投影全向視訊邏輯框用於諸如視訊檔案150之視訊檔案之各種實例中。
另外或替代地,當視訊檔案150含有逐區域封裝邏輯框時,視訊檔案150可僅含有全局覆蓋資訊邏輯框。因此,當逐區域封裝邏輯框不包括於視訊檔案150中時,可假定視訊檔案150不含有全局覆蓋資訊邏輯框。因此,當未偵測到逐區域封裝邏輯框時,檔案剖析器可解譯在全局覆蓋資訊邏輯框將作為不同邏輯框出現之位置處的資料。
圖5為說明根據本發明之技術處理媒體資料之實例方法的流程圖。大體上參照圖1之用戶端器件40之檔案處理單元50來解釋圖5之方法。然而,應理解,其他器件可經組態以執行類似方法。舉例而言,如下所提及,內容準備器件20之囊封單元30可經組態以執行此方法或類似方法。
首先,檔案處理單元50可處理特定合成時間處之媒體檔案之軌的樣本。(200)樣本可為例如電影片段,諸如電影片段164中之一者(圖4)。電影片段可為一或多個圖像。為處理樣本,檔案處理單元50可自媒體檔案提取樣本且將所提取之樣本傳遞至視訊解碼器48 (圖1)以解碼樣本之視訊資料。替代地,當方法由內容準備器件20執行時,囊封單元30可接收視訊資料之一或多個經編碼圖像且形成包括接收到之一或多個經編碼圖像的樣本。囊封單元30可進一步將樣本囊封於媒體檔案之軌中。
檔案處理單元50可接著判定媒體檔案之相關聯軌是否在相同合成時間處具有樣本(202)。如上文所提及,合成時間亦可被稱為表示時間。原始軌可為基本圖像塊軌,且相關聯軌可為與基本圖像塊軌相關聯之圖像塊軌。
當相關聯之軌在同一合成時間處具有樣本時(202之「是」分支),檔案處理單元50可自同一合成時間處之相關聯軌選擇樣本(204)。替代地,當相關聯之軌在同一合成時間處不具有樣本時(202之「否」分支),檔案處理單元50可自最近可用的前一合成時間處之相關聯軌選擇樣本(206)。在任一情況下,檔案處理單元50可繼續處理所選擇之樣本(208)。所選擇之樣本可表示相對於原始軌之樣本的時間平行樣本,如上文根據本發明之技術所定義。同樣,處理可包括提取樣本(當由檔案處理單元50執行時)或將樣本囊封於媒體檔案內(當由囊封單元30執行時)。
以此方式,圖5之方法表示方法之實例,該方法包括:處理媒體檔案之第一軌的第一樣本,第一軌具有第一合成時間;判定第二軌(第二軌與第一軌相關聯)在第一合成時間處是否具有可用樣本;當第二軌在第一合成時間處具有可用樣本時,選擇第二軌之可用樣本作為與第一樣本之第一合成時間具有共同合成時間的第二樣本;當第二軌在第一合成時間處不具有可用樣本時,選擇具有為最近可用的前一合成時間之合成時間之第二軌之樣本作為與第一樣本之第一合成時間具有共同合成時間之第二樣本;且回應於選擇第二樣本而處理第二樣本。
在一或多個實例中,所描述功能可以硬體、軟體、韌體或其任何組合來實施。若實施於軟體中,則該等功能可作為一或多個指令或程式碼而儲存於電腦可讀媒體上或經由電腦可讀媒體進行傳輸,且由基於硬體之處理單元執行。電腦可讀媒體可包括電腦可讀儲存媒體(其對應於諸如資料儲存媒體之有形媒體)或通信媒體,該通信媒體包括(例如)根據通信協定促進電腦程式自一處傳送至另一處的任何媒體。以此方式,電腦可讀媒體通常可對應於(1)非暫時性之有形電腦可讀儲存媒體,或(2)諸如信號或載波之通信媒體。資料儲存媒體可為可由一或多個電腦或一或多個處理器存取以檢索用於實施本發明中所描述之技術之指令、程式碼及/或資料結構的任何可用媒體。電腦程式產品可包括電腦可讀媒體。
藉助於實例且非限制,此等電腦可讀儲存媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器、磁碟儲存器或其他磁性儲存器件、快閃記憶體或可用於儲存呈指令或資料結構形式之所要程式碼且可由電腦存取的任何其他媒體。此外,任何連接被恰當地稱為電腦可讀媒體。舉例而言,若使用同軸纜線、光纖纜線、雙絞線、數位用戶線(DSL)或諸如紅外線、無線電及微波之無線技術,自網站、伺服器或其他遠端源來傳輸指令,則同軸纜線、光纖纜線、雙絞線、DSL或諸如紅外線、無線電及微波之無線技術包括於媒體之定義中。然而,應理解,電腦可讀儲存媒體及資料儲存媒體不包括連接、載波、信號或其他暫時性媒體,而係關於非暫時性有形儲存媒體。如本文中所使用之磁碟及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位多功能光碟(DVD)、軟碟及藍光光碟,其中磁碟通常以磁性方式再生資料,而光碟用雷射以光學方式再生資料。以上各者至組合亦應包括於電腦可讀媒體之範疇內。
指令可由一或多個處理器執行,該等處理器諸如一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化邏輯陣列(FPGA)或其他等效之整合或離散邏輯電路。因此,如本文中所使用之術語「處理器」可指上述結構或適合於實施本文中所描述之技術的任何其他結構中之任一者。另外,在一些態樣中,本文中所描述之功能性可提供於經組態以編碼及解碼之指定硬體及/或軟體模組內,或併入經組合編解碼器中。此外,該等技術可完全實施於一或多個電路或邏輯元件中。
本發明之技術可實施於廣泛多種器件或裝置中,包括無線手持機、積體電路(IC)或一組IC(例如,晶片組)。在本發明中描述各種組件、模組或單元以強調經組態以執行所揭示技術之器件的功能態樣,但未必要求由不同硬體單元來實現。確切地說,如上文所描述,可將各種單元組合於編解碼器硬體單元中,或藉由互操作性硬體單元(包括如上文所描述之一或多個處理器)結合適合之軟體及/或韌體之集合來提供該等單元。
各種實例已予以描述。此等及其他實例在以下申請專利範圍之範疇內。
10‧‧‧系統20‧‧‧內容準備器件22‧‧‧音訊源24‧‧‧視訊源26‧‧‧音訊編碼器28‧‧‧視訊編碼器30‧‧‧囊封單元32‧‧‧輸出介面40‧‧‧用戶端器件42‧‧‧音訊輸出44‧‧‧視訊輸出46‧‧‧音訊解碼器48‧‧‧視訊解碼器50‧‧‧檔案處理單元52‧‧‧檢索單元54‧‧‧網路介面60‧‧‧伺服器器件62‧‧‧儲存媒體64‧‧‧多媒體內容66‧‧‧資訊清單檔案68A‧‧‧表示68N‧‧‧表示70‧‧‧請求處理單元72‧‧‧網路介面74‧‧‧網路100‧‧‧EMBMS介體102‧‧‧代理伺服器104‧‧‧快取記憶體106‧‧‧EMBMS接收單元110‧‧‧DASH用戶端112‧‧‧媒體應用122‧‧‧媒體呈現描述124A‧‧‧表示124N‧‧‧表示126‧‧‧標頭資料128A‧‧‧區段128B‧‧‧區段128N‧‧‧區段130‧‧‧標頭資料132A‧‧‧區段132B‧‧‧區段132N‧‧‧區段150‧‧‧視訊檔案152‧‧‧檔案類型(FTYP)154‧‧‧MOOV邏輯框156‧‧‧電影標頭邏輯框158‧‧‧軌邏輯框160‧‧‧電影擴展邏輯框162‧‧‧區段索引邏輯框164‧‧‧電影片段邏輯框166‧‧‧電影片段隨機存取邏輯框200‧‧‧步驟202‧‧‧步驟204‧‧‧步驟206‧‧‧步驟208‧‧‧步驟
圖1為說明實施用於經由網路來串流媒體資料之技術之實例系統的方塊圖。
圖2為說明檢索單元之一實例組組件的方塊圖。
圖3為說明實例多媒體內容之元素的概念圖。
圖4為說明實例視訊檔案之元素的方塊圖,該實例視訊檔案可對應於表示之區段。
圖5為說明根據本發明之技術處理媒體資料之實例方法的流程圖。
200‧‧‧步驟
202‧‧‧步驟
204‧‧‧步驟
206‧‧‧步驟
208‧‧‧步驟
Claims (38)
- 一種處理媒體資料之方法,該方法包含:處理一媒體檔案之一第一軌之一第一樣本,該第一軌具有一第一合成時間;判定該媒體檔案之一第二軌(該第二軌與該第一軌相關聯)在該第一合成時間處是否具有一可用樣本;當該第二軌在該第一合成時間處具有該可用樣本時,選擇該第二軌之該可用樣本作為與該第一樣本之該第一合成時間具有一共同合成時間之一第二樣本;當該第二軌在該第一合成時間處不具有該可用樣本時,選擇具有為一最近可用的前一合成時間之一合成時間之該第二軌之一樣本作為與該第一樣本之該第一合成時間具有該共同合成時間之該第二樣本;以及回應於選擇該第二樣本而處理該第二樣本。
- 如請求項1之方法,其中該第一樣本及該第二樣本具有不同解碼時間。
- 如請求項1之方法,其進一步包含,當一投影格式(PF)描述符不直接存在於該第一軌及該第二軌之一媒體呈現描述(MPD)或一AdapatationSet元素中時,避免處理該AdaptationSet元素之一逐區域封裝(RWPK)描述符。
- 如請求項1之方法,其進一步包含回應於判定對應於該第一軌之一樣本項含有一合成限制邏輯框而判定該第一軌屬於一子圖像合成軌組抑或為一圖像塊軌。
- 如請求項1之方法,其進一步包含回應於判定對應於該第二軌之一樣本項含有一合成限制邏輯框而判定該第二軌屬於一子圖像合成軌組抑或為一圖像塊軌。
- 如請求項1之方法,其進一步包含,當該第一軌或該第二軌中之至少一者為基於具有一相應的具有一合成限制邏輯框之樣本項的一圖像塊軌時,避免呈現該第一軌或該第二軌中之該至少一者的媒體資料。
- 如請求項1之方法,其進一步包含處理媒體資料之一投影全向視訊邏輯框,該全向視訊邏輯框包含一FullBox資料結構之一擴展。
- 如請求項1之方法,其進一步包含避免由逐區域封裝邏輯框指示之該第一軌或該第二軌中之至少一者之媒體資料之投影區域重疊,其中該投影區域包含:一第一投影區域,其包含藉由proj_reg_width[i]、proj_reg_height[i]、proj_reg_top[i]及proj_reg_left[i]指定之一矩形;以及一第二投影區域,其包含藉由proj_reg_width[j]、proj_reg_height[j]、proj_reg_top[j]及proj_reg_left[j]指定之一矩形,j之任何值在0至i-1(包括端點)之範圍內。
- 如請求項1之方法,其進一步包含當一逐區域封裝邏輯框不存在於該第一軌或該第二軌中之至少一者之媒體資料中時,避免處理該第一軌或該第二軌中之該至少一者之該媒體資料之一全局覆蓋資訊邏輯框。
- 如請求項1之方法,其進一步包含,當該第一軌或該第二軌中之至少一者之媒體資料之一逐區域封裝邏輯框不存在時,判定該第一軌或該第二軌中之該至少一者之該媒體資料之一全局覆蓋資訊邏輯框指示覆蓋度為一整個球面。
- 如請求項1之方法,其進一步包含以下中之至少一者:當一投影格式(PF)描述符不直接存在於該第一軌及該第二軌之一媒體呈現描述(MPD)中時,避免處理該MPD之一逐區域封裝(RWPK)描述符;當該PF描述符不直接存在於該MPD中且不直接存在於一AdaptationSet元素中時,避免處理該AdaptationSet元素之一RWPK描述符;或當該PF描述符不直接存在於一表示元素中,不直接存在於含有該表示元素之該AdaptationSet元素中,且不直接存在於該MPD中時,避免處理該表示元素之一RWPK描述符。
- 如請求項1之方法,其中處理該第一樣本包含囊封該第一樣本,該第一樣本包含第一編碼視訊資料,且 其中處理該第二樣本包含囊封該第二樣本,該第二樣本包含第二編碼視訊資料。
- 如請求項1之方法,其中處理該第一樣本包含:解囊封該第一樣本,該第一樣本包含第一編碼視訊資料;以及將該第一編碼視訊資料發送至一視訊解碼器;且其中處理該第二樣本包含:解囊封該第二樣本,該第二樣本包含第二編碼視訊資料;以及將該第二編碼視訊資料發送至該視訊解碼器。
- 如請求項1之方法,軌軌其中該第一軌包含一圖像塊基礎軌,且該第二軌包含與該圖像塊基礎軌相關聯之一圖像塊軌。
- 一種用於處理媒體資料之器件,該器件包含:一記憶體,其經組態以儲存媒體資料;及一包含電路系統之處理器,其經組態以:處理一媒體檔案之一第一軌之一第一樣本,該第一軌具有一第一合成時間,該第一樣本包括第一媒體資料;判定該媒體檔案之一第二軌(該第二軌與該第一軌相關聯)在該第一合成時間處是否具有一可用樣本;當該第二軌在該第一合成時間處具有該可用樣本時,選擇該第二軌之該可用樣本作為與該第一樣本之該第一合成時間具有一共同合成時間之一第二樣本;當該第二軌在該第一合成時間處不具有該可用樣本時,選擇具有 為一最近可用的前一合成時間之一合成時間之該第二軌之一樣本作為與該第一樣本之該第一合成時間具有該共同合成時間之該第二樣本;以及回應於選擇該第二樣本,處理該第二樣本,該第二樣本包括第二媒體資料。
- 如請求項15之器件,其中該第一樣本及該第二樣本具有不同解碼時間。
- 如請求項15之器件,其中該處理器進一步經組態以:當一投影格式(PF)描述符不直接存在於該第一軌及該第二軌之一媒體呈現描述(MPD)或一AdapatationSet元素中時,避免處理該AdaptationSet元素之一逐區域封裝(RWPK)描述符。
- 如請求項15之器件,其中該處理器進一步經組態以回應於判定對應於該第一軌之一樣本項含有一合成限制邏輯框而判定該第一軌屬於一子圖像合成軌組抑或為一圖像塊軌。
- 如請求項15之器件,其中該處理器進一步經組態以回應於判定對應於該第二軌之一樣本項含有一合成限制邏輯框而判定該第二軌屬於一子圖像合成軌群抑或為一圖像塊軌。
- 如請求項15之器件,其中該處理器進一步經組態以:當該第一軌或 該第二軌中之至少一者為基於具有一相應的具有一合成限制邏輯框之樣本項的一圖像塊軌時,避免呈現該第一軌或該第二軌中之該至少一者之媒體資料。
- 如請求項15之器件,其中該處理器進一步經組態以處理媒體資料之一投影全向視訊邏輯框,該全向視訊邏輯框包含一FullBox資料結構之一擴展。
- 如請求項15之器件,其中該處理器進一步經組態以避免由逐區域封裝邏輯框指示之該第一軌或該第二軌中之至少一者之媒體資料之投影區域重疊,其中該投影區域包含:一第一投影區域,其包含藉由proj_reg_width[i]、proj_reg_height[i]、proj_reg_top[i]及proj_reg_left[i]指定之一矩形;以及一第二投影區域,其包含藉由proj_reg_width[j]、proj_reg_height[j]、proj_reg_top[j]及proj_reg_left[j]指定之一矩形,j之任何值在0至i-1(包括端點)之範圍內。
- 如請求項15之器件,其中該處理器進一步經組態以:當一逐區域封裝邏輯框不存在於該第一軌或該第二軌中之至少一者之媒體資料中時,避免處理該第一軌或該第二軌中之該至少一者之該媒體資料之一全局覆蓋資訊邏輯框。
- 如請求項15之器件,其中該處理器進一步經組態以:當該第一軌或 該第二軌中之至少一者之媒體資料之一逐區域封裝邏輯框不存在時,判定該第一軌或該第二軌中之該至少一者之該媒體資料之一全局覆蓋資訊邏輯框指示覆蓋度為一整個球面。
- 如請求項15之器件,其中該處理器進一步經組態以進行以下中之至少一者:當一投影格式(PF)描述符不直接存在於該第一軌及該第二軌之一媒體呈現描述(MPD)中時,避免處理該MPD之一逐區域封裝(RWPK)描述符;當該PF描述符不直接存在於該MPD中且不直接存在於一AdaptationSet元素中時,避免處理該AdaptationSet元素之一RWPK描述符;或當該PF描述符不直接存在於一表示元素中,不直接存在於含有該表示元素之該AdaptationSet元素中,且不直接存在於該MPD中時,避免處理該表示元素之一RWPK描述符。
- 如請求項15之器件,其進一步包含一視訊編碼器,該視訊編碼器經組態以編碼第一視訊資料以形成第一編碼視訊資料且編碼第二視訊資料以形成第二編碼視訊資料,該第一媒體資料包含該第一編碼視訊資料,且該第二媒體資料包含該第二編碼視訊資料,其中為處理該第一樣本,該處理器經組態以囊封該第一樣本,該第一樣本包含該第一編碼視訊資料,且其中為處理該第二樣本,該處理器經組態以囊封該第二樣本,該第 二樣本包含該第二編碼視訊資料。
- 如請求項15之器件,其進一步包含經組態以解碼視訊資料之一視訊解碼器,其中為處理該第一樣本,該處理器經組態以解囊封該第一樣本,該第一樣本包含第一編碼視訊資料,該第一媒體資料包含該第一編碼視訊資料;且將該第一編碼視訊資料發送至該視訊解碼器;且其中為處理該第二樣本,該處理器經組態以解囊封該第二樣本,該第二樣本包含第二編碼視訊資料,該第二媒體資料包含該第二編碼視訊資料;且將該第二編碼視訊資料發送至該視訊解碼器。
- 如請求項15之器件,其中該器件包含以下中之至少一者:一積體電路;一微處理器;或一無線通信器件。
- 一種用於處理媒體資料之器件,該器件包含:用於處理一媒體檔案之一第一軌之一第一樣本的構件,該第一軌具有一第一合成時間;用於判定該媒體檔案之一第二軌(該第二軌與該第一軌相關聯)在該第一合成時間處是否具有一可用樣本的構件;用於在該第二軌在該第一合成時間處具有該可用樣本時,選擇該第二軌之該可用樣本作為與該第一樣本之該第一合成時間具有一共同合成時 間之一第二樣本的構件;用於在該第二軌在該第一合成時間處不具有該可用樣本時,選擇具有為一最近可用的前一合成時間之一合成時間之該第二軌之一樣本作為與該第一樣本之該第一合成時間具有該共同合成時間之該第二樣本的構件;以及用於回應於選擇該第二樣本而處理該第二樣本的構件。
- 如請求項29之器件,其中該第一樣本及該第二樣本具有不同解碼時間。
- 如請求項29之器件,其進一步包含用於在一投影格式(PF)描述符不直接存在於該第一軌及該第二軌之一媒體呈現描述(MPD)或一AdapatationSet元素中時,避免處理該AdaptationSet元素之一逐區域封裝(RWPK)描述符的的構件。
- 如請求項29之器件,其進一步包含一視訊編碼器,該視訊編碼器經組態以編碼第一視訊資料以形成第一編碼視訊資料且編碼第二視訊資料以形成第二編碼視訊資料,其中用於處理該第一樣本的該構件包含用於囊封該第一樣本的構件,該第一樣本包含該第一編碼視訊資料,且其中用於處理該第二樣本的該構件包含用於囊封該第二樣本的構件,該第二樣本包含該第二編碼視訊資料。
- 如請求項29之器件,其進一步包含一視訊解碼器,其中用於處理該第一樣本的該構件包含用於解囊封該第一樣本的構件,該第一樣本包含第一編碼視訊資料;及用於將該第一編碼視訊資料發送至該視訊解碼器的構件,且其中用於處理該第二樣本的該構件包含用於解囊封該第二樣本的構件,該第二樣本包含第二編碼視訊資料;及用於將該第二經編碼視訊資料發送至該視訊解碼器的構件。
- 一種其上儲存有指令之非暫時性電腦可讀儲存媒體,該等指令在執行時使得一處理器:處理一媒體檔案之一第一軌之一第一樣本,該第一軌具有一第一合成時間;判定該媒體檔案之一第二軌(該第二軌與該第一軌相關聯)在該第一合成時間處是否具有一可用樣本;當該第二軌在該第一合成時間處具有該可用樣本時,選擇該第二軌之該可用樣本作為與該第一樣本之該第一合成時間具有一共同合成時間之一第二樣本;當該第二軌在該第一合成時間處不具有該可用樣本時,選擇具有為一最近可用的前一合成時間之一合成時間之該第二軌之一樣本作為與該第一樣本之該第一合成時間具有該共同合成時間之該第二樣本;以及回應於選擇該第二樣本而處理該第二樣本。
- 如請求項34之非暫時性電腦可讀儲存媒體,其中該第一樣本及該第 二樣本具有不同解碼時間。
- 如請求項34之非暫時性電腦可讀儲存媒體,其進一步包含使得該處理器進行以下操作之指令:當一投影格式(PF)描述符不直接存在於該第一軌及該第二軌之一媒體呈現描述(MPD)或一AdapatationSet元素中時,避免處理該AdaptationSet元素之一逐區域封裝(RWPK)描述符。
- 如請求項34之非暫時性電腦可讀儲存媒體,其中使得該處理器處理該第一樣本之該等指令包含使得該處理器囊封該第一樣本之指令,該第一樣本包含第一編碼視訊資料,且其中使得該處理器處理該第二樣本之該等指令包含使得該處理器囊封該第二樣本之指令,該第二樣本包含第二編碼視訊資料。
- 如請求項34之非暫時性電腦可讀儲存媒體,其中使得該處理器處理該第一樣本之該等指令包含使得該處理器解囊封該第一樣本之指令,該第一樣本包含第一編碼視訊資料;以及將該第一編碼視訊資料發送至一視訊解碼器之指令;且其中使得該處理器處理該第二樣本之該等指令包含使得該處理器解囊封該第二樣本之指令,該第二樣本包含第二編碼視訊資料;以及將該第一編碼視訊資料發送至該視訊解碼器之指令。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762530746P | 2017-07-10 | 2017-07-10 | |
US62/530,746 | 2017-07-10 | ||
US16/028,248 US10587904B2 (en) | 2017-07-10 | 2018-07-05 | Processing media data using an omnidirectional media format |
US16/028,248 | 2018-07-05 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201909624A TW201909624A (zh) | 2019-03-01 |
TWI700917B true TWI700917B (zh) | 2020-08-01 |
Family
ID=64903019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW107123734A TWI700917B (zh) | 2017-07-10 | 2018-07-09 | 使用全向媒體格式處理媒體資料 |
Country Status (9)
Country | Link |
---|---|
US (1) | US10587904B2 (zh) |
EP (1) | EP3652959A1 (zh) |
KR (1) | KR102117805B1 (zh) |
CN (1) | CN110870323B (zh) |
AU (1) | AU2018301313B2 (zh) |
BR (1) | BR112020000195A2 (zh) |
SG (1) | SG11201911560PA (zh) |
TW (1) | TWI700917B (zh) |
WO (1) | WO2019014067A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020145668A1 (ko) * | 2019-01-08 | 2020-07-16 | 삼성전자주식회사 | 3차원 컨텐츠의 처리 및 전송 방법 |
EP3782374A4 (en) * | 2019-07-03 | 2021-12-01 | Beijing Xiaomi Mobile Software Co., Ltd. | METHOD, SYSTEM AND DEVICE FOR CREATING AN ENVIRONMENT OF VIRTUAL REALITY |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6539054B1 (en) * | 1998-09-18 | 2003-03-25 | Matsushita Electric Industrial Co., Ltd. | Image output apparatus, image reproduction method, object composition apparatus, object composition method, and data storage medium |
US20150063774A1 (en) * | 2013-08-29 | 2015-03-05 | Avid Technology, Inc. | Interconnected multimedia systems with synchronized playback of media streams |
US20160342596A1 (en) * | 2015-05-20 | 2016-11-24 | Nokia Technologies Oy | Method and apparatus to obtain differential location information |
US20180077210A1 (en) * | 2016-09-09 | 2018-03-15 | Nokia Technologies Oy | Method and apparatus for controlled observation point and orientation selection audiovisual content |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8914835B2 (en) * | 2009-10-28 | 2014-12-16 | Qualcomm Incorporated | Streaming encoded video data |
US9185439B2 (en) * | 2010-07-15 | 2015-11-10 | Qualcomm Incorporated | Signaling data for multiplexing video components |
US8935425B2 (en) * | 2011-10-05 | 2015-01-13 | Qualcomm Incorporated | Switching between representations during network streaming of coded multimedia data |
US9602827B2 (en) * | 2012-07-02 | 2017-03-21 | Qualcomm Incorporated | Video parameter set including an offset syntax element |
US20140098868A1 (en) * | 2012-10-04 | 2014-04-10 | Qualcomm Incorporated | File format for video data |
GB2516825B (en) * | 2013-07-23 | 2015-11-25 | Canon Kk | Method, device, and computer program for encapsulating partitioned timed media data using a generic signaling for coding dependencies |
KR20150043656A (ko) * | 2013-10-14 | 2015-04-23 | 현대자동차주식회사 | 터보 차저 |
US9648348B2 (en) * | 2013-10-23 | 2017-05-09 | Qualcomm Incorporated | Multi-layer video file format designs |
US10306308B2 (en) | 2015-12-15 | 2019-05-28 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for media delivery using common mezzanine distribution format |
-
2018
- 2018-07-05 US US16/028,248 patent/US10587904B2/en active Active
- 2018-07-06 WO PCT/US2018/041106 patent/WO2019014067A1/en unknown
- 2018-07-06 CN CN201880045523.4A patent/CN110870323B/zh active Active
- 2018-07-06 AU AU2018301313A patent/AU2018301313B2/en active Active
- 2018-07-06 KR KR1020207000624A patent/KR102117805B1/ko active IP Right Grant
- 2018-07-06 BR BR112020000195-3A patent/BR112020000195A2/pt not_active IP Right Cessation
- 2018-07-06 SG SG11201911560PA patent/SG11201911560PA/en unknown
- 2018-07-06 EP EP18746418.5A patent/EP3652959A1/en not_active Withdrawn
- 2018-07-09 TW TW107123734A patent/TWI700917B/zh active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6539054B1 (en) * | 1998-09-18 | 2003-03-25 | Matsushita Electric Industrial Co., Ltd. | Image output apparatus, image reproduction method, object composition apparatus, object composition method, and data storage medium |
US20150063774A1 (en) * | 2013-08-29 | 2015-03-05 | Avid Technology, Inc. | Interconnected multimedia systems with synchronized playback of media streams |
US20160342596A1 (en) * | 2015-05-20 | 2016-11-24 | Nokia Technologies Oy | Method and apparatus to obtain differential location information |
US20180077210A1 (en) * | 2016-09-09 | 2018-03-15 | Nokia Technologies Oy | Method and apparatus for controlled observation point and orientation selection audiovisual content |
Also Published As
Publication number | Publication date |
---|---|
AU2018301313B2 (en) | 2021-01-14 |
BR112020000195A2 (pt) | 2020-07-07 |
KR20200024834A (ko) | 2020-03-09 |
US20190014361A1 (en) | 2019-01-10 |
US10587904B2 (en) | 2020-03-10 |
AU2018301313A1 (en) | 2020-01-16 |
KR102117805B1 (ko) | 2020-06-01 |
TW201909624A (zh) | 2019-03-01 |
EP3652959A1 (en) | 2020-05-20 |
CN110870323B (zh) | 2020-10-27 |
SG11201911560PA (en) | 2020-01-30 |
WO2019014067A1 (en) | 2019-01-17 |
CN110870323A (zh) | 2020-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI748114B (zh) | 用於媒體內容之按區塊包裝,內容覆蓋度,以及發信訊框包裝 | |
TWI774744B (zh) | 在使用mime類型參數之網路視頻串流中發信重要視頻資訊 | |
KR102342274B1 (ko) | 이미지에서 가장 관심있는 영역의 진보된 시그널링 | |
KR102534899B1 (ko) | Http 를 통한 동적 적응형 스트리밍에서의 가상 현실 비디오 시그널링 | |
CN109076229B (zh) | 在图片中最感兴趣的区域 | |
TW201924323A (zh) | 用於浸入式媒體資料之內容來源描述 | |
TW201830974A (zh) | 對於用於串流媒體資料之預取支持之資料發信 | |
US10567734B2 (en) | Processing omnidirectional media with dynamic region-wise packing | |
TW201909007A (zh) | 使用用於檔案格式邏輯框之一通用描述符處理媒體資料 | |
TW201742463A (zh) | 樣本條目及隨機存取 | |
TW201813411A (zh) | 用於媒體資料串流之補充增強資訊軌跡之系統級發信 | |
TW201743614A (zh) | 樣本條目及隨機存取 | |
TW202027512A (zh) | 用於媒體資料之網路串流之初始化集合 | |
TWI700917B (zh) | 使用全向媒體格式處理媒體資料 | |
KR102654999B1 (ko) | 강화된 영역별 패킹 및 뷰포트 독립적 hevc 미디어 프로파일 |