TWI662833B - 在流媒體中推導和用信號發送區域和視埠 - Google Patents
在流媒體中推導和用信號發送區域和視埠 Download PDFInfo
- Publication number
- TWI662833B TWI662833B TW106135473A TW106135473A TWI662833B TW I662833 B TWI662833 B TW I662833B TW 106135473 A TW106135473 A TW 106135473A TW 106135473 A TW106135473 A TW 106135473A TW I662833 B TWI662833 B TW I662833B
- Authority
- TW
- Taiwan
- Prior art keywords
- track
- media
- component
- sample
- metadata
- Prior art date
Links
- 230000011664 signaling Effects 0.000 title 1
- 238000000034 method Methods 0.000 claims abstract description 56
- 238000009795 derivation Methods 0.000 claims description 34
- 238000003672 processing method Methods 0.000 claims 1
- 230000015654 memory Effects 0.000 description 31
- 238000006243 chemical reaction Methods 0.000 description 26
- 230000008569 process Effects 0.000 description 23
- 230000005540 biological transmission Effects 0.000 description 12
- 230000007246 mechanism Effects 0.000 description 11
- 238000010276 construction Methods 0.000 description 7
- 238000013139 quantization Methods 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 6
- 238000001914 filtration Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- AWSBQWZZLBPUQH-UHFFFAOYSA-N mdat Chemical compound C1=C2CC(N)CCC2=CC2=C1OCO2 AWSBQWZZLBPUQH-UHFFFAOYSA-N 0.000 description 5
- 101100221174 Mus musculus Cnst gene Proteins 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000002085 persistent effect Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000007727 signaling mechanism Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000010355 oscillation Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004090 dissolution Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
- H04N21/2353—Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/30—Image reproducers
- H04N13/388—Volumetric displays, i.e. systems where the image is built up from picture elements distributed through a volume
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/184—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/40—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234318—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into objects, e.g. MPEG-4 objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
- H04N21/2365—Multiplexing of several video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/85406—Content authoring involving a specific file format, e.g. MP4 format
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Library & Information Science (AREA)
- Computer Hardware Design (AREA)
- Computer Graphics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本發明的方面提供一種來自參考媒體展示的其他子區域的用戶選擇的子區域(例如,視埠或感興趣的區域)的動態構建的方法或系統。參考媒體展示的分量被編碼為分量軌道。流解碼器接收參考媒體展示的流媒體文件並顯示參考媒體展示的任意選擇的子區域。流媒體文件具有(i)參考多個分量軌道中的一個或多個分量軌道並且(ii)基於所參考的分量軌道的媒體樣本指定用於構建媒體樣本的一組操作的推導軌道流解碼器通過取回參考的分量軌道並執行由推導軌道指定的一組操作來為選擇的子區域提供媒體樣本。
Description
本申請為非临時申请的部分,其要求如下申請的優先權:2016年10月17日提出的申請號為62/408,867的美國臨時案,以及2016年10月20日提出的申請號為62/410,414的美國臨時案。在此合併參考上述申請案的申請標的。
本發明涉及媒體內容的傳送。尤其涉及對於感興趣區域(region of interest,ROI)的支持或者360度虛擬實境(360-degree virtual reality,360VR)視頻展示的視埠。
除非在本文中另外指出,本節內容中描述的方法不是對下文中列出的申請專利範圍的先前技術,並且也不承認其為包含於本節中的先前技術。
視訊編碼被廣泛地應用,應用範圍包括多媒體訊息發送、通過行動電視的視訊通話和視訊會議、無線和因特網視訊流、標清和高清電視廣播以及虛擬現實(virtual reality,VR)。此外,視訊內容被傳送到各種具有異構顯示和計算能力的解碼設備。
360度虛擬現實(360-degree Virtual Reality,
360VR)是具有可變的、增強的或者可代替的環境的視聽仿真。虛擬現實視訊環繞著用戶,允許用戶從任意方向或任意視角觀看,就像他或她在現實生活中能做的一樣。360VR視訊生成超級高質量和高分辨率的全景視訊,其可用於諸如娛樂、飛行員訓練、外科手術以及太空或者深水探測之類的各種應用的印刷和全景虛擬旅遊產品。
以下概述僅用於說明,並不用於以任意方式限制本發明。也就是說,提供以下概述用於介紹本文中描述的新穎且非顯而易見的技術的概念、亮點、益處和優點。在接下來的描述中將詳細描述選擇的而不是所有的實施方式。因此,下面的概述不是為了標識所要保護的主題的基本特征,也不是用於確定所要保護的主題的範圍。
有鑒於此,本發明特提供一種新型流媒體展示方法。
流媒體編碼器接收用於參考媒體展示的媒體內容。流編碼器將接收到的媒體內容編碼為多個分量軌道。每個分量軌道包含用於參考媒體展示的分量的媒體或元資料樣本。流編碼器對推導軌道進行編碼,該推導軌道(i)參考多個分量軌道中的一個或多個並且(ii)基於來自分量參考軌道的媒體或元資料樣本指定用於構建該參考媒體展示的子區域的該媒體和元資料樣本的一組操作。流編碼器存儲編碼的分量軌道和編碼的推導軌道以用於(例如,經由流、下載等)作為流媒體文件取回。
流解碼器接收包括用於參考媒體展示的推導軌道的
流媒體文件。流解碼器選擇參考媒體展示中的子區域(例如,ROI)。流解碼器從流媒體文件中取回推導軌道。流解碼器接收由推導軌道參考的參考分量軌道。流解碼器然後通過執行由推導軌道指定的一組操作來為選擇的子區域提供媒體樣本。
在一些實施例中,指定的一組操作可以包括根據存儲在一個或多個參考分量軌道中的元資料樣本來構建子區域軌道的指令。該指令可以包括對存儲媒體樣本的一個或多個分量軌道和存儲元資料樣本的一個或多個分量軌道的軌道參考。該指令還可以包括調用對存儲媒體樣本的一個或多個分量軌道和存儲元資料樣本的一個或多個分量軌道的軌道參考的構造器。該指令還可以包括對存儲媒體樣本的一個或多個分量軌道的軌道參考以及用於指示元資料樣本存儲在推導軌道中的指示符。
本發明的流媒體展示方法能夠更好展示VR內容。
110‧‧‧參考媒體展示
111-119‧‧‧預定義的ROI或視埠
121-130‧‧‧分量軌道
105‧‧‧實時ROI或視埠
210‧‧‧流編碼器
215‧‧‧源媒體內容
240/245‧‧‧流媒體文件
311-319‧‧‧視訊編碼器
325‧‧‧推導編碼器
330‧‧‧流傳輸器
222‧‧‧子區域的選擇
225‧‧‧用戶界面
298‧‧‧顯示設備
270‧‧‧電子設備
411-419‧‧‧視訊解碼器
420‧‧‧媒體內容提取器
425‧‧‧推導軌道解碼器
430‧‧‧流接收器
250‧‧‧傳輸介質
511-518‧‧‧分量軌道
510‧‧‧參考流媒體文件
520‧‧‧流封裝
611-618‧‧‧分量軌道
610‧‧‧參考流媒體文件
620‧‧‧流封裝
711-718‧‧‧分量軌道
710‧‧‧參考流媒體文件
720‧‧‧流封裝
1100‧‧‧過程
1110-1160‧‧‧步驟
1200‧‧‧過程
1210-1250‧‧‧步驟
1300‧‧‧視訊編碼器
1395‧‧‧位元流
1305‧‧‧編碼視訊信號
1310‧‧‧轉換模組
1311‧‧‧量化模組
1314‧‧‧逆量化模組
1315‧‧‧逆轉換模組
1320‧‧‧圖像內估計模組
1345‧‧‧環路內濾波器
1350‧‧‧重構圖像緩衝器
1365‧‧‧MV緩衝器
1375‧‧‧MV預測模組
1390‧‧‧熵編碼器
1305‧‧‧視訊源
1308‧‧‧減法器
1330‧‧‧運動補償
1313‧‧‧預測像素資料
1325‧‧‧圖像內預測
1312‧‧‧量化資料(或量化係數)
1317‧‧‧重構像素資料
1400‧‧‧視訊解碼器
1495‧‧‧位元流
1405‧‧‧逆量化模組
1415‧‧‧逆轉換模組
1425‧‧‧圖像內預測模組
1435‧‧‧運動補償模組
1445‧‧‧環內濾波器
1450‧‧‧解碼圖像緩衝器
1465‧‧‧MV緩衝器
1475‧‧‧MV預測模組
1490‧‧‧位元流解析器
1413‧‧‧預測像素資料
1412‧‧‧量化資料(或量化係數)
1416‧‧‧轉換係數
1417‧‧‧解碼像素資料
1455‧‧‧顯示設備
1500‧‧‧電子系統
1505‧‧‧匯流排
1510‧‧‧處理單元
1515‧‧‧圖形處理單元
1520‧‧‧系統存儲器
1525‧‧‧網路
1530‧‧‧唯讀存儲器
1535‧‧‧永久性存儲設備
1540‧‧‧輸入設備
1545‧‧‧輸出設備
所包括的附圖提供了對本發明的進一步的理解,並且被併入並組成本發明的一部分。附圖展示了本發明的實施方式,並且結合描述一起用於解釋本發明的原理。可以理解的是,為了清楚了說明本發明的概念,附圖不是按照比例繪製的,因此一些分量可能顯示的與實際實施中的尺寸不成比例。
第1圖是對於參考媒體展示任意選擇的子區域的動態構建。
第2圖是支持所選子區域的動態構建的生成的媒體文件的編碼、傳輸和解碼。
第3圖是流編碼器的示例。
第4圖是流解碼器的示例。
第5圖是基於軌道構建器的信號機制。
第6圖是基於視埠或ROI定義元資料的信號機制。
第7圖是基於視埠/ROI定義樣本描述的信號機制。
第8圖是樣本ROI轉換屬性的語法示例。
第9圖是樣本視埠轉換屬性的語法示例。
第10圖是是參數shape的可能值的表格。
第11圖示出了用於生成分量軌道和至少一個參考至少部分分量軌道的推導軌道的過程。
第12圖是用於基於流媒體文件中的推導軌道動態構建指定的子區域(例如,視埠或ROI)的過程。
第13圖是實現流編碼器中的視訊編碼器中的至少部分的視訊編碼器的示例。
第14圖是實現流編碼器中的視訊解碼器中的至少部分的視訊解碼器的示例。
第15圖是實現本發明的一些實施例的電子系統。
在下面的詳細描述中,為了提供對相關教導的透徹理解,通過舉例說明許多具體細節。基於本文描述的教導的任意變化、推導出的和/或擴展都在本發明的保護範圍內。在某些情況下,可以在相對較上位的級別上描述與本文中公開的一個或多個實施方式示例有關的眾所周知的方法、程序、分量和/或電路,以免不必要的模糊本發明教導的方面。
I.基於推導出的路徑的動態ROI構建
對於諸如虛擬現實(virtual reality,VR)、自由視埠電視(free viewpoint television,FTV)、感興趣區域(region of interest,ROI)以及視訊圖塊(video tile)組成的應用,本發明的一些實施例提供了一種支持用戶從參考媒體展示的其他子區域中選擇的子區域(例如視埠或ROI)的動態構建方法和/或系統。在系統的流媒體編碼器和/或發送器一側,不同的空間對象(例如不同的子區域、視圖、角度、視埠、ROI等等)可以被編碼并作為流媒體文件中的不同的分量軌道傳輸。在系統的解碼器和/或接收器的一側,用戶可以從參考媒體展示的子區域中動態地或者任意地選擇一個子區域,解碼器從流媒體文件中的不同的分量軌道中構建動態選擇的子區域的內容。
參考媒體展示可以是視訊、音頻和/或其他類型的媒體內容(例如標題和定時文本)的展示,其可以包括幾種不同的分量。這些分量可以是視訊分量或者音頻分量,其佔據了參考媒體展示的不同的空間和/或時間位置。這樣的分量的示例可以包括圖形疊加、視訊片段、音頻片段或者定義的子區域。定義的子區域可對應於更多的參考媒體展示的指定的方面、角度、視圖、區域、視埠或ROI。例如,參考媒體展示可以是包括柏拉圖立體投影格式(例如,立方體映射投影、八面體投影)或其他類型的投影格式(例如,球面投影、等面積投影)的全方位圖像的360度虛擬現實(360-degree Virtual Reality,360VR)展示。在這些情況下,不同的分量可以對應於全方位圖像的不同面或子區域。不同的分量還可以對應於 360度虛擬現實(360-degree Virtual Reality,360VR)展示的不同部分上的不同ROI或視埠(例如,由參考媒體展示的作者預定義)。
每個分量具有對應的媒體樣本和/或元資料,其可以被存儲在流媒體文件的相應分量軌道中。分量的媒體樣本可以包括該分量的壓縮的視覺或音頻值的樣本。分量的元資料樣本定義分量的元資料,包括分量的空間和時間屬性,例如位置,時間信息或轉換屬性或ROI。
第1圖是對於參考媒體展示110任意選擇的子區域的動態構建。參考媒體展示110是具有若干分量111-119的360VR展示。該圖將分量111-119示出為在參考媒體展示110上的預定義的ROI或視埠。在一些實施例中,分量111-119也可以是360VR展示中的全方位圖像的不同視圖或面。
參考媒體展示的分量111-119被編碼成若干分量軌道121-130。分量軌道121-129包含分量(ROI或視圖)111-119的媒體內容和/或定義元資料的樣本。分量軌道130可以包括與參考媒體展示110的其他分量相對應的一個或多個軌道,如音頻軌道、定時文本軌道、元資料軌道或推導軌道。儘管未示出,但是在一些實施例中,分量軌道121-129包括媒體軌道和元資料軌道,其中媒體軌道用於存儲或推導出ROI的媒體內容的樣本,元資料軌道用於存儲定義元資料的樣本或ROI的定時元資料。
該圖還示出了推導軌道120,通過參考分量軌道121-130中的一個或多個分量軌道來指定用於推導出媒體內容 的指令或信息。所推導出的內容可以用於動態地構建實時ROI或視埠105。動態構建的實時(real-time,RT)ROI 105可以是由用戶(由子區域的選擇222說明)任意選擇的參考媒體展示110的一部分。實時ROI105在參考媒體展示中的位置可以在參考媒體展示110被顯示時被任意確定,而不是在參考媒體展示110被編碼到分量軌道121-130中時被靜態地確定。
由推導軌道120說明的指令或信息允許子區域105的內容被動態地或者是按照分量軌道121-130的內容的需求構建,而不是在流媒體文件中被硬編碼或者預先生成。在第1圖所示的示例中,子區域105被用戶選擇以與預先定義的ROI112重疊。對應地,子區域105的內容可以由存儲於對應的分量軌道(例如,分量軌道122)的媒體樣本和/或元資料基於推導軌道120中說明的指定推導得到。
雖然未示出,參考媒體展示的分量軌道可以具有多個推導軌道,此外,推導軌道可以以遞歸或者嵌套的方法參考其他的推導軌道。對應一些實施例而言,分量軌道121-130可以包括一個或多個推導軌道(除了推導軌道120之外)。
在一些實施例中,流編碼器基於接收的媒體內容生成流媒體文件以用於參考媒體展示。流編碼器將接收的媒體內容編碼為複數個分量軌道。每個分量軌道都具有媒體樣本。流編碼器對推導軌道進行編碼,該推導軌道(i)參考複數個分量軌道中的一個或多個並且(ii)指定一組操作以基於來自參考分量軌道的媒體樣本推導出參考媒體展示的子區域的媒體樣本。流編碼器將編碼的分量軌道和編碼的推導軌道作為流 媒體文件的一部分存儲者或傳輸。在一些實施例中,一些編碼分量軌道被流媒體文件參考而不是被傳輸到解碼器。
流解碼器接收流媒體文件(或者通過流、下載或推導來取回推導軌道和多個分量軌道中的至少若干個)。流解碼器選擇參考媒體展示中的子區域(例如,ROI)並且通過執行一組由推導軌道指定的操作向選擇的子區域提供媒體樣本。
第2圖是支持所選子區域的動態構建的生成的媒體文件的編碼、傳輸和解碼。如圖所示,流編碼器210從源媒體內容215接收參考媒體展示110的媒體內容,并生成分量軌道121-129。流編碼器還生成推導軌道120,其可以參考分量軌道121-129中的一個或多個分量軌道。流編碼器210將包括推導軌道120的流媒體文件240穿過傳輸介質250傳遞到流解碼器220。流解碼器220接收流媒體文件240,取回由隨後的流媒體文件245中的推導軌道120所要求的分量軌道,根據推導軌道120說明的操作來由取回的分量軌道構建選擇的子區域105以進行顯示。
源媒體內容215提供將被流編碼器210為了參考媒體展示110而編碼的媒體內容。所提供的媒體內容的形式可以是像素值、模擬視訊信號或其他形式的資料信號的形式。源媒體內容215提供參考內體展示110的各個分量的內容。對於一些參考媒體展示110是360VR展示的實施例,位於不同角度的不同相機可以捕捉到全方位圖像的不同子區域(例如,面、視圖、ROI、視埠)。
流編碼器210從源媒體內容215接收參考媒體展 示110的各個分量的內容,以生成分量軌道121-130以及推導軌道120。推導軌道120和分量軌道121-130被選擇性地打包成為流媒體文件(例如240或245)。在一些實施例中,流媒體文件240和245是ISO基媒體文件格式(ISOBMFF,根據ISO/IEC 14496-12定義)並且以諸如基於HTTP的動態自適應流媒體(Dynamic Adaptive Streaming over HTTP,DASH)的流傳輸格式進行封裝以通過傳輸介質250傳輸。
流媒體文件240包含推導軌道120。流媒體文件240可以包含分量軌道121-130中的一個或多個分量軌道。在一些實施例中,流媒體文件240不包含實際的分量軌道121-130,但是僅包含這些軌道的參考。流解碼器220在接收到流媒體文件240之後,可以使用其包含的參考來通過諸如要求隨後的來自流編碼器210的流媒體文件245的方法來取回必要的分量軌道。
第3圖是流編碼器210的示例。如圖所示,流編碼器210包括若干個視訊編碼器311-319、流媒體文件編輯器320、推導編碼器325和流傳輸器330。在一些實施例中,視訊編碼器311-319、流媒體文件編輯器320、推導編碼器325和流傳輸器330是由計算設備或電子設備的一個或多個處理單元(例如,處理器)執行的軟體指令的模組。在一些實施例中,這些模組是由電子設備的一個或多個集成電路(integrated circuit,IC)應用的硬體電路模組。儘管模組311-319、320、325和330被圖示為分開的模組,但是一些模組也可以組合成一個單獨的模組。
視訊編碼器311-319中的每一個接收參考媒體展示110的對應的分量內容(例如,預定義的ROI、視圖、面或者其他類型的子區域)并對其各自的分量內容執行編碼以生成對應的媒體樣本和/或定義的元資料。視訊編碼器311-319可以被配置為在諸如H.264、H.265、VP9等的視訊編解碼標準下執行編碼或壓縮。視訊編碼器311-319還可以跟你講不同的適配編解碼標準執行其他對應的編碼或者壓縮操作。視訊編碼器311-319可以各自獨立地執行其編碼或者壓縮操作。在一些實施例中,視訊編碼器311-319還可以基於程序編寫的輸入提供定義的元資料。
流媒體文件編輯器320從視訊編碼器311-319(以及其他編碼器)接收編碼分量內容并生成分量軌道120-130。生成的分量軌道120-130被示為存儲在存儲器100中以用於通過流媒體進行取回或傳送。
來自每個視訊編碼器的編碼分量內容被存儲在對應的分量軌道中作為該軌道的媒體樣本和/或元資料樣本。在所示的示例中,流媒體文件編輯器320將由視訊編碼器311-319生成的編碼分量內容分別存儲到分量軌道121-129。儘管沒有示出,流編碼器210還包括一個或多個其他類型的媒體編碼器,用於生成其他分量軌道130。這些其他媒體編碼器可以包括用於音頻軌道、定時文本軌道和/或元資料軌道的編碼器。
流媒體編碼器210還生成推導軌道120。推導軌道編碼器325(其可以是流媒體文件編輯器320的分量)通過參考分量軌道121-129中至少若干個分量軌道生成推導軌道 120,在一些實施例中,推導軌道編碼器325存儲在推導軌道120的定義元資料樣本中。這些定義的元資料樣本詳細說明了用於基於來自於參考分量軌道的媒體和/或元資料樣本推導出參考媒體展示的子區域的媒體樣本的操作或指令。推導軌道120(例如,流編碼器220)的接收器通過參考分量軌道121-129使用指定的操作來為選擇的子區域105生成媒體樣本。
流傳輸器330選擇性地從存儲器100中取回所生成的分量軌道和/或推導軌道,並且根據流傳輸格式(例如,DASH)將取回的軌道打包為流媒體文件240或245。流媒體文件240可以不包括參考媒體展示的所有的分量軌道,而是僅僅包括由流解碼器要求的推導軌道120和/或分量軌道的有限子集。
流解碼器220接收來自於用戶界面225的子區域的選擇222,其實時指示參考媒體展示110中用戶選擇的子區域105。流解碼器220生成來自接收的流媒體文件240的選擇的子區域105的內容。顯示設備298接收并顯示為選擇的子區域生成的內容。在一些實施例中,流媒體解碼器220、用戶界面225和顯示設備298是電子設備270的組成部分。這樣的電子設備可以是VR觀看設備(例如,VR眼鏡或者支持VR顯示的移動設備),其允許它的用戶動態的選擇子區域(視埠)并顯示該子區的內容。在一些實施例中,流解碼器220、用戶界面225和顯示設備298包括被電子設備270的一個或多個集成電路(integrated circuit,IC)應用的硬體電路模組。
第4圖是流解碼器220的示例。如圖所示,流解 碼器220包括若干個視訊解碼器411-419、媒體內容提取器420、推導軌道解碼器425和流接收器430。在一些實施例中,視訊編碼器411-419、媒體內容提取器420、推導軌道解碼器425和流接收器430是計算設備或電子設備的一個或多個處理單元(例如,處理器)所執行的軟體指令的模組。在一些實施例中,這些模組是電子設備的一個或多個集成電路(integrated circuit,IC)應用的硬體電路模組。儘管模組411-419、420、425和430被圖示為單獨的模組,但是一些模組可以被組合成單個模組。
流接收器430通過執行流協議(DASH)並且條帶化流封裝來接收來自於傳輸介質250的流媒體文件240。媒體內容提取器420隨後從接收的流媒體文件240中提取推導軌道120以及任意分量軌道(例如,分量軌道121-130)。視訊解碼器411-419根據諸如H.264、H.265或VP9之類的視訊編解碼標準分別接收并解碼分量軌道121-129。(分量軌道130不被視訊解碼器411-419解碼)。
推導視訊解碼器425接收并解碼推導軌道120。推導視訊解碼器425還接收來自於視訊解碼器411-419的解碼媒體樣本和/或元資料樣本。推導視訊解碼器425還接收來自用戶界面225的子區域的選擇222。基於接收的子區域的選擇222和推導軌道120,推導視訊解碼器425構建選擇的子區105的媒體內容。具體地,推導視訊解碼器425可以執行由存儲在推導軌道120中的定義的元資料樣本所指定的操作,以生成子區域的選擇222的媒體樣本。生成的媒體樣本隨後被作為子區域 內容105傳送給顯示設備298以用於顯示。
由於動態構建的子區域可能僅僅覆蓋參考媒體展示110的一小部分(例如,預定義的ROI的子集),選擇的子區域的內容的生成可能僅僅需要分量軌道的子集。換句話說,這些分量軌道中的一部分分量軌道的內容不需要推導子區域內容105才能得到。在一些實施例中,流解碼器220會識別哪一些分量軌道在生成選擇的子區域時需要的,哪一些是不需要的。流解碼器220可以僅僅取回并解碼生成選擇的子區域所需要的分量軌道,而省略對那些不需要的分量軌道的取回和解碼的操作。流解碼器220可以僅僅要求來自於流編碼器210(或者通過傳輸介質250的其他任意流源)的需要的分量軌道,而繞過不需要的分量軌道。流編碼器僅僅在流媒體文件240(或在隨後的流媒體文件245中)中依次傳輸需要的分量軌道。
II.用於推導軌道的信號機制
第5圖-第7圖是用於流傳輸的信號機制和支持參考多個其他分量軌道的推導軌道流媒體文件。參考如上文中第1圖所提到的,推導軌道允許接收器通過參考參考媒體展示110的其他分量軌道來構建媒體內容。推導軌道是能夠參考其他多個分量軌道的,以使得對應的子區域(例如,任意選擇的子區域105)基於來自於其他分量軌道的視埠和定義的區域來推導出其內容。
在一些實施例中,推導軌道在架構上與ISOBMFF中其他任意媒體軌道都相似。用於構建來自於其他依賴於ISO/IEC/23001-8中定義的編碼獨立代碼點(Coding Independent Code Points,CICP)和其在ISOBMFF中作為定時元資料和樣本的描述的的小車的視埠或ROI軌道的的視埠或ROI軌道的信號機制。視埠或ROI的定義被作為元資料軌道中的定時元資料或媒體軌道中的樣本描述信息被攜帶。信號機制可以採用ISOBMFF中的軌道參考類型來識別被參考為媒體內容樣本的的媒體軌道和被參考為視埠/定義的區域的樣本的元資料軌道的分量軌道。
在一些實施例中,指定的一組操作可以包括根據存儲在參考分量軌道中元資料樣本來構建子區域軌道的指令。該指令可以包括對一個或多個存儲媒體樣本的分量軌道和一個或多個存儲元資料樣本的分量軌道的軌道參考。該指令還可以包括調用對一個或多個存儲媒體樣本的分量軌道和一個或多個存儲元資料樣本的分量軌道的軌道參考的構建器。該指令還可以包括存儲在推導軌道中的對一個或多個存儲媒體樣本的分量軌道的軌道參考和用於指示元資料樣本的指示符。
第5圖是基於軌道構建器的信號機制。構建器是可以通過參考一個或多個分量軌道(其可以是視埠/ROI軌道)以作為構建視埠/ROI軌道的指令的嵌入推導軌道的流內架構。參考分量軌道通過使用軌道參考(例如ISOBMFF的“tref”所指示)與構建器所在的推導軌道連接。軌道參考可以是不同的類型。例如,軌道參考可以是“cnst”類型,其指示參考軌道是包括用於視埠/ROI的媒體樣本的媒體軌道,或者是“inst”類型,其指示參考軌道是包括視埠/ROI定義元資料,或者,更確切地說,用於定義視埠/ROI的定時元資料的元資料軌道。
該圖示出了在ISOBMFF中具有若干分量軌道511-518的參考流媒體文件510。其中,軌道511是調用“構建器”架構的推導軌道。構建器使用“cnst”類型的軌道參考來參考軌道513和軌道517,一遍使用它們的樣本作為媒體樣本(使用“mdat”存儲在軌道513和517中)。構建器還使用“inst”類型的軌道參考參考軌道512,以便使用其樣本(使用“mdat”存儲在軌道512中)作為定義元資料。
該圖還示出流封裝(例如,DASH)如何與流媒體文件的軌道連接。如圖所示,流封裝520使用空間關係描述符號(spatial relationship descriptor,SRD)構建來參考流媒體文件510的軌道。例如,SDR521與推導軌道511相關,SDR523與分量軌道513相關,以及SDR524與分量軌道514相關等。
第6圖是基於視埠或ROI定義元資料的信號機制。信號機制使用推導軌道中的軌道參考作為指令,以通過參考一個或者多個用於視埠或ROI的分量軌道來構建視埠/ROI軌道。
該圖示出了在ISOBMFF中具有若干分量軌道611-618流媒體文件610。其中,軌道611是推導軌道。推導軌道611使用“cnst”類型的“tref”軌道參考來參考軌道613和軌道617,以便使用它們的樣本作為媒體樣本(使用“mdat”存儲在軌道613和617中)。推導軌道611還使用“inst”類型的軌道參考參考軌道612,以便使用其樣本(使用“mdat”存儲在軌道612中)作為定義元資料。
該圖還示出流封裝(例如,DASH)如何與流媒體 文件的軌道連接。如圖所示,流封裝620使用空間關係描述符號(spatial relationship descriptor,SRD)構建來參考流媒體文件610的軌道。例如,SDR621與推導軌道611相關、SDR623與分量軌道613相關,以及SDR624與分量軌道614相關等。
第7圖是基於視埠/ROI定義樣本描述的信號機制。在該信號機制下,推導軌道具有為了其媒體樣本參考其他媒體軌道的軌道參考,推導軌道還具有用於指示推導軌道其自身存儲的作為為了視埠/ROI的定義元資料的定義樣本描述的指示符(“stsd”)。存儲於參考媒體軌道的媒體樣本和存儲於推導軌道的定義樣本描述其本身被一次用於構建視埠/ROI軌道。
該圖示出了在ISOBMFF中具有若干分量軌道711-718的參考流媒體文件710。其中,軌道711是推導軌道。推導軌道711使用“cnst”類型的“tref”軌道參考來參考軌道713和軌道717,以便使用它們的樣本作為媒體樣本(使用“mdat”存儲在軌道713和717中)。推導軌道711還使用指示符“stsd”來指示用於視埠/ROI的定義元資料其自身作為定義樣本描述被存儲於推導軌道711。
該圖還示出流封裝(例如,DASH)如何與流媒體文件的軌道連接。如圖所示,流封裝720使用空間關係描述符號(spatial relationship descriptor,SRD)構建來參考流媒體文件710的軌道。例如,SDR721與推導軌道711相關、SDR723與分量軌道713相關,以及SDR724與分量軌道714相關等。
III.視埠或ROI的定義元資料
在一些實施例中,用於視埠或ROI的定義元資料包括定義元資料樣本(例如,存儲在軌道512、612和712中的元資料樣本)。元資料的每個樣本都包括將要在輸入圖像項目或樣本的有序列表上被執行的操作的有序列表。
在一些實施例中,每個操作是在ISOBMFF ISO/IEC 14496-12下具有“TransformProperty”類型的轉換操作。這樣的操作或者轉換屬性的示例包括標識(“idtt”,輸入圖像項目的複製)、乾淨光圈(“clap”,輸入圖像項目的裁剪轉換)、樣本旋轉(“sort”,輸入圖像項目的樣本旋轉)以及解散(“dslv”,兩個或多個輸入圖像項目的平滑混合)。
為了支持視埠和/或ROI的構建,本發明的一些實施例還提供以下操作或轉換屬性:樣本ROI(“sroi”)和樣本視埠(“svpt”)。這些操作可能具有與ISO/IEC 23001-10中定義的定時ROI元資料樣本具有相同的語法。
樣本ROI(“sroi”)轉換屬性(或操作)根據ROI定義從輸入圖像項目或輸入圖像項目的列表中提取ROI。第8圖是樣本ROI轉換屬性的語法示例。以下是樣本ROI轉換屬性的語法示例中的語義解釋:參數reference_width和reference_height分別給出參考舉行空間的寬度和高度,其中所以的ROI坐標(top_left_x、top_left_y、width和height)都被計算。這些字段允許將ROI元資料軌道與具有不同分辨率但代表相同視覺源的視訊軌道相關。
參數top_left_x和top_left_y分別給出與參考軌道 的媒體樣本相關的矩形區域的左上角的水平和垂直坐標。
參數width和height分別給出與參考軌道的媒體樣本相關的矩形區域的寬度和高度。
參數interpolate指示連續樣本的時間上的連續性。當該參數值為真,則應用可以在之前的樣本和當前的樣本間線性地插入ROI的坐標值。當該參數值為假時,則不在之前的樣本和當前樣本之間插值。當使用插值時,期望內插的樣本匹配參考軌道的樣本的展示時間。例如,對於視訊軌道的每一個視訊樣本,計算一個內插2D笛卡爾坐標樣本。
樣本視埠
樣本視埠(“svpt”)轉換屬性根據視埠定義從輸入圖像項目或輸入圖像列表中構建(或提取)視埠樣本圖像。第9圖是樣本視埠轉換屬性的語法示例。以下是樣本視埠轉換屬性的語法示例中的語義解釋:參數dimension指示視埠所處的自由空間的維度。其取值為1、2或3。
參數reference_x、reference_y和reference_z分別給出參考系統中的x軸、y軸和z軸的坐標的參考值(或偏移值),其中所有視埠的擺動(x)、起伏(y)和震蕩(z)都被計算。
參數reference_pitch、reference_yaw和reference_roll分別給出參考系統中的俯仰、偏航和滾轉角度的參考值(或偏移值),其中所有視埠的俯仰、偏航和滾轉角度都被計算。reference_x、reference_y和reference_z的最大範 圍分別為[0,180]、[0,360]和[0,360],代表俯仰、偏航和滾轉角度的最大角度範圍為[-90,90]、[-180,180]和[-180,180]。最大值範圍也可以被選擇用來代表俯仰、偏航和滾轉角度的最大角度範圍,其範圍分別為[-90,90]、[0,360]、[0,360]。
參數reference_2d_width和reference_2d_height分別給出參考2D平面矩形空間的寬度和高度,其中所有的視埠視圖坐標(top_left_x,top_left_y,center_x和center_y)都被計算。
參數x、y和z分別給出參考系統中的x軸坐標、y軸坐標和z軸坐標的值,其中所有視埠的擺動(x)、起伏(y)和震蕩(z)都被計算。這些字段允許視埠元資料軌道與具有不同分辨率但代表相同視覺源的視訊軌道相關。
參數pitch、yaw和roll分別給出參考系統中俯仰、偏航和滾轉角度,其中視埠的俯仰、偏航和滾轉角度都被計算。這些字段允許視埠元資料軌道與具有不同分辨率但代表相同視覺源的參考媒體軌道的媒體樣本相關。
參數shape指示視埠視圖的形狀。第10圖是參數shape的可能值的表格。
參數top_left_x和top_left_y分別給出與參考軌道中的媒體樣本相關的矩形(shape=1)、三角形(shape=2)和正方形(shape=3)的視埠視圖左上角的水平和垂直坐標。
參數width和height分別給出與參考軌道中的媒體樣本相關的矩形(shape=1)和三角形(shape=2)的視埠視圖的寬度和高度。
參數rotation給出與參考軌道的媒體樣本相關的三角形(shape=2)的視埠視圖的取向。其值0、1、2和3分別代表正向(不旋轉)、顛倒(180°旋轉)、左上(逆時針90°旋轉)和右上(順時針90°旋轉)。
參數size給出與參考軌道的媒體樣本相關的正方形(shape=3)的視埠視圖的大小。
參數center_x和center_y分別給出與參考軌道的媒體樣本相關的圓形(shape=3)的視埠視圖的中心的水平和垂直坐標。
參數radius給出與參考軌道的媒體樣本相關的圓形(shape=3)的視埠視圖的半徑。
參數interpolate指示連續樣本的時間上的連續性。當該參數值為真,則應用可以在之前的樣本和當前的樣本間線性地插入對應的視埠元資料屬性的值。當該參數值為假時,則不在之前的樣本和當前樣本之間插值。當使用內插時,期望內插的樣本匹配參考軌道的樣本的展示時間。例如,對於視訊軌道的每一個視訊樣本,計算一個內插視埠定義樣本。
需要注意的是,第9圖-第10圖所示的語法支持各種不同大小和形狀的信號視埠。對於一些實施例,如果通過信號發送的視埠的維度和形狀是已知的並且固定的(例如,“dimension=3”和“shape=1”),則語法可以被簡化。
IV.過程示例
圖11示出了用於生成分量軌道和至少一個參考至少部分分量軌道的推導軌道的過程1100。在一些實施例中,當 生成流媒體文件(例如ISOBMFF中的流媒體文件240、245、510、610或710)時,流編碼器(例如流編碼器210)執行過程1100。在一些實施例中,實現流編碼器的計算設備的一個或多個處理單元(例如,處理器)通過執行存儲在計算機可讀介質上的指令來執行過程1100。
當流編碼器接收用於參考媒體展示的媒體內容時(在步驟1110中),過程1100開始。這樣的參考媒體展示可以是360VR展示。參考媒體展示可以包括多種不同的分量,例如諸如視埠、ROI、面或全方位圖像之類的展示的圖形疊加、視訊片段、音頻片段或者定義的子區域。
流編碼器將接收到的媒體內容編碼為多個分量軌道(在步驟1120中)。每個分量軌道包含媒體樣本或元資料樣本。分量軌道可以是包含參考媒體展示(例如視埠或ROI的視訊樣本)中對應的分量的媒體樣本的媒體軌道。分量軌道還可以是包含元資料樣本(定義元資料)元資料軌道,元資料樣本提供用於參考媒體展示的對應的分量的定義和/或參數(例如視埠或ROI的幾何定義或參數)。
流編碼器還對推導軌道進行編碼(在步驟1130中),該推導軌道(i)參考一個或多個分量軌道,以及(ii)指定一組用於基於來自於參考分量軌道的媒體樣本和元資料原本來推導出參考媒體展示的子區域的媒體樣本的操作。推導軌道的信號機制如上文中第5圖-第7圖所示。被參考元資料樣本說明的操作如上文中第8圖-第10圖所示。流編碼器存儲編碼分量軌道和編碼推導軌道以用於取回(在步驟1140中)。
流編碼器傳輸流媒體文件(在步驟1145中),該流媒體文件包括推導軌道。流編碼器還可以接收對部分或全部分量軌道的請求(在步驟1150中)。接收推導軌道的流解碼器可以基於哪個軌道被請求用來根據推導軌道來動態構建子區域(ROI或視埠)來生成該請求。流編碼器依次在一個或多個流媒體文件中傳輸(在步驟1160中)被請求的分量軌道。傳輸的流媒體文件可以ISOBMFF和DASH格式。然後過程1100結束。
第12圖是用於基於流媒體文件中的推導軌道動態構建指定的子區域(例如,視埠或ROI)的過程1200。在一些實施例中,流解碼器(例如,流解碼器220)在接收流媒體文件(例如,流媒體文件240)之後執行過程1200。在一些實施例中,實現流解碼器的計算設備的一個或多個處理單元(例如,處理器)通過執行存儲在計算機可讀介質上的指令來執行過程1100。
當流解碼器接收用於參考媒體展示的流媒體文件(在步驟1210中)時,過程1200開始。流媒體文件可以是通過DASH協議接收的流ISOBMFF媒體文件。流媒體文件可以包括一個或多個分量軌道和/或可以參考一個或多個用於參考媒體展示的分量軌道。流媒體文件還可以包括參考一個或多個分量軌道的推導軌道。分量軌道可以是包括參考媒體展示的對應的分量(例如,視埠或ROI)的媒體樣本的媒體軌道。分量軌道還可以是包括提供用於參考媒體展示的對應的分量的定義和/或參數元資料樣本的元資料軌道。
流解碼器接收參考媒體展示中的子區域的選擇(在步驟1220中)。該選擇可以是來自360VR設備的用戶通過用戶界面(例如,界面225)進行的實時選擇。
流解碼器接收來自於流媒體文件的對應於子區域選擇的推導軌道(在步驟1230中)。該推導軌道(i)參考一個或多個分量軌道,以及(ii)指定一組用於基於媒體樣本和來自於參考分量軌道的元資料樣本來構建參考媒體展示的子區域的操作。推導軌道的信號機制如上文中第5圖-第7圖所示。被參考元資料樣本說明的操作如上文中第8圖-第10圖所示。
流解碼器隨後接收一個或多個分量軌道(在步驟1240中),這些分量軌道被推導軌道參考。取回到的分量軌道包括為了構建推導軌道的內容而參考和/或需要的媒體樣本或元資料樣本。要求的分量軌道可以已經與推導軌道一起在流媒體文件中。流解碼器還可以通過要求隨後的包含要求的分量軌道的流媒體文件(例如,流媒體文件245)來取回要求分量軌道。流解碼器還可以首先以遞歸的方式推導出推導軌道所需的分量軌道。
流解碼器通過執行一組由推導軌道指定的操作來提供用於選擇的子區域的媒體樣本(在步驟1250中),該組操作使用和/或參考取回到的分量軌道中的媒體樣本或元資料樣本以構建選擇子區域的內容。在一些實施例中,子區域選擇動態地確定(通過參考元資料樣本)執行哪一組有推導軌道指定的操作。然後過程1200結束。
V.視訊編碼器示例
第13圖是實現流編碼器210中的視訊編碼器311-319中的至少部分的視訊編碼器1300的示例。
如圖所示,視訊編碼器1300接收來自於視訊源1305的輸入視訊信號,並且將該信號編碼為位元流1395。視訊編碼器1300具有若干個用於編碼視訊信號1305的分量或模組,其中包括轉換模組1310、量化模組1311、逆量化模組1314、逆轉換模組1315、圖像內估計模組1320、圖像內預測模組1325、運動補償模組1330、運動估計模組1335、環路內濾波器1345、重構圖像緩衝器1350、MV緩衝器1365、MV預測模組1375和熵編碼器1390。
在一些實施例中,模組1310-1390是由計算設備或電子設備的一個或多個處理單元(例如,處理器)執行的軟體指令的模組。在一些實施例中,模組1310-1390是由電子設備的一個或多個集成電路(integrated circuit,IC)實現的硬體電路的模組。雖然模組1310-1390被圖示為分離的模組,但是一些模組可以被組合成單個模組。
視訊源1305提供原始視訊信號,其不壓縮地展示每個視訊幀的像素資料。減法器1308計算來自視訊源1305的原始像素資料與來自運動補償1330的預測像素資料1313或者圖像內預測1325之間的差。轉換模組1310將該差(或殘差像素資料)轉換為轉換係數(例如,通過執行離散餘弦轉換或DCT)。量化器1311將轉換係數量化為量化資料(或量化係數)1312,。被熵編碼器1390編碼到位元流1395中。
逆量化模組1314對量化資料(或量化係數)1312進行解量化以獲得轉換係數,逆轉換模組1315對轉換係數執行逆轉換以生成重構像素資料1317(在加上預測像素資料1313之後)。在一些實施例中,重構的像素資料1317被臨時存儲在行緩衝器(未示出)中以用於圖像內預測和空間MV預測。重構的像素由環內濾波器1345濾波並存儲在重構圖像緩衝器1350中。在一些實施例中,重構圖像緩衝器1350是視訊編碼器1300外部的存儲器。在一些實施例中,重構圖像緩衝器1350是視訊編碼器1300內部的存儲器。
圖像內估計模組1320基於重構的像素資料1317執行幀內預測以生成幀內預測資料。幀內預測資料被提供給熵編碼器1390以被編碼到位元流1395中。幀內預測資料還被圖像內預測模組1325用來生成預測的像素資料1313。
運動估計模組1335通過生成MV來執行幀間預測,以參考存儲在重構圖像緩衝器1350中的先前解碼幀的像素資料。將這些MV提供給運動補償模組1330以生成預測像素資料。這些MV對於在單通道解碼系統中重構視訊幀也是必需的。視訊編碼器1300使用時間MV預測來生成預測的MV,而不是在位元流中編碼完整的真實MV,而是將用於運動補償的MV與預測的MV之間的差編碼為殘差運動資料並存儲在位元流1395為單通道解碼系統。
視訊編碼器1300基於為編碼先前視訊幀(即,用於執行運動補償的運動補償MV)而生成的參考MV而生成預測MV。視訊編碼器1300從MV緩衝器1365中取回來自先前 視訊幀的參考MV。視訊編碼器1300將為當前視訊幀生成的MV存儲在MV緩衝器1365中作為用於生成預測MV的參考MV。
MV預測模組1375使用參考MV來創建預測的MV。預測的MV可以通過空間MV預測或時間MV預測來計算。當前幀(殘差運動資料)的預測MV與運動補償MV(MC MV)之間的差由熵編碼器1390編碼到位元流1395中。
熵編碼器1390通過使用諸如上下文自適應二進制算術編解碼(context-adaptive binary arithmetic coding,CABAC)或霍夫曼編碼的熵編碼技術將各種參數和資料編碼到位元流1395中。熵編碼器1390將諸如量化的轉換資料和殘差運動資料之類的參數編碼到位元流中。
迴路內濾波器1345對重構像素資料1317執行濾波或平滑操作以減少編解碼的偽像,特別是在像素塊的邊界處。在一些實施例中,所執行的濾波操作包括樣本自適應偏移(sample adaptive offset,SAO)。在一些實施例中,濾波操作包括自適應環路濾波器(adaptive loop filter,ALF)。
VI.視訊解碼器示例
第14圖是實現流編碼器210中的視訊解碼器411-419中的至少部分的視訊解碼器1400的示例。
如圖所示,視訊解碼器1400是圖像解碼或視訊解碼電路,其接收位元流1495並將該位元流1495的內容解碼為視訊幀的像素資料以供顯示。視訊解碼器1400具有用於解碼位元流1495的若干分量或模組,包括逆量化模組1405、逆轉 換模組1415、圖像內預測模組1425、運動補償模組1435、環內濾波器1445、解碼圖像緩衝器1450、MV緩衝器1465、MV預測模組1475和位元流解析器1490。
在一些實施例中,模組1410-1490是由計算設備或電子設備的一個或多個處理單元(例如,處理器)執行的軟體指令的模組。在一些實施例中,模組1410-1490是由電子設備的一個或多個集成電路(integrated circuit,IC)實現的硬體電路的模組。雖然模組1410-1490被圖示為分離的模組,但是一些模組可以被組合成單個模組。
解析器(或熵解碼器)1490接收位元流1495,並根據由視訊編碼或圖像編碼標准定義的語法來執行初始解析。解析語法元素包括各種頭元素、標誌以及量化的資料(或量化的係數)1412。解析器1490通過使用諸如上下文自適應二進制算術編碼(context-adaptive binary arithmetic coding,CABAC)或霍夫曼編碼之類的熵編碼技術來解析出各種語法元素。
逆量化模組1405對量化資料(或量化係數)1412解量化以獲得轉換係數1416,逆轉換模組1415對轉換係數1416執行逆轉換以生成解碼像素資料1417(在加上來自幀內預測模組1425或運動補償模組1435的預測像素資料1413之後)。解碼像素資料由環內濾波器1445濾波並存儲在解碼圖像緩衝器1450中。在一些實施例中,解碼圖像緩衝器1450是視訊解碼器1400外部的存儲器。在一些實施例中,解碼圖像緩衝器1450是視訊解碼器1400內部的存儲器。
圖像內預測模組1425從位元流1495接收幀內預測資料,並且根據該幀內預測資料從存儲在解碼圖像緩衝器1450中的解碼像素資料1417生成預測像素資料1413。在一些實施例中,解碼像素資料1417也被存儲在用於圖像內預測和空間MV預測的行緩衝器(未示出)中。
在一些實施例中,解碼圖像緩衝器1450的內容被用於顯示。顯示設備1455可以直接取回解碼圖像緩衝器1450的內容以供顯示,也可以將解碼圖像緩衝器的內容取回到顯示緩衝器。在一些實施例中,顯示設備通過像素傳輸來自於解碼圖像緩衝器1450接收像素值。
運動補償模組1435根據運動補償MV(MC MV)由存儲在解碼圖像緩衝器1450中的解碼像素資料1417生成預測像素資料1413。這些運動補償MV通過添加來自於位元流1495接收的殘差運動資料與從MV預測模組1475接收到的預測MV相加來解碼。
視訊解碼器1400基於參考MV而生成預測MV,其中,參考MV是為了解碼先前視訊幀而生成的,視訊幀可以是用於執行運動補償的運動補償MV。視訊解碼器1400取回來自於MV緩衝器1465的先前視訊幀的參考MV。視訊解碼器1400還將將為解碼當前視訊幀而生成的運動補償MV作為用於生成預測MV的參考MV存儲在MV緩衝器1465中。
迴路內濾波器1445對解碼像素資料1417執行濾波或平滑操作以減少編解碼的偽像,特別是在像素塊的邊界處。在一些實施例中,所執行的濾波操作包括樣本自適應偏移 (sample adaptive offset,SAO)。在一些實施例中,濾波操作包括自適應環路濾波器(adaptive loop filter,ALF)。
VI.電子系統示例
許多上述特徵和應用被實現為被指定為記錄在計算機可讀存儲介質(也被稱為計算機可讀介質)上的一組指令的軟體過程。當這些指令由一個或多個計算或處理單元(例如,一個或多個處理器、處理器的核或其他處理單元)執行時,它們使得處理單元執行在指令中指示的動作。計算機可讀介質的示例包括但不限於CD-ROM、閃存驅動器、隨機存取存儲器(random-access memory,RAM)芯片、硬碟驅動器、可擦除可編程唯讀存儲器(erasable programmable read only memories,EPROM)、電可擦除可編程唯讀存儲器(electrically erasable programmable read-only memories,EEPROM)等。計算機可讀介質不包括通過無線或有線連接傳送的載波和電子信號。
在本說明書中,術語“軟體”意味著包括駐留在唯讀存儲器中的韌體或存儲在磁存儲器中的應用,其可以被讀取到存儲器中以供處理器處理。而且,在一些實施例中,多個軟體發明可以被實現為較大程序的子部分,同時保留不同的軟體發明。在一些實施例中,多個軟體發明也可以被實現為分開的程序。最後,一起實現這裡描述的軟體發明的單獨程序的任意組合都在本公開的範圍內。在一些實施例中,軟體程序在被安裝以在一個或多個電子系統上操作時定義執行和執行軟體程序的操作的一個或多個特定機器實現。
第15圖是實現本發明的一些實施例的電子系統1500。電子系統1500可以是計算機(例如台式計算機、個人計算機、平板電腦等)、電話、PDA或任意其他類型的電子設備。這樣的電子系統包括各種類型的計算機可讀介質和用於其他各種類型的計算機可讀介質的界面。電子系統1500包括匯流排1505、處理單元1510、圖形處理單元(graphics-processing unit,GPU)1515、系統存儲器1520、網路1525、唯讀存儲器1530、永久性存儲設備1535、輸入設備1540、以及輸出設備1545。
匯流排1505共同表示通信地連接電子系統1500的多個內部設備的所有系統、外圍設備和芯片組匯流排。例如,匯流排1505通信地將處理單元1510與GPU 1515、唯讀存儲器1530、系統存儲器1520和永久存儲設備1535連接。
處理單元1510從這些各種存儲器單元中取回要執行的指令和要處理的資料以執行本發明的過程。在不同實施例中,處理單元可以是單個處理器或多核處理器。一些指令被傳遞給GPU 1515並由GPU 1515執行。GPU 1515可以卸載各種計算或者補償由處理單元1510提供的圖像處理。
唯讀存儲器(read-only-memory,ROM)1530存儲靜態資料和指令,靜態資料和指令是被處理單元1510和電子系統的其他模組所需的。永久性存儲設備1535另一方面是讀寫存儲設備。該設備是非易失性存儲器單元,即使當電子系統1500關閉時也存儲指令和資料。本發明的一些實施例使用大容量存儲設備(諸如磁碟或光碟及其相應的磁碟驅動器)作 為永久存儲設備1535。
其他實施例使用可移動存儲設備(諸如軟盤,閃存設備等以及其相應的磁碟驅動器)作為永久性存儲設備。像永久性存儲設備1535一樣,系統存儲器1520是讀寫存儲設備。然而,與存儲設備1535不同,系統存儲器1520是易失性讀寫存儲器,例如隨機存取存儲器。系統存儲器1520存儲處理器在運行時間所需的一些指令和資料。在一些實施例中,依照本發明的過程被存儲在系統存儲器1520、永久性存儲設備1535和/或唯讀存儲器1530中。例如,根據一些實施例,各種存儲器單元包括用於處理多媒體剪輯的指令。處理單元1510從這些各種存儲器單元中取回要執行的指令和要處理的資料以執行一些實施例的過程。
匯流排1505還連接到輸入和輸出設備1540和1545。輸入設備1540使得用戶能夠向電子系統傳達信息和選擇命令。輸入設備1540包括字母數字鍵盤和指點設備(也稱為“光標控制設備”)、相機(例如網路攝像頭)、麥克風或用於接收語音命令的類似設備等。輸出設備1545顯示由電子系統生成的圖像或輸出資料。輸出設備1545包括打印機和顯示設備,諸如陰極射線管(cathode ray tubes,CRT)或液晶顯示器(liquid crystal displays,LCD),以及揚聲器或類似的音頻輸出設備。一些實施例包括諸如觸摸屏之類的用作輸入和輸出設備的設備。
最後,如第15圖所示,匯流排1505還通過網路適配器(未示出)將電子系統1500耦接網路1525。以這種方 式,計算機可以是計算機網路的一部分(諸如局域網(“LAN”)、廣域網(“WAN”)或內聯網)或網路中的網路,例如互聯網。諸如電子系統1500的任意或全部分量可以與本發明結合使用。
一些實施例包括諸如微處理器、存儲和存儲計算機程序指令的存儲器之類的電子分量,計算機程序指令存儲在機器可讀或計算機可讀介質中(或者被稱為計算機可讀存儲介質、機器可讀介質或機器可讀介質、可讀存儲介質)。這種計算機可讀介質的一些例子包括RAM、ROM、唯讀光碟(read-only compact disc,CD-ROM),可記錄光碟(recordable compact disc,CD-R),可重寫光碟(rewritable compact disc,CD-RW),唯讀數字通用光碟(例如,DVD-ROM、雙層DVD-ROM),各種可記錄/可重寫DVD(例如DVD-RAM、DVD-RW、DVD+RW等),閃存(例如,SD卡、迷你SD卡、微型SD卡等),磁性和/或固態硬碟驅動器,唯讀和可記錄的藍光光碟、超密度光碟、任意其他光學或磁性介質以及軟盤。計算機可讀介質可以存儲可由至少一個處理單元執行的計算機程序,並且包括用於執行各種操作的指令組。計算機程序或計算機代碼的示例包括諸如由編譯器產生的機器代碼,以及包括由計算機、電子分量或使用注釋器的微處理器執行的更高級代碼的文件。
儘管以上討論主要涉及執行軟件的微處理器或多核處理器,但是上述特徵和應用中的許多特徵和應用可以由一個或多個諸如專用集成電路(application specific integrated circuit,ASIC)或現場可編程門陣列(field programmable gate array,FPGA)之類的集成電路執行。在一些實施例中,這樣的集成電路執行的指令存儲在電路本身上。另外,一些實施例執行存儲在可編程邏輯器件(programmable logic device,PLD),ROM或RAM設備中的軟件。
如在本說明書和本申請的任意申請專利範圍中所使用的,術語“計算機”、“服務器”、“處理器”和“存儲器”全部是指電子或其他技術設備。這些術語排除人或人群。為了說明的目的,術語顯示意味著電子設備上的顯示。如在本說明書和本申請的任意申請專利範圍中所使用的,術語“計算機可讀介質”、“計算機可讀媒介”和“機器可讀介質”完全限於以有形物理對象,其以計算機可讀形式存儲信息。這些術語排除任意無線信號,有線下載信號以及任意其他短暫信號。
儘管已經參考許多具體細節描述了本大米,但是本領域普通技術人員將認識到,可以在不脫離本發明的精神的情況下以其他具體形式來實施本發明。另外,許多圖(包括第11圖和第12圖)概念地說明了過程。這些過程的具體操作可能不按照所示和所述的確切順序執行。具體操作可以不在連續的一系列操作中執行,並且可以在不同的實施例中執行不同的具體操作。而且,這個過程可以使用幾個子過程來實現,或者作為一個更大的大過程的一部分。因此,本領域的普通技術人員將理解,本發明不受前文所述說明性細節的限制,而是由所附申請專利範圍限定。
附加的注意事項
本文所描述的主題有時包含在不同的其他分量內或與其連接的不同分量示出。應該理解的是,這樣描述的架構僅僅是示例,並且實際上可以實施許多其他架構實現相同的功能。在概念意義上,用於實現相同功能的任意分量佈置被有效地“關聯”,從而實現期望的功能。因此,本文中被組合以實現特定功能的任意兩個分量可以被視為彼此“相關聯”,從而實現期望的功能,而與架構或中間分量無關。同樣地,如此關聯的任意兩個分量也可以被視為彼此“可操作地連接”或“可操作地耦合”以實現期望的功能,並且支持如此關聯的任意兩個分量也可以被視為“可操作地耦接”,相互達成所需的功能。可操作地可耦合的具體示例包括但不限於物理上可配對的和/或物理上交互的分量和/或無線交互和/或無線交互分量和/或邏輯交互和/或邏輯交互分量。
此外,關於本文中大體上任意復數和/或單數術語的使用,本領域技術人員可以根據上下文適當地將復數轉化為單數和/或將單數轉化為複數以使其適合語境和/或應用程序。為了清楚起見,這裡可以明確地闡述各種單數/複數置換。
此外,本領域技術人員將會理解,一般而言,本文所使用的術語,特別是所附申請專利範圍(例如所附申請專利範圍書的主體)中的術語通常意圖為“開放”術語,例如,術語“包括”應被解釋為“包括但不限於”,術語“具有”應被解釋為“至少具有”,術語“包括”應被解釋為“包括但不限於”等等。本領域的技術人員將會進一步理解,如果意圖引入的申請專利範圍中的具體數量,則這樣的意圖將在申請專利 範圍中明確地記載,並且在沒有這樣的表述的情況下,不存在這樣的意圖。例如,作為對理解的幫助,以下所附申請專利範圍可以包含介紹性短語“至少一個”和“一個或多個”的使用以引入申請專利範圍陳述。然而,這種短語的使用不應當被解釋為暗示由不定冠詞“一”或“一個”引入的申請專利範圍表述將包含這種引入的申請專利範圍表述的任意特定申請專利範圍限制為僅包含一個這樣的表述的實施方式,甚至當相同的申請專利範圍包括介紹性短語“一個或多個”或“至少一個”以及諸如“一”或“一個”的不定冠詞,例如“一個”和/或“一個”應解釋為意指“至少一個“或”一個或多個“,對於使用用於引入申請專利範圍陳述的定冠詞也是如此。另外,即使明確列舉了具體數量的引入的申請專利範圍列舉,本領域技術人員將認識到,這樣的列舉應該被解釋為至少意味著所列舉的數量,例如沒有“兩個敘述”其他修飾語意指至少兩個敘述,或者兩個或更多個敘述。此外,在使用類似於“A,B和C等中的至少一個”的慣例的那些情況下,通常這樣的構造旨在於本領域技術人員將理解該慣例的含義,例如,“具有A,B和C中的至少一個的系統”將包括但不限於僅具有A、僅具有B、僅具有C、具有A和B在一起、具有A和C在一起、具有B和C在一起的系統、和/或A、B和C一起等。在使用類似於“A,B或C等中的至少一個”的慣例的那些情況下,通常這樣的構造意圖為本領域技術人員將理解該慣例,例如“具有A,B或C中的至少一個的系統”將包括但不限於僅具有A、僅具有B、僅具有C、具有A和B的系統、A和C一 起、B和C一起、和/或A,B和C一起等。本領域技術人員將進一步理解,實際上任意分離的詞和/或短語在說明書、申請專利範圍書或附圖中展示兩個或更多個替代術語應理解為考慮包括術語中的一個,術語中的任一個或兩個術語的可能性。例如,短語“A或B”將被理解為包括“A”或“B”或“A和B”的可能性。
從上文中可以理解,為了說明的目的,本文已經描述了本發明的各種實施方式,並且在不脫離本發明的範圍和精神的情況下可以對實施方式進行各種修改。因此,本文所公開的各種實施方式不旨在是限制性的,真正的範圍和精神由以下申請專利範圍指示。
Claims (24)
- 一種媒體內容處理方法,包括:接收用於參考媒體展示的媒體內容;對接收到的該媒體內容編碼為多個分量軌道,每個分量軌道包括用於該參考媒體展示的分量的媒體或元資料樣本;對推導軌道進行編碼,該推導軌道(i)參考該等分量軌道中的一個或多個,並且(ii)基於該媒體或元資料樣本指定用於構建該參考媒體展示的子區域的該媒體和元資料樣本的一組操作;以及存儲編碼的該分量軌道和編碼的該推導軌道以供取回;其中該組操作包括調用對存儲媒體樣本的一個或多個分量軌道和存儲元資料樣本的一個或多個分量軌道的軌道參考或對存儲媒體樣本的一個或多個分量軌道的該軌道參考以及用於指示該元資料樣本被存儲在該推導軌道中的指示符。
- 如申請專利範圍第1項所述之方法,其中該子區域對應於視埠或感興趣區域,並且該等分量軌道中的每個分量軌道是為一個子區域提供媒體樣本的子區域軌道。
- 如申請專利範圍第1項所述之方法,該方法進一步包括:接收對該等分量軌道的子集的請求;以及僅僅傳輸該請求的分量軌道。
- 如申請專利範圍第1項所述之方法,其中該組操作包括根據一個或多個該參考分量軌道的元資料樣本來構建用於該推導軌道的子區域軌道的媒體樣本的指令。
- 如申請專利範圍第4項所述之方法,其中該指令包括對存儲媒體樣本的一個或多個分量軌道的以及存儲元資料樣本的一個或多個分量軌道的軌道參考。
- 如申請專利範圍第4項所述之方法,其中該指令包括構造器,該構造器調用該軌道參考。
- 如申請專利範圍第4項所述之方法,其中該指令包括該指示符。
- 如申請專利範圍第1項所述之方法,其中由該推導軌道指定的該組操作包括要在輸入圖像的有序列表上執行的操作的有序列表或來自用於該參考媒體展示的該等分量軌道的樣本。
- 如申請專利範圍第8項所述之方法,其中該參考分量軌道中的一個或多個是存儲元資料樣本的元資料軌道,其中參考的元資料軌道的每個元資料樣本指定該參考媒體演示中的子區域的維度和子區域的位置以用於執行操作的該有序列表。
- 如申請專利範圍第9項所述之方法,其中該子區域對應於視埠,並且該參考媒體展示是360度虛擬現實視訊展示,並且其中每個元資料樣本還指定該視埠與該參考媒體展示相關的一組角度,用於執行操作的該有序列表。
- 如申請專利範圍第9項所述之方法,其中每個元資料樣本還指定該子區域的形狀。
- 一種媒體內容處理方法,包括:接收用於包括多個分量的參考媒體展示的流媒體文件,該等分量中的每一個具有對應的分量軌道,每個分量軌道包括媒體或元資料樣本,其中該流媒體文件包括推導軌道,該推導軌道(i)參考該等分量軌道中的一個或多個並且(ii)基於該參考分量軌道的媒體樣本指定用於構建媒體樣本的一組操作;在該參考媒體展示中選擇子區域;從該流媒體文件中取回該推導軌道;取回該推導軌道參考的該參考分量軌道;以及通過執行由該推導軌道指定的該組操作來為該選擇的子區域提供媒體樣本;其中該組操作包括調用對存儲媒體樣本的一個或多個分量軌道和存儲元資料樣本的一個或多個分量軌道的軌道參考或對存儲媒體樣本的一個或多個分量軌道的該軌道參考以及用於指示該元資料樣本被存儲在該推導軌道中的指示符。
- 如申請專利範圍第12項所述之方法,其中為該選擇的子區域提供該媒體樣本,該選擇的子區域包括基於該子區域的指定來選擇該參考分量軌道的子集,並且基於在子區域的該選擇的子集中的該媒體樣本來執行該組操作,而不在分量軌道的該選擇的子集中的該媒體樣本上執行該組操作。
- 如申請專利範圍第12項所述之方法,其中該選擇的子區域對應於視埠或感興趣區域(ROI)。
- 如申請專利範圍第12項所述之方法,其中存儲媒體樣本的每個參考分量軌道是為該參考媒體展示中的子區域提供媒體樣本的子區域軌道。
- 如申請專利範圍第12項所述之方法,其中,該組操作包括根據一個或多個該參考分量軌道的元資料樣本來構建用於派推導軌道的子區域軌道的媒體樣本的指令。
- 如申請專利範圍第16項所述之方法,其中,該指令包括對存儲媒體樣本的一個或多個分量軌道以及存儲元資料樣本的一個或多個分量軌道的軌道參考。
- 如申請專利範圍第16項所述之方法,其中,該指令包括構造器,該構造器調用該軌道參考。
- 如申請專利範圍第16項所述之方法,其中,該指令包括該指示符。
- 如申請專利範圍第12項所述之方法,其中由該推導軌道指定的該組操作包括要在輸入圖像的有序列表上執行的操作的有序列表或來自用於該參考媒體展示的該等分量軌道的樣本。
- 如申請專利範圍第20項所述之方法,其中該參考分量軌道中的一個或多個是存儲元資料樣本的元資料軌道,其中參考元資料軌道的每個元資料樣本指定該參考媒體演示中的子區域的維度和子區域的位置以用於執行操作的該有序列表。
- 如申請專利範圍第21項所述之方法,其中該子區域對應於視埠,並且該參考媒體展示是360度虛擬現實視訊真是,並且其中每個元資料樣本還指定該視埠與該參考媒體展示相關的一組角度,用於執行操作的該有序列表。
- 如申請專利範圍第21項所述之方法,其中每個元資料樣本還指定該子區域的形狀。
- 一種電子設備,包括:用戶界面電路,能夠接收對參考媒體展示中的子區域的選擇;以及流解碼器電路,能夠:接收用於包括多個分量的參考媒體展示的流媒體文件,該分量中的每一個具有對應的分量軌道,每個分量軌道包括媒體或元資料樣本;取回來自該流媒體文件的推導軌道,該推導軌道(i)參考該等分量軌道中的一個或多個,並且(ii)基於該參考分量軌道的該媒體樣本來指定用於構建媒體樣本的一組操作;接收被該推導軌道參考的該分量軌道;以及通過執行由該推導軌道指定的該組操作來為該選擇的子區域提供媒體樣本;其中該組操作包括調用對存儲媒體樣本的一個或多個分量軌道和存儲元資料樣本的一個或多個分量軌道的軌道參考或對存儲媒體樣本的一個或多個分量軌道的該軌道參考以及用於指示該元資料樣本被存儲在該推導軌道中的指示符。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662408867P | 2016-10-17 | 2016-10-17 | |
US62/408,867 | 2016-10-17 | ||
US201662410414P | 2016-10-20 | 2016-10-20 | |
US62/410,414 | 2016-10-20 | ||
US15/730,851 | 2017-10-12 | ||
US15/730,851 US11197040B2 (en) | 2016-10-17 | 2017-10-12 | Deriving and signaling a region or viewport in streaming media |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201820869A TW201820869A (zh) | 2018-06-01 |
TWI662833B true TWI662833B (zh) | 2019-06-11 |
Family
ID=61902371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106135473A TWI662833B (zh) | 2016-10-17 | 2017-10-17 | 在流媒體中推導和用信號發送區域和視埠 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11197040B2 (zh) |
CN (1) | CN109891893B (zh) |
DE (1) | DE112017005235T5 (zh) |
TW (1) | TWI662833B (zh) |
WO (1) | WO2018072683A1 (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018043905A1 (ko) * | 2016-08-29 | 2018-03-08 | 엘지전자 주식회사 | 360 비디오를 전송하는 방법, 360 비디오를 수신하는 방법, 360 비디오 전송 장치, 360 비디오 수신 장치 |
GB2575288B (en) * | 2018-07-04 | 2022-05-25 | Canon Kk | Method and apparatus for encapsulating images or sequences of images with proprietary information in a file |
US11711526B2 (en) | 2018-04-05 | 2023-07-25 | Canon Kabushiki Kaisha | Method and apparatus for encapsulating images or sequences of images with proprietary information in a file |
GB2575074B (en) * | 2018-06-27 | 2022-09-28 | Canon Kk | Encapsulating video content with an indication of whether a group of tracks collectively represents a full frame or a part of a frame |
US10826964B2 (en) | 2018-09-05 | 2020-11-03 | At&T Intellectual Property I, L.P. | Priority-based tile transmission system and method for panoramic video streaming |
US10999583B2 (en) * | 2018-09-14 | 2021-05-04 | Apple Inc. | Scalability of multi-directional video streaming |
US11295541B2 (en) * | 2019-02-13 | 2022-04-05 | Tencent America LLC | Method and apparatus of 360 degree camera video processing with targeted view |
US20230215129A1 (en) * | 2020-06-16 | 2023-07-06 | Dolby Laboratories Licensing Corporation | Representing volumetric video in saliency video streams |
US11922561B2 (en) * | 2020-10-06 | 2024-03-05 | Mediatek Singapore Pte. Ltd. | Methods and systems for implementing scene descriptions using derived visual tracks |
CN115474053A (zh) | 2021-06-11 | 2022-12-13 | 腾讯科技(深圳)有限公司 | 一种媒体数据的处理方法及相关设备 |
WO2023055612A1 (en) * | 2021-09-30 | 2023-04-06 | Dolby Laboratories Licensing Corporation | Dynamic spatial metadata for image and video processing |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101427579A (zh) * | 2005-12-01 | 2009-05-06 | 诺基亚公司 | 媒体流的时移表现 |
US20100153395A1 (en) * | 2008-07-16 | 2010-06-17 | Nokia Corporation | Method and Apparatus For Track and Track Subset Grouping |
CN104904233A (zh) * | 2012-11-29 | 2015-09-09 | 三星电子株式会社 | 用于封装国际标准化组织基媒体文件中的运动图像专家组媒体传输资源的方法和装置 |
US20160232939A1 (en) * | 2015-02-10 | 2016-08-11 | Nokia Technologies Oy | Method, an apparatus and a computer program product for processing image sequence tracks |
Family Cites Families (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0618526A3 (en) * | 1993-03-31 | 1995-09-27 | Us West Advanced Tech Inc | Method and apparatus for a multi-level and airship video environment. |
CN1689332A (zh) * | 2002-10-15 | 2005-10-26 | 皇家飞利浦电子股份有限公司 | 用于经ip网络发送可伸缩编码视频的系统和方法 |
AU2003900137A0 (en) * | 2003-01-14 | 2003-01-30 | Canon Kabushiki Kaisha | Process and format for reliable storage of data |
US7683940B2 (en) * | 2003-09-12 | 2010-03-23 | Canon Kabushiki Kaisha | Streaming non-continuous video data |
US20070022215A1 (en) * | 2005-07-19 | 2007-01-25 | Singer David W | Method and apparatus for media data transmission |
US20070168866A1 (en) * | 2006-01-13 | 2007-07-19 | Broadcom Corporation | Method and system for constructing composite video from multiple video elements |
EP2041976A4 (en) * | 2006-07-12 | 2012-06-20 | Nokia Corp | SIGNALING OF SCALABILITY INFORMATION FROM THE INTERESTING REGION IN MEDIA FILES |
US20090119594A1 (en) * | 2007-10-29 | 2009-05-07 | Nokia Corporation | Fast and editing-friendly sample association method for multimedia file formats |
US20100183033A1 (en) * | 2009-01-20 | 2010-07-22 | Nokia Corporation | Method and apparatus for encapsulation of scalable media |
CN101540947B (zh) * | 2009-04-03 | 2011-12-07 | 中兴通讯股份有限公司 | 移动流媒体模拟直播方法及其使用的内容切换方法 |
GB2469563B (en) * | 2009-04-14 | 2011-11-16 | Apple Inc | Method and apparatus for media data transmission |
US8976871B2 (en) * | 2009-09-16 | 2015-03-10 | Qualcomm Incorporated | Media extractor tracks for file format track selection |
US8930562B2 (en) * | 2010-07-20 | 2015-01-06 | Qualcomm Incorporated | Arranging sub-track fragments for streaming video data |
EP2580738A4 (en) * | 2010-08-10 | 2018-01-03 | LG Electronics Inc. | Region of interest based video synopsis |
CN101984619A (zh) * | 2010-10-12 | 2011-03-09 | 中兴通讯股份有限公司 | 一种流媒体业务的实现方法及系统 |
US8789095B2 (en) * | 2012-05-15 | 2014-07-22 | At&T Intellectual Property I, Lp | Apparatus and method for providing media content |
WO2014055488A2 (en) * | 2012-10-02 | 2014-04-10 | Carestream Health, Inc. | Rapid frame-rate wireless imaging |
KR101786276B1 (ko) * | 2012-10-12 | 2017-11-15 | 캐논 가부시끼가이샤 | 데이터를 스트리밍하기 위한 방법, 데이터를 제공하기 위한 방법, 데이터를 획득하기 위한 방법, 컴퓨터 판독 가능 저장 매체, 서버 장치, 및 클라이언트 장치 |
GB2509953B (en) * | 2013-01-18 | 2015-05-20 | Canon Kk | Method of displaying a region of interest in a video stream |
GB2509954B (en) * | 2013-01-18 | 2016-03-23 | Canon Kk | Method of displaying a region of interest in a video stream |
RU2616185C2 (ru) * | 2013-01-18 | 2017-04-13 | Кэнон Кабусики Кайся | Способ, устройство и компьютерная программа для инкапсуляции сегментированных синхронизированных мультимедийных данных |
US9027067B2 (en) * | 2013-03-12 | 2015-05-05 | The United States Of America, As Represented By The Secretary Of The Navy | System and method for interactive spatio-temporal streaming data |
IN2013CH03069A (zh) * | 2013-07-09 | 2015-08-28 | Samsung India Software Operations Pvt Ltd | |
GB2516825B (en) * | 2013-07-23 | 2015-11-25 | Canon Kk | Method, device, and computer program for encapsulating partitioned timed media data using a generic signaling for coding dependencies |
GB2516826B (en) * | 2013-07-23 | 2016-06-22 | Canon Kk | Method, device and computer program for encapsulating partitioned timed media data by creating tracks to be independently encapsulated in at least one media f |
US10721530B2 (en) * | 2013-07-29 | 2020-07-21 | Koninklijke Kpn N.V. | Providing tile video streams to a client |
US9648348B2 (en) * | 2013-10-23 | 2017-05-09 | Qualcomm Incorporated | Multi-layer video file format designs |
GB2558086B (en) * | 2014-03-25 | 2019-02-20 | Canon Kk | Methods, devices, and computer programs for improving streaming of partitioned timed media data |
WO2015197815A1 (en) * | 2014-06-27 | 2015-12-30 | Koninklijke Kpn N.V. | Determining a region of interest on the basis of a hevc-tiled video stream |
GB2531993B (en) * | 2014-10-14 | 2018-04-25 | Canon Kk | Description of image composition with HEVC still image file format |
GB2533624B (en) * | 2014-12-23 | 2017-08-09 | Canon Kk | Methods, devices, and computer programs for improving coding of media presentation description data |
US10034010B2 (en) * | 2015-10-14 | 2018-07-24 | Qualcomm Incorporated | Alignment of operation point sample group in multi-layer bitstreams file format |
US10306253B2 (en) * | 2015-10-14 | 2019-05-28 | Qualcomm Incorporated | Signaling of parameter sets in files of multi-layer bitstreams |
US9992502B2 (en) * | 2016-01-29 | 2018-06-05 | Gopro, Inc. | Apparatus and methods for video compression using multi-resolution scalable coding |
US10313417B2 (en) * | 2016-04-18 | 2019-06-04 | Qualcomm Incorporated | Methods and systems for auto-zoom based adaptive video streaming |
US10582201B2 (en) * | 2016-05-19 | 2020-03-03 | Qualcomm Incorporated | Most-interested region in an image |
EP3466079B1 (en) * | 2016-05-24 | 2023-07-12 | Nokia Technologies Oy | Method and an apparatus and a computer program for encoding media content |
WO2018038523A1 (ko) * | 2016-08-25 | 2018-03-01 | 엘지전자 주식회사 | 전방향 비디오를 전송하는 방법, 전방향 비디오를 수신하는 방법, 전방향 비디오 전송 장치, 전방향 비디오 수신 장치 |
WO2018038520A1 (ko) * | 2016-08-25 | 2018-03-01 | 엘지전자 주식회사 | 전방향 비디오를 전송하는 방법, 전방향 비디오를 수신하는 방법, 전방향 비디오 전송 장치, 전방향 비디오 수신 장치 |
-
2017
- 2017-10-12 US US15/730,851 patent/US11197040B2/en active Active
- 2017-10-17 TW TW106135473A patent/TWI662833B/zh active
- 2017-10-17 WO PCT/CN2017/106535 patent/WO2018072683A1/en active Application Filing
- 2017-10-17 DE DE112017005235.1T patent/DE112017005235T5/de active Pending
- 2017-10-17 CN CN201780063566.0A patent/CN109891893B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101427579A (zh) * | 2005-12-01 | 2009-05-06 | 诺基亚公司 | 媒体流的时移表现 |
US20100153395A1 (en) * | 2008-07-16 | 2010-06-17 | Nokia Corporation | Method and Apparatus For Track and Track Subset Grouping |
CN104904233A (zh) * | 2012-11-29 | 2015-09-09 | 三星电子株式会社 | 用于封装国际标准化组织基媒体文件中的运动图像专家组媒体传输资源的方法和装置 |
US20160232939A1 (en) * | 2015-02-10 | 2016-08-11 | Nokia Technologies Oy | Method, an apparatus and a computer program product for processing image sequence tracks |
Also Published As
Publication number | Publication date |
---|---|
US11197040B2 (en) | 2021-12-07 |
CN109891893A (zh) | 2019-06-14 |
WO2018072683A1 (en) | 2018-04-26 |
TW201820869A (zh) | 2018-06-01 |
DE112017005235T5 (de) | 2019-07-11 |
CN109891893B (zh) | 2022-04-12 |
US20180109817A1 (en) | 2018-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI662833B (zh) | 在流媒體中推導和用信號發送區域和視埠 | |
TWI712313B (zh) | 感興趣區之發信號之系統及方法 | |
JP6676771B2 (ja) | メディアファイルにおけるバーチャルリアリティビデオの記憶 | |
KR102406887B1 (ko) | 시간 설정형 미디어 데이터를 발생시키는 방법, 디바이스, 및 컴퓨터 프로그램 | |
KR102246002B1 (ko) | 가상 현실 미디어 콘텐트의 스트리밍을 개선하는 방법, 디바이스, 및 컴퓨터 프로그램 | |
CN109716759B (zh) | 提升质量递送及合成处理 | |
CN109155874B (zh) | 虚拟现实媒体内容的自适应流传输的方法、装置和计算机程序 | |
US11457231B2 (en) | Methods and apparatus for signaling spatial relationships for point cloud multimedia data tracks | |
JP6150011B2 (ja) | インタラクティビティのための動き制約タイルセットseiメッセージの拡張 | |
WO2018127123A1 (en) | Methods and apparatus for signaling viewports and regions of interest | |
US10404991B2 (en) | Method of displaying a region of interest in a video stream | |
TWI768487B (zh) | 用於編碼/解碼沉浸式媒體的視訊資料的方法和裝置 | |
KR102559862B1 (ko) | 미디어 콘텐츠 전송을 위한 방법, 디바이스, 및 컴퓨터 프로그램 | |
JP7553566B2 (ja) | ビデオコーディングにおけるサブピクチャ信号伝達 | |
KR20170132098A (ko) | 레거시 및 몰입형 렌더링 디바이스를 위한 몰입형 비디오를 포맷팅하는 방법, 장치 및 스트림 | |
KR20200019718A (ko) | 이미지 처리 방법, 단말기, 및 서버 | |
JP7472285B2 (ja) | ビデオコーディングにおけるサブピクチャ信号伝達 | |
JP7373581B2 (ja) | メディアコンテンツにおけるレイトバインディングのための方法および装置 | |
US12010402B2 (en) | Data processing for immersive media | |
WO2019062613A1 (zh) | 一种媒体信息的处理方法及装置 | |
KR20150092250A (ko) | Jctvc-l0227: 프로필-계층-레벨 구문 구조의 업데이트를 갖는 vps_extension | |
WO2020157376A1 (en) | An apparatus, a method and a computer program for volumetric video | |
EP4030772A1 (en) | Data processing method, device and apparatus for immersive media, and storage medium |