TWI768487B - 用於編碼/解碼沉浸式媒體的視訊資料的方法和裝置 - Google Patents

用於編碼/解碼沉浸式媒體的視訊資料的方法和裝置 Download PDF

Info

Publication number
TWI768487B
TWI768487B TW109134038A TW109134038A TWI768487B TW I768487 B TWI768487 B TW I768487B TW 109134038 A TW109134038 A TW 109134038A TW 109134038 A TW109134038 A TW 109134038A TW I768487 B TWI768487 B TW I768487B
Authority
TW
Taiwan
Prior art keywords
track
immersive media
tracks
data
region
Prior art date
Application number
TW109134038A
Other languages
English (en)
Other versions
TW202118289A (zh
Inventor
新 王
魯林 陳
Original Assignee
新加坡商聯發科技(新加坡)私人有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 新加坡商聯發科技(新加坡)私人有限公司 filed Critical 新加坡商聯發科技(新加坡)私人有限公司
Publication of TW202118289A publication Critical patent/TW202118289A/zh
Application granted granted Critical
Publication of TWI768487B publication Critical patent/TWI768487B/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/762Media network packet handling at the source 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/764Media network packet handling at the destination 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本文描述的技術涉及被配置為編碼和/或解碼視訊資料的方法、裝置和電腦可讀介質。沉浸式媒體資料包括第一補丁軌道,該第一補丁軌道包括與沉浸式媒體內容的第一空間部分相對應的第一編碼沉浸式媒體資料,該第二補丁軌道包括與第二沉浸式媒體資料的第二空間部分相對應的第二編碼沉浸式媒體資料,該第二空間部分與該第一空間部分不同。基本資料軌道包括第一沉浸式媒體基本資料,其中第一補丁軌道和/或第二補丁軌道參考該基本資料軌道,以及沉浸式媒體基本資料中用於指定第一補丁軌道和第二補丁軌道之間的空間關係的分組資料。基於第一補丁軌道、第二補丁軌道、基本資料軌道和分組資料、編碼和/或解碼操作被執行,以生成解碼的沉浸式媒體。

Description

用於編碼/解碼沉浸式媒體的視訊資料的方法和裝置
本發明涉及視訊編碼,更具體地,涉及用於在空間分組沉浸式媒體資料軌道中的區域傳訊的方法和裝置。
存在各種類型的視訊內容,例如2D內容,3D內容和多維(multi-directional)內容。例如,全向視訊是使用攝像機集合捕獲的一種視訊,與傳統的單向視訊所使用的單個攝像機相反。例如,攝像機被放置在特定的中心點周圍,以便每個攝像機捕獲場景的球面覆蓋的一部分視訊來捕獲360度視訊。來自多個攝像機的視訊可被拼接,可能被旋轉,並投影,以生成表示球面內容的投影二維圖像。例如,等距的矩形投影可被用來將球面映射成二維圖像。例如,這可以使用二維編碼和壓縮技術來完成。最終,經編碼的和壓縮的內容被存儲並且使用期望的傳遞機制(例如,拇指驅動器(thumb drive),數位視訊光碟(digital video disk,簡稱DVD)和/或線上流媒體(online streaming))來傳遞。此類視訊可用於虛擬實境(virtual reality,簡稱VR)和/或3D視訊。
在用戶端側,當用戶端處理內容時,視訊解碼器會對已編碼的視訊進行解碼,然後執行反向投影以將內容放回球體。然後,使用者可觀看渲染的內容,例如使用頭戴式觀看設備。內容通常是根據使用者的視埠渲染,該視埠表示使用者正在觀看內容的角度。視埠也可包括代表觀察區域的組件,該組 件可描述觀察者正在以特定角度觀察的區域的大小和形狀。
當視訊處理未以視埠相關的方式完成時,視訊編碼器將不知道使用者實際觀看的內容,則整個編碼和解碼進程將處理整個球面內容。由於所有球面內容都被傳遞和解碼,這可允許使用者在任一特定的視埠和/或區域觀看內容。
但是,處理所有球面內容可能需要大量計算,並且會佔用大量頻寬。例如,對於線上流應用,處理所有球面內容可能會給網路頻寬帶來很大負擔。因此,當頻寬資源和/或計算資源受到限制時,其可能難以保留使用者的體驗。一些技術僅處理使用者正在觀看的內容。例如,如果使用者正在觀看正面(例如北極),則不需要傳遞內容的背面部分(例如南極)。如果使用者更改了視埠,則內容相應地被傳遞用於新視埠。作為另一示例,對於自由視點電視(free viewpoint,簡稱FTV)應用(例如,使用多個攝像機捕獲場景的視訊),內容根據使用者觀看場景的角度來傳遞。例如,如果使用者正在從一個視埠(例如,攝像機和/或相鄰攝像機)觀看內容,可能不需要傳遞其他視埠的內容。
根據所公開的主題,裝置、系統和方法被提供用於處理(例如,編碼或解碼)點雲視訊資料和/或沉浸式媒體資料結構中的其他3D沉浸式媒體。
一些實施例涉及一種用於解碼沉浸式媒體的視訊資料的解碼方法。該方法包括訪問包括軌道集合的沉浸式媒體資料,其中該軌道集合中的每個軌道包括相關聯的待解碼的沉浸式媒體資料,該沉浸式媒體資料對應於與該軌道集合中的其他軌道的相關聯的空間部分不同的沉浸式媒體內容的相關聯的空間部分;基本資料軌道,包括第一沉浸式媒體基本資料,其中,該軌道集合中的至少一個軌道參考該基本資料軌道;分組資料,用於指定沉浸式媒體內容 中的該軌道集合中的軌道之間的空間關係;以及區域元資料,其包括用於指定沉浸式媒體內容中的觀看區域與該軌道集合的軌道的子集合之間的空間關係的資料,其中,該軌道子集合中的每個軌道構建了該區域的視覺內容的至少一部分。該方法還包括基於該軌道集合,基本資料軌道,分組資料和區域元資料執行解碼操作,以生成解碼的沉浸式媒體資料。
在一些示例中,訪問沉浸式媒體資料包括訪問包括補丁軌道集合的沉浸式媒體位元流,其中每個補丁軌道對應於該軌道集合中的相關軌道;以及基本資料軌道,其中該補丁軌道集合中的每個補丁軌道都參考該基本資料軌道。在一些示例中,訪問沉浸式媒體資料包括訪問沉浸式媒體位元元流集合,其中每個沉浸式媒體位元流包括來自該軌道集合的軌道;以及相關聯的基本資料軌道,其中該軌道參考相關聯的基本資料軌道,使得來自該沉浸式媒體位元元流集合的沉浸式媒體位元流包括基本資料軌道。
在一些示例中,該區域包括可視沉浸式媒體資料的子部分,該子部分小於沉浸式媒體資料的整個可視部分。在一些示例中,該區域包括視埠。
在一些示例中,訪問區域元資料包括訪問該軌道集合中的每個軌道中的軌道分組框(track grouping box)。在一些示例中,訪問區域元資料包括訪問參考軌道的子集合的定時元資料軌道。
在一些示例中,訪問沉浸式媒體資料包括訪問流列表文檔(streaming manifest file),該流列表文檔包括對該軌道集合中的每個軌道的軌道表示。
在一些示例中,每個軌道表示與組件軌道表示的集合相關聯。
在一些示例中,流列表文檔包括指定區域元資料的描述符。在一些示例中,流列表文檔包括用於包括區域元資料的定時元資料軌道的定時元資料表示。
在一些示例中,沉浸式媒體內容包括點雲多媒體。
在一些示例中,基本資料軌道包括:至少一個幾何軌道,包括沉浸式媒體的幾何資料;至少一個屬性軌道,包括沉浸式媒體的屬性資料;佔用軌道,包括沉浸式媒體的佔用圖資料,以及訪問沉浸式媒體資料包括訪問:該至少一個幾何軌道中的幾何資料;該至少一個屬性軌道中的屬性資料;以及該佔用軌道的佔用圖資料。執行解碼操作包括:使用該幾何資料,該屬性資料和該佔用圖資料執行解碼操作,以生成解碼的沉浸式媒體資料。
一些實施例涉及一種用於對沉浸式媒體的視訊資料進行編碼的編碼方法。該方法包括對沉浸式媒體資料進行編碼,包括對至少一個軌道集合進行編碼,其中,該軌道集合中的每個軌道包括相關聯的待編碼的沉浸式媒體資料,該沉浸式媒體資料對應於與該軌道集合中其他軌道的相關空間部分不同的沉浸式媒體內容的相關空間部分;基本資料軌道,包括第一沉浸式媒體基本資料,其中,該軌道集合中的至少一個軌道參考該基本資料軌道;分組資料,用於指定沉浸式媒體內容中的該軌道集合中的軌道之間的空間關係;以及區域元資料,包括用於指定沉浸式媒體內容中的觀看區域與該軌道集合的軌道的子集合之間的空間關係的資料,其中,該軌道子集合中的每個軌道構建了該區域的視覺內容的至少一部分。
在一些示例中,對沉浸式媒體資料進行編碼包括:對包括補丁軌道集合的沉浸式媒體位元流進行編碼,其中每個補丁軌道對應於該軌道集合中的關聯軌道;以及基本資料軌道,其中該補丁軌道集合中的每個補丁軌道都參考基本資料軌道。
在一些示例中,對沉浸式媒體資料進行編碼包括對沉浸式媒體位元流集合進行編碼,其中每個沉浸式媒體位元流包括來自該軌道集合的軌道;以及相關聯的基本資料軌道,其中該軌道參考相關聯的基本資料軌道,使得來 自沉浸式媒體位元流集合的沉浸式媒體位元流包括基本資料軌道。
在一些示例中,對區域元資料進行編碼包括對該軌道集合中的每個軌道中的軌道分組框進行編碼。在一些示例中,對區域元資料進行編碼包括對參考軌道的子集合的定時元資料軌道進行編碼。
在一些示例中,對沉浸式媒體資料進行編碼包括對流列表文檔進行編碼,該流列表文檔包括用於該軌道集合中的每個軌道的軌道表示。
一些實施例涉及一種存儲指令的非暫時性電腦可讀存儲介質,該指令在由處理器執行時使處理器執行一種方法。該方法包括對包括軌道集合的沉浸式媒體資料進行編碼,其中,該軌道集合中的每個軌道包括相關聯的待解碼的沉浸式媒體資料,該沉浸式媒體資料對應於與該軌道集合中的其他軌道的相關聯的空間部分不同的沉浸式媒體內容的相關聯的空間部分;基本資料軌道,包括第一沉浸式媒體基本資料,其中,該軌道集合中的至少一個軌道參考該基本資料軌道;分組資料,用於指定沉浸式媒體內容中的該軌道集合中的軌道之間的空間關係;區域元資料包括指定在沉浸式媒體內容中的觀看區域與該軌道集合的軌道的子集合之間的空間關係的資料,其中軌道的子集合中的每個軌道構建了該區域的視覺內容的至少一部分。該方法還包括基於該軌道集合,基本資料軌道,分組資料和區域元資料執行解碼操作,以生成解碼的沉浸式媒體資料。
因此,已經相當廣泛地概述了所公開主題的特徵,以便更好地理解其隨後的詳細描述,並且更好地理解對本領域的當前構建。當然,在下文中將描述所公開的主題的額外特徵,這些額外特徵將構成所附申請專利範圍的主題。應當理解,本文採用的措詞和術語是出於描述的目的,而不應被認為是限制性的。
102A-102N:攝像機
104:編碼設備
106:視訊處理器
108:編碼器
110:解碼設備
112:解碼器
114:渲染器
116:顯示器
201:球面視埠
202、204、206、208、210、214、212:塊
300:流程
302:用戶端
304:點雲內容
306:解析器模組
308:2D平面視訊位元流
310:2D視訊解碼器
312:元資料
314:2D視訊到3D點雲轉換器模組
316:渲染器模組
318:顯示器
320:使用者交互資訊
400:自由視圖路徑
402:場景
500:示例圖
502:大框
504:3D點雲內容
506、508、510:3D邊界框
512、514、516:2D邊界框
518:視埠
600:示例圖
602:3D邊界框
604、606、608:子區域
612、614、616、650、652、654:節點
700:示例圖
702:2D邊界框
704、706、708:子區域
712、714、716、750、752、754:節點
802:V-PCC位元流
804:V-PCC單元
804A:V-PCC單元
806:序列參數集合
808:補丁序列資料單元
810:佔用視訊資料
812:幾何視訊資料
814:屬性視訊資料
816:補丁序列資料單元類型
900:V-PCC容器
902:元資料框
904:影片框
906:軌道
908:幾何軌道
910:組件軌道
912:佔用軌道
1000:容器結構
1002:參數軌道
1004:幾何視訊軌道
1006:屬性視訊軌道
1008:佔用圖視訊軌道
1010:軌道
1100:容器
1101、1102、1103:圖塊補丁
1105:軌道組
1106:軌道組
1202、1204、1206、1208、1210、1212、1214:軌道
1216:軌道組
1218:軌道組
1300:示例圖
1301、1302、1303:軌道
1305、1306、1307:空間部分
1400:示例圖
1401、1402、1403:軌道
1405、1406、1407:空間部分
1700:方法
1701、1702:步驟
1800:方法
1802、1804、1806、1808:步驟
1910、1920、1930、1940:資料結構
1911、1912、1913、1921、1922、1923、1931、1932、1933、1941、1942、1943:欄位
2010:資料結構
2011、2012、2021、2022、2031:欄位
2110、2120:資料結構
2111、2111a、2111b、2112、2112a、2122、2122a、2122b、2122c、2123、2123a、2123b、2124、2124a:欄位
2210、2220:資料結構
2211、2212、2213、2214、2215、2215a、2216、2216a、2217、2217a、2218、2221、2222、2223、2224、2225、2225a、2226、2226a、2227、2227a、2228:欄位
2310、2320:資料結構
2311、2312、2313、2314、2315、2316、2316a、2317、2317a、2318、2318a、2319、2319a、2319b、2321、2322、2323、2324、2325、2326、2326a、2327、2327a、2328、2328a、2329、2329a、2329b:欄位
2410、2420:資料結構
2411、2412、2413、2414、2415、2415a、2416、2416a、2417、2417a、2417b、2421、2422、2423、2424、2425、2426、2426a、2427、2427a、2428、2428a、2429、2429a、2429b:欄位
2500:2D平面區域
2502:組件
2610、2620:資料結構
2611、2612、2613、2614、2615、2616、2621、2622、2623、2624、2625、2626、2627、2628、2629、2630、2631、2632、2633:欄位
2700:球面圖
2701:球面區域
2810、2820:資料結構
2811、2812、2813、2814、2815、2816、2821、2822、2823、2824、2825、2826、2827、2828、2829、2830、2831、2832、2833:欄位
2900:3D平面區域
3010、3020:資料結構
3011、3012、3013、3014、3015、3016、3021、3022、3023、3024、3025、3026、3027、3028、3029、3030、3031、3032、3033:欄位
3100:3D圖塊區域
3210、3230:資料結構
3211、3212、3213、3214、 3215、3216、3221、3222、3223、3224、3225、3226、3227、3228、3229、3230、3231、3232、3233:欄位
3300:資料結構
3321、3322、3323、3324、3325、3326、3327、3328、3329、3330、3331、3332、3333:欄位
3400:資料結構
3421、3422、3423、3424、3425、3426、3427、3428、3429、3430、3431、3432、3433:欄位
3500:資料結構
3521、3522、3523、3524、3525、3526、3527、3528、3529、3530、3531、3532、3533:欄位
3600:資料結構
3621、3622、3623、3624、3625、3626、3627、3628、3629、3630、3631、3632、3633:欄位
3710、3720:資料結構
3711、3712、3713、3714、3715、3716、3721、3722、3723、3724、3725:欄位
3810、3820:資料結構
3811、3812、3813、3814、3815、3816、3817、3821、3822、3823、3824、3825、3826:欄位
3900:表
4000:方法
4002A-4002N:軌道
4004:小區域
4100:方法
4101、4102:步驟
在附圖中,在各個圖中示出的每個相同或幾乎相同的組件由相同的附圖標記表示。為清楚起見,並非每個組件都在每張圖紙中標記。附圖不一定按比例繪製,而是將重點放在說明本文描述的技術和裝置的各個方面。
第1圖示出根據一些實施例的示例性視訊編解碼配置。
第2圖示出根據一些示例的用於VR內容的視埠相關的內容流處理。
第3圖示出根據一些示例的用於點雲內容的示例性處理流程。
第4圖示出根據一些示例的自由視圖路徑的示例。
第5圖示出根據一些示例的包括3D和2D邊界框的示例性點雲圖塊(tile)的圖。
第6圖示出根據一些實施例的用於3D子體積分解的示例性基於八叉樹的劃分的圖。
第7圖示出根據一些實施例的用於2D子圖像分解的示例性基於四叉樹的劃分的示例圖。
第8圖示出根據一些示例的由V-PCC單元集合組成的V-PCC位元流。
第9圖示出根據一些示例的基於ISOBMFF的V-PCC容器。
第10圖示出根據一些實施例的被設計為支援軌道推導的點雲結構的示例。
第11圖示出根據一些實施例的V-PCC補丁級別劃分的示例。
第12圖示出V-PCC軌道和組件軌道之間的關聯的示例圖。
第13圖示出根據一些實施例的基於第6圖中所示的3D子體積分解的示例性八叉樹劃分的子體積軌道的三個“3dcc”軌道組的示例圖。
第14圖示出根據一些實施例的基於第7圖中所示的2D子圖像分解的示例性四叉樹的劃分的子體積軌道的三個“2dcc”軌道組的示例圖。
第15圖示出根據一些實施例的用於解碼沉浸式資料的視訊資料的示例性方法。
第16圖示出根據一些實施例的用於編碼沉浸式資料的視訊資料的示例性方法。
第17圖示出根據一些實施例的用於3D元素的元資料資料結構的示例圖。
第18圖示出根據一些實施例的用於2D元素的元資料資料結構的示例圖。
第19圖示出根據一些實施例的用於2D和3D元素的元資料資料結構的示例圖。
第20圖示出根據一些實施例的用於2D和3D源的元資料資料結構的示例圖。
第21圖示出根據一些實施例的具有2DoF和6DoF的區域的元資料資料結構的示例圖。
第22圖示出根據一些實施例的用於具有3DoF和6DoF的視埠的元資料資料結構的示例圖。
第23圖示出根據一些實施例的具有2DoF的2D平面區域的示例圖。
第24圖示出根據一些實施例的用於在定時元資料軌道內發送具有2DoF的2D平面區域的樣本條目和樣本格式的示例圖。
第25圖示出根據一些實施例的具有6DoF的3D球體區域的示例圖。
第26圖示出根據一些實施例的用於在定時元資料軌道內發送具有6DoF的3D平面區域的樣本條目和樣本格式的示例圖。
第27圖示出根據一些實施例的具有6DoF的3D平面區域的示例圖。
第28圖示出根據一些實施例的用於在定時元資料軌道內發送具有2DoF的2D平面區域的樣本條目和樣本格式的示例圖。
第29圖示出根據一些實施例的具有6DoF的3D圖塊區域的示例圖。
第30圖示出根據一些實施例的用於在定時元資料軌道內發送具有6DoF的3D圖塊區域的樣本條目和示例格式的示例圖。
第31圖示出根據一些實施例的在軌道組中用空間區域的2DoF空間關係發送2D平面區域的示例圖。
第32圖示出根據一些實施例的在軌道組中用空間區域的6DoF空間關係發送3D球體區域的示例圖。
第33圖示出根據一些實施例的在軌道組中用空間區域的6DoF空間關係發送3D平面區域的示例圖。
第34圖示出根據一些實施例的在軌道組中用空間區域的6DoF空間關係發送3D圖塊區域的示例圖。
第35圖示出根據一些實施例的用於在定時元資料軌道中用3DoF(例如,用於3D空間中的2D面/圖塊和/或類似物)發送視埠的樣本條目和樣本格式的示例圖。
第36圖示出根據一些實施例的用於在定時元資料軌道中用3DoF(例如,用於3D空間中的2D面/圖塊和/或類似物)發送視埠的樣本條目和樣本格式的示例圖。
第37A-37B圖示出根據一些實施例的靜態SRD方案的EssentialProperty@value以及/或SupplementalProperty@value屬性的示例表。
第38圖示出根據一些實施例的劃分的沉浸式媒體流中的區域的示例。
第39圖示出根據一些實施例的用於解碼沉浸式媒體的視訊資料的示例性方法。
點雲資料(point cloud)或其他沉浸式媒體(例如基於視訊的點雲壓縮(Video-based Point Cloud Compression,簡稱V-PCC))資料可提供用於各種類型的3D多媒體應用的壓縮的點雲資料。點雲內容的常規存儲結構將點雲內容(例如V-PCC組件軌道)呈現為單元(例如V-PCC單元)的定時器-系列序列,這些序列對相關的沉浸式媒體資料的整個沉浸式媒體內容進行編碼,並且還包括組件資料軌道(例如,幾何形狀,紋理和/或佔用軌道)的集合。這樣的常規技術沒有提供將點雲內容細分為由存儲結構中的各個單元攜帶的較小部分。因此,期望提供用於對點雲視訊資料的不同部分進行編碼和/或解碼的技術(例如,使用分別對點雲內容的相關聯的不同部分進行編碼的單獨的位元流和/或補丁軌道)。本文描述的技術提供了點雲內容結構,其可以利用單獨的位元流和/或單獨 的補丁軌道來分解和編碼原始的沉浸式媒體內容(例如,可以包括2D和/或3D點雲內容)。例如,出於部分訪問的目的,V-PCC流被劃分/子劃分/平鋪為多個(a)圖塊/區域流,然後是圖塊軌道組(例如,結合第12圖所討論的)和/或(b)圖塊/區域補丁軌道,以及公用組件軌道(例如,結合第11圖所討論的)。軌道分組框方法(例如第11和12圖所討論的)可用於這種劃分/子劃分/平舖。
給定這樣的劃分,發明人已經發現並意識到需要在編碼的劃分的沉浸式媒體資料中發送區域或視埠。例如,可能希望用其源劃分的體積軌道(例如,主導的(leading))來發送任一區域和該區域的空間關係。發明人已經開發了對常規沉浸式媒體技術的技術改進,以發送沉浸式媒體資料中的區域或視埠(例如,圖塊劃分上方待發送的區域)。根據一些實施例,額外的軌道分組框被用來發送構建區域的那些(例如,主要的)體積軌道的關係。根據一些實施例,定時元資料軌道可被用來攜帶區域資訊並將其自身與構建區域的那些(例如,主要的)體積軌道相關聯。
額外的分組資訊或定時元資料軌道可被用來僅發送或傳遞構建特定區域的軌道。該技術可用於改善視埠相關的點雲媒體處理,於是取決於使用者的視埠,僅區域的相關補丁軌道需要被處理。例如,只有與該內容相關聯的補丁軌道以及該區域在空間上隨時間的任一預期移動都可被傳輸到使用者設備進行解碼和處理。由於先前的點雲內容結構編碼了整個點雲內容,此類結構不允許在軌道級別對沉浸式媒體內容進行基於視埠的處理。此外,這些技術可用於從內容生產者的角度發送興趣的區域和/或推薦的視埠,例如,指導使用者導航和消費沉浸式內容。
在下面的描述中,所公開主題的系統和方法以及此類系統和方法可以在其中操作的環境等有關的大量具體細節被闡述,以便提供對所公開主題的透徹理解。另外,將理解的是,下面提供的示例是示例性的,並且可以想到, 在所公開的主題的範圍內存在其他系統和方法。
第1圖示出根據一些實施例的示例性視訊編解碼配置100。攝像機102A-102N是N個相機,以及可以是任何類型的攝像機(例如,具備錄音功能的攝像機,和/或單獨的照相機和錄音功能)。編碼設備104包括視訊處理器106和編碼器108。視訊處理器106處理從相機102A-102N接收的視訊,諸如拼接,投影和/或映射。編碼器108對二維視訊資料進行編碼和/或壓縮。解碼裝置110接收已編碼的資料。藉由廣播網路,藉由移動網路(例如,蜂窩網路)和/或藉由互聯網,解碼設備110可接收作為視訊產品的視訊(例如,數位視訊盤或其他電腦可讀介質)。解碼設備110可以是例如電腦,頭戴式顯示器的一部分或具有解碼能力的任一其他設備。解碼設備110包括解碼器112,其被配置為對已編碼的視訊進行解碼。解碼設備110還包括渲染器114,其用於將二維內容渲染回用於播放的格式。顯示器116顯示來自渲染器114的已渲染內容。
通常,球面內容被用來表示3D內容,以提供場景的360度視圖(例如,有時稱為全向(ominidirectional)媒體內容)。儘管可使用3D球體來支援許多視圖,終端使用者通常只觀看3D球體上的一部分內容。傳輸整個3D球所需的頻寬可能會給網路帶來沉重負擔,並且可能不足以支援球面內容。因此,期望使3D內容傳遞更加有效。視埠相關的處理可被執行以改善3D內容傳遞。3D球體內容可被劃分為區域/圖塊(tile)/子圖像,以及只有與觀看螢幕(例如,視埠)相關的內容才能被發送並被傳遞給終端使用者。
第2圖示出根據一些示例的用於VR內容的視埠相關的內容流處理200。如圖所示,球面視埠201(例如,其可能包括整個球體)在塊202處進行拼接,投影,映射(以生成經投影以及經映射區域),在塊204處進行編碼(以生成多種品質的編碼/轉碼圖塊)在塊206處被傳遞(作為圖塊),在塊208處被解碼(以生成解碼的圖塊),在塊210處被構建(以構建球面渲染的視埠),以及在 塊212處被渲染。在塊214處的使用者交互可選擇視埠,該視埠將啟動多個“即時”處理步驟,如虛線箭頭所示。
在處理200中,由於當前網路頻寬限制和各種適應性需求(例如,關於不同的品質,編解碼器和投影方案),3D球面VR內容首先在2D平面上被處理(拼接,投影和映射)(在塊202),然後被封裝在多個基於圖塊(或基於子圖像)和分段文檔中(在塊204),以進行傳遞和播放。在這種基於圖塊的分段文檔中,通常2D平面中的空間圖塊(例如,其代表空間部分,通常為2D平面內容的矩形)被封裝為其變體的集合,例如以不同的品質和位元速率,或以不同的編解碼器和投影方案(例如,不同的加密演算法和模式)。在一些示例中,這些變體對應於MPEG DASH中的適應性集合內的表示。在一些示例中,基於使用者對視埠的選擇,當被放在一起時提供所選擇的視埠的覆蓋範圍的不同圖塊的該些變體中的一些,由接收器檢索或被傳遞給接收器(藉由傳遞塊206),然後被解碼(在塊208處)以構造和渲染所期望的視埠(在塊210和212處)。
在第2圖中,視埠概念是終端使用者所觀看的內容,其涉及球體上區域的角度和大小。通常,對於360度內容,該技術將所需的圖塊/子圖像內容傳遞給用戶端,以覆蓋使用者將觀看的內容。由於該技術僅提供覆蓋當前興趣視埠的內容,此處理是視埠相關的,而不是整個球面內容。視埠(例如,一種球面區域)可以改變,因此不是靜態的。例如,當使用者移動頭部時,系統需要獲取相鄰圖塊(或子圖像)以覆蓋使用者接下來要觀看的內容。
興趣區域(region of interest,簡稱ROI)在概念上與視埠有些相似。ROI可以例如表示全向視訊的3D或2D編碼的區域。ROI可以具有不同的形狀(例如,正方形或圓形),該形狀可相對於3D或2D視訊被指定(例如,基於位置,高度等)。例如,ROI可表示圖像中可被放大的區域,並且相應的ROI視訊可被顯示為放大的視訊內容。在一些實施方式中,ROI視訊已被準備。在這樣的實施 例中,ROI通常具有承載ROI內容的單獨的視訊軌道。因此,已編碼的視訊指定ROI,以及ROI視訊如何與底層的視訊(underlying video)相關聯。本文所描述的技術是根據區域來描述的,該區域可包括視埠,ROI和/或視訊內容中的其他興趣區域。
ROI或視埠軌道可與主視訊相關聯。例如,ROI可與主視訊相關聯,以促進放大和縮小操作,其中ROI被用來提供放大區域的內容。例如,2016年6月2日的MPEG-B、部分10、標題“Carriage of Timed Metadata Metrics of Media in ISO Base Media File Format”(w16191,也是ISO/IEC 23001-10:2015),描述了一種ISO基本媒體文檔案格式(ISO Base Media File Format,簡稱ISOBMFF)文檔格式,該文檔案格式使用定時元資料軌道來發送主要2D視訊軌道具有2D ROI軌道,其全部內容以引用方式併入本發明。作為另一示例,HTTP上的動態自適應流(Dynamic Adaptive Streaming over HTTP,簡稱DASH)包括空間關係描述符,以發送主要2D視訊表示與其相關聯的2D ROI視訊表示之間的空間關係。2016年7月29日,ISO/IEC 23009-1的第三版草案(w10225)解決了DASH問題,其全部內容以引用方式併入本發明。作為另一示例,全向媒體格式(Omnidirectional MediA Format,簡稱OMAF)在ISO/IEC 23090-2中被指定,其全部內容以引用方式併入本發明。OMAF指定用於全向媒體的編解碼、存儲、傳遞和渲染的全向媒體格式。OMAF指定坐標系,以致使用者的觀看視角是從球體的中心向外看向球體的內表面。OMAF包括用於全向媒體以及球面區域的定時元資料的ISOBMFF的擴展。
當發送ROI時,各種資訊可被生成,包括與ROI的特徵有關的資訊(例如,識別字、類型(例如,位置、形狀和大小)、目的、品質、等級等)。資訊可被生成以使內容與ROI相關聯,包括與視覺(3D)球面內容和/或球面內容的經投影和經映射(2D)幀相關聯。ROI可由許多屬性來表徵,例如其識別 字,與之關聯的內容內的位置,以及其形狀和大小(例如,相對於球面和/或3D內容)。如本文進一步討論的,諸如區域品質和速率等級的額外屬性也可被添加。
點雲資料可包括場景中的3D點集合。基於(x,y,z)位置和顏色資訊,例如(R,V,B),(Y,U,V),反射率,透明度等,每個點被指定。點雲點通常是無序的,並且通常不包括與其他點的關係(例如,這樣指定每個點而不參考其他點)。點雲資料可用於許多應用,例如提供6個自由度(6 DoF)的3D沉浸式媒體體驗。但是,點雲資訊可能會消耗大量資料,如果藉由網路連接在設備之間進行傳輸,點雲資訊又會消耗大量頻寬。例如,如果未被壓縮,則場景中的800,000個點可消耗1Gbps。因此,通常需要壓縮以使點雲資料可用於基於網路的應用。
MPEG一直在進行點雲壓縮以減小點雲資料的大小,這可以使點雲資料以即時流傳輸供其他設備使用。第3圖示出根據一些示例的用於點雲內容的示例性處理流程300,其作為一般視埠/ROI(例如3DoF/6DoF)處理模型的特定實例。處理流程300例如在N17771,“PCC WD V-PCC(Video-based PCC),”Ljubljana,SI(在2018年8月)中進一步詳細描述,其全部內容以引用方式併入本發明。用戶端302接收點雲媒體內容文檔304,其由兩個2D平面視訊位元流和指定2D平面視訊到3D體積視訊轉換的元資料組成。內容2D平面視訊到3D體積視訊轉換元資料可位於文檔級別作為定時元資料軌道,也可位於2D視訊位元流內部作為SEI消息。
解析器模組306讀取點雲內容304。解析器模組306將兩個2D視訊位元流308傳遞到2D視訊解碼器310。解析器模組306將2D平面視訊到3D體積視訊轉換元資料312傳遞到2D視訊到3D點雲轉換器模組314。本地用戶端的解析器模組306可將一些要求遠端渲染(例如,具有更大的計算能力,專用渲染引擎等)的資料傳遞到遠端渲染模組(未顯示)以進行部分渲染。2D視訊解碼器模組310 解碼2D平面視訊位元流308以生成2D像素資料。2D視訊到3D點雲轉換器模組314根據需要使用從解析器模組306接收的元資料312將來自2D視訊解碼器模組310的2D像素資料轉換為3D點雲資料。
渲染器模組316接收有關使用者的6度視埠資訊的資訊,並確定點雲媒體待渲染的部分。如果遠端渲染器被使用,則使用者的6DoF視埠資訊也可被傳遞到遠端渲染器模組。藉由使用3D資料或3D資料和2D像素資料的組合,渲染器模組316生成點雲媒體。如果存在來自遠端渲染器模組的部分渲染的點雲媒體資料,則渲染器模組316也可將此類資料與本地渲染的點雲媒體組合以生成最終點雲視訊以在顯示器318上顯示。使用者交互資訊320(例如,使用者在3D空間中的位置或使用者的方向和視點)可被傳遞到處理點雲媒體所涉及的模組(例如,解析器306、2D視訊解碼器310和/或2D視訊到3D點雲轉換器模組314)以根據使用者的交互資訊320動態地改變資料的一部分以適應性地渲染內容。
為了實現這種基於使用者交互的渲染,用於點雲媒體的使用者交互資訊需要被提供。特別地,使用者交互資訊320需要被指定和發送,以便用戶端302與渲染模組316進行通訊,包括提供使用者選擇的視埠的資訊。藉由編輯剪輯或推薦或引導視圖或視埠,點雲內容被顯示給使用者。第4圖示出根據一些示例的自由視圖路徑400的示例。自由視圖路徑400允許使用者在該路徑上移動以從不同視點觀看場景402。
視埠,例如推薦視埠(例如,基於視訊的點雲壓縮(Video-based Point Cloud Compression,簡稱V-PCC)視埠)可被發送以用於點雲內容。點雲視埠,例如PCC(例如,V-PCC或基於幾何的點雲壓縮(Geometry based Point Cloud Compression,簡稱G-PCC))視埠,可以是適合於使用者顯示和觀看的點雲內容的區域。視使用者的觀看設備而定,視埠可以是2D視埠或3D視埠。例如,視埠可以是3D空間中具有六個自由度(6 DoF)的3D球體區域或2D平面區域。這些 技術可以利用6D球面座標(例如“6dsc”)和/或6D笛卡爾(Cartesian)座標(例如“6dcc”)來提供點雲視埠。包括利用“6dsc”和“6dcc”在內的視埠信令技術,在共同擁有的申請號為16/738,387,標題為“Methods and Apparatus for Signaling Viewports and Regions of Interest for Point Cloud Multimedia Data,”的美國專利申請中被描述,其全部內容以引用方式併入本發明。該技術可包括6D球面座標和/或6D笛卡爾座標作為定時元資料,例如ISOBMFF中的定時元資料。該技術可使用6D球面座標和/或6D笛卡爾座標來指定2D點雲視埠和3D點雲視埠,包括存儲在ISOBMFF文檔中的V-PCC內容。“6dsc”和“6dcc”可以是2D空間中平面區域的2D笛卡爾座標“2dcc”的自然擴展,如MPEG-B第10部分所提供的。
在V-PCC中,基於視訊的點雲的幾何和紋理資訊被轉換為2D投影幀,然後被壓縮為不同的視訊序列的集合。視訊序列可以是三種類型:一種代表佔用圖資料,另一種代表幾何資料,第三種代表點雲資料的紋理資訊。幾何軌道可包含例如點雲資料的一個或多個幾何方面,例如點雲的形狀資訊,尺寸資訊和/或位置資訊。紋理軌道可包含例如點雲資料的一個或多個紋理方面,例如點雲的顏色資訊(例如,紅色,綠色,藍色(Red,Green,Blue,簡稱RGB)的RGB資訊),不透明度資訊,反射率資訊和/或反照率資訊。該些軌道可用於重構點雲的3D點集合。解釋幾何和視訊序列所需的額外元資料(例如輔助補丁資訊)可被分別生成和壓縮。儘管本文提供的示例是在V-PCC的背景下進行解釋的,但應瞭解,此類示例僅用於說明目的,並且本文所述的技術不限於V-PCC。
V-PCC尚未最終確定軌道結構。在N18059(“WD of Storage of V-PCC in ISOBMFF Files,”2018年10月,Macau,CN)中,ISOBMFF的V-PCC工作草案中正在考慮的示例性軌道結構被描述,其全部內容以引用方式併入本發明。軌道結構可包括包含補丁流的集合的軌道,其中每個補丁流本質上是用於觀看3D內容的不同視圖。作為說明性示例,如果3D點雲內容被認為包含在3D 立方體中,則可以有六個不同的補丁,每個補丁都是從立方體外部觀看3D立方體的一側的視圖。軌道結構還包括定時元資料軌道和用於幾何形狀、屬性(例如,紋理)和佔用圖資料的限制視訊方案軌道的集合。定時元資料軌道包含V-PCC指定的元資料(例如,參數設置,輔助資訊等)。限制視訊方案軌道的集合可包括:包含用於幾何資料的視訊編解碼基本流的一個或多個限制視訊方案軌道;包含用於紋理資料的視訊編碼基本流的一個或多個限制視訊方案軌道;以及包含用於佔用圖資料的視訊編碼基本流的限制視訊方案軌道。V-PCC軌道結構可允許更改和/或選擇不同的幾何和紋理資料,以及定時元資料和佔用圖資料一起用於視埠內容的變體。對於各種情況,期望包括多個幾何和/或紋理軌道。例如,出於適應性流傳輸的目的,點雲以全品質和一種或多種降低的品質兩者來編碼。在這樣的示例中,編碼可生成多個幾何/紋理軌道來捕獲點雲的3D點集合的不同採樣。對應於較精細採樣的幾何/紋理軌道可能比對應於較粗糙採樣的幾何/紋理軌道具有更好的品質。在點雲內容的流傳輸會話期間,用戶端可選擇以靜態或動態方式(例如,根據用戶端的顯示裝置和/或網路頻寬)在多個幾何/紋理軌道中檢索內容。
點雲圖塊可表示點雲資料的3D和/或2D方面。例如,如在標題為“Description of PCC Core Experiment 2.19 on V-PCC tiles“(2019年1月,Marrakech,MA)的N18188中所描述的,V-PCC圖塊可用於基於視訊的PCC。基於視訊的PCC的示例在在標題為“ISO/IEC 23090-5:Study of CD of Video-based Point Cloud Compression(V-PCC),”(2019年1月,Marrakech,MA)的N18180中被描述。N18188和N18180的全部內容以引用方式併入本發明。點雲圖塊可包括表示區域或其內容的邊界區域或框,包括用於3D內容的邊界框和/或用於2D內容的邊界框。在一些示例中,點雲圖塊包括3D邊界框,相關聯的2D邊界框以及2D邊界框中的一個或多個獨立編解碼單元(independent coding unit,簡稱ICU)。3D 邊界框可以是,例如,三個維度的給定點集合的最小封閉框。3D邊界框可具有各種3D形狀,例如可以由兩個3元組(例如,三個維度上的每個邊的起點和長度)表示的矩形平行管形狀。2D邊界框可以是例如對應於3D邊界框(例如,在3D空間中)的最小封閉框(例如,在給定的視訊幀中)。2D邊界框可具有各種2D形狀,例如可由兩個2元組表示的矩形形狀(例如,二個維度上的每個邊的起點和長度)。視訊幀的2D邊界框中可以有一個或多個ICU(例如視訊圖塊)。獨立編解碼單元可在不依賴於相鄰編解碼單元的情況下被編碼和/或解碼。
第5圖示出根據一些示例的包括3D和2D邊界框的示例性點雲圖塊的示例圖。點雲內容通常僅包括圍繞3D內容的單個3D邊界框,如第5圖所示的圍繞3D點雲內容504的大框502。如上所述,點雲圖塊可包括3D邊界框,關聯的2D邊界框以及2D邊界框中的一個或多個獨立編解碼單元(independent coding unit,簡稱ICU)。為了支援視埠相關處理,3D點雲內容通常需要被細分為較小的碎片或圖塊。例如,第5圖示出3D邊界框502可被分成較小的3D邊界框506、508和510,其各自分別具有關聯的2D邊界框512、514和516。
如本文所述,這些技術的一些實施例可包括例如將圖塊進行子劃分(例如,子劃分3D/2D邊界框)成較小的單元,以形成V-PCC內容的期望的ICU。所述技術可將子劃分的3D體積區域和2D圖像封裝到軌道中,例如封裝到ISOBMFF視覺(例如,子體積和子圖像)軌道中。例如,每個邊界框的內容可被存儲到關聯的軌道集合中,其中,軌道集合中的每個軌道都存儲子劃分的3D子體積區域和/或2D子圖像之一的內容。對於3D子體積情況,該軌道集合包括存儲幾何,屬性和紋理屬性的軌道。對於2D子圖像情況,該軌道集合可只包含存儲子圖像內容的單個軌道。該技術可提供發送軌道集合之間的關係,例如使用“3dcc”和“2dcc”類型的軌道組和/或樣本組來發送軌道集合的各個3D/2D空間關係。所述技術可發送與特定邊界框、特定子體積區域或特定子圖像相關聯的 軌道,和/或可發送不同邊界框、子體積區域和子圖像的軌道集合之間的關係。在單獨的軌道中提供點雲內容可促進高級媒體處理,而高級媒體處理是點雲內容所不具備的,例如點雲平鋪(point cloud tiling)(例如,V-PCC平鋪)和視埠相關的媒體處理。
在一些實施例中,該技術提供用於將點雲邊界框劃分為子單元。例如,3D和2D邊界框可分別被子劃分為3D子體積框和2D子圖像區域。子區域可提供足夠的ICU以用於基於軌道的渲染技術。例如,子區域可提供從系統的角度來看足夠精細的ICU以進行傳遞和渲染,以支持依賴於視埠的媒體處理。在一些實施例中,這些技術可支援對V-PCC媒體內容的視埠相關的媒體處理,例如,如標題為“Timed Metadata for(Recommended)Viewports of V-PCC Content in ISOBMFF”(2019年1月,Marrakech,MA)的m46208中所提供的,其全部內容以引用方式併入本發明。如本文進一步所述,每個子劃分的3D子體積框和2D子圖像區域可以類似於它們分別是(例如,未子劃分的)3D框和2D圖像(但是根據他們的維度具有較小的尺寸)的方式存儲在軌道中。例如,在3D情況下,子劃分的3D子體積框/區域將被存儲在軌道集合中,該軌道包括幾何,紋理和屬性軌道。作為另一示例,在2D情況下,子劃分的子圖像區域被存儲在單個(子圖像)軌道中。由於內容被子劃分為較小的子體積和子圖像,ICU可以各種方式被攜帶。例如,在一些實施例中,不同的軌道集合可被用來攜帶不同的子體積或子圖像,使得與存儲所有未子劃分的內容時相比,攜帶子劃分的內容的軌道具有更少的資料。作為另一示例,在一些實施例中,一些和/或所有資料(例如,即使被子劃分)也可被存儲在相同的軌道中,但是子劃分的資料和/或ICU具有較小單元(例如,使得ICU可在整個軌道集合中單獨地被訪問)。
各種劃分方式可被用來提供子單元或ICU,包括3D和2D劃分。第6圖示出根據一些實施例的用於3D子體積分解的示例性基於八叉樹劃分的圖 600。如第6圖中左邊部分所示,3D邊界框602可被劃分為八個子區域604,其可被進一步劃分為如子區域606和608所示。在一些實施例中,基於各種參數,系統可確定如何劃分和進一步子劃分點雲內容,例如與點雲內容關聯的ROI,特定面所支援的大量細節等等。參照樹結構,樹中的每個內部節點(例如,節點612、614和616)表示3D源,該3D源被劃分為多個區域,使得每個子節點表示子體積軌道。如本文進一步所述,軌道組(例如,“3dcc”軌道組)可用於表示子體積軌道。
第7圖示出根據一些實施例的用於2D子圖像分解的示例性基於四叉樹劃分的圖700。如第7圖左邊部分所示,2D邊界框702可被劃分為四個子區域704,如圖所示,其可被進一步子劃分為子區域706和708。樹中的每個內部節點(例如,節點712、714和716)代表2D源,該源被分為多個區域,每個子節點代表子圖像軌道。如本文進一步所述,軌道組(例如,“2dcc”軌道組)可用於表示子圖像軌道。
子劃分的2D和3D區域可具有各種形狀,例如正方形,立方體,矩形和/或任意形狀。沿每個維度的劃分可能不是二進位的。因此,最外面的2D/3D邊界框的每個劃分樹比本文提供的四叉樹和八叉樹示例更通用。因此,應當理解,各種形狀和子劃分策略可被用來確定分割樹中的每個葉區域,其表示ICU(在2D或3D空間或邊界框中)。如本文所述,ICU可被配置為使得:對於端到端媒體系統,ICU支援視埠相關的處理(包括傳遞和渲染)。例如,根據m46208,ICU可被配置為:其中最小數量的ICU可在空間上隨機地被訪問,以覆蓋可能正在動態移動的視埠(例如,由使用者在觀看設備上控制,或基於編輯器的推薦)。
點雲ICU可被攜帶在關聯的單獨的軌道中。在一些實施例中,ICU和劃分樹可被攜帶和/或被封裝在相應的子體積和子圖像軌道和軌道組中。子體積和子圖像軌道以及軌道組的空間關係和樣本組可以在例如ISO/IEC 14496-12 中所述的ISOBMFF中發送。
對於2D情況,一些實施例可利用OMAF中提供的軌道分組類型為“2dcc”的通用子圖像軌道分組擴展,例如,OMAF工作草案第二版第7.1.11節,N18227,標題為“WD 4 of ISO/IEC 23090-2 OMAF 2nd edition,”(2019年1月,Marrakech,MA)中提供的,其全部內容以引用方式併入本發明。對於3D情況,一些實施例可使用新的軌道分組類型“3dcc”來更新和擴展通用子體積軌道分組擴展。這樣的3D和2D軌道分組機制可用於將八叉樹分解中的示例(葉節點)子體積軌道和四叉樹分解中的子圖像軌道分別分為三個“3dcc”和“2dcc”軌道組。
點雲位元流可包括攜帶點雲內容的單元集合。例如,這些單元可允許隨機訪問點雲內容(例如,用於廣告插入和/或其他基於時間的媒體處理)。例如,V-PCC可包括V-PCC單元集合,如標題為“ISO/IEC 23090-5:Study of CD of Video-based Point Cloud Compression(V-PCC),”(Marrakech,MA.2019年1月)N18180中所描述,其全部內容以引用方式併入本發明。第8圖示出根據一些示例的由V-PCC單元804的集合組成的V-PCC位元流802。每個V-PCC單元804具有V-PCC單元頭和V-PCC單元有效負載,如圖所示的V-PCC單元804A,其包括V-PCC單元頭和V-PCC單元有效負載。V-PCC單元頭描述了V-PCC單元類型。V-PCC單元有效負載可包括序列參數集合806,補丁序列資料808,佔用視訊資料810,幾何視訊資料812和屬性視訊資料814。如圖所示,補丁序列資料單元808可包括一個或多個補丁序列資料單元類型816(在該非限制性示例中,例如序列參數集合,幀參數集合,幾何參數集合,屬性參數集合,幾何補丁參數集合,屬性補丁參數集合和/或補丁資料)。
在一些示例中,佔用、幾何形狀和屬性視訊資料單元有效負載810、812和814分別對應於可以由在相應的佔用,幾何形狀和屬性參數集合V-PCC單元中指定的視訊解碼器解碼的視訊資料單元。參考補丁序列資料單元類型, V-PCC認為整個3D邊界框(例如,第5圖中的502)是立方體,並認為投影到立方體的一個表面上是補丁(例如,使得每邊有六個補丁)。因此,補丁資訊可被用來指示補丁如何被編碼以及如何相互關聯。
第9圖示出根據一些示例的基於ISOBMFF的V-PCC容器900。容器900可以例如是在最新的點雲資料運輸WD,N18266m“WD of ISO/IEC 23090-10 Carriage of PC data,”(2019年1月,Marrakech,MA.)中記載的,其全部內容以引用方式併入此發明。如圖所示,V-PCC容器900包括元資料框902和影片框904,其中影片框904包括V-PCC參數軌道906,幾何形狀軌道908,屬性軌道910和佔用軌道912。因此,影片框904包括一般軌道(例如,幾何形狀,屬性和佔用軌道),以及單獨的元資料框902包括參數和分組資訊。
作為說明性示例,元資料框902的GroupListBox902A中的每個EntityToGroupBox902B包含對實體的引用的列表,在該示例中,其包括對V-PCC參數軌道906,幾何形狀的軌道908,屬性軌道910和佔用軌道912的引用的列表。設備使用那些引用的軌道來共同重建底層點雲內容的版本(例如,具有特定品質)。
各種結構可被用來承載點雲內容。例如,標題為“Continuous Improvement of Study Test of ISO/IEC CD 23090-5 Video-based Point Cloud Compression”,Geneva,CH(2019年3月)的N18479中所描述,其全部內容以引用方式併入此發明。如第8圖所示,V-PCC位元流可由V-PCC單元的集合組成。在一些實施例中,每個V-PCC單元可具有V-PCC單元頭和V-PCC單元有效負載。V-PCC單元頭描述V-PCC單元類型。
如本文所述,佔用,幾何形狀和屬性視訊資料單元有效負載對應於可以由在相應的佔用,幾何形狀和屬性參數集合V-PCC單元中指定的視訊解碼器解碼的視訊資料單元。如標題為“V-PCC CE 2.19 on tiles”Geneva,CH(2019 年3月)的N18485中所描述,其全部內容以引用方式併入本發明,核心實驗(Core Experiment,簡稱CE)可被用來研究V-N18479中指定的基於視訊的PCC的PCC圖塊,以用於滿足並行編碼和解碼,空間隨機訪問和基於ROI的補丁打包的要求。
V-PCC圖塊可以是3D邊界框,2D邊界框,一個或多個獨立編解碼單元(ICU)和/或等效結構。例如,結合示例性第5圖對此進行描述,並在標題為“Track Derivation for Storage of V-PCC Content in ISOBMFF,”Marrakech,MA(2019年1月)的m46207中被描述,其全部內容以引用方式併入本發明。在一些實施例中,對於以三維設置的給定點,3D邊界框可以是最小封閉框。具有矩形平行管形狀的3D邊界框可由兩個3元組表示。例如,兩個3元組可以包括在三個維度上每個邊界的原點和長度。在一些實施例中,2D邊界框可對應於3D邊界框(例如在3D空間中)的最小封閉框(例如在給定的視訊幀中)。矩形形狀的2D邊界框可由兩個2元組表示。例如,兩個2元組可包括在二個維度上每個邊的原點和長度。在一些實施例中,在視訊幀的2D邊界框中可以有一個或多個單獨的編解碼單元(ICU)(例如,視訊圖塊)。獨立編解碼單元可以在不依賴於相鄰編解碼單元的情況下被編碼和解碼。
在一些實施例中,3D和2D邊界框分別被子劃分為3D子體積區域和2D子圖像,(例如,在m46207(標題為“Track Derivation for Storage of V-PCC Content in ISOBMFF,”Marrakech,MA.2019年1月),以及m47355(標題為“On Track Derivation Approach to Storage of Tiled V-PCC Content in ISOBMFF,”Geneva,CH.2019年3月)中提供),m46207和m47355的全部內容以引用方式併入本發明)。因此,它們就成為必需的ICU,從系統的角度來看,它們也足夠精細以用於傳遞和渲染,以支持m46208中所述的V-PCC媒體內容的視埠相關媒體處理。
如上所述,第6圖示出3D子體積分解的基於八叉樹的劃分的示例。 第7圖示出2D子圖像分解的基於四叉樹的劃分的示例。
四叉樹可看作是3D八叉樹的2D模擬,最常用於藉由將2D和3D空間遞迴地細分為四個象限和八個八分圓或區域來劃分它們。
為了平鋪(tiling)V-PCC媒體內容的目的,子劃分的2D圖像和3D區域可以是正方形,立方體形,矩形和/或可以具有任意形狀。此外,沿每個維度的劃分不一定是二進位的。因此,最外面的2D/3D邊界框的每個劃分樹比四叉樹和/或八叉樹更為通用。無論形狀如何,從端到端媒體系統的角度來看,劃分樹中的每個葉子圖像或區域都可被表示ICU(例如,在2D或3D邊界框內),用於支援視埠相關的處理(如m46208中所述,可能包括傳遞和渲染),其中最小數量的ICU可以在空間上隨機地被訪問,以覆蓋可能由使用者動態地移動的視埠,例如,由使用者在觀看設備上控制,或基於編輯器的推薦。
當使用常規點雲容器技術時,各種缺陷可能存在。例如,考慮到以上對V-PCC媒體內容進行平鋪,基於ISOBMFF的V-PCC容器架構(例如,如第9圖所示和/或標題為“WD of ISO/IEC 23090-10 Carriage of PC data,”Geneva,CH(2019年3月)的N18413中描述的V-PCC容器,N18413的全部內容以引用方式併入本發明)變得不足。例如,傳統的基於ISOBMFF的V-PCC容器的子劃分的2D子圖像和3D子區域的每個葉節點都需要作為有效的基本V-PCC媒體軌道攜帶,並且每個非葉節點也需要作為有效的複合V-PCC媒體軌道攜帶。
可能期望提供使用單獨的補丁軌道來編碼和/或解碼點雲視訊資料的技術,每個補丁軌道在單個沉浸式媒體結構中對點雲內容的相關聯的不同部分進行編碼。本文描述的技術提供了一種點雲內容結構,該結構利用單獨的補丁軌道來分解和編碼原始的沉浸式媒體內容(例如,可包括2D和/或3D點雲內容),使得多個補丁軌道可被包括在沉浸式媒體結構中,並且可共用一個或多個公用基本資料軌道(例如,包括一個或多個幾何、屬性和/或佔用軌道)。
在一些實施例中,基於補丁軌道的容器結構(patch track based container)(例如,ISOBMFF V-PCC容器結構)可被用來存儲V-PCC媒體內容。基於補丁軌道的容器結構可指定單獨的V-PCC補丁軌道,該V-PCC補丁軌道對不同部分的點雲內容的資料進行編碼,同時共用一些和/或所有相同的基本資料軌道(例如,包括一個或多個幾何、屬性和/或佔用軌道)。例如,基於補丁軌道的容器結構可被用作導出的基於軌道的結構的替代,例如在m46207和m47355中描述的結構。在一些實施例中,當V-PCC媒體內容在V-PCC級別或系統級別被子劃分時,補丁軌道的2D/3D空間分組機制可被使用,如藉由使用2D子圖像和3D子區域分組機制。例如,該些技術可使用標題為“Signaling of 2D and 3D spatial relationship and sample groups for V-PCC Sub-Volumetric Tracks in ISOBMFF,”Geneva,CH,(2019年3月)的m47335中描述的2D子圖像和3D子區域分組機制,其全部內容以引用方式併入本發明。
根據一些實施例,點雲容器結構(例如基於補丁軌道的ISOBMFF容器結構)可被用來存儲V-PCC媒體內容。根據一些實施例,軌道組和樣本組(例如,“2dcc”和“3dcc”類型)可被用來發送V-PCC圖塊(或子劃分)的補丁軌道的3D/2D空間關係。例如,在m47335中公開的軌道組可被用來發送V-PCC內容的2D/3D空間關係。第10圖示出根據一些實施例的用於在ISOBMFF中基於補丁軌道存儲V-PCC內容的容器結構1000的示例圖。容器結構1000基於V-PCC位元流結構(例如,如N18485中所提供的)。在ISOBMFF容器結構1000中,V-PCC組件資料單元可被存儲在它們各自的軌道中(例如,如N18413中所述),而不需要參數(元資料)軌道參考其他軌道。如該示例所示,容器結構1000中的其他軌道可包括:參數軌道1002,包含V-PCC指定的定時元資料(例如,參數集合和/或輔助資訊);一個或多個幾何視訊軌道1004,其包含用於幾何資料的視訊編碼基本流;一個或多個屬性視訊軌道1006,其包含用於屬性資料的視訊編碼基本流; 以及佔用圖視訊軌道1008,其包含用於佔用圖資料的視訊編碼基本流。V-PCC媒體軌道可使用新媒體(處理程式)類型“volm”編碼為單個補丁軌道,以用於體積內容,以用作V-PCC內容的入口點。該軌道可參考組件軌道,該組件軌道可包括參數軌道,幾何視訊軌道,屬性軌道,佔用視訊軌道等。
根據一些實施例,V-PCC媒體內容可被平鋪。V-PCC平鋪或子劃分方法包括補丁級別劃分,3D網格劃分等。關於基於補丁軌道的ISOBMFF V-PCC容器結構,該些方法對應於具有多個補丁軌道的單個容器和單個補丁軌道的多個容器。
在一些實施例中,V-PCC平鋪可使用補丁程式級別劃分方法來完成,其中在單個容器內多個圖塊補丁軌道被創建,而其他組件軌道(例如,參數,幾何形狀,屬性和/或佔用軌道)保持不變。第11圖示出根據一些實施例的V-PCC補丁級別劃分的示例圖。根據補丁級別劃分方法,在單個容器1100內許多圖塊補丁(包括例如1101、1102和1103)被創建。每個圖塊補丁軌道可與相關聯的劃分的V-PCC內容有關。V-PCC內容(例如V-PCC圖塊)可以是3D邊界框,2D邊界框和/或一個或多個ICU(如此處所述),如示例性第5圖所示。
在一些實施例中,V-PCC平鋪可使用3D網格劃分方法來完成,其中每個3D圖塊可在系統級別本身被視為有效的V-PCC媒體內容,因此可被封裝在單個ISOBMFF容器中。因此,這樣的技術可生成裝有一個補丁軌道與其他組件軌道的多個容器。第12圖示出各個V-PCC軌道1202、1204和1206(例如,來自第11圖)的示例性示圖,根據本發明的一些實施例,其中V-PCC軌道1202、1204和1206中的每個與組件軌道相關聯,例如包括參數1208,幾何形狀1210,屬性1212和/或佔用軌道1214的組件軌道。應該理解的是,儘管第12圖似乎示出每個圖塊的多組相同的組件軌道(例如,參數1208,幾何形狀1210,屬性1212和/或佔用軌道1214),僅出於說明性目的存在第12圖,以示出在系統級別上每個圖塊 本身可被認為是有效的V-PCC媒體內容。如第11圖所示,軌道結構應僅包括一組組件軌道。
根據一些實施例,該技術涉及V-PCC媒體內容的平鋪補丁軌道的空間分組。在一些示例中,2D和3D空間關係和/或樣本組用於空間分組。例如,V-PCC子體積軌道的2D和3D空間關係以及樣本組可被發送,例如m47335中對ISOBMFF描述的技術。例如,在2D情況下,軌道分組類型為“2dcc”(例如,在N18227的第7.1.11節中描述)的“通用子圖像軌道分組擴展”可用於2D圖塊。作為另一示例,對於3D情況,軌道分組類型為“3dcc”的“通用子體積軌道分組擴展”可用於3D圖塊。
第11圖示出本文討論的空間分組技術的示例。軌道組1105被示出為包含另一軌道組1106。如圖所示,包括例如1101、1102和1103的不同組中的圖塊補丁可在單個容器1100內創建。V-PCC網格圖塊的空間分組可藉由對相應圖塊軌道的空間分組來實現(即,藉由將“3dcc”類型的相應3D分組框和/或“2dcc”類型的相應2D分組框放置在圖塊軌道中)。第12圖的軌道組1216和1218示出屬於一個或多個軌道組(比如從第11圖)的各個V-PCC軌道1202、1204和1206,其中每個V-PCC軌道與組件軌道相關聯,例如,組件軌道包括參數1208,幾何1210,屬性1212和/或佔用軌道1214軌道。
第13圖示出根據一些實施例的基於第6圖中所示的3D子體積分解的示例性八叉樹劃分的子體積(葉節點)軌道的三個“3dcc”軌道組的示例圖。參考第13圖,例如,三個“3dcc”軌道組包括1301(包含非葉複合軌道和葉軌道)以及軌道組1302和1303(均包含葉軌道)。一組內的軌道可被視為屬於同一空間部分的一部分。例如,組1302中的每個軌道提供空間部分1305的關聯部分,組1303中的每個軌道提供空間部分1306的關聯部分。軌道組可包括一個或多個其他組,例如,如第13圖和第14圖所示(例如,第13圖中的組1302和1303包含在 組1301中,例如,第14圖中的組1402和1403包含在組1401中)。根據一些實施例,“3dcc”軌道組可包括其他組,使得如果第一組(例如1301)包含第二組(例如1302、1303),則與第一組(例如1301)相對應的沉浸式媒體內容的空間部分包含與第二組(例如1302、1303)相對應的沉浸式媒體內容的空間部分。因此,與屬於第二組(例如1302、1303)的補丁軌道相對應的沉浸式媒體內容的空間部分的體積可以小於與第一組(例如1301)的補丁軌道相對應的沉浸式媒體內容的空間部分的體積。例如,葉軌道1302和1303(每個分別指定較小的空間部分1305和1306),分別指定由軌道組1301指定的較大的空間部分1307的空間部分。
第14圖示出根據一些實施例的基於第7圖中所示的2D子圖像分解的示例性四叉樹劃分的子體積(葉節點)軌道的三個“2dcc”軌道組的示例圖。例如,第14圖顯示三個“2dcc”軌道組,包括1401(包含非葉複合軌道和葉軌道)以及包括軌道組1402和1403(都包含葉軌道)。一組內的軌道可被視為屬於同一空間部分的一部分。例如,組1402中的每個軌道提供空間部分1405的關聯部分,而組1403中的每個軌道提供空間部分1406的關聯部分。根據一些實施例,“2dcc”軌道組可包括其他組,使得如果第一組(例如1401)包含第二組(例如1402、1403),則與第一組(例如1401)相對應的沉浸式媒體內容的空間部分包含與第二組(例如1402、1403)相對應的沉浸式媒體內容的空間部分。因此,與屬於第二組的補丁軌道(例如1402、1403)相對應的沉浸式媒體內容的空間部分可以比與第一組的補丁軌道(例如1401)相對應的沉浸式媒體內容的空間部分更小。例如,葉軌道1402和1403(分別指定較小的空間部分1405和1406)指定由軌道組1401指定的較大空間部分1407的空間部分。對於3D和2D軌道分組機制,八叉樹分解中的(葉節點)子體積軌道的示例和四叉樹分解中的子圖像軌道的示例(1300和1400)說明性地被劃分為多個(每個示例中為3個)“3dcc”和“2dcc” 軌道組,如第13圖和第14圖所示。根據一些實施例,點雲媒體內容根據本文描述的技術來存儲(例如,V-PCC媒體內容被存儲在本文描述的基於補丁軌道的ISOBMFF容器中)。在一些實施例中,當使用以下討論的方法對點雲媒體進行平鋪時,藉由對相應的圖塊補丁軌道進行空間分組,V-PCC圖塊的空間分組被實現,即藉由將“2dcc”和“3dcc”類型的相應的2D/3D分組框放置於圖塊補丁軌道中來實現。
在一些實施例中,技術涉及補丁級別劃分。例如,V-PCC平鋪可使用本文描述的補丁級別劃分技術來完成。例如,如本文所述,多個圖塊補丁軌道可在單個容器內創建,而其他組件軌道可以保持完整。該些圖塊補丁軌道的空間關係可取決於平鋪(或子劃分)級別的數量而處於多個級別,可藉由其包含的2D/3D分組框(例如類型為“2dcc”和類型“3dcc”)來發送。
在一些實施例中,技術涉及3D網格劃分。例如,V-PCC平鋪可使用在此描述的3D網格劃分技術來完成。例如,每個3D圖塊本身可在系統級別被視為有效的V-PCC媒體內容,因此可被封裝在單個ISOBMFF容器中。因此,這樣的技術可生成一個補丁軌道與其他組件軌道的多個容器。該些圖塊補丁軌道的空間關係可能在其容器中,取決於平鋪或子劃分級別的數量,它們可以處於多個級別,可藉由其包含的2D/3D分組框(例如類型“2dcc”和類型“3dcc”)來發送。
V-PCC圖塊可以是3D邊界框,2D邊界框,一個或多個獨立的編解碼單元(Independent coding unit,簡稱ICU)和/或等效結構,其中在此討論該些結構的一些實施例。如本文所述,V-PCC圖塊內的點雲內容可對應於V-PCC位元流或潛在的多個補丁資料組之一(例如,如2019年6月13日至14日舉行的V-PCC系統專案會議(System Adhoc meeting)所述)。這在第8圖中進行了說明,例如,其示出V-PCC位元流結構的示例。
第15圖示出根據一些實施例的用於對沉浸式資料的視訊資料進行解碼的示例性方法1700。該方法包括在步驟1701訪問和/或接收沉浸式媒體資料,該沉浸式媒體資料包括多個補丁軌道,包括(a)至少第一補丁軌道,其包括與沉浸式媒體內容的第一空間部分相對應的編碼沉浸式媒體資料,(b)第二補丁軌道,其包括與沉浸式媒體內容的第二空間部分相對應的編碼沉浸式媒體資料。沉浸式媒體資料還包括(c)基本資料軌道,其包括沉浸式媒體基本資料。如本文所述,例如,基本資料軌道可以是參數軌道,幾何形狀軌道,紋理軌道和/或佔用軌道。第一補丁軌道,第二補丁軌道或兩者都參考基本資料軌道。沉浸式媒體資料還包括(d)分組資料,其指定沉浸式媒體內容中的第一補丁軌道和第二補丁軌道之間的空間關係。
在步驟1702,該方法包括基於第一補丁軌道,第二補丁軌道,基本資料軌道和分組資料執行解碼操作以生成解碼的沉浸式媒體資料。沉浸式媒體內容可以是點雲多媒體。
根據一些實施例,補丁軌道(例如,第15圖的第一和第二補丁軌道)包含分組資料的相關部分,該分組資料指示補丁組是一個或多個補丁軌道組的一部分。當存在多於一個組時,一個組在一些情況下可包括一個或多個其他組,如第13圖和第14圖所示(例如,第13圖中的1301包含組1302和1303,第14圖中的1401包含組1402和1403)。當存多於一個組時,使得第一組包含第二組,則與第一組對應的沉浸式媒體內容的空間部分包含與第二組對應的沉浸式媒體內容的空間部分。
如示例性方法1700的步驟1701中那樣訪問沉浸式媒體資料包括訪問一個或多個幾何軌道中的幾何資料,一個或多個屬性軌道中的屬性資料和/或佔用軌道的佔用圖資料。在1702中執行沉浸式媒體軌道推導操作包括對幾何資料,屬性資料和佔用圖資料執行沉浸式媒體軌道推導操作,以產生解碼的沉浸 式媒體資料。沉浸式媒體資料可以是編碼的二維(2D)資料和/或編碼的三維(3D)資料。
如本文所討論的,這些技術可類似地被用來編碼視訊內容。例如,第16圖示出根據一些實施例的用於將視訊資料編碼為沉浸式資料的示例性方法1800。該方法包括步驟1802、步驟1804和步驟1860,在步驟1802中對第一補丁軌道進行編碼;在步驟1804中對第二補丁軌道進行編碼,其中第一補丁軌道和第二補丁軌道各自包括與沉浸式媒體內容的第一和第二空間部分相對應的沉浸式媒體資料;以及步驟1806對應於對包括沉浸式媒體基本資料的基本資料軌道進行編碼。第一補丁軌道,第二補丁軌道或兩者都參考基本資料軌道。該方法還包括步驟1808,分組資料被編碼。
元資料結構可被用來指定有關源、區域及其空間關係的資訊,例如藉由使用ISOBMFF的定時元資料軌道和/或軌道分組框。發明人已經認識到,為了更有效地傳遞點雲內容(包括在即時和/或非即時資料流場景中),DASH之類的機制(例如在2018年9月出版的第三版標題為“Media presentation description and segment formats,”的文檔中,其全部內容以引用方式併入本發明)可被用來封裝和發送源、區域、它們的空間關係和/或視埠。
發明人已經認識到需要提供用於處理點雲內容的額外機制,例如用於DASH中的3D媒體內容。根據一些實施例,例如,一個或多個結構可被用來指定視埠。在一些實施例中,可以如在2019年7月的標題為“Working Draft 2 of Metadata for Immersive Video,”的MIV的工作草案(N18576)中所描述的那樣指定視埠,其全部內容以引用方式併入本發明。在一些實施例中,觀看方向可包括方位角(azimuth angle),仰角(elevation angle)和傾斜角(tilt angle)的三倍,該傾斜角可表徵使用者正在消費視聽內容的方向;對於圖像或視訊,它可以表徵視埠的方向。在一些實施例中,觀看位置可以包括x,y,z的三倍,其表徵正 在消費視聽內容的使用者在全域參考坐標系中的位置;如果是圖像或視訊,它可以表徵視埠的位置。在一些實施例中,視埠可包括在全向或3D圖像或視訊的視場的平面上的紋理投影,該視埠適合於顯示以及由使用者以特定的觀看方向和觀看位置來觀看。
根據在此描述的一些實施例,為了指定在它們各自的2D和3D源內的2D/3D區域的空間關係,一些元資料資料結構可被指定,包括2D和3D空間源元資料資料結構以及區域和視埠元資料資料結構。
第17圖示出根據一些實施例的用於3D元素的元資料資料結構的示例圖。第17圖中的示例性3D位置元資料資料結構1910的center_x欄位1911,center_y欄位1912和center_z欄位1913可指定球面區域的中心的x,y和z軸值,例如,相對於基礎坐標系的原點。示例性3D位置元資料資料結構1920的near_top_left_x欄位1921,near_top_left_y欄位1922和near_top_left_z欄位1923可分別指定3D矩形區域的近左上角的x,y和z軸值,例如,相對於基礎3D坐標系的原點。
示例性3D旋轉元資料資料結構1930的rotation_yaw欄位1931,rotation_pitch欄位1932和rotation_roll欄位1933可分別指定旋轉的偏航角(yaw angle),俯仰角(pitch angle)和滾動角(roll angle),該旋轉被應用於空間關係中關聯的每個球面區域的單位球面以將球面區域的局部坐標軸轉換為全域坐標軸,相對於全域坐標軸以2-16度為單位。在一些示例中,rotation_yaw欄位1931可以在-180 * 216至180 * 216-1的範圍內(包括端點)。在一些示例中,rotation_pitch欄位1932可以在-90 * 216至90 * 216的範圍內(包括端點)。在一些示例中,rotation_roll欄位1933應在-180 * 216至180 * 216-1的範圍內(包括端點)。示例性3D方向元資料資料結構1940的center_azimuth欄位1941和center_elevation欄位1942可以分別以2-16度為單位指定球面區域的中心的方位角和仰角值。在一些示 例中,center_azimuth欄位1941可以在-180 * 216至180 * 216-1的範圍內(包括端點)。在一些示例中,center_elevation欄位1942可以在-90 * 216至90 * 216的範圍內(包括端點)。center_tilt欄位1943可以2-16度為單位指定球面區域的傾斜角。在一些示例中,center_tilt欄位1943可以在-180 * 216至180 * 216-1的範圍內(包括端點)。
第18圖示出根據一些實施例的用於2D元素的元資料資料結構的示例圖。第18圖中的示例性2D位置元資料資料結構2010的center_x欄位2011和centre_y欄位2012可分別指定2D區域中心的x和y軸值,例如,相對於基礎坐標系的原點。示例性2D位置元資料資料結構2020的top_left_x欄位2021和top_left_y欄位2022可分別指定矩形區域的左上角的x和y軸值,例如,相對於基礎坐標系的原點。示例性2D旋轉元資料資料結構2030的rotation_angle欄位2031可指定逆時針旋轉的角度,該逆時針旋轉被應用於空間關係中關聯的每個2D區域,以將2D區域的局部坐標軸轉換為全域座標,相對於全域坐標軸以2-16度為單位。在一些示例中,旋轉角度2031可以在-180 * 216至180 * 216-1的範圍內(包括端點)。
第19圖示出根據一些實施例的用於2D和3D範圍元素的元資料資料結構2110和2120的示例圖。range_width欄位2111a和2122a以及range_height欄位2111b和2122b可分別指定2D或3D矩形區域的寬度和高度範圍。它們可藉由矩形區域參考點指定範圍,該參考點可以是左上角點,中心點和/或根據包含這些元資料實例的結構的語義所指定的推斷出的類似點。例如,它可藉由區域中心點指定範圍。range_radius欄位2112a和2124a可指定圓形區域的半徑範圍。range_azimuth欄位2123b和range_elevation欄位2123a可分別指定球面區域的方位角和仰角範圍,例如,以2-16度為單位。range_azimuth欄位2123b和range_elevation欄位2123a也可藉由球面區域中心點指定範圍。在一些示例中,range_方位角欄位2123b可以在0至360 * 216的範圍內(包括端點)。在一些示例中,range_elevation 2123a可以在0到180 * 216的範圍內(包括端點)。
shape_type欄位2110a和2120a可指定2D或3D區域的形狀類型。根據一些實施例,特定值可表示2D或3D區域的不同形狀類型。例如,值0可以表示2D矩形形狀類型,值1可表示2D圓的形狀類型,值2可以表示3D圖塊的形狀類型,值3可表示3D球體區域的形狀類型,值4可表示3D球體的形狀類型,其他值可被保留用於其他形狀類型。根據shape_type欄位的值,元資料資料結構可包括不同的欄位,諸如可在示例性元資料資料結構2110和2120的條件陳述式2111、2112、2122、2123和2124中看到。
第20圖示出根據一些實施例的用於2D和3D源的元資料資料結構的示例圖。第20圖包括空間關係2D源元資料結構2210和空間關係3D源元資料結構2220。空間關係2D源元資料結構2210包括location_included_flag 2211,rotation_included_flag 2212和range_included_flag 2213,如圖中示出為邏輯2215、2216和2217。相應地,location_included_flag 2211,rotation_included_flag 2212和range_included_flag 2213被用來分別指定2DLocationStruct 2215a,2DRotationStruct 2216a和2DRangeStruct 2217a(如果適用)。該些欄位還包括shape_type 2214和source_id2218。空間關係3D源元資料結構2220包括location_included_flag 2221,rotation_included_flag 2222和range_included_flag 2223,如圖中示出為邏輯2225、2226和2227所示。相應地,location_included_flag 2221,rotation_included_flag 2222和range_included_flag 2223被用來分別指定3DLocationStruct 2225a,3DRotationStruct 2226a和3DRangeStruct 2227a(如果適用)。該些欄位還包括shape_type 2224和source_id 2228。
第21圖示出根據一些實施例的具有2DoF和6DoF的區域的元資料資料結構的示例圖。第21圖所示的區域包括具有2個DoF元資料結構2310的區域和具有6個DoF元資料結構2320的區域。具有2個DoF元資料結構的區域2310包括 location_included_flag 2311,rotation_included_flag 2312,range_included_flag 2313和interpolate_included_flag 2315,如圖中示出為邏輯2316、2317、2318和2319。相應地,location_included_flag 2311,rotation_included_flag 2312,range_included_flag 2313和interpolate_included_flag 2315被用來分別指定2DLocationStruct 2316a,2DRotationStruct 2317、2DRangeStruct 2318a以及插值2319a和保留欄位2319b(如果適用)。該些欄位還包括shape_type2314。具有6DoF元資料結構的區域2320包括location_included_flag 2321,orientation_included_flag 2322,range_included_flag 2323和interpolate_included_flag 2325,如圖中示出為邏輯2326、2327、2328和2329。相應地,location_included_flag 2321,orientation_included_flag 2322,range_included_flag 2323和interpolate_included_flag 2325被用來分別指定3DLocationStruct 2326a,3DRotationStruct 2327、3DRangeStruct 2328a以及插值2329a和保留欄位2329b(如果適用)。該些欄位還包括shape_type 2324。
根據一些實施例,內插可指示連續樣本在時間上的連續性。根據一些實施例,當插值被指示為真時,該應用可線性地插值先前樣本與當前樣本之間的ROI座標的值。根據一些實施例,當插值被指示為假時,在先前樣本與當前樣本之間可能沒有任何內插值。根據一些實施例,當使用內插時,可預期內插的樣本與參考軌道中的樣本的呈現時間相匹配。例如,對於視訊軌道的每個視訊樣本,一個內插的2D笛卡爾座標樣本可被計算。在一些實施例中,用於區域元資料軌道的同步樣本可以是內插值為0的樣本。
第22圖示出根據一些實施例的具有3DoF和6DoF的視埠的元資料資料結構的示例性示圖2410和2420。具有3DoF的視埠2410包括欄位direction_included_flag 2411,range_included_flag 2412和interpolate_included_flag 2414,如圖中示出為邏輯2415、2416和2417。相應地,欄位direction_included_flag 2411,range_included_flag 2412和interpolate_included_flag 2414被用來指定3DRotationStruct 2415a,3DRangeStruct 2416a和插值2417a和保留欄位2417b(如果適用)。該些欄位還包括shape_type2413。具有6DoF的視埠2420包括欄位position_included_flag 2421,direction_included_flag 2422,range_included_flag 2423和interpolate_included_flag 2425,如圖中示出為邏輯2426、2427、2428和2429所示。相應地,欄位position_included_flag 2421,direction_included_flag 2422,range_included_flag 2423和interpolate_included_flag 2425被用來指定3DPositionStruct 2426a,3DorientationStruct 2427a,3DRangeStruct 2428a,以及插值2429a和保留欄位2429b(如果適用)。該些欄位還包括shape_type 2424。
插值2319a,2329a,2417a和2429a的語義可藉由包含該實例的結構的語義來指定。根據一些實施例,在2D和3D源和區域資料結構的實例中不存在任何位置,旋轉,方向,範圍,形狀和交交互操作元資料的情況下,它們可按照包含實例的結構的語義的指定來推斷。
在一些實施例中,空間關係可在定時元資料軌道內發送。例如,當各個軌道攜帶空間區域的視覺內容時,空間關係可使用如本文所述的2D和3D空間源和區域元資料結構來發送。待發送的定時元資料軌道內的空間關係可包括:具有2DoF的2D平面區域(用於子圖像軌道),具有6DoF的3D球體區域,具有6DoF的3D平面區域,具有6DoF的3D圖塊區域(用於PCC 3D圖塊軌道)等。
第23圖示出根據一些實施例的具有2DoF的2D平面區域2500的示例圖(例如,用於2D空間中的子圖像)。根據一些實施例,第23圖的組件2502表示在源2501內具有2DoF的2D平面區域。每個2D平面區域可具有(x,y)位置以及寬度和高度,其中寬度和高度可被顯式地或隱式地發送。在第23圖中,2502示出平面區域的位置,並且寬度和高度未被顯式地示出。在一些實施例中,寬度和高度可以從一些上下文或其他來源繼承。
第24圖示出根據一些實施例的用於發送具有2DoF的2D平面區域的樣本條目和樣本格式的示例性示圖。在該示例中,SpatialRelationship2DPlanarRegionsSample 2610包括RegionWith2DoFStruct 2611,其包括!region_location_included_flag 2612,!region_rotation_included_flag 2613,!region_range_included_flag 2614,region_shape_type 2615,region_interpolate_included_flag 2616。SpatialRelationship2DPlanarRegionsSampleEntry 2620包括保留欄位2621,source_location_included_flag 2622,source_rotation_included_flag 2623,source_range_included_flag 2624和source_shape_type 2625(等於0,並且用於2D平面區域)。SpatialRelationship2DSourceStruct 2626包括source_location_included_flag 2626a,source_rotation_included_flag 2626b,source_range_included_flag 2626c和source_shape_type 2626d。該些欄位還包括第二保留欄位2627,region_location_included_flag 2628,region_rotation_included_flag 2629,region_range_included_flag 2630,region_interpolate_included_flag 2631和region_shape_type 2632(被設置為0以及用於2D平面(子)區域)。RegionWith2DoFStruct 2633包括region_location_included_flag 2633a,region_rotation_included_flag 2633b,region_range_included_flag 2633c,region_shape_type 2633d和region_interpolate_included_flag 2633e。
第25圖示出根據一些實施例的具有6DoF的3D球體區域的示例圖(例如,對於3D空間中的3D球體區域等)。偏航(yaw)、俯仰(pitch)和滾動(roll)旋轉的方向的示例圖可在球面圖2700中看到。由四個大圓指定的球面區域的示例圖可在2701中看到。例如,如圖2701所示,四個大圓包括cAzimuth1,cAzimuth2,cElevation1和/或cElevation2。根據一些實施例,如本文所述,等於0 的形狀類型值可指定如第25圖所示由四個大圓指定球面區域。
第26圖示出根據一些實施例的用於發送具有6DoF的3D平面區域的樣本條目和樣本格式的示例圖。在該示例中,SpatialRelationship3DSphereRegionsSample 2810包括RegionWith6DoFStruct 2811,其包括!region_location_included_flag 2812,!region_rotation_included_flag 2813,!region_range_included_flag 2814,region_shape_type 2815和region_interpolate_included_flag 2816。SpatialRelationship3DSphereRegionsSampleEntry 2820包括保留欄位2821,source_location_included_flag 2822,source_rotation_included_flag 2823,source_range_included_flag 2824和source_shape_type 2825(該值等於0以及用於3D邊界框或區域)。SpatialRelationship3DSourceStruct 2826包括source_location_included_flag 2826a,source_rotation_included_flag 2826b,source_range_included_flag 2826c和source_shape_type 2826d。該些欄位還包括第二保留欄位2827,region_location_included_flag 2828,region_rotation_included_flag 2829,region_range_included_flag 2830,region_interpolate_included_flag 2831和region_shape_type 2832(被設置為0以及用於3D球體區域)。RegionWith6DoFStruct 2833包括region_location_included_flag 2833a,region_rotation_included_flag 2833b,region_range_included_flag 2833c,region_shape_type 2833d和region_interpolate_included_flag 2833e。
第27圖示出根據一些實施例的具有6DoF的3D平面區域的示例圖(例如,用於3D空間中的2D面/圖塊等)。如本文所述,在第25圖的2700中可以看到偏航,俯仰和滾動旋轉的方向的示例圖。第25圖示出示例性3D平面區域2900。
第28圖示出根據一些實施例的用於發送具有2DoF的2D平面區域 的樣本條目和樣本格式的示例圖。SpatialRelationship3DPlanarRegionsSample 3010包括RegionWith6DoFStruct 3011,其包括!region_location_included_flag 3012,!region_rotation_included_flag 3013,!region_range_included_flag 3014,region_shape_type 3015和region_interpolate_included_flag 3016。SpatialRelationship3DPlanarRegionsSampleEntry 3020包括保留欄位3021,source_location_included_flag 3022,source_rotation_included_flag 3023,source_range_included_flag 3024和source_shape_type 3025(對於3D邊界框或球面,該值等於2或3)。SpatialRelationship3DSourceStruct 3026包括source_location_included_flag 3026a,source_rotation_included_flag 3026b,source_range_included_flag 3026c和source_shape_type 3026d。該些欄位還包括第二保留欄位3027,region_location_included_flag 3028,region_rotation_included_flag 3029,region_range_included_flag 3030,region_interpolate_included_flag 3031和region_shape_type 3032(被設置為0以及用於2D平面區域)。RegionWith6DoFStruct 3033包括region_location_included_flag 3033a,region_rotation_included_flag 3033b,region_range_included_flag 3033c,region_shape_type 3033d和region_interpolate_included_flag 3033e。
第29圖示出根據一些實施例的具有6DoF的3D圖塊區域的示例圖(用於PCC 3D圖塊)。如本文所述,偏航,俯仰和滾動旋轉的方向的示例圖可在2700中看到。示例性3D圖塊區域可在3100中看到。第30圖示出根據一些實施例的用於發送具有6DoF的3D圖塊區域的樣本條目和樣本格式的示例圖。在該示例中,SpatialRelationship3DTileRegionsSample 3210包括RegionWith6DoFStruct 3211,其包括!region_location_included_flag 3212,!region_rotation_included_flag 3213,!region_range_included_flag 3214,region_shape_type 3215和region_interpolate_included_flag 3216。 SpatialRelationship3DTileRegionsSampleEntry 3220包括保留欄位3221,source_location_included_flag 3222,source_rotation_included_flag 3223,source_range_included_flag 3224和source_shape_type 3225(對於3D邊界框,該值等於2)。SpatialRelationship3DSourceStruct 3226包括source_location_included_flag 3226a,source_rotation_included_flag 3226b,source_range_included_flag 3226c和source_shape_type 3226d。該些欄位還包括第二保留欄位3227,region_location_included_flag 3228,region_rotation_included_flag 3229,region_range_included_flag 3230,region_interpolate_included_flag 3231和region_shape_type 3232(被設置為20以及用於3D(子)邊界框(圖塊))。RegionWith6DoFStruct 3233包括region_location_included_flag 3233a,region_rotation_included_flag 3233b,region_range_included_flag 3233c,region_shape_type 3233d和region_interpolate_included_flag 3233e。
在一些實施例中,如本文所述,各個軌道承載空間區域的視覺內容。在這樣的實施例中,空間關係可使用本文描述的2D和3D空間源和區域元資料資料結構在軌道組框內發送。可在軌道組框中發送的空間關係包括,例如,具有2DoF的2D平面區域(用於子圖像軌道),具有6DoF的3D球體區域,具有6DoF的3D平面區域,具有6DoF的3D圖塊區域(對於PCC 3D圖塊軌道)等。
第31圖示出根據一些實施例的在軌道組中發送具有空間區域的2DoF空間關係的2D平面區域的示例圖。SpatialRelationship3DTileRegionsSampleEntry 3300包括保留欄位3321,source_location_included_flag 32322,source_rotation_included_flag 3323,source_range_included_flag 3324和source_shape_type 3325(對於3D邊界框,該值等於2)。SpatialRelationship3DSourceStruct 3326包括source_location_included_flag 3326a,source_rotation_included_flag 3326b,source_range_included_flag 3326c和 source_shape_type 3326d。該些欄位還包括第二保留欄位3327,region_location_included_flag 3328,region_rotation_included_flag 3329,region_range_included_flag 3330,region_interpolate_included_flag 3331和region_shape_type 3332(被設置為2以及用於3D(子)邊界框(圖塊))。RegionWith6DoFStruct 3333包括region_location_included_flag 3333a,region_rotation_included_flag 3333b,region_range_included_flag 3333c,region_shape_type 3333d和region_interpolate_included_flag 3333e。
第32圖示出根據一些實施例的在軌道組中發送具有空間區域的6DoF空間關係的3D球體區域的示例圖。SpatialRelationship3DSphereRegionsSampleEntry 3400包括保留欄位3421,source_location_included_flag 3422,source_rotation_included_flag 3423,source_range_included_flag 3424和source_shape_type 3425(對於3D邊界框或球面,該值等於2或3)。SpatialRelationship3DSourceStruct 3426包括source_location_included_flag 3426a,source_rotation_included_flag 3426b,source_range_included_flag 3426c和source_shape_type 3426d。該些欄位還包括第二保留欄位3427,region_location_included_flag 3428,region_rotation_included_flag 3429,region_range_included_flag 3430,region_interpolate_included_flag 3431和region_shape_type 3432(被設置為1以及用於3D球體區域)。RegionWith6DoFStruct 3433包括region_location_included_flag 3433a,region_rotation_included_flag 3433b,region_range_included_flag 3433c,region_shape_type 3433d和region_interpolate_included_flag 3433e。
第33圖示出根據一些實施例的在軌道組中發送具有空間區域的6DoF空間關係的3D平面區域的示例圖。SpatialRelationship3DTileRegionsSampleEntry 3520包括保留欄位3521, source_location_included_flag 3522,source_rotation_included_flag 3523,source_range_included_flag 3524和source_shape_type 3525(對於3D邊界框或球面,該值等於2或3)。SpatialRelationship3DSourceStruct 3526包括source_location_included_flag 3526a,source_rotation_included_flag 3526b,source_range_included_flag 3526c和source_shape_type 3526d。該些欄位還包括第二保留欄位3527,region_location_included_flag 3528,region_rotation_included_flag 3529,region_range_included_flag 3530,region_interpolate_included_flag 3531,以及region_shape_type 3532(被設置為0以及用於2D平面區域)。RegionWith6DoFStruct 3533包括region_location_included_flag 3533a,region_rotation_included_flag 3533b,region_range_included_flag 3533c,region_shape_type 3533d和region_interpolate_included_flag 3533e。
第34圖示出根據一些實施例的在軌道組中發送具有空間區域的6DoF空間關係的3D圖塊區域的示例圖。SpatialRelationship3DTileRegionsBox 3600包括保留欄位3621,source_location_included_flag 3622,source_rotation_included_flag 3623,source_range_included_flag 3624和source_shape_type 3625(對於3D邊界框,等於2)。SpatialRelationship3DSourceStruct 3626包括source_location_included_flag 3626a,source_rotation_included_flag 3626b,source_range_included_flag 3626c和source_shape_type 3626d。該些欄位還包括第二保留欄位3627,region_location_included_flag 3628,region_rotation_included_flag 3629,region_range_included_flag 3630,region_interpolate_included_flag 3631和region_shape_type 3632(被設置為2以及用於3D(子)邊界框(圖塊))。)。RegionWith6DoFS結構3633包括region_location_included_flag 3633a, region_rotation_included_flag 3633b,region_range_included_flag 3633c,region_shape_type 3633d和region_interpolate_included_flag 3633e。
根據一些實施例,具有3DoF,6DoF等的視埠可使用定時元資料軌道來發送。在一些實施例中,當視埠僅在樣本入口處被發送時,對於其中的所有樣本它都是靜態的;否則,它是動態的,其一些屬性因樣本而異。根據一些實施例,樣本條目可發送所有樣本共有的資訊。在一些示例中,靜態/動態視埠變化藉由在樣本條目處指定的多個標誌來控制。
第35圖示出用於在定時元資料軌道中發送具有3DoF的視埠(例如,對於3D空間中的2D面/圖塊和/或類似物)的示例性樣本條目和樣本格式的圖。3DoFViewportSampleEntry 3710包括保留欄位3711,orientation_included_flag 3712,range_included_flag 3713,interpolate_included_flag 3714和shape_type 3715(對於3D邊界框或球面,該值為2或3)。該些欄位還包括ViewportWith3DoFStruct 3716,其包括direction_included_flag 3716a,range_included_flag 3716b和shape_type 3716c。該些欄位還包括interpolate_included_flag 3716d。3DoFViewportSample 3720包含ViewportWith3DoFStruct 3721,其中包括欄位!orientation_included_flag 3722,!range_included_flag 3723,!shape_type 3724和!interpolate_included_flag 3725。
如本文所述,內插可指示連續樣本的時間上的連續性。根據一些實施例,當插值被指示為真時,該應用可線性地插值先前樣本與當前樣本之間的ROI座標的值。根據一些實施例,當插值被指示為假時,在先前樣本與當前樣本之間可能沒有任何內插值。根據一些實施例,當使用內插時,可預期內插的樣本與參考軌道中的樣本的呈現時間相匹配。例如,對於視訊軌道的每個視訊樣本,一內插的2D笛卡爾座標樣本可被計算。在一些實施例中,用於區域元資料軌道的同步樣本可以是內插值為0的樣本。
第36圖示出根據一些實施例的發送具有6DoF的視埠(例如,對於3D空間中的2D面/圖塊和/或類似物)的示例性樣本條目和樣本格式的圖。6DoFViewportSampleEntry 3810包括保留欄位3811,position_included_flag 3812,orientation_included_flag 3813,range_included_flag 3814,interpolate_included_flag 3815和shape_type 3816(對於3D邊界框或球面,該值為2或3)。該些欄位還包括ViewportWith6DoFStruct 3817,其中包括position_included_flag 3817a,orientation_included_flag 3817b,range_included_flag 3817c和shape_type 3817d。該些欄位還包括interpolate_included_flag 3817e。6DoFViewportSample 3820包含ViewportWith6DoFStruct 3821,其包括欄位!posiiton_included_flag 3822,!orientation_included_flag 3823,!range_included_flag 3824,!shape_type 3825和!interpolate_included_flag 3826。
如結合第3圖和第4圖所述,點雲內容可在3D空間中提供具有6DoF的沉浸式媒體(例如,在3DoF中,使用者只能轉頭,而在6DoF中,使用者可在場景中走動)。根據一些實施例,視埠可以是紋理在全向或3D圖像或視訊的視場的平面上的投影。這樣的視埠可適合於顯示和供具有特定觀看方向和觀看位置的使用者觀看。
如本文所述,沉浸式媒體內容可被分成小部分(例如,圖塊),以便僅傳遞包括使用者將看到的內容的圖塊。因此,根據一些實施例,使用者的視埠和/或沉浸式媒體中的區域(在區域比視埠具有更少的約束的意義上來說,區域比視埠更一般)可由圖塊集合組成。因此,該技術可提供將沉浸式媒體內容分解為圖塊,並且僅傳遞適用於特定區域的那些圖塊。參考第2圖,例如,邊界框502可以表示源沉浸式媒體內容,其是將被劃分為圖塊的原始內容。3D邊界框506、508和510可表示圖塊。如本文進一步描述的,區域可被編碼到平鋪的內容中,並且該技術可提供僅將覆蓋特定區域的圖塊傳遞到用戶端播放設備側。 如第5圖所示,視埠518具有(x,y,z)位置,並且是內容502的表面的視圖。在該表面上顯示的是視埠。由於使用者的視埠可更改,因此隨著時間的推移,這些技術可適應使用者的視埠。該技術可以進一步支援其他視埠方案,例如編輯器剪切以獲得優選視埠。
參照第9圖,V-PCC容器900示出用於將沉浸式媒體內容封裝到多個軌道中的技術。每個V-PCC位元流都具有組件軌道,包括佔用軌道912,幾何軌道908和組件軌道910。容器900還包括體積軌道906,該體積軌道906包括與該組件軌道結合使用的元資料以構建資料。
當3D源(如點雲)被子劃分為多個區域(如子點雲(或V-PCC圖塊))時,出於部分傳遞和訪問的目的(例如,如標題為“Description of Core Experiment on partial access of PC data,”(2019年7月,Gothenburg,SE)的N18663中所述,其全部內容以引用併入本發明),區域可被封裝在V-PCC位元流級別或補丁資料組級別(例如,在標題為“Text of ISO/IEC CD 23090-10 Carriage of PC Data”(2019年7月,Gothenburg,SE)的N18606中進行描述,其全部內容以引用方式併入本發明)。如本文中進一步描述的,發明人已經發現並意識到,如果將沉浸式媒體內容劃分為不同的圖塊,則可希望發送平鋪的內容中的區域。
例如,每個圖塊可被編碼為(a)作為單獨的位元流(具有單獨的組件軌道)和/或(b)作為具有相同組件軌道的相同位元流的一部分,從而圖塊使用不同的在補丁級別的V-PCC軌道進行編碼。因此,在一些實施例中,每個圖塊可被編碼為它自己的位元流,並且每個圖塊的組件軌道可以是不同的。在一些實施例中,可替代地或額外地,相同的組件軌道可被使用,並且不同的V-PCC軌道(例如,軌道906)可用於每個小塊,以將小塊封裝在補丁級別。補丁可以是3D物件的2D視圖。例如,參照第5圖,邊界框510可被編碼為補丁組軌道,其中每個補丁是3D邊界框510的一個視圖,使得邊界框510的六個面可對應於六個 補丁。這六個補丁可被編碼為補丁組軌道,該補丁組軌道實質上指定邊界框510的元資料。因此,根據一些實施例,一位元流可指定一組件軌道集合,而V-PCC軌道可指定邊界框的六個補丁(另一軌道可對中間區域508指定下一補丁組,依此類推)。各種補丁可被使用,包括從45度角觀看邊界框的一些補丁(例如,對於具有六個補丁的實施例,這將為面增加四個補丁)和/或類似。
本文描述的技術的一些實施例涉及發送區域(例如,平鋪的內容內的較小部分,其可包括來自一個或多個圖塊集合的內容)。根據一些實施例,V-PCC區域(作為區域的示例)可分別在V-PCC位元流和補丁資料組級別發送,以便分別封裝區域的V-PCC內容,(a)在多組ISOBMFF體積和組件軌道中(例如,如N18606中所述),因為每組軌道代表一個區域,並且對應於V-PCC位元流,和/或(b)在與公用分類軌道耦合的多個ISOBMFF體積軌道中(例如,如N18606中所述),因為當它與同一V-PCC位元流中的公用組件軌道耦合時,每個體積軌道代表一個區域,並且對應於補丁資料組。
根據一些實施例,區域(例如,V-PCC區域和/或類似區域)及其源的空間關係可使用本文描述的軌道分組框機制和定時元資料軌道機制來進行簽名。
根據一些實施例,軌道分組框機制可被用來發送區域及其源的空間關係。在軌道分組框機制的一些實施例中,每個體積軌道可攜帶類型為“6dtr”的TrackGroupTypeBox,SpatialRelationship3DTileRegionsBox。在一些實施例中,當具有軌道分組框的體積軌道與其相應的組件軌道耦合時,其可包含相同的source_id,其可表示同一源的區域。根據一些實施例,如上所述,該機制可涵蓋封裝V-PCC區域的兩種情況(即,軌道分組框機制可用於(a)在位元流級別編碼的區域和/或(b)在補丁級別編碼的區域。在一些實施例中,V-PCC軌道可攜帶分組框。例如,當在位元流級別對區域進行編碼時,V-PCC軌道可攜帶分組框 以指示區域的位置。每個軌道可具有其自己的軌道分組框,以指示區域的位置(例如,基於區域的(x,y,z)位置,區域的位置是頂部510,中間508或是底部506)。作為另一示例,當圖塊在補丁級別攜帶時,分組框可被攜帶在V-PCC軌道中(例如,而不是組件軌道中)。使用軌道分組框可帶來各種好處,例如發送靜態區域,因為軌道分組框僅需要指定一次。但是,在一些情況下,將軌道分組框用於發送區域(例如用於動態變化的區域)可能並不總是高效甚至可行的。
根據一些實施例,定時元資料軌道機制可被用來發送區域及其源的空間關係。在定時元資料軌道機制的一些實施例中,每個體積軌道可由樣本條目類型“6dtr”的定時元資料軌道參考。根據一些實施例,如上所述,該機制可覆蓋封裝V-PCC區域的兩種情況。在一些實施例中,當體積軌道與它們的對應組件軌道耦合時,由具有相同source_id的定時元資料軌道參考的體積軌道可表示相同源的區域。根據一些實施例,區域的空間關係可在定時元資料軌道的樣本條目中攜帶,並且可參考該區域的體積軌道。使用定時元資料軌道可提供各種好處。例如,定時元資料軌道可用於對其所參考的媒體軌道指定區域。例如,一元資料軌道可對軌道集合指定一區域(例如,第5圖中的區域510),而另一定時元資料軌道可對該軌道集合指定不同的區域(例如,中間區域508)。因此,如果平鋪的內容中存在多個區域,則多個定時元資料軌道可被用來參考單個軌道集合,每個區域對應一個集合。作為另一示例,定時元資料軌道可被用來指定動態變化/移動的區域。例如,區域的位置和/或大小可隨時間變化。定時元資料軌道可描述區域在位置,大小,定位等方面如何變化。因此,沉浸式媒體內容可被編碼一次,並且區域可使用不同的定時元資料軌道在源中指定。定時元資料軌道也可被用來發送靜態區域,特別是對於那些在媒體軌道已創建之後被識別的靜態區域,以及在不更改媒體軌道本身的情況下不能被發送的靜態區 域,例如藉由將新的軌道分組框引入媒體軌道。
第38圖示出根據一些實施例的劃分的沉浸式媒體流中的區域的示例。在該說明性示例中,假設V-PCC流4000被劃分為10×10個圖塊,使得存在100個(主要的)體積軌道4002A-4002N(統稱為體積軌道4002)(例如,使用如本文討論的方法並結合第11-12圖)。根據一些實施例,每個圖塊可被編碼為沉浸式軌道的集合,其中每個軌道集合可被編碼為單獨的位元流或不同的補丁軌道。根據一些實施例,V-PCC流可代表整個沉浸式媒體內容,其中,沉浸式媒體內容被分解為圖塊,並且每個圖塊使用一個位元流或單獨的位元流來進行編碼。根據一些實施例,每個圖塊可對應於單個體積軌道。在一些實施例中,所有圖塊和/或體積軌道可使用單個位元流和/或單獨的位元流來進行編碼。
根據一些實施例,一個圖塊可使用至少一個體積軌道來進行編碼。例如,使用具有至少一個主要的體積軌道。在一些實施例中,組件資訊可被編碼在體積軌道內,作為其自身組件軌道的一個單獨集合,和/或作為與其他圖塊共用的組件軌道的一個單獨集合。
如第38圖所示,如本文所述,如果使用軌道分組框,則那些體積軌道4000中的每個具有軌道分組框以指示它們屬於相同的V-PCC流。本文描述的技術可用於指示該V-PCC流包含小區域4004。根據一些實施例,軌道分組框方法可使用除對所有的100個圖塊進行分組的框之外的框將軌道4002B-4002G分組在一起。根據一些實施例,定時元資料軌道可被用來將軌道4002B-4002G分組在一起,參考軌道4002B-4002G或所有100個圖塊軌道的軌道組,也就是說那些軌道4002B-4002G或具有一個區域的軌道組。
MPEG動態HTTP自我調整流(Dynamic Adaptive Streaming over HTTP,簡稱DASH)協議是一種適應性位元速率流技術,它利用常規的HTTP Web伺服器在因特網上傳遞適應性內容。MPEG DASH將內容分為一系列小文檔片 段,每個小文檔片段都包含可以各種不同的位元速率使用的一段短時間的多媒體內容。在使用MPEG DASH時,用戶端可根據當前網路狀況選擇要下載的各種位元速率,通常將其配置為選擇可下載而不影響播放的最高位元速率。因此,MPEG DASH協議允許用戶端適應不斷變化的網路狀況。
對於DASH應用,內容通常具有相應的媒體表示描述(Media Presentation Description,簡稱MPD)文檔。藉由從HTTP DASH伺服器下載媒體段,MPD向DASH用戶端提供了足夠的資訊,以促進內容的適應性流傳輸。MPD是可延伸標記語言(Extensible Markup Language,簡稱XML)文檔,其包含有關媒體段的資訊,它們之間的關係以及HTTP DASH用戶端在片段中進行選擇所必需的資訊,以及HTTP DASH用戶端可能需要的其他元資料。
MPD可具有分層結構,其中“MPD”元素是根項目,其可包括各種部分,例如基本MPD設置,時段(Period),適應集合(Adaptation Set),表示(Representation),片段(Segment)等。時段可描述具有開始時間和持續時間的一部分內容。時段可被用來表示場景或章節,例如將廣告與程式內容分開等。適應集合可包含一個媒體流或媒體流的集合。在一基本示例中,時段可具有一個適應集合,其包含內容的所有音訊和視訊。但是,更典型地(例如,為了減少頻寬),每個流可被分成不同的適應集合。例如,多個適應集合可用於包含一個視訊適應集合和多個音訊適應集合(例如,每種支援的語言對應一個音訊適應集合)。表示允許適應集合包含以不同方式編碼的相同內容。例如,通常以多種螢幕尺寸、頻寬、編碼方案等來提供表示。片段是DASH用戶端播放的實際媒體文檔,通常是藉由連續播放它們,就像它們是同一文檔一樣。媒體片段的位置可使用單個片段表示的BaseURL,段列表(SegmentList),帶有SegmentBase的範本(SegmentTemplate)或xlink(例如,頂層元素中的xlink,Period)來描述。片段的開始時間和持續時間可用SegmentTimeline來描述(這對於即時流媒 體尤為重要,因此用戶端可快速確定最新的片段)。在時段中,BaseURL,SegmentList和SegmentTemplate被指定。片段可以在單獨的文檔中(例如,用於即時資料流),也可以在單個文檔中的位元組範圍內(例如,用於靜態或非即時內容)。
在一些實施例中,本文描述的技術可用於流傳輸應用,例如用於DASH應用。例如,藉由使用覆蓋定時元資料軌道和覆蓋導出軌道的存儲和信令機制,從其他N個可視軌道和項(N>1)構建的軌道可使用DASH進行流傳輸(例如,如標題為“Text of ISO/IEC 23009-1 3rd edition,”(2018年8月,San Diego,California USA)的N17233中所述)和ISOBMFF(例如,如N16169中所述)。
發明人已經開發了對現有流技術的改進,以支援平鋪的沉浸式媒體內容中的區域表示。根據一些實施例,流列表文檔(例如,DASH列表文檔)可包括與每個軌道(例如,V-PCC容器中的每個體積軌道和每個組件軌道)相對應的表示。根據一些實施例,用於體積軌道的DASH中的體積表示可以是從屬表示,其列出了其組件軌道的所有補充組件表示的識別字(例如,如本文所述,使用@dependencyId)。根據一些實施例,體積軌道的軌道分組框被用來發送區域。例如,如本文所述,對於每個區域,取決於其封裝方式,2D空間關係描述(Spatial Relationship Description,簡稱SRD)方案的3D擴展可被使用,它是DASH列表中的描述符,用於指定2D子圖像區域是如何相關的(本文結合3D SRD方案進一步描述)。在一些實施例中,如果區域在定時元資料軌道中被發送,則表示(representation)可用於定時元資料軌道(例如,可與它們的體積表示相關聯,例如藉由使用@associationID列出體積表示的ID,如本文所述)。在一些實施例中,如果視埠使用定時元資料軌道(例如,第5圖中討論的視埠518)來發送,則定時元資料表示被用來發送該視埠。例如,從概念上講,視埠可與區域類似地對待,但可包含額外元資料(例如,有關視場的位置,方向和大小的資訊)。 該額外資訊可被攜帶在定時元資料軌道中,以及DASH可指定該視埠的表示(例如,以及使用@associationID來列出ID,如本文所述)。
當諸如V-PCC內容之類的3D視訊內容被封裝在ISOBMFF中時(例如,以N18606中描述的方式),其區域可在定時元資料軌道,軌道組等中發送。
在一些實施例中,在3D視訊內容的區域在定時元資料軌道和/或軌道組中發送的情況下,體積軌道和組件軌道可各自具有它們自己的對應的DASH表示。根據一些實施例,DASH中用於體積軌道的體積表示可以是從屬表示,其屬性@dependencyId列出其組件軌道的所有補充組件表示的識別字。根據一些實施例,當體積軌道表示區域時,當其與其組件軌道一起時,其對應的體積表示連同補充表示一起表示用於流傳輸的區域。
在一些實施例中,如果區域的區域元資料在定時元資料軌道中攜帶,則定時元資料軌道的定時元資料表示可藉由屬性@associationId與它們的體積表示相關聯,以列出的定時元資料軌道所參考的軌道的所有體積表示的識別字(id)。
在一些實施例中,如果視埠的視埠元資料在定時元資料軌道中攜帶,則定時視埠元資料軌道的定時元資料表示可藉由屬性@associationId與它的體積表示相關聯,以列出定時元資料軌道所參考的軌道的所有體積表示的識別字(id)。
在一些實施例中,如果區域的區域元資料在體積軌道的軌道分組框中攜帶,則可以提出使用(2D)SRD方案的3D擴展來指定3D區域(物件)之間的空間關係,如本文所述。
3D空間關係描述(Spatial Relationship description,簡稱SRD)方案可允許媒體表示描述(Media Presentation Description)作者表達3D空間物件之間的空間關係。根據一些實施例,空間物件可由適應集合或子表示來表示。作 為示例,空間關係可表示3D視訊表示另一全尺寸3D視訊的3D空間的一部分(例如,興趣的3D區域或3D圖塊)。
根據一些實施例,具有等於“urn:mpeg:dash:dash:3dsrd:20xx”和“urn:mpeg:dash:3dsrd:dynamic:20xx”的@schemeIdUri的SupplementalProperty和/或EssentialProperty描述符可被用來提供空間關係資訊,該空間關係資訊與包含的空間物件相關聯。在一些實施例中,SRD資訊可以排他地包含在這兩個MPD元素(AdaptationSet和SubRepresentation)中。根據一些實施例,為了保持與傳統用戶端的相容性,MPD可以這樣的方式使用SupplementalProperty和EssentialProperty,使得在丟棄包含EssentialProperty的元素之後,至少一個表示可由傳統用戶端解釋。根據一些實施例,子表示級別SRD可被用來在一個表示中表示空間物件,例如HEVC平鋪流。在一些示例中,當子表示級別SRD被用來表示一個表示中的空間物件時,SRD描述符可在適應集合以及子表示級別中出現。
根據一些實施例,使用3D SRD方案的SupplementalProperty或EssentialProperty元素的值可以是3D SRD參數的值的逗號分隔列表。根據一些實施例,當@值不存在時,3D SRD可能根本不表示任一空間關係資訊並且可被忽略。
根據一些實施例,source_id參數可在時段(Period)內對內容的源提供唯一的識別字(identifier)。在一些實施例中,source_id參數可隱式地指定與該源相關聯的坐標系。在一些示例中,坐標系可以是任意原點(0;0;0),x軸可從左到右取向,y軸可從上到下取向,而z軸可從近到遠取向。根據一些實施例,共用相同source_id值的所有SRD可具有相同的原點和軸方向。使用具有不同source_id值的SRD的空間物件的空間關係未被指定。
在一些實施例中,對於給定的source_id值,參考空間可被指定,該 參考空間與包圍整個源內容的矩形區域相對應,該矩形區域的左上角在坐標系統的原點。在一些實施例中,SRD中的total_width,total_height和total_depth值提供以任意單位表示的參考空間的大小。
在一些實施例中,MPD中可能不存在覆蓋整個內容源的空間物件,例如,當整個源內容由兩個單獨的視訊表示。
根據一些實施例,MPD作者可以使用spacer_set_id參數來表達在給定的source_id內的一些空間物件具有特定的空間關係。例如,MPD作者可將對應於在相同解析度級別上的圖塊的所有適應集合進行分組。這樣,DASH用戶端可使用spatial_set_id參數來快速選擇與空間相關的空間物件。當由一個或多個空間物件組成的兩個或多個全幀視訊組具有相同的total_width,total_height和total_depth值時,space_set_id的不同值可被用來區分全幀視訊組。例如,N17233描述了顯示space_set_id用法的示例。
在一些實施例中,特定參數可用於靜態空間描述。根據一些實施例,例如,方案識別字可被使用,例如“urn:mpeg:dash:3dsrd:20xx”,以表達本時段範圍內的靜態描述。
根據一些實施例,本文描述的center_x 1911,center_y 1921和center_z 1922參數可表示3D位置,rotation_yaw 131,rotation_pitch 132和rotation_roll 133可表示3D旋轉,以及range_width,range_height和range_depth可表示在與源相關聯的3D坐標系中相關聯的空間物件的尺寸。根據一些實施例,如上所述,object_x,object_y,object_z,object_width,total_height和total_depth參數的值相對於total_width,total_height和total_depth參數的值。共用相同source_id值的SRD的位置(例如(object_x,object_y,object_z)等)和大小(例如(object_width,object_height,object_depth)等)可在考慮參考空間的大小之後被比較,即在object_x和object_width值除以各自描述符的total_width值, object_y和object_height值除以各自描述符的total_height值,而object_z和object_depth值除以各自描述符的total_depth值之後。
在一些實施例中,不同的total_width,total_height和total_depth值可在不同的描述符中使用,以提供不同單元中的位置和尺寸資訊。
第37A-37B圖示出根據一些實施例的用於靜態SRD方案的示例性EssentialProperty @ value和/或SupplementalProperty @ value屬性的表3900。第37A圖示出source_id 3902,object_x 3904,object_y 3906,object_z 3908,object_width 3910,object_height 3912,object_depth 3914,object_yaw 3916,object_pitch 3918,object_roll 3920和total_width 3922。第37B圖示出total_height 3924,total_depth 3926和spatial_setid3928。應當理解,儘管在整個本申請中使用了各種示例性名稱和命名約定,但是這些名稱僅用於示例性目的,而不是限制性的。
第3A圖和第3B圖的表3900進一步被擴展為包括用於源的其他可選屬性,例如用於源的位置的total_x,total_y和total_z,以及用於源的旋轉的total_pitch,total_yaw和total_roll。第39圖示出根據一些實施例的用於解碼沉浸式媒體的視訊資料的示例性方法4100。該方法包括在步驟4101訪問和/或接收沉浸式媒體資料,包括(a)至少一個軌道集合,其中的每個軌道包括與沉浸式媒體內容的相關空間部分相對應的相關編碼沉浸式媒體資料。(b)基本資料軌道,其包括沉浸式媒體基本資料,其中,該軌道集合中至少一個軌道參考該基本資料軌道。如本文所述,例如,基本資料軌道可以是參數軌道,幾何形狀軌道,紋理軌道和/或佔用軌道。沉浸式媒體資料還包括(c)分組資料,其指定沉浸式媒體內容中的該軌道集合中的軌道之間的空間關係。沉浸式媒體資料還包括(d)區域元資料,其包括指定沉浸式媒體內容中的觀看區域與該軌道集合的軌道子集合之間的空間關係的資料,其中該軌道子集合中的每個軌道构建該區域的視 覺內容的至少一部分。
在步驟4102,該方法包括基於該軌道集合,該基本資料軌道,該分組資料和該區域元資料執行解碼操作,以生成解碼的沉浸式媒體資料。沉浸式媒體內容可以是點雲多媒體。
如示例性方法4100的步驟4101中所述,訪問沉浸式媒體資料可包括訪問沉浸式媒體位元流,該沉浸式媒體位元流包括(a)補丁軌道集合,其中每個補丁軌道對應於軌道集合中的相關聯的軌道,以及(b)基本資料軌道,其中補丁軌道集合中的每個補丁軌道都參考基本資料軌道。
如示例性方法4100的步驟4101中所述,訪問沉浸式媒體資料可包括訪問沉浸式媒體位元元流的集合,其中每個沉浸式媒體位元流可包括(a)來自軌道集合的軌道,以及(b)相關聯的基本資料軌道,其中該軌道參考了相關聯的基本資料軌道,使得來自沉浸式媒體位元元流集合的沉浸式媒體位元流包括基本資料軌道。
在一些實施例中,該區域可以包括可見沉浸式媒體資料的子部分,該子部分小於沉浸式媒體資料的全部可見部分。在一些實施例中,該區域可包括視埠。
根據一些實施例,方法4100中存取區域元資料4101(d)可包括訪問軌道集合中的每個軌道中的軌道分組框。根據一些實施例,方法4100中存取區域中繼資料4101(d)可包括訪問參考軌道的子集合的定時元資料軌道。
根據一些實施例,如示例性方法4000的步驟4001中所述,訪問沉浸式媒體資料包括訪問流列表文檔,該流列表文檔包括該軌道集合中的每個軌道的至少一個軌道表示。在一些示例中,每個軌道表示可與組件軌道表示的集合相關聯。在一些示例中,流列表文檔可包括指定區域元資料的描述符和/或包括用於包括區域元資料的定時元資料軌道的定時元資料表示。
它們僅用於說明目的,而不是限制性的。應當理解,該些示例性欄位元的僅子集合可用於特定區域和/或其他欄位可被使用,並且該些欄位不必包括用於此處描述目的的欄位元名稱。例如,語法可省略特定欄位和/或可不填充特定欄位(例如,或用空值填充此類欄位)。作為另一示例,其他語法和/或類別可被使用而不背離本文描述的技術的精神。
根據本文描述的原理操作的技術可以以任何合適的方式實現。上述的流程圖的處理和決策塊表示可包括在執行該些各種過程的演算法中的步驟和動作。從該些過程導出的演算法可實現為與一個或多個單用途或多用途處理器的操作集成並指導其操作的軟體,可實現為功能等效電路,例如數位信號處理(Digital Signal Processing,簡稱DSP)電路或應用-特定積體電路(Application-Specific Integrated Circuit,簡稱ASIC),或者可以以任一其他合適的方式實現。應當理解,本發明包括的流程圖不描繪任何具體電路或任何具體程式設計語言或程式設計語言類型的語法或操作。相反,流程圖示出本領域習知技術者可用來製造電路或實現電腦軟體演算法以執行執行本文所述技術類型的具體裝置的處理的功能資訊。還應當理解,除非本文另有指示,否則每個流程圖中描述的具體步驟和/或動作序列僅僅是對可實現的演算法的說明,以及可在本文描述的原理的實現方式和實施例中變化。
因此,在一些實施例中,本文描述的技術可體現為實現為軟體的電腦可執行指令,包括作為應用軟體,系統軟體,韌體,仲介軟體,嵌入代碼或任何其他合適類型的電腦代碼。這樣的電腦可執行指令可使用多個合適的程式設計語言和/或程式設計或腳本工具中的任何一種來編寫,以及還可被編譯為在框架或虛擬機器上執行的可執行機器語言代碼或中間代碼。
當本文描述的技術體現為電腦可執行指令時,該些電腦可執行指令可以以任何合適的方式實現,包括作為多個功能設施,每個功能設施提供一 個或多個操作以完成根據該些技術操作的演算法的執行操作。然而,產生實體的“功能設施”是電腦系統的結構組件,當與一個或多個電腦集成和由一個或多個電腦執行時,會導致一個或多個電腦執行特定的操作角色。功能設施可以是軟體元素的一部分或整個軟體元素。例如,功能設施可根據過程,或作為離散過程,或作為任何其他合適的處理單元來實現。如果這裡描述的技術被實現為多功能設施,則每個功能設施可以以其自己的方式實現;所有該些都不需要以同樣的方式實現。另外,該些功能設施可以適當地並行和/或串列地執行,以及可使用它們正在執行的電腦上的共用記憶體以在彼此之間傳遞資訊,使用消息傳遞協定,或其他合適的方式。
一般來說,功能設施包括執行具體任務或實現具體抽象資料類型的慣例,程式,物件,組件,資料結構等。通常,功能設施的功能可根據需要在它們運行的系統中組合或分佈。在一些實現方式中,執行本文技術的一個或多個功能設施可一起形成完整的套裝軟體。在備選實施例中,該些功能設施可以適於與其他不相關的功能設施和/或過程交互,以實現軟體程式應用。
本發明已經描述了用於執行一個或多個任務的一些示例性功能設施。然而,應當理解,所描述的功能設施和任務劃分僅僅是可以實現本文描述的示例性技術的功能設施的類型的說明,並且實施例不限於以任何具體數量,劃分,或功能設施的類型。在一些實現方式中,所有功能可在單個功能設施中實現。還應當理解,在一些實施方式中,本文描述的一些功能設施可與其他功能設施一起實施或與其他功能設施分開實施(即,作為單個單元或單獨的單元),或者該些功能設施中的一些可以不實現。
在一些實施例中,實現本文描述的技術的電腦可執行指令(當實現為一個或多個功能設施或以任何其他方式實施時)可在一個或多個電腦可讀介質上編碼以向媒體提供功能。電腦可讀介質包括諸如硬碟驅動器之類的磁介 質,諸如光碟(Compact Disk,簡稱CD)或數位多功能碟(Digital Versatile Disk,簡稱DVD)之類的光學介質,永久或非永久固態記憶體(例如,快閃記憶體,磁性RAM等)或任何其他合適的存儲介質。這種電腦可讀介質可以以任何合適的方式實現。如這裡所使用的,“電腦可讀介質”(也稱為“電腦可讀存儲介質”)指的是有形存儲介質。有形存儲介質是非暫時性的以及具有至少一個物理結構組件。在如本文所使用的“電腦可讀介質”中,至少一個物理結構組件具有至少一個物理特性,該特性可在創建具有嵌入資訊的介質的過程,在其上記錄資訊的過程,或用資訊編碼媒體的任何其他過程期間以某種方式改變。例如,電腦可讀介質的物理結構的一部分的磁化狀態可在記錄過程期間改變。
此外,上述一些技術包括以特定方式存儲資訊(例如,資料和/或指令)以供該些技術使用的動作。在該些技術的一些實現方式中-諸如將技術實現為電腦可執行指令的實現方式-該資訊可以在電腦可讀存儲介質上編碼。在本文中將特定結構描述為存儲該資訊的有利格式的情況下,該些結構可用於在編碼在存儲介質上時發送資訊的物理組織。然後,該些有利結構可藉由影響與資訊交互的一個或多個處理器的操作來向存儲介質提供功能;例如,藉由提高處理器執行的電腦操作的效率。
在其中技術可以體現為電腦可執行指令的一些但非全部實現方式中,該些指令可在任一合適的電腦系統中操作的一個或多個合適的計算設備中執行,或一個或多個計算設備(或者,一個或多個計算設備的一個或多個處理器)可被程式設計為執行電腦可執行指令。當指令以計算設備或處理器可訪問的方式存儲時,計算設備或處理器可被程式設計為執行指令,例如在資料存儲(例如,片上快取記憶體或指令寄存器,可被匯流排訪問的電腦可讀存儲介質,可被一個或多個網路訪問並可由設備/處理器訪問的電腦可讀存儲介質等)。包括該些電腦可執行指令的功能設施可與以下設備的操作集成和指導其操作:單個 多用途可程式設計數位計算設備,共用處理能力和聯合執行本文描述的技術的兩個或更多個多用途計算設備的協調系統,專用於執行本文所述技術的單個計算設備或計算設備的協調系統(同位或地理分佈),用於執行本文所述技術的一個或多個現場可程式設計閘陣列(Field-Programmable Gate Array,簡稱FPGA),或任何其他合適的系統。
計算設備可包括至少一個處理器,網路介面卡和電腦可讀存儲介質。計算設備可以是例如臺式或膝上型個人電腦,個人數位助理(Personal digital assistant,簡稱PDA),智慧行動電話,伺服器或任何其他合適的計算設備。網路適配器可以是任何合適的硬體和/或軟體,以使計算設備能夠藉由任何合適的計算網路與任何其他合適的計算設備進行有線和/或無線通訊。計算網路可包括無線接入點,交換機,路由器,閘道和/或其他網路設備以及用於在兩個或更多個電腦(包括網際網路)之間交換資料的任何合適的有線和/或無線通訊介質或介質。電腦可讀介質可以適於存儲要處理的資料和/或要由處理器執行的指令。處理器能夠處理資料和執行指令。資料和指令可以存儲在電腦可讀存儲介質上。
計算設備可另外具有一個或多個組件和周邊設備,包括輸入和輸出設備。除其他用途之外,該些設備可用於呈現使用者介面。可用於提供使用者介面的輸出設備的示例包括用於輸出視覺呈現的印表機或顯示幕,和用於輸出的有聲呈現的揚聲器或其他聲音生成設備。可用作使用者介面的輸入裝置的示例包括鍵盤和指示設備,諸如滑鼠,觸控板和數位化平板電腦。作為另一示例,計算設備可藉由語音辨識或其他有聲格式接收輸入資訊。
以電路和/或電腦可執行指令實現該些技術的實施例已被描述。應當理解,一些實施例可以是方法的形式,其中已經提供了至少一個示例。作為方法的一部分執行的動作可以以任何合適的方式排序。因此,這樣的實施例可被構造,其中以不同於所示的順序執行動作,其可包括同時執行一些動作,即 使在示例性實施例中示出為順序動作。
上述實施例的各個方面可單獨使用,組合使用,或者在前面描述的實施例中沒有具體討論的各種佈置中使用,因此不限於其應用於前面的描述或附圖中示出的上述實施例中闡述的組件的細節和佈置。例如,一個實施例中描述的各方面可以以任何方式與其他實施例中描述的各方面組合。
在申請專利範圍中使用諸如“第一”,“第二”,“第三”等的序數術語來修改申請專利範圍的元素本身並不意味著任何優先權,優先順序,或一個申請專利範圍元素的順序優先於另一個,或執行方法的行為的時間順序,但僅用作標籤以區分具有具體名稱的一個申請專利範圍元素與具有相同名稱的另一個元素(但是用於使用序數術語),進而區分申請專利範圍的元素。
此外,這裡使用的措辭和術語是出於描述的目的,而不應被視為限制。本文中“包括”,“包含”,“具有”,“含有”,“涉及”及其變化形式的使用旨在涵蓋其後列出的項目及其等同物以及附加項目。
本文使用的“示例性”一詞意味著用作示例,實例或說明。因此,在此描述為示例性的任何實施例,實現,過程,特徵等應當被理解為說明性示例,並且除非另有指示,否則不應被理解為優選或有利示例。
至少一個實施例的若干方面已被如此描述,應當理解,本領域習知技術者將容易想到各種改變,修改和改進。該些改變,修改和改進旨在成為本公開的一部分,並且旨在落入本文描述的原理的精神和範圍內。因此,前面的描述和附圖僅是示例性的。
1700:方法
1701、1702:步驟

Claims (20)

  1. 一種用於解碼沉浸式媒體的視訊資料的方法,包括:訪問沉浸式媒體資料,其中該沉浸式媒體資料包括:一軌道集合,其中:該軌道集合中每個軌道包括相關聯的待解碼沉浸式媒體資料,該待解碼沉浸式媒體資料對應於沉浸式媒體內容的一相關聯空間部分,該相關聯空間部分與該軌道集合中的其他軌道的該相關聯空間部分不同;一基本資料軌道,包括第一沉浸式媒體基本資料,其中該軌道集合中至少一個軌道參考該基本資料軌道,該基本資料軌道包括:至少一個幾何軌道,該幾何軌道包括該沉浸式媒體的幾何資料;至少一個屬性軌道,該屬性軌道包括該沉浸式媒體的屬性資料;以及一佔用軌道,該佔用軌道包括該沉浸式媒體的佔用圖資料;分組資料,用於指定該沉浸式媒體內容中的該軌道集合中的多個軌道之間的一空間關係;區域元資料,包括用於指定該沉浸式媒體內容中正在觀看的一區域與該軌道集合的軌道子集合之間的一空間關係的資料,其中該軌道子集合中的每個軌道構建該區域的視覺內容的至少一部分;以及基於該軌道集合,該基本資料軌道,該分組資料和該區域元資料,執行一解碼操作以生成解碼的沉浸式媒體資料。
  2. 如請求項1所述之用於解碼沉浸式媒體的視訊資料的方法,其中,訪問該沉浸式媒體資料包括:訪問一沉浸式媒體位元流,其中該沉浸式媒體位元流包括:一補丁軌道集合,其中該補丁軌道集合中的每個補丁軌道對應於該軌道集合中的一相關聯軌道;以及 該基本資料軌道,其中該補丁軌道集合中的每個補丁軌道參考該基本資料軌道。
  3. 如請求項1所述之用於解碼沉浸式媒體的視訊資料的方法,其中,訪問該沉浸式媒體資料包括:訪問一沉浸式媒體位元流集合,其中該沉浸式媒體位元流集合中的每個沉浸式媒體位元流包括:來自該軌道集合中的一軌道;以及一相關聯基本資料軌道,其中該軌道參考該相關聯基本資料軌道,使得該沉浸式媒體位元流集合中的一沉浸式媒體位元流包括該基本資料軌道。
  4. 如請求項1所述之用於解碼沉浸式媒體的視訊資料的方法,其中,該區域包括可見沉浸式媒體資料的一子部分,其中該子部分小於該沉浸式媒資料的一完整可見部分。
  5. 如請求項1所述之用於解碼沉浸式媒體的視訊資料的方法,其中,該區域包括一視埠。
  6. 如請求項1所述之用於解碼沉浸式媒體的視訊資料的方法,其中,訪問該區域元資料包括:訪問該軌道集合中的每個軌道的一軌道分組框。
  7. 如請求項1所述之用於解碼沉浸式媒體的視訊資料的方法,其中,訪問該區域元資料包括:訪問參考該軌道子集合的一定時元資料軌道。
  8. 如請求項1所述之用於解碼沉浸式媒體的視訊資料的方法,其中,訪問該沉浸式媒體資料包括:訪問一流列表文檔,該流列表文檔包括該軌道集合中的每個軌道的一軌道表示。
  9. 如請求項8所述之用於解碼沉浸式媒體的視訊資料的方法,其中,每個軌道表示與一組件軌道表示的集合相關聯。
  10. 如請求項8所述之用於解碼沉浸式媒體的視訊資料的方法,其中,該流列表文檔包括用於指定該區域元資料的一描述符。
  11. 如請求項8所述之用於解碼沉浸式媒體的視訊資料的方法,其中,該流列表文檔包括一定時元資料軌道的一定時元資料表示,該定時元資料軌道包括該區域元資料。
  12. 如請求項1所述之用於解碼沉浸式媒體的視訊資料的方法,其中,該沉浸式媒體內容包括點雲多媒體。
  13. 如請求項1所述之用於解碼沉浸式媒體的視訊資料的方法,其中,訪問該沉浸式媒體資料包括訪問:該至少一個幾何軌道中的該幾何資料;該至少一個屬性軌道中的該屬性資料;以及該佔用軌道中的該佔用圖資料;以及執行該解碼操作包括:使用該幾何資料,該屬性資料和該佔用途資料執行該解碼操作以生成解碼的沉浸式媒體資料。
  14. 一種用於編碼沉浸式媒體的視訊資料的方法,包括:對沉浸式媒體資料進行編碼,包括編碼至少:一軌道集合,其中:該軌道集合中每個軌道包括相關聯的待解碼沉浸式媒體資料,該待解碼沉浸式媒體資料對應於沉浸式媒體內容的一相關聯空間部分,該相關聯空間部分與該軌道集合中的其他軌道的該相關聯空間部分不同;一基本資料軌道,包括第一沉浸式媒體基本資料,其中該軌道集合中至少一個軌道參考該基本資料軌道,該基本資料軌道包括:至少一個幾何軌道,該幾何軌道包括該沉浸式媒體的幾何資料;至少一個屬性軌道,該屬性軌道包括 該沉浸式媒體的屬性資料;以及一佔用軌道,該佔用軌道包括該沉浸式媒體的佔用圖資料;分組資料,用於指定該沉浸式媒體內容中的該軌道集合中的多個軌道之間的一空間關係;區域元資料,包括用於指定該沉浸式媒體內容中正在觀看的一區域與該軌道集合的軌道子集合之間的一空間關係的資料,其中該軌道子集合中的每個軌道構建該區域的視覺內容的至少一部分;以及基於該軌道集合,該基本資料軌道,該分組資料和該區域元資料,執行一編碼操作以生成編碼的沉浸式媒體資料。
  15. 如請求項14所述之用於編碼沉浸式媒體的視訊資料的方法,其中,對沉浸式媒體資料進行編碼包括:對一沉浸式媒體位元流進行編碼,其中該沉浸式媒體位元流包括:一補丁軌道集合,其中該補丁軌道集合中的每個補丁軌道對應於該軌道集合中的一相關聯軌道;以及該基本資料軌道,其中該補丁軌道集合中的每個補丁軌道參考該基本資料軌道。
  16. 如請求項14所述之用於編碼沉浸式媒體的視訊資料的方法,其中,對該沉浸式媒體資料進行編碼包括:對一沉浸式媒體位元流集合進行編碼,其中該沉浸式媒體位元流集合中的每個沉浸式媒體位元流包括:來自該軌道集合中的一軌道;以及一相關聯基本資料軌道,其中該軌道參考該相關聯基本資料軌道,使得該沉浸式媒體位元流集合中的一沉浸式媒體位元流包括該基本資料軌道。
  17. 如請求項14所述之用於編碼沉浸式媒體的視訊資料的方法, 其中,對該區域元資料進行編碼包括:對該軌道集合中的每個軌道中的一軌道分組框進行編碼。
  18. 如請求項14所述之用於編碼沉浸式媒體的視訊資料的方法,其中,對該區域元資料進行編碼包括:對參考該軌道子集合的一定時元資料軌道進行編碼。
  19. 如請求項14所述之用於編碼沉浸式媒體的視訊資料的方法,其中,對該沉浸式媒體資料進行編碼包括:對一流列表文檔進行編碼,該流列表文檔包括該軌道集合中的每個軌道的一軌道表示。
  20. 一種非暫時性電腦可讀存儲介質,其存儲多個指令,該多個指令在由一處理器執行時使該處理器執行一種方法,該方法包括:訪問沉浸式媒體資料,其中該沉浸式媒體資料包括:一軌道集合,其中:該軌道集合中每個軌道包括相關聯的待解碼沉浸式媒體資料,該待解碼沉浸式媒體資料對應於沉浸式媒體內容的一相關聯空間部分,該相關聯空間部分與該軌道集合中的其他軌道的該相關聯空間部分不同;一基本資料軌道,包括第一沉浸式媒體基本資料,其中該軌道集合中至少一個軌道參考該基本資料軌道,該基本資料軌道包括:至少一個幾何軌道,該幾何軌道包括該沉浸式媒體的幾何資料;至少一個屬性軌道,該屬性軌道包括該沉浸式媒體的屬性資料;以及一佔用軌道,該佔用軌道包括該沉浸式媒體的佔用圖資料;分組資料,用於指定該沉浸式媒體內容中的該軌道集合中的多個軌道之間的一空間關係;區域元資料,包括用於指定該沉浸式媒體內容中正在觀看的一區域與該軌道集合的軌道子集合之間的一空間關係的資料,其中該軌道子集合中的每個軌 道構建該區域的視覺內容的至少一部分;以及基於該軌道集合,該基本資料軌道,該分組資料和該區域元資料,執行一解碼操作以生成解碼的沉浸式媒體資料。
TW109134038A 2019-10-02 2020-09-30 用於編碼/解碼沉浸式媒體的視訊資料的方法和裝置 TWI768487B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201962909258P 2019-10-02 2019-10-02
US62/909,258 2019-10-02
US17/035,646 2020-09-28
US17/035,646 US20210105313A1 (en) 2019-10-02 2020-09-28 Methods and apparatus for signaling a region in spatially grouped immersive media data tracks

Publications (2)

Publication Number Publication Date
TW202118289A TW202118289A (zh) 2021-05-01
TWI768487B true TWI768487B (zh) 2022-06-21

Family

ID=75273665

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109134038A TWI768487B (zh) 2019-10-02 2020-09-30 用於編碼/解碼沉浸式媒體的視訊資料的方法和裝置

Country Status (2)

Country Link
US (1) US20210105313A1 (zh)
TW (1) TWI768487B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11403784B2 (en) * 2019-03-19 2022-08-02 Tencent America LLC Method and apparatus for tree-based point cloud compression (PCC) media stream using moving picture experts group (MPEG)-dynamic adaptive streaming over HTTP (DASH)
US11398072B1 (en) * 2019-12-16 2022-07-26 Siemens Healthcare Gmbh Method of obtaining a set of values for a respective set of parameters for use in a physically based path tracing process and a method of rendering using a physically based path tracing process
EP4082217A1 (en) * 2019-12-24 2022-11-02 Koninklijke KPN N.V. Video processing device and manifest file for video streaming
EP4090013A4 (en) * 2020-01-10 2024-01-17 LG Electronics Inc. POINT CLOUD DATA TRANSMISSION DEVICE, POINT CLOUD DATA TRANSMISSION METHOD, POINT CLOUD DATA RECEIVING DEVICE, AND POINT CLOUD DATA RECEIVING METHOD
US11252439B2 (en) 2020-02-10 2022-02-15 Tencent America LLC Flexible tree partition and representation for point cloud coding
WO2021187737A1 (ko) * 2020-03-18 2021-09-23 엘지전자 주식회사 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
GB2593897B (en) * 2020-04-06 2024-02-14 Canon Kk Method, device, and computer program for improving random picture access in video streaming
CN115380537A (zh) * 2020-04-13 2022-11-22 Lg电子株式会社 发送点云数据的设备、发送点云数据的方法、接收点云数据的设备及接收点云数据的方法
US11683462B2 (en) * 2021-06-04 2023-06-20 Dierks Technology, Inc. Matching segments of video for virtual display of a space

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201836358A (zh) * 2017-03-27 2018-10-01 日商佳能股份有限公司 用於產生媒體資料的方法及設備
TW201906411A (zh) * 2017-06-27 2019-02-01 日商佳能股份有限公司 用於傳輸媒體內容之方法、裝置及電腦程式

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10223063B2 (en) * 2017-02-24 2019-03-05 Spotify Ab Methods and systems for personalizing user experience based on discovery metrics
EP3777220A1 (en) * 2018-04-13 2021-02-17 Huawei Technologies Co., Ltd. Immersive media metrics for virtual reality content with multiple viewpoints

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201836358A (zh) * 2017-03-27 2018-10-01 日商佳能股份有限公司 用於產生媒體資料的方法及設備
TW201906411A (zh) * 2017-06-27 2019-02-01 日商佳能股份有限公司 用於傳輸媒體內容之方法、裝置及電腦程式

Also Published As

Publication number Publication date
TW202118289A (zh) 2021-05-01
US20210105313A1 (en) 2021-04-08

Similar Documents

Publication Publication Date Title
US11245926B2 (en) Methods and apparatus for track derivation for immersive media data tracks
TWI768487B (zh) 用於編碼/解碼沉浸式媒體的視訊資料的方法和裝置
US11200700B2 (en) Methods and apparatus for signaling viewports and regions of interest for point cloud multimedia data
US11457231B2 (en) Methods and apparatus for signaling spatial relationships for point cloud multimedia data tracks
US11218715B2 (en) Methods and apparatus for spatial grouping and coordinate signaling for immersive media data tracks
US10742999B2 (en) Methods and apparatus for signaling viewports and regions of interest
US10939086B2 (en) Methods and apparatus for encoding and decoding virtual reality content
KR102559862B1 (ko) 미디어 콘텐츠 전송을 위한 방법, 디바이스, 및 컴퓨터 프로그램
TWI674797B (zh) 球面區域呈現之方法與裝置
WO2020002122A1 (en) Method, device, and computer program for transmitting media content
US11146802B2 (en) Methods and apparatus for providing two-dimensional spatial relationships
US10931930B2 (en) Methods and apparatus for immersive media content overlays
US20240114168A1 (en) Methods and apparatus for signaling 2d and 3d regions in immersive media
US11818326B2 (en) Methods and apparatus for signaling viewing regions of various types in immersive media
US11589032B2 (en) Methods and apparatus for using track derivations to generate new tracks for network based media processing applications
US11922561B2 (en) Methods and systems for implementing scene descriptions using derived visual tracks
US11743559B2 (en) Methods and systems for derived immersive tracks
US11743441B2 (en) Methods and apparatus for selecting and switching input video tracks using track derivations