TWI749483B - 用信號通知點雲多媒體資料軌道的空間關係的方法和裝置 - Google Patents

用信號通知點雲多媒體資料軌道的空間關係的方法和裝置 Download PDF

Info

Publication number
TWI749483B
TWI749483B TW109108422A TW109108422A TWI749483B TW I749483 B TWI749483 B TW I749483B TW 109108422 A TW109108422 A TW 109108422A TW 109108422 A TW109108422 A TW 109108422A TW I749483 B TWI749483 B TW I749483B
Authority
TW
Taiwan
Prior art keywords
track
sub
source
region
point cloud
Prior art date
Application number
TW109108422A
Other languages
English (en)
Other versions
TW202041020A (zh
Inventor
新 王
魯林 陳
Original Assignee
新加坡商聯發科技(新加坡)私人有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 新加坡商聯發科技(新加坡)私人有限公司 filed Critical 新加坡商聯發科技(新加坡)私人有限公司
Publication of TW202041020A publication Critical patent/TW202041020A/zh
Application granted granted Critical
Publication of TWI749483B publication Critical patent/TWI749483B/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Abstract

本文描述的技術涉及被配置為對視頻資料進行編碼和/或解碼的方法、裝置和電腦可讀介質。點雲視頻資料包括多個軌道。多個軌道中的第一軌道的第一元資料,第一元資料指定點雲視頻資料的多個源區域中的第一源區域,其中每個源區域對應於點雲視頻資料的不同空間部分。第一元資料指定第一源區域中的第一軌道的子區域,該子區域包括指示第一源區域中的第一軌道的視頻資料的空間位置的資料。基於第一元資料,使用第一軌道的視頻資料來生成第一源區域的子區域的點雲媒體。

Description

用信號通知點雲多媒體資料軌道的空間關係的方法和裝置
本文描述的技術大體涉及視頻編解碼,尤其涉及用信號通知點雲視頻(point cloud video)內容軌道的空間關係和樣本組,其包括用信號通知基於視頻的點雲壓縮(V-PCC)子圖片和子體積軌道(sub-volumetric tracks)的二維(2D)和/或三維(3D)空間關係和樣本組。
存在各種類型的視頻內容,例如2D內容、3D內容和多向內容。例如,與傳統單向視頻的僅單個攝像頭相反,全向視頻是使用一組攝像頭捕獲的一類視頻。例如,可以將攝像頭放置在特定的中心點周圍,使得每個攝像頭捕獲場景的球形覆蓋範圍上的視頻的一部分,以捕獲360度視頻。來自多個攝像頭的視頻可以被拼接、可能地旋轉並投影,以生成表示球形內容的投影二維圖片。例如,可以使用等矩形投影將球面映射放入二維圖像中。例如,可以使用二維編碼和壓縮技術來完成此操作。最終,使用期望的傳遞機制(例如,拇指驅動器、數位視頻盤(DVD)和/或線上流傳輸)來存儲和傳遞編碼和壓縮的內容。此類視頻可用於虛擬實境(VR)和/或3D視頻。
在用戶端側,當用戶端處理內容時,視頻解碼器會對編碼的視頻進行解碼並執行反向投影,以將內容放回球體上。然後,使用者可以例如使用頭戴式觀看設備來觀看渲染的內容。通常根據使用者的視窗(viewport)來渲染內容,使用者的視窗表示使用者正在觀看該內容的角度。視窗還可以包括代表觀看區域的組成部分,該組成部分可以描述觀看者正在以特定角度觀看的區域的大小和形狀。
當未以視窗相關的方式進行視頻處理使得視頻編解碼器不知道使用者將實際觀看的內容時,整個編碼和解碼處理將處理整個球形內容。由於所有球形內容都被傳遞和解碼,因此這可以允許例如用戶觀看任何特定的視窗和/或區域處內容。
然而,處理所有球形內容可能是計算密集的,並且會消耗大量頻寬。例如,對於線上流傳輸應用,處理所有球形內容可能會給網路頻寬帶來很大負擔。因此,當頻寬資源和/或計算資源受到限制時,可能難以保留用戶的體驗。一些技術僅處理使用者正在觀看的內容。例如,如果用戶正在觀看正面(例如,或者北極),則無需傳遞內容的背面部分(例如,南極)。如果用戶改變了視窗,則可以針對新視窗相應地傳遞內容。作為另一示例,對於自由視點TV(FTV)應用(例如,其使用多個攝像頭來捕獲場景的視頻),可以根據使用者正在觀看該場景的角度來傳遞內容。例如,如果用戶正在從一個視窗(例如,攝像頭和/或鄰近的攝像頭)觀看內容,則很可能無需針對其他視窗傳遞內容。
根據所公開的主題,提供了用於處理(例如,編碼或解碼)包括承載點雲視頻資料(例如,包括2D和3D點雲資料)的多個軌道的結構中的點雲視頻資料的裝置、系統和方法。點雲視頻資料可以被劃分為2D軌道(例如,子圖片軌道)和/或3D軌道(例如,子體積軌道)的區域或組。這些技術提供用信號通知點雲視頻內容軌道的空間關係和樣本組,包括用信號通知2D和/或3D空間關係和樣本組。
一些實施方式涉及一種對視頻資料進行解碼的解碼方法。所述方法包括:接收點雲視頻資料,其中,所述點雲視頻資料包括多個軌道;訪問所述多個軌道中的第一軌道的第一元資料,所述第一元資料指定所述點雲視頻資料的多個源區域中的第一源區域(其中,每個源區域對應於所述點雲視頻資料的不同空間部分)以及所述第一源區域中的所述第一軌道的子區域,所述子區域包括指示所述第一源區域中的所述第一軌道的視頻資料的空間位置的資料;以及基於所述第一元資料,使用所述第一軌道的所述視頻資料來生成所述第一源區域的所述子區域的點雲媒體。
在一些示例中,所述第一元資料包括第一2D空間關係描述元資料,所述第一源區域包括2D源箱,並且所述子區域包括針對所述第一軌道的子圖片區域。
在一些示例中,所述多個軌道包括包含所述第一軌道的三維(3D)子體積軌道組;並且所述第一元資料包括第一3D空間關係描述元資料,所述第一源區域包括3D源箱,並且所述子區域包括針對所述第一軌道的子體積區域。所述3D子體積軌道組還包括:包含幾何形狀資料的至少一個幾何形狀軌道;包含屬性資料的至少一個屬性軌道;以及包含佔用地圖資料的佔用軌道;並且生成所述第一源區域的所述子區域的點雲媒體可以包括:使用所述幾何形狀資料、所述屬性資料和所述佔用地圖資料來生成所述點雲媒體。
在一些示例中,訪問所述多個軌道中的第二軌道的第二元資料,所述第二元資料指定:所述第一源區域;所述第一源區域中的所述第二軌道的第二子區域,所述第二子區域包括指示所述第一源區域中的所述第二軌道的視頻資料的空間位置的資料;以及基於所述第二元資料,使用所述第二軌道的所述視頻資料來生成所述第一源區域的所述第二子區域的點雲媒體。
在一些示例中,指定所述第一源區域的元資料包括指示所述第一源區域的寬度、所述第一源區域的高度、所述第一源區域的深度或其某種組合的資料。
在一些示例中,指定所述子區域的元資料包括指示以下內容的資料:所述第一源區域中的所述子區域的位置;以及所述子區域的寬度、所述子區域的高度、所述子區域的深度或其某種組合。
一些實施方式涉及一種對視頻資料進行編碼的方法。所述方法包括以下步驟:對點雲視頻資料進行編碼,對點雲視頻資料進行編碼的步驟包括對多個軌道進行編碼,對多個軌道進行編碼包括:確定所述點雲視頻資料的多個源區域中的第一源區域,其中,每個源區域對應於所述點雲視頻資料的不同空間部分;以及確定所述第一源區域中的所述第一軌道的子區域,確定所述第一源區域中的所述第一軌道的子區域包括確定指示所述第一源區域中的視頻資料的空間位置的資料。所述方法包括基於所確定的第一源區域和所確定的所述第一軌道的子區域,對所述點雲視頻資料進行編碼,包括:將所述視頻資料編碼在第一軌道中;以及對所述第一軌道的第一元資料進行編碼,所述第一元資料包括指定所述第一源區域和所述子區域的元資料。
在一些示例中,所述第一元資料包括第一2D空間關係描述元資料,所述第一源區域包括2D源箱,並且所述子區域包括針對所述第一軌道的子圖片區域。
在一些示例中,所述多個軌道包括包含所述第一軌道的三維(3D)子體積軌道組;並且所述第一元資料包括第一3D空間關係描述元資料,所述第一源區域包括3D源箱,並且所述子區域包括針對所述第一軌道的子體積區域。所述3D子體積軌道組還包括:包含幾何形狀資料的至少一個幾何形狀軌道;包含屬性資料的至少一個屬性軌道;以及包含佔用地圖資料的佔用軌道;並且生成所述第一源區域的所述子區域的點雲媒體可以包括:使用所述幾何形狀資料、所述屬性資料和所述佔用地圖資料來生成所述點雲媒體。
在一些示例中,指定所述第一源區域的元資料包括指示所述第一源區域的寬度、所述第一源區域的高度、所述第一源區域的深度或其某種組合的資料。
在一些示例中,指定所述子區域的元資料包括指示以下內容的資料:所述第一源區域中的所述子區域的位置;以及所述子區域的寬度、所述子區域的高度、所述子區域的深度或其某種組合。
一些實施方式涉及一種被配置為對視頻資料進行解碼的裝置。所述裝置包括與記憶體通信的處理器。所述處理器被配置為執行存儲在所述記憶體中的指令,所述指令使所述處理器執行:接收點雲視頻資料,其中,所述點雲視頻資料包括多個軌道;訪問所述多個軌道中的第一軌道的第一元資料,所述第一元資料指定:所述點雲視頻資料的多個源區域中的第一源區域以及所述第一源區域中的所述第一軌道的子區域,其中,每個源區域對應於所述點雲視頻資料的不同空間部分,所述子區域包括指示所述第一源區域中的所述第一軌道的視頻資料的空間位置的資料;以及基於所述第一元資料,使用所述第一軌道的所述視頻資料來生成所述第一源區域的所述子區域的點雲媒體。
在一些示例中,所述第一元資料包括第一2D空間關係描述元資料,所述第一源區域包括2D源箱,並且所述子區域包括針對所述第一軌道的子圖片區域。
在一些示例中,所述多個軌道包括包含所述第一軌道的三維(3D)子體積軌道組;並且所述第一元資料包括第一3D空間關係描述元資料,所述第一源區域包括3D源箱,並且所述子區域包括針對所述第一軌道的子體積區域。
在一些示例中,所述3D子體積軌道組還包括:包含幾何形狀資料的至少一個幾何形狀軌道;包含屬性資料的至少一個屬性軌道;以及包含佔用地圖資料的佔用軌道;並且生成所述第一源區域的所述子區域的點雲媒體包括:使用所述幾何形狀資料、所述屬性資料和所述佔用地圖資料來生成所述點雲媒體。
在一些示例中,所述指令還使所述處理器執行:訪問所述多個軌道中的第二軌道的第二元資料,所述第二元資料指定:所述第一源區域以及所述第一源區域中的所述第二軌道的第二子區域,所述第二子區域包括指示所述第一源區域中的所述第二軌道的視頻資料的空間位置的資料;以及基於所述第二元資料,使用所述第二軌道的所述視頻資料來生成所述第一源區域的所述第二子區域的點雲媒體。
在一些示例中,指定所述第一源區域的元資料包括指示所述第一源區域的寬度、所述第一源區域的高度、所述第一源區域的深度或其某種組合的資料。
在一些示例中,指定所述子區域的元資料包括指示以下內容的資料:所述第一源區域中的所述子區域的位置;以及所述子區域的寬度、所述子區域的高度、所述子區域的深度或其某種組合。
因此,已經相當廣泛地概述了所公開主題的特徵,以便可以更好地理解其隨後的詳細描述,並且可以更好地理解對本領域的當前貢獻。當然,在下文中將描述所公開的主題的附加特徵,這些附加特徵將構成所附權利要求的主題。應當理解,本文採用的措詞和術語是出於描述的目的,而不應被認為是限制性的。
諸如基於視頻的點雲壓縮(V-PCC)資料的點雲資料可以為各種類型的3D多媒體應用提供經壓縮的點雲資料。發明人已經認識到,期望提供使用利用多個視頻資料軌道的軌道結構對點雲視頻資料進行編碼和/或解碼的技術。例如,可能期望僅處理和顯示將由使用者觀看的點雲內容(例如,僅處理用於視窗的視頻資料以避免處理將不會顯示的內容)。使用者交互資訊可以允許使用者選擇不同的視窗,相應地,所述不同的視窗又可以用於用信號通知設備處理哪個點雲資料。例如,使用者交互資訊可以用於允許使用者選擇點雲資料中的不同視點,並基於這種用戶選擇/交互來改變點雲資料處理。發明人已經認識到,為了改善視頻處理能力(例如,包括提高處理效率和/或頻寬效率),這種視窗相關技術僅需要處理與視窗相關聯的視頻資料,使得如果視頻資料可以由多個點雲視頻資料軌道承載,則僅與視窗相關聯的軌道需要被處理(例如,發送和/或解碼)以提供所需的用戶體驗。
本文所描述的技術提供了使用包括多個點雲視頻資料軌道的軌道結構對點雲內容(例如,V-PCC內容)進行編碼和/或解碼。這些技術提供了將點雲內容劃分為多個軌道,以便在多軌道視頻內容結構中承載點雲內容。例如,可以將(例如,與2D區域相關聯的)2D點雲內容劃分為多個子圖片軌道。作為另一示例,可以將(例如,與3D區域相關聯的)3D點雲內容劃分為多個子體積軌道(sub-volumetric track)。如本文所述,點雲視頻內容軌道的空間關係和/或樣本組可以使用元資料來用信號通知,其包括用信號通知2D和/或3D空間關係和樣本組。這些技術可以允許有效的點雲視頻處理,其包括提供點雲資料的視窗相關內容處理。
在以下描述中,闡述了與所公開主題的系統和方法以及此類系統和方法可以在其中操作的環境等有關的許多具體細節,以便提供對所公開主題的透徹理解。另外,將理解的是,下面提供的示例是示例性的,並且可以想到,在所公開的主題的範圍內,還有其他系統和方法。
第1圖示出了根據一些實施方式的示例性視頻編解碼配置100。攝像頭102A-102N是N個攝像頭,並且可以是任何類型的攝像頭(例如,包括音訊記錄能力的攝像頭和/或單獨的攝像頭和音訊記錄功能)。編碼設備104包括視頻處理器106和編碼器108。視頻處理器106處理從攝像頭102A-102N接收的視頻(諸如,拼接、投影和/或映射)。編碼器108對二維視頻資料進行編碼和/或壓縮。解碼設備110接收經編碼的資料。解碼設備110可以通過廣播網路、通過移動網路(例如,蜂窩網路)和/或通過網際網路接收作為視頻產品(例如,數位視頻盤或其他電腦可讀介質)的視頻。解碼設備110可以是例如電腦、頭戴式顯示器的一部分或具有解碼能力的任何其他裝置。解碼設備110包括被配置為對經編碼的視頻進行解碼的解碼器112。解碼設備110還包括用於將二維內容渲染回用於重播的格式的渲染器114。顯示器116顯示來自渲染器114的經渲染的內容。
通常,可以使用球形內容來表示3D內容,以提供場景的360度視圖(例如,有時稱為全向媒體內容)。儘管使用3D球體可以支援許多視圖,但終端使用者通常只觀看3D球體上的一部分內容。發送整個3D球體所需的頻寬可能給網路造成沉重負擔,並且可能不足以支援球形內容。因此,期望使3D內容傳遞更加高效。可以執行視窗相關處理以改善3D內容傳遞。可以將3D球形內容劃分為區域/區塊/子圖片,並且只有與觀看螢幕(例如,視窗)相關的那些內容才能被發送並傳遞給終端使用者。
第2圖示出了根據一些示例的用於VR內容的視窗相關的內容流處理200。如圖所示,球形視窗201(例如,其可以包括整個球體)在框202處經歷拼接、投影、映射(以生成經投影和映射的區域),在框204處被編碼(以生成多種品質的經編碼/轉碼區塊)在框206處被傳遞(作為區塊),在框208處被解碼(以生成經解碼的區塊),在框210處被構建(以構建球形渲染的視窗)並在框212處被渲染。框214處的用戶交互可以選擇視窗,這會啟動多個“即時”處理步驟,經由如虛線箭頭所示。
在處理200中,由於當前網路頻寬限制和各種適配要求(例如,對不同的品質、編解碼器和保護方案的要求),首先將3D球形VR內容處理(拼接、投影和映射)到2D平面上(通過框202),然後封裝在多個基於區塊(或基於子圖片)的分段檔中(在框204處),以供傳遞和重播。在這種基於區塊的分段檔中,通常將2D平面中的空間區塊(例如,其代表空間部分,通常為2D平面內容的矩形形狀)諸如以不同的品質和位元速率或不同的編解碼器和保護方案(例如,不同的加密演算法和模式)封裝為其變體的集合。在某些示例中,這些變體對應於MPEG DASH中的適配組(adaptation set)內的表示。在一些示例中,基於用戶在視窗上的選擇,這些不同區塊的變體中的一些變體(當放在一起時,它們提供了所選視窗的覆蓋範圍)由接收器檢索或傳遞給接收器(通過傳遞框206),然後被解碼(在框208處)以構建和渲染所需視窗(在框210和框212處)。
如第2圖所示,視窗概念是終端使用者所觀看的內容,它涉及球體上的區域的角度和大小。通常,對於360度內容,這些技術將所需的區塊/子圖片內容傳遞給用戶端,以覆蓋使用者將觀看的​​內容。此處理是視窗相關的,因為這些技術僅傳遞覆蓋當前感興趣視窗的內容,而不是整個球形內容。視窗(例如,球形區域的類型)可以改變,因此不是靜態的。例如,當使用者移動其頭部時,系統需要提取鄰近的區塊(或子圖片)以覆蓋使用者接下來要觀看的內容。
感興趣區域(ROI)在概念上與視窗有些相似。ROI可以例如表示全向視頻的3D或2D編碼的區域。ROI可以具有不同的形狀(例如,正方形或圓形),這可以相對於3D或2D視頻(例如,基於位置、高度等)來指定。例如,感興趣區域可以表示圖片中可以放大的區域,並且可以針對放大的視頻內容顯示對應的ROI視頻。在一些實現方式中,已經準備了ROI視頻。在這種實現方式中,感興趣區域通常具有承載ROI內容的單獨的視頻軌道。因此,經編碼的視頻指定了ROI,以及ROI視頻如何與基礎視頻關聯。本文所描述的技術是按照區域來描述的,該區域可以包括視窗、ROI和/或視頻內容中的其他感興趣區域。
ROI或視窗軌道可以與主視頻相關聯。例如,ROI可以與主視頻相關聯,以促進放大和縮小操作,其中ROI用於提供放大區域的內容。例如,在此通過引用整體併入本文的2016年6月2日發佈的題為“Carriage of Timed Metadata Metrics of Media in ISO Base Media File Format”的MPEG-B,第10部分(w16191, 也為 ISO/IEC 23001-10:2015)描述了一種ISO基本媒體檔案格式(ISOBMFF)檔案格式,該ISOBMFF檔案格式使用定時元資料軌道來用信號通知主2D視頻軌道具有2D ROI軌道。作為另一示例,HTTP上的動態自我調整流傳輸(DASH)包括空間關係描述符,以用信號通知主2D視頻表示與其關聯的2D ROI視頻表示之間的空間關係。2016年7月29日的ISO/IEC 23009-1,第三版草案(w10225)解決了DASH問題,在此通過引用整體併入本文。作為另一示例,在ISO/IEC 23090-2中規定了全向媒體格式(OMAF),其在此通過引用整體併入本文。OMAF指定了用於對全向媒體進行編碼、存儲、傳遞和渲染的全向媒體格式。OMAF指定了坐標系,使得用戶的觀看角度是從球體的中心向外看向該球體的內表面。OMAF包括針對全向媒體以及針對球形區域的定時元資料的到ISOBMFF的擴展。
當用信號通知ROI時,可以生成各種資訊,所述資訊包括與ROI的特徵有關的資訊(例如,標識、類型(例如,位置、形狀、大小)、目的、品質、等級等)。可以生成資訊以使內容與ROI相關聯,包括與視覺(3D)球形內容和/或球形內容的經投影和映射(2D)幀相關聯。ROI可以通過許多屬性(諸如,其標識、與之關聯的內容內的位置以及其形狀和大小(例如,相對於球形和/或3D內容))來表徵。如本文進一步討論的,還可以添加如區域的品質和速率排名的附加屬性。
點雲資料可以包括場景中的3D點集合。可以基於(x, y, z)位置和顏色資訊(諸如,(R,V,B)、(Y,U,V)、反射率、透明度等)來指定每個點。點雲點通常不排序,並且通常不包括與其他點的關係(例如,使得在不參考其他點的情況下指定每個點)。點雲資料可用于許多應用,諸如,提供6DoF的3D沉浸式媒體體驗。然而,點雲資訊可能會消耗大量資料,這在通過網路連接在設備之間進行傳輸的情況下又會消耗大量頻寬。例如,如果未壓縮,則場景中的800,000個點可以消耗1 Gbps。因此,通常需要壓縮以便使點雲資料可用於基於網路的應用。
MPEG一直在致力於點雲壓縮以減小點雲資料的大小,這可以使得能夠即時流傳輸點雲資料以供其他設備使用(consumption)。第3圖示出了根據一些示例的用於點雲內容的示例性處理流程300,其作為一般視窗/ROI(例如,3DoF/6DoF)處理模型的特定實例。處理流程300例如在N17771, “PCC WD V-PCC (Video-based PCC),” July 2018, Ljubljana, SI中被更詳細地描述,其在此通過引用整體併入本文。用戶端302接收點雲媒體內容檔案304,該檔案304由兩個2D平面視頻位元流和指定2D平面視頻到3D體積視頻轉換的元資料組成。內容2D平面視頻到3D體積視頻轉換元資料可以作為定時元資料軌道位於檔級別,或者作為SEI消息位於2D視頻位元流內部。
解析器模組306讀取點雲內容304。解析器模組306將兩個2D視頻位元流308傳遞到2D視頻解碼器310。解析器模組306將2D平面視頻到3D體積視頻轉換元資料312傳遞到2D視頻到3D點雲轉換器模組314。本地用戶端處的解析器模組306可以將一些需要遠端渲染(例如,利用更強計算能力的專用渲染引擎等)的資料傳遞到遠端渲染模組(未示出)以供部分渲染。2D視頻解碼器模組310對2D平面視頻位元流308進行解碼以生成2D像素資料。2D視頻到3D點雲轉換器模組314根據需要使用從解析器模組306接收到的元資料312將來自2D視頻解碼器310的2D像素資料轉換為3D點雲資料。
渲染器模組316接收關於使用者的6個自由度度視窗資訊的資訊,並確定點雲媒體的要渲染的部分。如果使用了遠端渲染器,則用戶的6 DoF視窗資訊也可以傳遞到遠端渲染模組。渲染器模組316通過使用3D資料或3D資料和2D像素資料的組合來生成點雲媒體。如果存在來自遠端渲染器模組的部分渲染的點雲媒體資料,則渲染器316還可以將此類資料與本地渲染的點雲媒體進行組合,以生成用於在顯示器318上顯示的最終點雲視頻。使用者交互資訊320(諸如,使用者在3D空間中的位置或用戶的方向和視點)可以被傳遞到處理點雲媒體所涉及的模組(例如,解析器306、2D視頻解碼器310、和/或視頻到點雲轉換器314),以根據使用者的交互資訊320動態地改變資料的一部分,以對內容進行自我調整渲染。
為了實現這種基於使用者交互的渲染,需要提供用於點雲媒體的使用者交互資訊。特別地,需要指定並用信號通知使用者交互資訊320,以便用戶端302與渲染模組316進行通信,包括提供用戶選擇的視窗的資訊。點雲內容可以經由編輯器剪輯或者作為推薦或引導視圖或視窗呈現給用戶。第4圖示出了根據一些示例的自由視點路徑400的示例。自由視點路徑400允許使用者在該路徑上移動以從不同視點觀看場景402。
可以針對點雲內容用信號通知視窗(例如,推薦視窗(例如,基於視頻的點雲壓縮(V-PCC)視窗))。點雲視窗(諸如,PCC(例如,V-PCC或G-PCC(基於幾何形狀的點雲壓縮)視窗)可以是適合顯示以及由使用者觀看的點雲內容區域。取決於使用者的觀看設備,視窗可以是2D視窗或3D視窗。例如,視窗可以是具有六個自由度(6 DoF)的3D空間中的3D球形區域或2D平面區域。這些技術可以利用6D球座標(例如,“6dsc”)和/或6D笛卡爾座標(例如,“6dcc”)來提供點雲視窗。在共同擁有的題為“Methods and Apparatus for Signaling Viewports and Regions of Interest for Point Cloud Multimedia Data”的美國專利申請No. 16/738,387中描述了包括利用“6dsc”和“6dcc”在內的視窗信號通知技術,其在此通過引用整體併入本文。這些技術可以包括6D球座標和/或6D笛卡爾座標作為定時元資料,諸如,ISOBMFF中的定時元資料。這些技術可以使用6D球座標和/或6D笛卡爾座標來指定2D點雲視窗和3D點雲視窗,包括存儲在ISOBMFF檔中的V-PCC內容。如本文所述,“6dsc”和“6dcc”是2D空間中的平面區域的2D笛卡爾座標“2dcc”的自然擴展,如MPEG-B第10部分中所提供的。
在V-PCC中,基於視頻的點雲的幾何形狀和紋理資訊被轉換為2D投影幀,然後被壓縮為一組不同的視頻序列。視頻序列可以具有三種類型:一種代表佔用地圖資訊(occupancy map information),第二種代表幾何形狀資訊(geometry information),第三種代表點雲資料的紋理資訊(texture information)。幾何形狀軌道可以包含例如點雲資料的一個或更多個幾何方面,諸如,點雲的形狀資訊、大小資訊和/或位置資訊。紋理軌道可以包含例如點雲資料的一個或更多個紋理方面,諸如,點雲的顏色資訊(例如,RGB(紅、綠、藍)資訊)、不透明度資訊、反射率資訊和/或反照率信息。這些軌道可用於重構點雲的3D點集。解釋幾何形狀和視頻序列所需的附加元資料(諸如,輔助補丁資訊)也可以分別被生成和壓縮。儘管本文提供的示例是在V-PCC的背景下進行解釋的,但應該理解,此類示例僅用於說明目的,並且本文所述的技術不限於V-PCC。
V-PCC尚未最終確定軌道結構。在N18059, “WD of Storage of V-PCC in ISOBMFF Files,” October 2018, Macau, CN中描述了ISOBMFF中V-PCC的工作草案中正在考慮的示例性軌道結構,其在此通過引用整體併入本文。軌道結構可以包括這樣的軌道:其包括一組補丁流,其中每個補丁流本質上是用於觀看3D內容的不同視圖。作為例示性示例,如果認為3D點雲內容被包含在3D立方體內,則可以有六個不同的補丁,其中,每個補丁是從該立方體的外部觀看該3D立方體的一側的視圖。軌道結構還包括定時元資料軌道和用於幾何形狀、屬性(例如,紋理)和佔用地圖資料的一組受限視頻方案軌道。定時元資料軌道包含V-PCC指定的元資料(例如,參數集、輔助資訊等)。該組受限視頻方案軌道可以包括:包含用於幾何形狀資料的視頻編碼基本流的一個或更多個受限視頻方案軌道,包含用於紋理資料的視頻編碼基本流的一個或更多個受限視頻方案軌道、以及包含用於佔用地圖資料的視頻編碼基本流的受限視頻方案軌道。V-PCC軌道結構可以允許改變和/或選擇不同的幾何形狀和紋理資料,連同定時元資料和佔用地圖資料一起,以實現視窗內容的變化。對於各種場景,可能期望包括多個幾何形狀和/或紋理軌道。諸如,可以出於自我調整流傳輸的目的,以全品質和一種或更多種降低的品質兩者來對點雲進行編碼。在這種示例中,編碼可以導致多個幾何形狀/紋理軌道以捕獲點雲的3D點集合的不同採樣。對應於較精細採樣的幾何形狀/紋理軌道可能比對應於較粗糙採樣的幾何形狀/紋理軌道具有更好的品質。在對點雲內容進行流傳輸的會話期間,用戶端可以選擇以靜態或動態方式(例如,根據用戶端的顯示裝置和/或網路頻寬)在多個幾何形狀/紋理軌道當中檢索內容。
點雲區塊可以表示點雲資料的3D和2D方面。例如,如在N18188(題為“Description of PCC Core Experiment 2.19 on V-PCC tiles, Marrakech, MA (Jan. 2019))中所述,V-PCC區塊可用於基於視頻的PCC。在N18180(題為“ISO/IEC 23090-5: Study of CD of Video-based Point Cloud Compression (V-PCC),”Marrakech, MA (Jan. 2019))中描述了基於視頻的PCC的示例。N18188和N18180均在此通過引用整體併入本文。點雲區塊可以包括表示其內容或部分的邊界區域或框,包括用於3D內容的邊界框和/或用於2D內容的邊界框。在一些示例中,點雲區塊包括3D邊界框、相關聯的2D邊界框以及2D邊界框中的一個或更多個獨立編碼單元(ICU)。3D邊界框可以是例如三維中的給定點集的最小包圍框。3D邊界框可以具有各種3D形狀,諸如,可以由兩個3元組(例如,三維的每個邊的原點和長度)表示的矩形平行六面體的形狀。2D邊界框可以是例如對應於3D邊界框(例如,在3D空間中)的最小包圍框(例如,在給定的視頻幀中)。2D邊界框可以具有各種2D形狀,諸如,可以由兩個2元組(例如,二維的每個邊的原點和長度)表示的矩形形狀。視頻幀的2D邊界框中可以有一個或更多個ICU(例如,視頻區塊)。獨立編碼單元可以在不依賴於鄰近編碼單元的情況下被編碼和/或解碼。
第5圖是示出根據一些示例的包括3D和2D邊界框的示例性點雲區塊的圖。點雲內容通常僅包括圍繞3D內容的單個3D邊界框,在第5圖中示為圍繞3D點雲內容504的大框502。如上所述,點雲區塊可以包括3D邊界框、關聯的2D邊界框以及2D邊界框中的一個或更多個獨立編碼單元(ICU)。為了支援視窗相關處理,通常需要將3D點雲內容細分為較小的碎片或區塊。例如,第5圖示出了3D邊界框502可以被劃分成較小的3D邊界框506、508和510,它們各自分別具有關聯的2D邊界框512、514和516。
發明人已經發現並意識到,用於表示3D和2D點雲內容的現有技術僅在單個位元流中提供內容。例如,雖然V-PCC內容可以包括各種區塊(例如,具有關聯的3D和2D邊界框),但這些區塊僅包含在單個位元流中。特別地,儘管點雲軌道結構可以允許針對點雲方面(諸如,針對幾何形狀和/或屬性/紋理)的不同軌道,但是發明人已經意識到,點雲視頻內容僅被承載在單個位元流中。
發明人已開發了對現有點雲技術的改進,這些改進可用於在多個(單獨的)點雲內容軌道中存儲和傳遞點雲內容。這些技術可以包括例如將區塊細分(例如,對3D/2D邊界框進行細分)成較小的單元,以形成用於V-PCC內容的所需ICU。這些技術可以將細分的3D體積區域和2D圖片封裝到軌道中,諸如,封裝到ISOBMFF視覺(例如,子體積和子圖片)軌道中。例如,每個邊界框的內容可以被存儲到關聯的軌道集合中,其中,軌道集合中的每個軌道存儲細分的3D子體積區域和/或2D子圖片中的一個的內容。對於3D子體積情況,此類軌道集合包括存儲幾何形狀、屬性和紋理屬性的軌道。對於2D子圖片情況,這種軌道集合可能只包含存儲子圖片內容的單個軌道。這些技術可以提供用信號通知軌道集合之間的關係,諸如,使用軌道組和/或“3dcc”和“2dcc”類型的樣本組來用信號通知軌道集合的相應3D/2D空間關係。這些技術可以用信號通知與特定邊界框、特定子體積區域或特定子圖片相關聯的軌道,和/或可以用信號通知不同邊界框、子體積區域和子圖片的軌道集合之間的關係。在單獨的軌道中提供點雲內容可以促進高級媒體處理(而點雲內容無法使用高級媒體處理),諸如,點雲平鋪(例如,V-PCC平鋪)和視窗相關的媒體處理。
在一些實施方式中,這些技術提供將點雲邊界框劃分為子單元。例如,可以將3D和2D邊界框分別細分為3D子體積框和2D子圖片區域。子區域可以提供足以用於基於軌道的渲染技術的ICU。例如,子區域可以提供從系統的角度來看對於傳遞和渲染來說足夠精細的ICU,以便支援視窗相關的媒體處理。在一些實施方式中,這些技術可以支援對V-PCC媒體內容的視窗相關媒體處理,例如,如在m46208(題為“Timed Metadata for (Recommended) Viewports of V-PCC Content in ISOBMFF,” Marrakech, MA (Jan. 2019))中所描述的,其在此通過引用整體併入本文。如本文進一步所述,每個細分的3D子體積框和2D子圖片區域可以分別以類似於它們是(例如,未細分的)3D框和2D圖片的方式存儲在軌道中,但是就尺寸而言,它們更小。例如,在3D情況下,細分的3D子體積框/區域將被存儲在包括幾何形狀、紋理和屬性軌道的軌道集合中。作為另一示例,在2D情況下,細分的子圖片區域將被存儲在單個(子圖片)軌道中。作為將內容細分為較小的子體積和子圖片的結果,ICU可以以各種方式被承載。例如,在一些實施方式中,可以使用不同軌道集合來承載不同的子體積或子圖片,使得與存儲所有未細分的內容時相比,承載細分內容的軌道具有更少的資料。作為另一示例,在一些實施方式中,一些和/或所有資料(例如,即使被細分時)可以被存儲在相同的軌道中,但是具有用於細分數據和/或ICU的較小單元(例如,使得可以在整個軌道集合中單獨訪問ICU)。
各種類型的劃分可用於提供子單元或ICU,包括3D和2D劃分。第6圖是示出根據一些實施方式的用於3D子體積分解的示例性基於八叉樹的劃分600。如左側所示,可將3D邊界框602劃分為八個子區域604,子區域604可以進一步被細分為如子區域606和608所示。在一些實施方式中,系統可以確定如何基於各種參數(諸如,與點雲內容關聯的ROI、支援特定面的細節量等等)對點雲內容進行劃分和進一步細分。參照樹結構,樹中的每個內部節點(例如,節點612、節點614和節點616)代表3D源,該3D源被劃分為多個區域,使得每個子節點代表子體積軌道。如本文中進一步描述的,軌道組(例如,“3dcc”軌道組)可以用於表示子體積軌道。
第7圖是示出根據一些實施方式的用於2D子圖片分解的示例性基於四叉樹的劃分700。如左側所示,可以將2D邊界框702劃分為四個子區域704,子區域704可以被進一步細分為如子區域706和708所示。樹中的每個內部節點(例如,節點712、714和716)代表2D源,該2D源被劃分為多個區域,使得每個子節點代表子圖片軌道。如本文進一步描述的,軌道組(例如,“2dcc”軌道組)可以用於表示子圖片軌道。
細分的2D和3D區域可以具有各種形狀,諸如,正方形、立方體、矩形和/或任意形狀。沿著每個維度的劃分可能不是二進位的。因此,最外面的2D / 3D邊界框的每個劃分樹可能比本文提供的四叉樹和八叉樹示例更通用。因此,應當理解,可以使用各種形狀和細分策略來確定劃分樹中的表示ICU(在2D或3D空間或邊界框中)的每個葉區域。如本文所述,ICU可以被配置為使得對於端到端媒體系統,ICU支援視窗相關的處理(包括傳遞和渲染)。例如,可以根據m46208配置ICU,其中可以在空間上隨機訪問最小數量的ICU,以覆蓋可能正在動態移動的視窗(例如,由使用者在觀看設備上控制或基於編輯器的推薦)。
本文描述的技術提供了在相關聯的獨立軌道中承載點雲ICU。在一些實施方式中,ICU和劃分樹可以被承載和/或封裝在相應的子體積和子圖片軌道和軌道組中。可以以例如ISO/IEC 14496-12中所述的ISOBMFF用信號通知子體積軌道和子圖片軌道以及軌道組的空間關係和樣本組。
對於2D情況,一些實施方式可以利用如在OMAF中提供(例如,在題為“WD 4 of ISO/IEC 23090-2 OMAF 2nd edition,” Marrakech, MA (Jan. 2019)的OMAF工作草案第二版N18227第7.1.11節中提供的)的軌道分組類型為“2dcc”的通用子圖片軌道分組擴展。對於3D情況,一些實施方式可以利用新的軌道分組類型“3dcc”來更新和擴展通用子體積軌道分組擴展。此類3D和2D軌道分組機制可以用於分別將八叉樹分解中的示例(葉節點)子體積軌道和四叉樹分解中的子圖片軌道分為三個“3dcc”和“2dcc”軌道組。例如,第6圖示出了子體積軌道(例如,葉軌道)的三個“3dcc”軌道組650、652和654。作為另一示例,第7圖示出了子圖片軌道的三個“2dcc”軌道組750、752和754。
在一些實施方式中,本文描述的技術提供對2D點雲資料進行分組。例如,一些實施方式提供了用於劃分的2D邊界框和/或ICU的2D空間關係的分組機制,諸如,通用子圖片軌道分組擴展(例如,如N18227中所述)。
根據一些實施方式,可以提供和/或擴展分組機制以指示2D空間關係。例如,軌道參考元資料框(例如,“TrackReferenceBox”)的軌道組類型(例如,“track_group_type”)的語義可以指示分組類型(例如,“grouping_type”)。可以將分組類型設置為一組值、註冊值、和/或來自派生的規範或註冊的值中的一個。這一組值可以包括例如“msrc”、“ster”和“2dcc”。值“msrc”可以指示該軌道屬於多源呈現(例如,如ISO/IEC 14496-12的條款8.3.4.3中規定的)。值“ster”可以指示該軌道是適合在立體顯示器上重播的立體像對的左視圖或右視圖(例如,如ISO/IEC 14496-12的條款8.3.4.4.2中規定的)。值“2dcc”可以指示該軌道屬於具有二維空間關係(例如,對應於視頻源的空間部分)的一組軌道。值“2dcc”可以在題為“WD 4 of ISO/IEC 23090-2 OMAF 2nd edition”, Marrakech, MA (Jan. 2019)的w18227中的條款7.1.11.2中規定,其在此通過引用整體併入本文。
在一些實施方式中,一個或更多個值可以標識檔內的軌道組。例如,在一些實施方式中,一對軌道組ID(例如,“track_group_id”)和軌道組類型(例如,“track_group_type”)可以標識檔內的軌道組。因此,包含具有相同track_group_id和track_group_type值的特定TrackGroupTypeBox的軌道可以屬於同一軌道組。
一些實施方式提供了指定2D空間關係資訊。在一些實施方式中,元資料可以為源指定尺寸資訊(例如,寬度、高度)和識別字,諸如,針對每個區域或子區域。第8圖示出了根據一些實施方式的指定2D空間關係源的元資料的示例性語法。第8圖示出了擴展FullBox ('2dsr', 0, 0)的空間關係2D源箱類“SpatialRelationship2DSourceBox”800的示例性語法。類800包括用於總寬度“total_width”802、總高度“total_height”804和源ID“source_id”806的三個無符號32位元整數。total_width欄位802可以以像素為單位指定SpatialRelationship2DDescriptionBox軌道組的坐標系中的最大寬度。在具有相同track_group_id值的SpatialRelationship2DDescriptionBox的所有實例中,total_width 802的值可以相同。total_height欄位804可以以像素為單位指定SpatialRelationship2DDescriptionBox軌道組的坐標系中的最大高度。在具有相同track_group_id值的SpatialRelationship2DDescriptionBox的所有實例中,total_height 804的值可以相同。source_id參數806可以提供源的唯一識別碼。source_id 806可以(例如,隱式地)提供與該源相關聯的坐標系。應當理解,儘管本文描述的示例性語法包括示例性欄位和欄位名稱(例如,第8圖的示例中的SpatialRelationship2DSourceBox、total_width等),但是這些名稱僅用於示例性目的,而不是限制性的。應當理解,在不脫離本文描述的技術的精神的情況下,可以使用其他欄位和/或命名約定。
第9圖示出了根據一些實施方式的用於子圖片區域的元資料的示例性語法。第9圖示出了擴展FullBox('sprg',0,0)的子圖片區域類“SubPictureRegionBox”900的示例性語法。類900包括四個無符號16位元整數,物件x“object_x”902、對象y“object_y”904、對象寬度“object_width”906和對象高度“object_height”908。object_x 902、object_y 904、object_width 906和object_height 908的語義可以在例如w18227中的條款7.1.11.3.3中指定。
類900還包括兩個無符號的1位元整數“track_not_alone_flag”910和“track_not_mergable_flag”912。track_not_alone_flag 910等於1可以指示在沒有屬於同一軌道組(例如,分組類型為“2dcc”)的至少一個其他子圖片軌道的情況下不會單獨呈現當前子圖片軌道。track_not_alone_flag 910等於0可以指示在沒有屬於同一軌道組(例如,分組類型為“2dcc”)的至少一個其他子圖片軌道情況下,當前子圖片軌道可能會或可能不會單獨呈現。如本文所述,應當理解,本文提供的示例性語法和命名約定僅用於示例性目的,而不是限制性的。例如,track_not_alone_flag 910可以替代地是結合第8圖討論的空間關係2D源元資料的一部分(例如,如果資訊是靜態的,則對於軌道分組和樣本分組兩者,都應將其包括在內,等等)。
track_not_mergable_flag 912等於1可以指示當前子圖片軌道中承載的視頻位元流不能與屬於同一軌道組(例如,分組類型為“2dcc”)的任何其他子圖片軌道中承載的視頻位元流合併,以通過僅重寫位元流的報頭資料來生成沒有解碼失配的單個視頻位元流。在一些示例中,解碼失配可以指對當前軌道中的視頻位元流進行解碼時的一個或更多個像素(或任何像素)的值與對合併的單個視頻位元流進行解碼時的相同的一個或更多個像素的值不相同。當具有給定track_ID的軌道的未變換樣本條目類型等於“hvc2”時,這種位元流合併的示例是w18227中的條款10.1.3.4中規定的HEVC位元流的重構。在一些示例中,track_not_mergable_flag 912等於0可以指示當前子圖片軌道中承載的視頻位元流可以與屬於同一軌道組(例如,分組類型為“2dcc”)的至少一個其他子圖片軌道中承載的視頻位元流合併以生成這種單個視頻位元流,如本文所述。
在一些實施方式中,track_not_mergable_flag 912可以提供用於相關聯的視頻編解碼器的資訊。例如,當HEVC(例如,如Rec. ITU-T H.265和/或ISO/IEC 23008-2所規定的)是用於對子圖片軌道中承載的位元流進行編碼的視頻編解碼器時,track_not_mergable_flag 912等於0可以意味著當前子圖片軌道中承載的HEVC位元流包含(例如,並且僅包含)可以由時間MCTS SEI消息指示的一個或更多個MCTS。在一些示例中,時間MCTS SEI消息可以是如由ITU-T在2018年2月發佈的HEVC第5版和/或HEVC的後來版本中所規定的。
在一些實施方式中,2D軌道組可以標識源和子圖片區域元資料兩者。例如,這種2D軌道組可以是軌道的指示源資訊和區域資訊的一部分。第10圖示出根據一些實施方式的用於空間關係2D描述的元資料的示例性語法。第10圖示出了擴展TrackGroupTypeBox (‘2dcc’)的2D空間關係描述框“SpatialRelationship2DDescriptionBox”1002的示例性語法。在該示例中,SpatialRelationship2DDescriptionBox 1002包括一個或更多個SpatialRelationship2DSourceBox(例如,包括結合第8圖討論的一些和/或所有資訊)。SpatialRelationship2DDescriptionBox 1002可以可選地包括SubPictureRegionBox(例如,包括結合第9圖討論的一些和/或所有資訊)。
SpatialRelationship2DDescriptionBox 1002可以指示該軌道屬於具有2D空間關係(例如,對應於視頻源的平面空間部分)的一組軌道。具有給定track_group_id的SpatialRelationship2DDescriptionBox TrackGroupTypeBox可以(例如,隱式地)指定具有任意原點(例如,(0, 0))的坐標系以及由總寬度(例如,來自空間關係2D源元資料框的“total_width”)和總高度(例如,來自空間關係2D源元資料框的“total_height”)指定的最大大小。x軸可以從左到右定向,y軸從上到下定向。SpatialRelationship2DDescriptionBox TrackGroupTypeBox內具有相同source_id值的軌道可以映射為源自同一源,並且它們的關聯坐標系共用同一原點(例如,(0, 0))及其軸的取向。例如,非常高解析度的視頻可能已經被分割為子圖片軌道。然後,每個子圖片軌道傳達其在源視頻中的位置和大小。
可以將同一軌道組中的軌道約束為聲明公共值,諸如,同一source_id、total_width和/或total_height。具有不同值(諸如,不同的track_group_id值)和同一source_id的軌道組可以表示可能具有不同解析度(例如,具有不同的total_width或total_height值)的同一源內容。
在一些實施方式中,源可以由不同的這種軌道組表示。例如,當源在不同解析度下可用時,同一源可以由不同的軌道組表示。這些軌道組中的每一個都可以通過其自己的軌道組識別字track_group_id來標識。由於所有這些軌道組均源自同一源,因此它們共用同一source_id。
在一些實施方式中,在SpatialRelationship2DGroupEntry中描述了SubPictureRegionBox中的欄位的語義(例如,參見w18227的條款10.9)。如本文所述,SubPictureRegionBox是可選的。SubPictureRegionBox可以(a)存在于在關聯的軌道(例如,這種軌道具有恒定、靜態的大小和位置)中沒有關聯的SpatialRelationship2DGroupEntry的SpatialRelationship2DDescriptionBox中;或(b)不存在于在關聯的軌道(例如,該軌道可能具有動態大小和/或位置)中具有一個或更多個關聯的SpatialRelationship2DGroupEntry的SpatialRelationship2DDescriptionBox中。
在構建合成圖片時(例如,如w18227的條款7.1.11.3.1中規定的),可能允許或不允許出現間隙和/或重疊。例如,允許不同子圖片軌道中承載的子圖片之間的間隙,並且允許在TrackHeaderBox中具有不同層欄位值的不同子圖片軌道中承載的子圖片之間的重疊。作為另一示例,可以不允許在TrackHeaderBox中具有相同層欄位值的不同子圖片軌道中承載的子圖片之間的重疊。
在一些實施方式中,可以根據關聯的軌道的色度子採樣格式來限制空間關係。例如,針對所有平面,諸如total_width和total_height、object_x、object_y、object_width和/或object_height的元資料都可以選擇整數個樣本。例如,當格式為4:4:4時,對元資料可以沒有限制。作為另一示例,當格式為4:2:2時,total_width、object_x和object_width可以是偶數。作為另一示例,當格式為4:2:0時,所有元資料欄位都可以是偶數。
第11圖示出了根據一些實施方式的空間關係2D組的示例。第11圖示出了擴展VisualSampleGroupEntry (‘2dcc’)的SpatialRelationship2DGroupEntry 1102。用於樣本分組的“2dcc”grouping_type可以指定來自空間關係軌道組中的子圖片軌道的樣本的位置和大小。在一些實施方式中,當grouping_type等於“2dcc”時,可以使用SampleToGroupBox的某個版本(例如,版本1)。在一些實施方式中,grouping_type_parameter的值可以等於對應的空間關係軌道組的track_group_id。
在此示例中,SpatialRelationship2DGroupEntry 1102包括四個十六位不帶正負號的整數object_x 1104、object_y 1106、object_width 1108和object_height 1110。object_x 1104可以指定該組中的樣本的左上角在由對應的空間關係軌道組指定的坐標系內的水準位置。在一些示例中,位置值可以是應用由軌道寬度和高度引起的隱式重採樣之前的值(如果有),範圍為0到total_width-1(含兩端),其中,total_width被包含在對應的SpatialRelationship2DDescriptionBox中。object_y 1106可以指定該組中的樣本的左上角在由對應的空間關係軌道組指定的坐標系內的垂直位置。在一些示例中,位置值可以是應用由軌道寬度和高度引起的隱式重採樣之前的值(如果有),範圍在0到total_height-1(含兩端),其中,total_height被包含在對應的SpatialRelationship2DDescriptionBox中。
object_width 1108可以指定該組中的樣本在由對應的空間關係軌道組指定的坐標系內的寬度。在一些示例中,寬度值可以是應用由軌道寬度和高度引起的隱式重採樣之前的值(如果有),範圍在1到total_width(含兩端)。object_height 1110可以指定該組中的樣本在由對應的空間關係軌道組指定的坐標系內的高度。在一些示例中,高度值是應用由軌道寬度和高度引起的隱式重採樣之前的值(如果有),範圍在1到total_height(含兩端)。
可以基於組資訊來重構合成圖片。例如,可以通過這樣的方式重構合成圖片:在屬於同一“2dcc”軌道組的所有軌道中,可以將軌道形成為子組,使得每個子組包含同一替代組中的軌道。一旦形成為子組,設備便可以從這些子組中的每個子組中精確選擇一個軌道。對於每個選定軌道的每個按合成時間排列的樣本,可以按照所挑選軌道的TrackHeaderBox中指示的從前到後的順序(層)應用以下內容:對於0到object_width-1(含兩端)範圍內的每個i值,並且對於0到object_height-1(含兩端)範圍內的每個j值,合成圖片在像素位置( ( i + object_x ) % total_width, ( j + object_y ) % total_height )處的像素值被設置為等於該軌道的樣本在像素位置(i, j)處的像素值。
這些技術可以併入一個或更多個限制。例如,可以對樣本分組的存在、欄位的值和/或兩者施加一個或更多個限制。例如,限制可以是w18227的條款7.1.11.2.1中規定的那些限制。
在一些實施方式中,本文描述的技術提供指定3D空間關係。例如,這些技術可以提供用於對子體積軌道進行分組的分組機制。在一些實施方式中,這些技術為劃分的3D邊界框的3D空間關係提供通用的子體積軌道分組擴展,如本文所述。
根據一些實施方式,可以提供和/或擴展分組機制以指示3D空間關係。例如,如本文所述,軌道組類型(例如,“track_group_type”)的語義可以指示分組類型,該分組類型可以被設置為一組值、註冊值、和/或來自派生的規範或註冊的值中的一個。這一組值可以包括“3dcc”。值“3dcc”可以指示該軌道屬於在3維笛卡爾座標中具有三維空間關係(例如,對應於視頻源的空間部分)的一組軌道。在一些實施方式中,3維笛卡爾座標可以在w18227的條款5.1中規定。
一些實施方式提供了指定子體積軌道之間的3D空間關係。第12圖示出了根據一些實施方式的指定3D空間關係源的元資料的示例性語法。第12圖示出了擴展FullBox('3dsr',0,0)的空間關係3D源箱類“SpatialRelationship3DSourceBox”1200的示例性語法。類1200包括用於總寬度“total_width”1202、總高度“total_height”1204、總深度“total_depth”1206和源ID“source_id”1208的四個無符號32位元整數。total_width欄位1202可以以像素為單位指定SpatialRelationship3DDescriptionBox軌道組的坐標系中的最大寬度。在具有相同track_group_id值的SpatialRelationship3DDescriptionBox的所有實例中,total_width 1202的值可以相同。total_height欄位1204可以以像素為單位指定SpatialRelationship3DDescriptionBox軌道組的坐標系中的最大高度。在具有相同track_group_id值的SpatialRelationship3DDescriptionBox的所有實例中,total_height 1204的值可以相同。total_depth欄位1206可以以像素為單位指定SpatialRelationship3DDescriptionBox軌道組的坐標系中的最大深度。在具有相同track_group_id值的SpatialRelationship3DDescriptionBox的所有實例中,total_depth 1206的值可以相同。source_id參數1208可以提供源的唯一識別碼。source_id 1208可以(例如,隱式地)提供與該源相關聯的坐標系。
第13圖示出了根據一些實施方式的用於子圖片區域的元資料的示例性語法。第13圖示出了擴展FullBox ('svrg',0,0)的子體積區域類“SubVolumetricRegionBox”1300的示例性語法。類1300包括六個無符號16位元整數,物件x“object_x”1302、對象y“object_y”1304、對象z“object_z”1306、對象寬度“object_width”1308、物件高度“object_height”1310以及物件深度“object_depth”1312。object_x 1302、object_y 1304、object_z 1306、object_width 1308、object_height 1310和object_depth 1312的語義可以在例如SpatialRelationship3DGroupEntry的定義中指定。
類1300還包括兩個無符號的1位元整數“track_not_alone_flag”1314和“track_not_mergable_flag”1316。track_not_alone_flag 1314等於1可以指示在沒有屬於同一軌道組(例如,分組類型為“3dcc”)的至少一個其他子體積軌道的情況下不會單獨呈現當前子體積軌道。track_not_alone_flag 1314等於0可以指示在沒有屬於同一軌道組(例如,分組類型為“3dcc”)的至少一個其他子體積軌道情況下,當前子體積軌道可能會或可能不會單獨呈現。
track_not_mergable_flag 1316等於1可以指示當前子體積軌道中承載的視頻位元流不能與屬於同一軌道組(例如,分組類型為“3dcc”)的任何其他子體積軌道中承載的視頻位元流合併,以通過僅重寫位元流的報頭資料來生成沒有解碼失配的單個視頻位元流。在一些示例中,解碼失配可以指對當前軌道中的視頻位元流進行解碼時的一個或更多個像素(或任何像素)的值與對合併的單個視頻位元流進行解碼時的相同的一個或更多個像素的值不相同。當具有給定track_ID的軌道的未變換樣本條目類型等於“hvc2”時,這種位元流合併的示例是w18227中的條款10.1.3.4中規定的HEVC位元流的重構。在一些示例中,track_not_mergable_flag 1316等於0可以指示當前子體積軌道中攜帶的視頻位元流可以與屬於同一軌道組(例如,分組類型為“3dcc”)的至少一個其他子體積軌道中攜帶的視頻位元流合併以生成這種單個視頻位元流,如本文所述。
在一些實施方式中,track_not_mergable_flag 1316可以提供用於相關聯的視頻編解碼器的資訊。例如,當HEVC(例如,如Rec. ITU-T H.265和/或ISO/IEC 23008-2所規定的)是用於對子體積軌道中承載的位元流進行編碼的視頻編解碼器時,track_not_mergable_flag 1316等於0可以意味著當前子體積軌道中承載的HEVC位元流包含(例如,並且僅包含)可以由時間MCTS SEI消息指示的一個或更多個MCTS。在一些示例中,時間MCTS SEI消息可以是如由ITU-T在2018年2月發佈的HEVC第5版和/或HEVC的後來版本中所規定的。
第14圖示出根據一些實施方式的用於空間關係3D描述的元資料的示例性語法。第14圖示出了擴展TrackGroupTypeBox (‘3dcc’)的3D空間關係描述框“SpatialRelationship3DDescriptionBox”1402的示例性語法。在該示例中,SpatialRelationship3DDescriptionBox 1402包括一個或更多個SpatialRelationship3DSource框1404(例如,包括結合第12圖討論的一些和/或所有資訊)。SpatialRelationship3DDescriptionBox 1402可以可選地包括SubVolumetricRegionBox 1406(例如,包括結合第13圖討論的一些和/或所有資訊)。
SpatialRelationship3DDescriptionBox 1402可以指示該軌道屬於具有3D空間關係(例如,對應於視頻源的體積空間部分)的一組軌道。具有給定track_group_id的SpatialRelationship3DDescriptionBox TrackGroupTypeBox可以(例如,隱式地)指定具有任意原點(例如,(0, 0, 0))的坐標系以及由總寬度(例如,來自空間關係3D源元資料框的“total_width”)、總高度(例如,來自空間關係3D源元資料框的“total_height”)和總深度(例如,來自空間關係3D源元資料框的“total_depth”)指定的最大大小。x軸可以從左到右定向,y軸從下到上定向,z軸從遠到近定向。SpatialRelationship3DDescriptionBox TrackGroupTypeBox內具有相同source_id值的軌道可以映射為源自同一源,並且它們的關聯坐標系共用同一原點(例如,(0, 0, 0))及其軸的取向。例如,非常高解析度的視頻可能已經被分割為子體積軌道。然後,每個子體積軌道傳達其在源視頻中的位置和大小。
可以將同一軌道組中的軌道約束為聲明公共值,諸如,同一source_id、total_width、total_height和/或total_depth。具有不同值(例如,不同的track_group_id值)和同一source_id的軌道組可以表示可能具有不同解析度(例如,具有不同的total_width、total_height和/或total_depth值)的同一源內容。
在一些實施方式中,源可以由不同的這種軌道組表示。例如,當源在不同解析度下可用時,同一源可以由不同的軌道組表示。這些軌道組中的每一個都可以通過其自己的軌道組識別字track_group_id來標識。由於所有這些軌道組均源自同一源,因此它們共用同一source_id。
在一些實施方式中,在SpatialRelationship3DGroupEntry中描述了SubVolumetricRegionBox中的欄位的語義。如本文所述,SubVolumetricRegionBox是可選的。SubVolumetricRegionBox可以(a)存在于在關聯的軌道(例如,這種軌道具有恒定、靜態的大小和位置)中沒有關聯的SpatialRelationship3DGroupEntry的SpatialRelationship3DDescriptionBox中;或(b)不存在于在關聯的軌道(例如,該軌道可能具有動態大小和/或位置)中具有一個或更多個關聯的SpatialRelationship3DGroupEntry的SpatialRelationship3DDescriptionBox中。
在構建合成體積區域時,可能允許或不允許出現間隙和/或重疊。例如,允許不同子體積軌道中承載的子體積區域之間的間隙,並且允許在TrackHeaderBox中具有不同層欄位值的不同子體積軌道中承載的子體積軌道之間的重疊。作為另一示例,可以不允許在TrackHeaderBox中具有相同層欄位值的不同子體積軌道中承載的子體積區域之間的重疊。
在一些實施方式中,可以根據關聯的軌道的色度子採樣格式來限制空間關係。例如,針對所有區域,諸如total_width、total_height、total depth、object_x、object_y、object_z、object_width、object_height和/或object_depth的元資料都可以選擇整數個樣本。例如,當格式為4:4:4時,對元資料可以沒有限制。作為另一示例,當格式為4:2:2時,total_width、object_x和object_width可以是偶數。作為另一示例,當格式為4:2:0時,所有元資料欄位都可以是偶數。
第15圖示出了根據一些實施方式的空間關係3D組的示例。第15圖示出了擴展VisualSampleGroupEntry (‘3dcc’)的SpatialRelationship3DGroupEntry 1502。用於樣本分組的“3dcc”grouping_type可以指定來自空間關係軌道組中的子體積軌道的樣本的位置和大小。在一些實施方式中,當grouping_type等於“3dcc”時,可以使用SampleToGroupBox的某個版本(例如,版本1)。在一些實施方式中,grouping_type_parameter的值可以等於對應的空間關係軌道組的track_group_id。
在此示例中,SpatialRelationship3DGroupEntry 1502包括六個十六位不帶正負號的整數object_x 1504、object_y 1506、object_z 1508、object_width 1510、object_height 1512和object_depth1514。object_x 1504可以指定該組中的樣本的左上角在由對應的空間關係軌道組指定的坐標系內的水準位置。在一些示例中,位置值可以是應用由軌道寬度、高度和深度引起的隱式重採樣之前的值(如果有),範圍為0到total_width-1(含兩端),其中,total_width被包含在對應的SpatialRelationship3DDescriptionBox中。object_y 1106可以指定該組中的樣本的左上角在由對應的空間關係軌道組指定的坐標系內的垂直位置。在一些示例中,位置值可以是應用由軌道寬度、高度和深度引起的隱式重採樣之前的值(如果有),範圍在0到total_height-1(含兩端),其中,total_height被包含在對應的SpatialRelationship3DDescriptionBox中。object_z 1108可以指定該組中的樣本的左上角在由對應的空間關係軌道組指定的坐標系內的深度位置。在一些示例中,位置值可以是應用由軌道寬度、高度和深度引起的隱式重採樣之前的值(如果有),範圍在0到total_depth-1(含兩端),其中,total_depth被包含在對應的SpatialRelationship3DDescriptionBox中。
object_width 1110可以指定該組中的樣本在由對應的空間關係軌道組指定的坐標系內的寬度。在一些示例中,寬度值可以是應用由軌道寬度、高度和深度引起的隱式重採樣之前的值(如果有),範圍在1到total_width(含兩端)。object_height 1112可以指定該組中的樣本在由對應的空間關係軌道組指定的坐標系內的高度。在一些示例中,高度值是應用由軌道寬度、高度和深度引起的隱式重採樣之前的值(如果有),範圍在1到total_height(含兩端)。object_depth 1114可以指定該組中的樣本在由對應的空間關係軌道組指定的坐標系內的深度。在一些示例中,深度值是應用由軌道寬度、高度和深度引起的隱式重採樣之前的值(如果有),範圍在1到total_depth(含兩端)。
可以基於組資訊來重構合成體積區域。例如,可以通過這樣的方式重構合成圖片:在屬於同一“3dcc”軌道組的所有軌道中,可以將軌道形成為子組,使得每個子組包含相同替代組中的軌道。一旦形成為子組,設備便可以從這些子組中的每個子組中精確選擇一個軌道。對於每個選定軌道的每個按合成時間排列的樣本,可以按照所挑選軌道的TrackHeaderBox中指示的從前到後的順序(層)應用以下內容:對於0到object_width-1(含兩端)範圍內的每個i值、對於0到object_height-1(含兩端)範圍內的每個j值並且對於0到object_depth-1(含兩端)範圍內的每個k值,合成體積區域在像素位置( ( i + object_x ) % total_width, ( j + object_y ) % total_height, ( k + object_z ) % total_depth )處的像素值被設置為等於該軌道的樣本在像素位置(i, j, k)處的像素值。
如本文所述,這些技術可以併入一個或更多個限制。例如,可以對樣本分組的存在、欄位的值和/或兩者施加一個或更多個限制。例如,限制可以是w18227的條款7.1.11.2.1中規定的限制。
如本文所述,可以基於組資訊來重構合成圖片。在一些實施方式中,可以通過從基於屬於同一軌道組(例如,“2dcc”或“3dcc”軌道組)的所有軌道形成的子組(例如,包含相同替代組中的軌道的每個子組)中選擇軌道來重構合成圖片。第16圖示出了根據一些實施方式的對點雲視頻資料進行解碼的示例性方法1600。在步驟1602,設備(例如,第3圖中的用戶端設備302)接收包括多個軌道(例如,多個體積或子圖片軌道)的點雲視頻資料(例如,點雲內容304)。方法1600通常可以用於對按包括多個軌道的格式(例如,使用ISOBMFF軌道格式)存儲的點雲資料進行解碼。
在步驟1604,設備訪問多個軌道中的第一軌道的第一元資料。例如,設備可以訪問指定2D/3D空間關係描述的元資料,諸如,結合本文描述的SpatialRelationship2DDescriptionBox或SpatialRelationship3DDescriptionBox示例討論的元資料。第一元資料指定點雲視頻資料的多個源區域中的第一源區域,其中,每個源區域對應於點雲視頻資料的不同空間部分。
參照步驟1602和1604,點雲內容可以是2D或3D內容。例如,對於2D,每個軌道可以是二維(2D)子圖片軌道,並且元資料可以包括2D空間關係描述元資料,第一源區域可以是2D源箱,並且子區域可以是第一軌道的子圖片區域。例如,對於3D,每個軌道可以是三維(3D)子體積軌道,並且元資料可以包括第一3D空間關係描述元資料,第一源區域可以是3D源箱,並且子區域可以是第一軌道的子體積區域。
進一步參照步驟1604,例如,可以使用空間關係2D或3D源元資料(例如,結合本文描述的SpatialRelationship2DSourceBox或SpatialRelationship3DSourceBox示例所討論的元資料)來指定第一源區域。例如,指定第一源區域的元資料可以包括指示源區域的寬度、源區域的高度、源區域的深度或其某種組合的資料。第一元資料還指定了第一源區域中的第一軌道的子區域,並且包括指示第一源區域中的第一軌道的視頻資料的空間位置的資料。可以例如使用子圖片或子體積區域元資料(諸如,結合本文描述的SubPictureRegionBox和SubVolumetricRegionBox示例討論的元資料)來指定子區域。例如,指定子區域的元資料可以包括指示第一源區域中的子區域的位置、子區域的寬度、子區域的高度、子區域的深度或其某種組合的資料。
在步驟1606,設備基於第一元資料,使用第一軌道的視頻資料來生成用於第一源區域的子區域的點雲媒體。如本文所述,子區域可以包括來自多個區域的內容。因此,設備可以在必要時重複第16圖所示的步驟,以生成針對第一源區域的子區域(以及其他區域)的點雲媒體。
如本文所討論的,這些技術可以類似地用於對視頻內容進行編碼。這些技術可以包括對點雲視頻資料進行編碼,包括對多個軌道進行編碼。確定所述點雲視頻資料的多個源區域中的第一源區域,其中,每個源區域對應於所述點雲視頻資料的不同空間部分。確定所述第一源區域中的所述第一軌道的子區域,包括確定指示所述第一源區域中的視頻資料的空間位置的資料。基於所確定的第一源區域和所確定的第一軌道的子區域,對所述點雲視頻資料進行編碼,包括將所述視頻資料編碼在第一軌道中;以及對所述第一軌道的第一元資料進行編碼,所述第一元資料包括指定所述第一源區域和所述子區域的元資料。
本文描述了各種示例性語法和用例,其旨在用於例示性目的,而非限制性的。應當理解,僅這些示例性欄位的子集可以用於特定區域和/或可以使用其他欄位,並且這些欄位不必包括用於本文描述目的的欄位名稱。例如,取決於ROI或視窗的類型,語法可以省略某些欄位和/或可以不填充某些欄位(例如,或用空值填充此類欄位)。作為另一示例,在不脫離本文描述的技術的精神的情況下,可以使用其他語法和/或類。
可以以任何合適的方式來實現根據本文描述的原理進行工作的技術。上面流程圖的處理和決策框代表了可以包含在執行這些各種處理的演算法中的步驟和動作。從這些處理中得出的演算法可以實現為與一個或更多個單用途或多用途處理器集成並指導其運行的軟體,可以實現為功能等效的電路,諸如,數位信號處理(DSP)電路或專用積體電路(ASIC),或者可以以任何其他合適的方式實現。應當理解,本文所包括的流程圖未描繪任何特定電路或任何特定程式設計語言或程式設計語言類型的語法或操作。更確切地說,這些流程圖例示了本領域技術人員可以用來製造電路或實現電腦軟體演算法以對執行本文所述技術類型的特定裝置進行處理的功能資訊。還應理解,除非本文另外指出,否則每個流程圖中描述的步驟和/或動作的特定順序僅例示可以實現的演算法,並且可以在本文描述的原理的實現方式和實施方式中進行改變。
因此,在一些實施方式中,本文描述的技術可以體現在電腦可執行指令中,這些電腦可執行指令實現為軟體,包括應用軟體、系統軟體、固件、中介軟體、嵌入式代碼或任何其他合適類型的電腦代碼。可以使用多種合適的程式設計語言和/或程式設計或腳本工具中的任何一種來編寫這種電腦可執行指令,並且還可以將其編譯為在框架或虛擬機器上執行的可執行機器語言代碼或中間代碼。
當本文描述的技術體現為電腦可執行指令時,這些電腦可執行指令可以以任何適當的方式實現,包括作為多個功能設施,每個功能設施提供一個或更多個操作以完成根據這些技術工作的演算法的執行。然而,產生實體的“功能設施”是電腦系統的結構元件,當與一個或更多個電腦集成並由一個或更多個電腦執行時,其使一個或更多個電腦執行特定的操作角色。功能設施可以是軟體要素的一部分或全部。例如,功能設施可以作為處理的功能、或者作為離散處理、或者作為任何其他合適的處理單元來實現。如果本文描述的技術被實現為多個功能設施,則每個功能設施可以以其自己的方式來實現;所有功能設施不必以相同的方式實現。另外,這些功能工設施具可以酌情並行和/或串列執行,並且可以使用它們正在其上執行的電腦上的共用記憶體,使用消息傳遞協定或任何其他合適的方式在彼此之間傳遞資訊。
通常,功能設施包括執行特定任務或實現特定抽象資料類型的常式、程式、物件、元件、資料結構等。通常,功能設施的功能可以根據需要在其運行的系統中進行組合或分佈。在一些實施方式中,執行本文技術的一個或更多個功能設施可以一起形成完整的套裝軟體。在另選實施方式中,這些功能設施可以適於與其他不相關的功能設施和/或處理進行交互,以實現軟體程式應用。
本文已經描述了用於執行一個或更多個任務的一些示例性功能設施。然而,應當理解,所描述的功能設施和任務的劃分僅說明可以實現本文中所描述的示範性技術的功能設施的類型,並且實施方式不限於以任何特定數目、劃分、或功能設施的類型實現。在一些實現方式中,所有功能可以在單個功能設施中實現。還應當理解,在一些實現方式中,本文描述的一些功能設施可以與其他功能設施一起或彼此分開地實現(即,作為單個單元或分開的單元),或者可以不實現這些功能設施中的一些。
在一些實施方式中,可以將實現本文描述的技術的電腦可執行指令(當實現為一個或更多個功能設施或以任何其他方式實現時)被編碼在一個或更多個電腦可讀介質上,以向該介質提供功能。電腦可讀介質包括磁性介質(諸如,硬碟驅動器)、光學介質(諸如,光碟(CD)或數位多功能盤(DVD))、永久性或非永久性固態記憶體(例如,快閃記憶體、磁性RAM等)或任何其他合適的存儲介質。這種電腦可讀介質可以以任何合適的方式實現。如本文所使用的,“電腦可讀介質”(也稱為“電腦可讀存儲介質”)是指有形存儲介質。有形存儲介質是非暫時性的,並具有至少一個物理結構元件。在本文所用的“電腦可讀介質”中,至少一個物理結構元件具有至少一種物理特性,所述物理特性可以在創建具有嵌入資訊的介質的處理、在其上記錄資訊的處理、或利用資訊對介質進行編碼的任何其他處理期間以某種方式改變。例如,可以在記錄處理期間改變電腦可讀介質的物理結構的一部分的磁化狀態。
此外,上述某些技術包括以某些方式存儲資訊(例如,資料和/或指令)以供這些技術使用的動作。在這些技術的一些實現方式中,諸如,這些技術被實現為電腦可執行指令的實現方式中,資訊可以被編碼在電腦可讀存儲介質上。在本文中將特定結構描述為存儲該資訊的有利格式的情況下,這些結構可以用於給予資訊編碼在存儲介質上的物理組織。然後,這些有利的結構可以通過影響與資訊交互的一個或更多個處理器的操作來向存儲介質提供功能;例如,通過提高處理器執行電腦操作的效率。
在技​​術可以體現為電腦可執行指令的一些但不是全部實現方式中,這些指令可以在以任何合適的電腦系統運行的一個或更多個合適的計算設備上執行,或者一個或更多個計算設備(或一個或更多個計算設備的一個或更多個處理器)可以程式設計為執行電腦可執行指令。當指令以對計算設備或處理器可訪問的方式存儲在例如資料存儲裝置(例如,片上快取記憶體或指令寄存器、可經由匯流排訪問的電腦可讀存儲介質、可經由一個或更多個網路訪問且可經由設備/處理器訪問的電腦可讀存儲介質等)中時,可以將計算設備或處理器程式設計為執行這些指令。包含這些電腦可執行指令的功能設施可以與以下項集成在一起並指導其操作:單個多用途可程式設計數位計算設備、共用處理能力並共同執行本文所述的技術的兩個或更多個多用途計算設備的協同系統、專用于執行本文所述技術的單個計算設備或計算設備的協同系統(位於同一地點或地理分佈)、用於執行本文所述技術的一個或更多個現場可程式設計閘陣列(FPGA)或任何其他合適的系統。
計算設備可以包括至少一個處理器、網路介面卡和電腦可讀存儲介質。計算設備可以是例如臺式或膝上型個人電腦、個人數位助理(PDA)、智慧行動電話、伺服器或任何其他合適的計算設備。網路適​​配器可以是使計算設備能夠通過任何合適的計算網路與任何其他合適的計算設備進行有線和/或無線通訊的任何合適的硬體和/或軟體。計算網路可以包括無線接入點、交換機、路由器、閘道和/或其他聯網設備,以及任何合適的有線和/或無線通訊介質或用於在兩個或更多個電腦(包括網際網路)之間交換資料的介質。電腦可讀介質可以適於存儲要被處理器處理的資料和/或要由處理器執行的指令。處理器使得能夠處理資料和執行指令。資料和指令可以被存儲在電腦可讀存儲介質上。
計算設備可以另外具有一個或更多個元件和週邊設備,包括輸入和輸出設備。這些設備尤其可以用於呈現使用者介面。可以用於提供使用者介面的輸出設備的示例包括用於輸出的視覺呈現的印表機或顯示幕以及用於輸出的聽覺呈現的揚聲器或其他聲音生成設備。可以用於使用者介面的輸入裝置的示例包括鍵盤和指示設備,例如滑鼠、觸控板和數位化平板電腦。作為另一示例,計算設備可以通過語音辨識或以其他可聽格式接收輸入信息。
已經描述了在電路和/或電腦可執行指令中實現技術的實施方式。應當理解,一些實施方式可以是方法的形式,已經提供了至少一個示例。作為該方法的一部分執行的動作可以以任何合適的方式排序。因此,可以這樣構建實施方式:其中以與所例示的順序不同的順序來執行動作,這可以包括同時執行一些動作,即使在例示性實施方式中被示為順序動作。
上述實施方式的各個方面可以單獨使用、組合使用或以在前述實施方式中未具體討論的各種佈置來使用,因此,其應用不限於在以上描述中闡述或在附圖中例示的組件的細節和佈置。例如,一個實施方式中描述的方面可以以任何方式與其他實施方式中描述的方面組合。
在權利要求中使用諸如“第一”、“第二”、“第三”等序數詞來修飾權利要求要素本身並不意味著一個權利要求要素相對於另一權利要求要素的任何優先順序、優先權或順序或者執行方法動作的時間順序,而僅用作區分具有特定名稱的一個權利要求要素與具有相同名稱的另一要素(但為了使用序數詞)以區分權利要求要素的標籤。
另外,本文所使用的措詞和術語是出於描述的目的,並且不應被視為限制。本文中“包括”、“包含”、“具有”、“含有”、“涉及”及其變體的使用旨在涵蓋其後列出的項目及其等同物以及其他項目。
詞語“示例性”在本文中用來表示用作示例、實例或說明。因此,除非另外指出,否則本文中描述為示例性的任何實施方式、實現方式、處理、特徵等應被理解為例示性示例,而不應被理解為優選或有利示例。
因此,已經描述了至少一個實施方式的幾個方面,應當理解,本領域技術人員將容易想到各種變更、修改和改進。這種變更、修改和改進旨在成為本公開的一部分,並且旨在落入本文所述原理的精神和範圍內。因此,前面的描述和附圖僅作為示例。
100:視頻編解碼配置 102A-102N:攝像頭 104:編碼設備 106:視頻處理器 108:編碼器 110:解碼設備 112:解碼器 114:渲染器 116:顯示器 200、300:處理 201:球形視窗 202:拼接、投影、映射 204:編碼 208:解碼 206:傳遞 210:構建 214:交互 212:渲染 302:用戶端 304:點雲媒體內容檔案 306:解析器模組 308:視頻位元流 310:2D視頻解碼器 312:元資料 314:視頻到點雲轉換器模組 316:渲染器模組 318:顯示器 320:使用者交互資訊 400:自由視點路徑 402:場景 502、506、508、510、602:3D邊界框 512、514、516、702:2D邊界框 604、606、608、704、706、708:子區域 600、700:劃分 612、614、616、712、714、716:節點 650、652、654、750、752、754:軌道組 800、900、1002、1102、1200、1300、1402、1502:類 802-806、902-912、1004-1006、1104-1110、1202-1208、1302-1316、1404-1406、1504-1514:欄位 1600:方法 1602-1606:步驟
在附圖中,在各個附圖中例示的每個相同或幾乎相同的元件由相同的附圖標記表示。為了清楚起見,並非每個元件都可以在每個附圖中標記。附圖不一定按比例繪製,而是著重于例示本文描述的技術和設備的各個方面。 第1圖示出了根據一些實施方式的示例性視頻編碼配置。 第2圖示出了根據一些示例的用於VR內容的視窗相關的內容流處理。 第3圖示出了根據一些示例的用於點雲內容的示例性處理流程。 第4圖示出了根據一些示例的自由視圖路徑的示例。 第5圖是示出根據一些示例的包括3D和2D邊界框(bounding box)的示例性點雲區塊的圖。 第6圖是示出根據一些實施方式的用於3D子體積分解的示例性基於八叉樹的劃分的圖。 第7圖是示出根據一些實施方式的用於2D子圖片分解的示例性基於四叉樹的劃分的圖。 第8圖示出了根據一些實施方式的指定2D空間關係源的元資料的示例性語法。 第9圖示出了根據一些實施方式的用於子圖片區域的元資料的示例性語法。 第10圖示出了根據一些實施方式的用於空間關係2D描述的元資料的示例性語法。 第11圖示出了根據一些實施方式的空間關係2D組的示例。 第12圖示出了根據一些實施方式的指定3D空間關係源的元資料的示例性語法。 第13圖示出了根據一些實施方式的用於子圖片區域的元資料的示例性語法。 第14圖示出了根據一些實施方式的用於空間關係3D描述的元資料的示例性語法。 第15圖示出了根據一些實施方式的空間關係3D組的示例。 第16圖示出了根據一些實施方式的對點雲視頻資料進行解碼的示例性方法。
1600:方法
1602-1606:步驟

Claims (20)

  1. 一種對視頻資料進行解碼的解碼方法,所述方法包括以下步驟:接收點雲視頻資料,其中,所述點雲視頻資料包括一個或多個的軌道組;訪問所述一個或多個的軌道組中的第一軌道的第一元資料,所述第一元資料指定:(a)所述點雲視頻資料的多個源區域中的第一源區域,其中,每個源區域對應於所述點雲視頻資料的不同空間部分;(b)所述第一源區域中的所述第一軌道的子區域,其中所述第一源區域包含多個所述子區域,所述第一元資料包括指示所述第一源區域中的所述第一軌道的視頻資料的空間位置的資料;以及基於所述第一元資料,使用所述第一軌道的所述視頻資料來生成所述第一源區域的所述子區域的點雲媒體。
  2. 如申請專利範圍第1項所述的方法,其中,所述第一元資料包括第一2D空間關係描述元資料,所述第一源區域包括2D源箱,並且所述子區域包括針對所述第一軌道的子圖片區域。
  3. 如申請專利範圍第1項所述的方法,其中:所述一個或多個的軌道組包括包含所述第一軌道的三維3D子體積軌道組;並且所述第一元資料包括第一3D空間關係描述元資料,所述第一源區域包括3D源箱,並且所述子區域包括針對所述第一軌道的子體積區域。
  4. 如申請專利範圍第3項所述的方法,其中:所述3D子體積軌道組還包括:包含幾何形狀資料的至少一個幾何形狀軌道; 包含屬性資料的至少一個屬性軌道;以及包含佔用地圖資料的佔用軌道;並且生成所述第一源區域的所述子區域的點雲媒體的步驟包括:使用所述幾何形狀資料、所述屬性資料和所述佔用地圖資料來生成所述點雲媒體。
  5. 如申請專利範圍第1項所述的方法,所述方法還包括:訪問一個或多個的軌道組中的第二軌道的第二元資料,所述第二元資料指定:所述第一源區域;以及所述第一源區域中的所述第二軌道的第二子區域,所述第二子區域包括指示所述第一源區域中的所述第二軌道的視頻資料的空間位置的資料;以及基於所述第二元資料,使用所述第二軌道的所述視頻資料來生成所述第一源區域的所述第二子區域的點雲媒體。
  6. 如申請專利範圍第1項所述的方法,其中,指定所述第一源區域的元資料包括指示所述第一源區域的寬度、所述第一源區域的高度、所述第一源區域的深度或其某種組合的資料。
  7. 如申請專利範圍第1項所述的方法,其中,指定所述子區域的元資料包括指示以下內容的資料:所述第一源區域中的所述子區域的位置;以及所述子區域的寬度、所述子區域的高度、所述子區域的深度或其某種組合。
  8. 一種對視頻資料進行編碼的方法,所述方法包括以下步驟:對點雲視頻資料進行編碼,對點雲視頻資料進行編碼的步驟包括對一個或多個的軌道組進行編碼,對一個或多個的軌道組進行編碼包括:確定所述點雲視頻資料的多個源區域中的第一源區域,其中,每個源區域對應於所述點雲視頻資料的不同空間部分;以及 確定所述第一源區域中的所述第一軌道的子區域,確定所述第一源區域中的所述第一軌道的子區域包括確定指示所述第一源區域中的視頻資料的空間位置的資料;以及基於所確定的第一源區域和所確定的所述第一軌道的子區域,對所述點雲視頻資料進行編碼,對所述點雲視頻資料進行編碼包括:將所述視頻資料編碼在第一軌道中;以及對所述第一軌道的第一元資料進行編碼,所述第一元資料包括指定所述第一源區域和所述子區域的元資料。
  9. 如申請專利範圍第8項所述的方法,其中,所述第一元資料包括第一2D空間關係描述元資料,所述第一源區域包括2D源箱,並且所述子區域包括針對所述第一軌道的子圖片區域。
  10. 如申請專利範圍第8項所述的方法,其中:所述一個或多個的軌道組包括包含所述第一軌道的三維3D子體積軌道組;並且所述第一元資料包括第一3D空間關係描述元資料,所述第一源區域包括3D源箱,並且所述子區域包括針對所述第一軌道的子體積區域。
  11. 如申請專利範圍第10項所述的方法,其中:所述3D子體積軌道組還包括:包含幾何形狀資料的至少一個幾何形狀軌道;包含屬性資料的至少一個屬性軌道;以及包含佔用地圖資料的佔用軌道;並且生成所述第一源區域的所述子區域的點雲媒體的步驟包括:使用所述幾何形狀資料、所述屬性資料和所述佔用地圖資料來生成所述點雲媒體。
  12. 如申請專利範圍第8項所述的方法,其中,指定所述第一 源區域的元資料包括指示所述第一源區域的寬度、所述第一源區域的高度、所述第一源區域的深度或其某種組合的資料。
  13. 如申請專利範圍第8項所述的方法,其中,指定所述子區域的元資料包括指示以下內容的資料:所述第一源區域中的所述子區域的位置;以及所述子區域的寬度、所述子區域的高度、所述子區域的深度或其某種組合。
  14. 一種被配置為對視頻資料進行解碼的裝置,所述裝置包括與記憶體通信的處理器,所述處理器被配置為執行存儲在所述記憶體中的指令,所述指令使所述處理器執行:接收點雲視頻資料,其中,所述點雲視頻資料包括一個或多個的軌道組;訪問所述一個或多個的軌道組中的第一軌道的第一元資料,所述第一元資料指定:(a)所述點雲視頻資料的多個源區域中的第一源區域,其中,每個源區域對應於所述點雲視頻資料的不同空間部分;(b)所述第一源區域中的所述第一軌道的子區域,其中所述第一源區域包含多個所述子區域,所述第一元資料包括指示所述第一源區域中的所述第一軌道的視頻資料的空間位置的資料;以及基於所述第一元資料,使用所述第一軌道的所述視頻資料來生成所述第一源區域的所述子區域的點雲媒體。
  15. 如申請專利範圍第14項所述的裝置,其中,所述第一元資料包括第一2D空間關係描述元資料,所述第一源區域包括2D源箱,並且所述子區域包括針對所述第一軌道的子圖片區域。
  16. 如申請專利範圍第14項所述的裝置,其中:所述一個或多個的軌道組包括包含所述第一軌道的三維3D子體積軌道組; 並且所述第一元資料包括第一3D空間關係描述元資料,所述第一源區域包括3D源箱,並且所述子區域包括針對所述第一軌道的子體積區域。
  17. 如申請專利範圍第16項所述的裝置,其中:所述3D子體積軌道組還包括:包含幾何形狀資料的至少一個幾何形狀軌道;包含屬性資料的至少一個屬性軌道;以及包含佔用地圖資料的佔用軌道;並且生成所述第一源區域的所述子區域的點雲媒體包括:使用所述幾何形狀資料、所述屬性資料和所述佔用地圖資料來生成所述點雲媒體。
  18. 如申請專利範圍第14項所述的裝置,其中,所述指令還使所述處理器執行:訪問所述多個軌道中的第二軌道的第二元資料,所述第二元資料指定:所述第一源區域;以及所述第一源區域中的所述第二軌道的第二子區域,所述第二子區域包括指示所述第一源區域中的所述第二軌道的視頻資料的空間位置的資料;以及基於所述第二元資料,使用所述第二軌道的所述視頻資料來生成所述第一源區域的所述第二子區域的點雲媒體。
  19. 如申請專利範圍第14項所述的裝置,其中,指定所述第一源區域的元資料包括指示所述第一源區域的寬度、所述第一源區域的高度、所述第一源區域的深度或其某種組合的資料。
  20. 如申請專利範圍第14項所述的裝置,其中,指定所述子區域的元資料包括指示以下內容的資料:所述第一源區域中的所述子區域的位置;以及 所述子區域的寬度、所述子區域的高度、所述子區域的深度或其某種組合。
TW109108422A 2019-03-15 2020-03-13 用信號通知點雲多媒體資料軌道的空間關係的方法和裝置 TWI749483B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201962818785P 2019-03-15 2019-03-15
US62/818,785 2019-03-15
US16/815,888 US11457231B2 (en) 2019-03-15 2020-03-11 Methods and apparatus for signaling spatial relationships for point cloud multimedia data tracks
US16/815,888 2020-03-11

Publications (2)

Publication Number Publication Date
TW202041020A TW202041020A (zh) 2020-11-01
TWI749483B true TWI749483B (zh) 2021-12-11

Family

ID=72423613

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109108422A TWI749483B (zh) 2019-03-15 2020-03-13 用信號通知點雲多媒體資料軌道的空間關係的方法和裝置

Country Status (2)

Country Link
US (1) US11457231B2 (zh)
TW (1) TWI749483B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11200701B2 (en) * 2019-03-19 2021-12-14 Nokia Technologies Oy Method and apparatus for storage and signaling of static point cloud data
WO2020189903A1 (ko) * 2019-03-20 2020-09-24 엘지전자 주식회사 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
US11451836B2 (en) * 2019-07-03 2022-09-20 Tencent America LLC Techniques and apparatus for PCM patch creation using Morton codes
EP4090013A4 (en) * 2020-01-10 2024-01-17 Lg Electronics Inc POINT CLOUD DATA TRANSMISSION DEVICE, POINT CLOUD DATA TRANSMISSION METHOD, POINT CLOUD DATA RECEIVING DEVICE, AND POINT CLOUD DATA RECEIVING METHOD
US11190771B2 (en) * 2020-03-16 2021-11-30 At&T Intellectual Property I, L.P. System and method of enabling adaptive bitrate streaming for volumetric videos
US11875539B2 (en) * 2020-03-16 2024-01-16 Samsung Electronics Co., Ltd. Partial access metadata for video-based point cloud compression data
CN114549778A (zh) * 2020-11-26 2022-05-27 腾讯科技(深圳)有限公司 非时序点云媒体的处理方法、装置、设备及存储介质
CN112700550A (zh) * 2021-01-06 2021-04-23 中兴通讯股份有限公司 三维点云数据处理方法、装置、存储介质及电子装置
CN115086635B (zh) * 2021-03-15 2023-04-14 腾讯科技(深圳)有限公司 多视角视频的处理方法、装置、设备及存储介质
CN117176715A (zh) * 2021-03-31 2023-12-05 腾讯科技(深圳)有限公司 点云编解码方法、装置、计算机可读介质及电子设备
CN115243053B (zh) * 2021-04-22 2024-04-16 腾讯科技(深圳)有限公司 点云编解码方法及相关设备
TWI786627B (zh) * 2021-05-11 2022-12-11 中強光電股份有限公司 顯示影像調整方法及擴增實境顯示裝置
CN115914672A (zh) * 2021-08-10 2023-04-04 腾讯科技(深圳)有限公司 自由视角视频的文件封装方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170347100A1 (en) * 2016-05-28 2017-11-30 Microsoft Technology Licensing, Llc Region-adaptive hierarchical transform and entropy coding for point cloud compression, and corresponding decompression
US20180268570A1 (en) * 2017-03-16 2018-09-20 Samsung Electronics Co., Ltd. Point cloud and mesh compression using image/video codecs

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101790886B (zh) 2007-07-02 2012-12-05 弗劳恩霍夫应用研究促进协会 存储和读取具有媒体数据容器和元数据容器的文件的设备和方法
US8930562B2 (en) 2010-07-20 2015-01-06 Qualcomm Incorporated Arranging sub-track fragments for streaming video data
CN105122817B (zh) * 2013-04-06 2019-06-14 米兰达技术合伙公司 用于媒体分布和管理的系统和方法
US11381616B2 (en) * 2013-04-12 2022-07-05 Brian Hernandez Multimedia management system and method of displaying remotely hosted content
US9922680B2 (en) 2015-02-10 2018-03-20 Nokia Technologies Oy Method, an apparatus and a computer program product for processing image sequence tracks
US9897450B2 (en) 2015-05-20 2018-02-20 Nokia Technologies Oy Method and apparatus to obtain differential location information
KR102125162B1 (ko) 2016-02-16 2020-06-22 노키아 테크놀로지스 오와이 미디어 캡슐화 및 캡슐 해제 기법
US10389999B2 (en) 2016-02-17 2019-08-20 Qualcomm Incorporated Storage of virtual reality video in media files
GB2560921B (en) 2017-03-27 2020-04-08 Canon Kk Method and apparatus for encoding media data comprising generated content
EP3646593A4 (en) 2017-06-26 2021-03-31 Nokia Technologies Oy APPARATUS, PROCESS AND COMPUTER PROGRAM FOR OMNIDIRECTIONAL VIDEO
EP3649790A4 (en) 2017-07-06 2021-01-06 Sharp Kabushiki Kaisha VIEW INFORMATION SIGNALING SYSTEMS AND METHODS FOR VIRTUAL REALITY APPLICATIONS
EP3474562A1 (en) * 2017-10-20 2019-04-24 Thomson Licensing Method, apparatus and stream for volumetric video format
US10535161B2 (en) * 2017-11-09 2020-01-14 Samsung Electronics Co., Ltd. Point cloud compression using non-orthogonal projection
US10797863B2 (en) * 2017-12-28 2020-10-06 Intel Corporation Multi-domain cascade convolutional neural network
EP3515066A1 (en) * 2018-01-19 2019-07-24 Thomson Licensing A method and apparatus for encoding and decoding three-dimensional scenes in and from a data stream
WO2019185986A2 (en) 2018-03-28 2019-10-03 Nokia Technologies Oy A method, an apparatus and a computer program product for virtual reality
JP7401453B2 (ja) * 2018-04-05 2023-12-19 ヴィド スケール インコーポレイテッド 全方位ビデオに対する視点メタデータ
GB2585760B (en) * 2018-06-06 2022-04-20 Canon Kk Method, device, and computer program for transmitting media content
EP3823274A4 (en) * 2018-07-13 2022-03-30 LG Electronics Inc. METHOD AND DEVICE FOR TRANSMITTING AND RECEIVING METADATA ON A DYNAMIC POINT COORDINATE SYSTEM
CN113170238B (zh) * 2018-09-12 2023-08-01 诺基亚技术有限公司 用于视频编码和解码的装置、方法和计算机程序
WO2020071703A1 (ko) * 2018-10-01 2020-04-09 엘지전자 주식회사 포인트 클라우드 데이터 전송 장치, 포인트 클라우드 데이터 전송 방법, 포인트 클라우드 데이터 수신 장치 및/또는 포인트 클라우드 데이터 수신 방법
KR102201763B1 (ko) 2018-10-02 2021-01-12 엘지전자 주식회사 360 비디오 시스템에서 오버레이 처리 방법 및 그 장치
US11109012B2 (en) * 2018-10-03 2021-08-31 Samsung Electronics Co., Ltd. Carriage of PCC in ISOBMFF for flexible combination
US11094130B2 (en) * 2019-02-06 2021-08-17 Nokia Technologies Oy Method, an apparatus and a computer program product for video encoding and video decoding
US11823421B2 (en) * 2019-03-14 2023-11-21 Nokia Technologies Oy Signalling of metadata for volumetric video
US11159811B2 (en) * 2019-03-15 2021-10-26 Tencent America LLC Partitioning of coded point cloud data
US11245926B2 (en) 2019-03-19 2022-02-08 Mediatek Singapore Pte. Ltd. Methods and apparatus for track derivation for immersive media data tracks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170347100A1 (en) * 2016-05-28 2017-11-30 Microsoft Technology Licensing, Llc Region-adaptive hierarchical transform and entropy coding for point cloud compression, and corresponding decompression
US20180268570A1 (en) * 2017-03-16 2018-09-20 Samsung Electronics Co., Ltd. Point cloud and mesh compression using image/video codecs

Also Published As

Publication number Publication date
TW202041020A (zh) 2020-11-01
US20200296397A1 (en) 2020-09-17
US11457231B2 (en) 2022-09-27

Similar Documents

Publication Publication Date Title
TWI749483B (zh) 用信號通知點雲多媒體資料軌道的空間關係的方法和裝置
TWI768308B (zh) 沈浸式媒體資料軌道之軌道導出方法和裝置
TWI740347B (zh) 發信點雲多媒體資料的視埠以及興趣區域的方法及裝置
TWI768372B (zh) 用於沉浸式媒體資料軌道的空間分組以及坐標信令的方法及裝置
US10742999B2 (en) Methods and apparatus for signaling viewports and regions of interest
TWI709325B (zh) 用於編解碼視訊資料的方法及裝置
TWI687087B (zh) 呈現超出全方位媒體的vr媒體的方法和裝置
CN110049330B (zh) 用于编码和解码虚拟现实内容的方法和装置
TWI768487B (zh) 用於編碼/解碼沉浸式媒體的視訊資料的方法和裝置
JP7133038B2 (ja) メディアコンテンツを送信する方法、装置及びコンピュータプログラム
US11146802B2 (en) Methods and apparatus for providing two-dimensional spatial relationships
TWI793602B (zh) 用以傳訊沉浸式媒體中多種類型視域的方法和裝置
US20240114168A1 (en) Methods and apparatus for signaling 2d and 3d regions in immersive media
JP2022541908A (ja) ボリュメトリックビデオコンテンツを配信するための方法および装置
JP7271672B2 (ja) 没入型ビデオビットストリーム処理
US11922561B2 (en) Methods and systems for implementing scene descriptions using derived visual tracks
US11743559B2 (en) Methods and systems for derived immersive tracks
US20220070429A1 (en) Methods and apparatus for selecting and switching input video tracks using track derivations