TWI740347B - 發信點雲多媒體資料的視埠以及興趣區域的方法及裝置 - Google Patents

發信點雲多媒體資料的視埠以及興趣區域的方法及裝置 Download PDF

Info

Publication number
TWI740347B
TWI740347B TW109100879A TW109100879A TWI740347B TW I740347 B TWI740347 B TW I740347B TW 109100879 A TW109100879 A TW 109100879A TW 109100879 A TW109100879 A TW 109100879A TW I740347 B TWI740347 B TW I740347B
Authority
TW
Taiwan
Prior art keywords
interest
region
point cloud
video data
cloud video
Prior art date
Application number
TW109100879A
Other languages
English (en)
Other versions
TW202029757A (zh
Inventor
新 王
魯林 陳
Original Assignee
新加坡商聯發科技(新加坡)私人有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 新加坡商聯發科技(新加坡)私人有限公司 filed Critical 新加坡商聯發科技(新加坡)私人有限公司
Publication of TW202029757A publication Critical patent/TW202029757A/zh
Application granted granted Critical
Publication of TWI740347B publication Critical patent/TWI740347B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本文所描述的技術涉及方法、裝置以及用於編碼與/或解碼視訊資料的電腦可讀媒介。接收包括元資料的點雲視訊資料,該元資料指定該點雲視訊資料的一個或多個興趣區域。從該一個或多個興趣區域決定一第一興趣區域。決定與該第一興趣區域相關的該點雲視訊資料的一部分。基於與該第一興趣區域相關的該點雲視訊資料的所決定的該部分,生成由一使用者觀看的點雲媒體。

Description

發信點雲多媒體資料的視埠以及興趣區域的方法及裝置
本文所描述的技術通常涉及視訊編解碼,更具體地,涉及點雲(point cloud)視訊內容中的視埠(viewport)與/或興趣區域(region of interest),包括以二維(2D)、三維(3D)與/或六維(6D)座標系統發送矩形以及球體區域用於視訊內容。
存在各種類型的視訊內容,如2D內容、3D內容以及多方向內容。例如,全向視訊時使用一組攝像機捕獲的一種視訊,而不像傳統的單向視訊那樣僅使用單個攝像機。例如,攝像機可以沿著特定的中心點放置,以致每一攝像機捕獲場景的球面覆蓋的一部分視訊來捕獲360°視訊。來自多個攝像機的視訊可以被拼接、適當的旋轉以及被投影來生成表示該球面內容的經投影二維圖像。例如,相等的矩形投影可以用於將球面映射成二維圖像。例如,這可以使用二維編碼以及壓縮技術來完成。最後,經編碼以及壓縮的內容被存儲並且使用所期望的遞送機制(如,拇指驅動器、數位視訊硬碟(DVD)與/或線上流媒體)來遞送。這種視訊可以用於虛擬實境(VR)與/或3D視訊。
在用戶端側,當用戶端處理內容時,視訊解碼器解碼已編碼的視訊並且執行反投影來將內容放回到球體上。然後使用者可以觀看已渲染的內容,如使用頭戴觀看裝置。內容通常根據使用者的視埠來渲染,其表示使用者正在觀看內容所在的角度。視埠也可以包括表示觀察區域的元件,其可描繪用戶在特定角度所觀看的區域有多大以及什麼形狀。
當視訊處理未以視埠獨立的方式完成時,以致視訊編碼器不知道用戶將真正在看什麼,然後整個編碼以及解碼進程將處理整個球面內容。例如,因為所有球面內容都被遞送以及被解碼,這可以允許用戶在任何特定的視埠與/或區域觀看內容。
然而,處理所有球面內容可能是計算密集以及可能消耗大量頻寬。例如,對於線上流媒體應用,處理所有球面內容可能對網路頻寬造成大的負擔。因此,當頻寬資源與/或計算資源受限時,其可能難以維持用戶的體驗。一些技術僅處理正被使用者觀看到的內容。例如,如果用戶正在觀看正面(如,或者北極),那麼不需要遞送內容的背面部分(如,南極)。如果用戶改變視埠,那麼可以相應地遞送內容用於新的視埠。如另一個示例,對於自由視埠TV(FTV)應用(如,其使用多個攝像機捕獲場景的視訊),內容可以基於使用者在哪一角度觀看場景來遞送。例如,如果用戶正從一個視埠(如,攝像機與/或相鄰攝像機)觀看內容,可能不需要遞送其他視埠的內容。
依照所公開的主題、裝置、系統以及方法提供表點雲視訊內容中的矩形以及球面興趣區域(ROI),包括基於視訊的點雲壓縮。
一些實施例涉及解碼視訊資料的解碼方法。該方法包括接收包括元資料的點雲視訊資料,該元資料指定該點雲視訊資料的一個或多個興趣區域,從該一個或多個興趣區域決定一第一興趣區域,決定與該第一興趣區域相關的該點雲視訊資料的一部分;以及基於與該第一興趣區域相關的該點雲視訊資料的所決定的該部分,生成由一使用者觀看的點雲媒體。
在一些示例中,接收該點雲視訊資料包括接收一組二維(2D)平面視訊位元流以及第二元資料,該第二元資料指定該組2D平面視訊位元流到3D立體媒體的一轉換;以及決定與該第一興趣區域相關的該點雲視訊資料的該部分包括決定與該第一興趣區域相關的該組2D平面視訊位元流的資料的一子集。
在一些示例中,該方法包括接收與該點雲視訊資料相關的使用者交互資料,其中該使用者交互資料包括指示該使用者的位置、該用戶的視點或者其組合的資料,從該一個或多個興趣區域決定一第二興趣區域,其中該第二興趣區域不同於該第一興趣區域,決定與該第二興趣區域相關的該點雲視訊資料的一第二部分,其中該第二部分不同於與該第一興趣區域相關的該部分,以及,基於與該第二興趣區域相關的該點雲視訊資料的所決定的該第二部分,生成該使用者觀看的第二點雲媒體。
在一些示例中,決定該第一興趣區域包括決定該點雲視訊資料的一幾何軌道的一第一識別字、該點雲視訊資料的一紋理軌道的一第二識別字或其兩者,其中該幾何軌道指定該點雲視訊資料的一個或多個幾何方面,以及該紋理軌道指定該點雲視訊資料的一個或多個紋理方面,以及,決定與該第一興趣區域相關的該點雲視訊資料的該部分包括選擇由該第一識別字標識的該幾何軌道、選擇由該第二識別字標識的該紋理軌道或其兩者。
在一些示例中,該方法進一步包括基於一球體確定與該點雲視訊資料相關聯的指定該興趣區域的一個或多個方面的一區域結構,其中該一個或多個方面包括該第一興趣區域的一位置、該第一興趣區域的一方向、該第一興趣區域的一形狀、該第一興趣區域的一尺寸範圍或其組合,該區域結構包括一資料,該資料指示該區域結構的該一個或多個方面是否包括指示該興趣區域的一個或多個全域方面的資料,其應用於與該區域結構相關的一組樣本的每一者;以及,基於指示該區域結構的該一個或多個方面是否包括指示該興趣區域的該一個或多個全域方面的資料的該資料,決定該點雲視訊資料中的該第一興趣區域。
在一些示例中,基於指示該區域結構的是否包括指示該興趣區域的該一個或多個全域方面的資料的該資料,決定該點雲視訊資料中的該第一興趣區域包括決定不指定該一個或多個方面的至少一個全域方面的該區域結構,以及,為與該區域結構相關的每一樣本決定該第一興趣區域的該樣本的一樣本特定的方面。
在一些示例中,決定該點雲視訊資料中的該第一興趣區域包括藉由決定該第一興趣區域的一中心位置決定該第一興趣區域的該位置。
在一些示例中,決定該點雲視訊資料中的該第一興趣區域包括藉由決定該第一興趣區域的一中心方位角、一中心仰角以及一中心傾斜,決定該第一區域的該方向。
決定該點雲視訊資料中的該第一興趣區域包括藉由決定該第一興趣區域的一方位角範圍以及一仰角範圍,決定該第一興趣區域的該尺寸範圍。
一些實施例涉及編碼視訊資料的方法。該方法包括編碼包括元資料的點雲視訊資料,該元資料指定該點雲視訊資料的一個或多個興趣區域,包括決定該一個或多個興趣區域的一第一興趣區域,決定與該第一興趣區域相關的該點雲視訊資料的一部分,基於與該第一興趣區域相關的該點雲視訊資料的所決定的該部分,編碼該點雲視訊資料包括編碼指定該點雲視訊資料的該一個或多個興趣區域的該元資料。
一些實施例涉及用於解碼視訊資料的裝置。該裝置包括與記憶體通訊的一處理器。該處理器用於執行存儲於該記憶體中的指令,使得該處理器執行接收包括元資料的點雲視訊資料,該元資料指定該點雲視訊資料的一個或多個興趣區域,從該一個或多個興趣區域決定一第一興趣區域,決定與該第一興趣區域相關的該點雲視訊資料的一部分,以及基於與該第一興趣區域相關的該點雲視訊資料的所決定的該部分,生成由一使用者觀看的點雲媒體。
在一些示例中,接收該點雲視訊資料包括接收一組二維(2D)平面視訊位元流以及第二元資料,該第二元資料指定該組2D平面視訊位元流到3D立體媒體的一轉換,以及決定與該第一興趣區域相關的該點雲視訊資料的該部分包括決定與該第一興趣區域相關的該組2D平面視訊位元流的資料的一子集。
在一些示例中,該指令進一步使得該處理器執行接收與該點雲視訊資料相關的使用者交互資料,其中該使用者交互資料包括指示該使用者的位置、該用戶的視點或者其組合的資料,從該一個或多個興趣區域決定一第二興趣區域,其中該第二興趣區域不同於該第一興趣區域,決定與該第二興趣區域相關的該點雲視訊資料的一第二部分,其中該第二部分不同於與該第一興趣區域相關的該部分,以及基於與該第二興趣區域相關的該點雲視訊資料的所決定的該第二部分,生成該使用者觀看的第二點雲媒體。
在一些示例中,決定該第一興趣區域包括決定該點雲視訊資料的一幾何軌道的一第一識別字、該點雲視訊資料的一紋理軌道的一第二識別字或其兩者,其中該幾何軌道指定該點雲視訊資料的一個或多個幾何方面,以及該紋理軌道指定該點雲視訊資料的一個或多個紋理方面,以及決定與該第一興趣區域相關的該點雲視訊資料的該部分包括選擇由該第一識別字標識的該幾何軌道、選擇由該第二識別字標識的該紋理軌道或其兩者。
在一些示例中,該指令進一步使得該處理器執行基於一球體確定與該點雲視訊資料相關聯的指定該興趣區域的一個或多個方面的一區域結構,其中該一個或多個方面包括該第一興趣區域的一位置、該第一興趣區域的一方向、該第一興趣區域的一形狀、該第一興趣區域的一尺寸範圍或其組合,該區域結構包括一資料,該資料指示該區域結構的該一個或多個方面是否包括指示該興趣區域的一個或多個全域方面的資料,其應用於與該區域結構相關的一組樣本的每一者;以及基於指示該區域結構的該一個或多個方面是否包括指示該興趣區域的該一個或多個全域方面的資料的該資料,決定該點雲視訊資料中的該第一興趣區域。
在一些示例中,基於指示該區域結構的是否包括指示該興趣區域的該一個或多個全域方面的資料的該資料,決定該點雲視訊資料中的該第一興趣區域包括決定不指定該一個或多個方面的至少一個全域方面的該區域結構;以及為與該區域結構相關的每一樣本決定該第一興趣區域的該樣本的一樣本特定的方面。
在一些示例中,決定該點雲視訊資料中的該第一興趣區域包括藉由決定該第一興趣區域的一中心位置決定該第一興趣區域的該位置。
在一些示例中,決定該點雲視訊資料中的該第一興趣區域包括藉由決定該第一興趣區域的一中心方位角、一中心仰角以及一中心傾斜,決定該第一區域的該方向。
在一些示例中,決定該點雲視訊資料中的該第一興趣區域包括藉由決定該第一興趣區域的一方位角範圍以及一仰角範圍,決定該第一興趣區域的該尺寸範圍。
因此,已經相當寬泛地概述了所公開的主題的特徵,以便可以更好地理解其隨後的詳細描述,並且以便可以更好地理解本發明對本領域的貢獻。當然,還存在將在下文中描述的所公開的主題的附加特徵,這些特徵將形成所附申請專利範圍的主題。應當理解,本文所使用的措辭和術語是為了描述的目的,而不應當被認為是限制性的。
點雲(point cloud)資料,如基於視訊的點雲壓縮(V-PCC)資料可以提供壓縮的點雲資料,其可以被用於各種類型的3D多媒體應用。發明人已經理解,其期望基於使用者與點雲資料的交互來控制渲染與/或顯示什麼樣的點雲資料。例如,其可以期望僅處理以及顯示將被使用者觀看到的點雲內容(如,以避免處理將不被顯示的內容)。使用者交互資訊可以允許使用者選擇不同的視埠,其可以反過來用於發信到裝置來相應地處理哪一點雲資料。例如,使用者交互資訊可以用於資訊使用者在點雲資料中選擇不同的視點,以及基於這一用戶選擇/交互來改變點雲資料處理。因此,發明人已經理解,需要指定點雲資料的視埠,包括提供被推薦的視埠以及來促進使用者與點雲資料的交互(如,包括相應地改變視埠以及調整點雲資料處理)。
發明人已經進一步理解,因為點雲資料可以包括多個不同類型的軌道(track)(如,多個幾何軌道與/或紋理(texture)軌道),其期望將視埠與特定軌道相關聯(如,與特定的幾何與/或紋理軌道相關聯)。本文所描述的技術提供發信點雲視埠,包括用於V-PCC內容。視埠可以被指定用於特定點雲軌道,如用於特定的幾何與/或紋理軌道。V-PCC內容可以在ISOBMFF檔中攜帶,以及該技術可以發信視埠作為定時元資料(timed metadata)軌道,包括一種類型的使用者交互資訊。在一些實施例中,視埠可以是3D球體區域、2D平面區域與/或具有六個自由度(6 DoF)的3D空間中的此類。技術提供指定6D座標,包括6D球面以及6D笛卡爾座標,以及使用這一6D座標來指定2D以及3D視埠。
在後續描述中,給出了關於所公開主題的系統以及方法以及這一系統以及方法可以在其中操作的環境的許多具體細節,以提供所公開主題的透徹理解。此外,將能理解,以下提供的示例性是示例性的,以及存在其他系統以及方法在所公開主題的範圍內。
第1圖示出了根據一些實施例的示例性視訊編解碼配置100。攝像機102A – 102N是N個攝像機,以及可以是任何類型的攝像機(如,包括音訊記錄功能的攝像機,與/或單獨攝像機與音訊記錄功能)。編碼裝置104包括視訊處理器106以及編碼器108。視訊處理器106處理器從攝像機102A – 102N接收的視訊,如拼接、投影與/或映射。編碼器108編碼與/或壓縮二維視訊資料。解碼裝置110接收已編碼資料。通過廣播網路、通過移動網路(如蜂窩網路)、與/或通過互聯網,該解碼裝置110可以接收該視訊作為視訊產品(如,資料視訊光碟,或其他電腦可讀媒介)。例如,該解碼裝置110可以是電腦、一部分的頭戴顯示器或者具有解碼功能的任何其他裝置。該解碼裝置110包括用於解碼該已編碼視訊的解碼器112,。該解碼裝置110還包括渲染器114用於將二維內容渲染回播放的格式。顯示器116顯示來自該渲染器114的已渲染內容。
通常,3D內容可以使用球面內容來表示以提供場景的360°視野(如,有時被稱為全向(omnidirectional)媒體內容)。雖然可以使用3D球體支援一些視野,終端使用者通常僅看到3D球體上的一部分內容。傳輸整個3D球體所需要的頻寬給網路造成嚴重的負擔,以及可能不足以支援球面內容。因此期望使3D內容遞送更加有效。視埠相關的處理可以被執行來改善3D內容遞送。該3D球面內容可以被拆分成多個區域/圖塊(tile)/子圖像,以及僅與觀看螢幕(如,視埠)相關的那些可以被傳輸以及被遞送給終端使用者。
第2圖示出了根據一些示例的VR內容的視埠相關的內容流處理200。如圖所示,球面視埠201(如,其可以包括整個球體)在塊202經過拼接、投影、映射(來生成經投影以及經映射區域),在塊204被編碼(來生成多個品質的經編碼/轉碼的圖塊),在塊206被遞送(為圖塊),在塊208被解碼(來生成已解碼圖塊),在塊210被構造(來構造球面渲染的視埠),以及在塊212被渲染。在塊214的用戶交互可以選擇視埠,其發起如經由虛線箭頭示出的一些“即時”處理步驟。
在進程200中,由於當前網路頻寬限制以及各種適應性需求(如,不同的品質、編解碼器以及投影方案),3D球面VR內容首先在2D平面被處理(拼接、投影以及映射)(由塊202)以及然後被封裝進一些基於圖塊(或基於子圖像)以及分段的檔(在塊204)用於遞送以及播放。在這種基於圖塊以及分段檔的中,2D平面中的空間圖塊(如,其通常以2D平面內容的矩形形狀表示的空間部分)通常被封裝成其變體的集合,如以不同的品質以及位元率,或者以不同的編解碼器以及投影方案(如,不同的加密演算法以及模式)。在一些示例中,這些變體對應於MPEG DASH中適應集合內的表示。在一些示例中,基於用戶對視埠的選擇,當被放在一起時提供所選視埠的覆蓋的不同圖塊的這些變體中的一些被接收器檢索或被遞送到該接收器(通過遞送塊206),然後被解碼(在塊208)來構造以及渲染所期望的視埠(在塊210以及212)。
如第2圖所示,視埠的概念是終端使用者所看到的,其涉及球體上區域的角度以及尺寸。對於360°內容,通常,技術遞送所需要的圖塊/子圖像內容到用戶端來覆蓋使用者將看到的內容。因為技術僅遞送覆蓋當前興趣視埠的內容而不是整個球面內容,這一進程是視埠相關的。視埠(一種類型的球體區域)可以改變以及因此不是靜態的。例如,當使用者移動頭部時,然後系統需要提取相鄰圖塊(或子圖像)來覆蓋使用者接下來想看到的內容。
興趣區域(ROI)在概念上與視埠有些類似。例如,ROI可以表示全向視訊的3D或2D編碼中的區域。ROI可以具有不同的形狀(如,正方形或圓形),其可以相對於3D或2D視訊來指定(如,基於位置、高度等等)。例如,興趣區域可以表示圖像中可以被放大的區域,以及對應的ROI視訊可以被顯示用於該放大的視訊內容。在一些實施方式中,已準備了ROI視訊。在這種實施例中,興趣區域通常具有攜帶該ROI內容的分離的視訊軌道。因此,已編碼視訊指定ROI,以及ROI視訊如何與底層視訊相關聯。本文所描述的技術以區域的方式進行描述,其可以包括視埠、ROI與/或視訊內容中其他興趣區域。
ROI或視埠軌道可以與主視訊相關聯。例如,ROI可以與主視訊相關聯來促進放大或縮小操作,其中ROI用於提供放大區域的內容。例如,2016年6月2日的MPEG-B、部分10、標題“Carriage of Timed Metadata Metrics of Media in ISO Base Media File Format”,(w16191,也ISO/IEC 23001-10:2015),描述了使用定時元資料軌道來發信主要2D視訊軌道具有2D ROI軌道的ISO基本媒體檔案格式(ISOBMFF)檔案格式,其整體內容在此藉由參考納入其中。如另一個示例,HTTP上動態自適應流(DASH)包括空間關係描述符來發信主要2D視訊表示與其相關2D ROI視訊表示之間的空間關係。2016年7月29日,ISO/IEC 23009-1草案第三版(w10225)發表了DASH,其整體內容在此藉由參考納入其中。如進一步的示例,在ISO/IEC 23090-2中指定了全向媒體格式(OMAF),其整體內容在此藉由參考納入其中。OMAF指定了全向媒體格式用於編碼、存儲、遞送以及渲染全向媒體。OMAF指定一座標系統,以致使用者的觀看視角是從球體的中心朝外望向球體的內表面。OMAF包括對ISOBMMF的擴展用於全向視訊以及用於球體區域的定時元資料。
當發信ROI時,可能生成各種資訊,包括與ROI特徵相關的資訊(如,識別字、類型(如,位置、形狀、尺寸)、目的、品質、評級等等)。資訊可以被生成來將內容與ROI相關聯,包括與視覺(3D)球面內容與/或球面內容的經投影以及經映射(ID)幀相關聯。ROI可以由許多屬性來表征,如其識別字、內容中與其相關的位置,以及其形狀以及尺寸(如,關於球面與/或3D內容)。如本文進一步所討論的,像品質以及區域的比率排名的額外屬性也可以被添加。
在一些實施例中,為了指定球體上ROI尺寸的形狀,可以使用某些球面概念。第3A圖示出了具有一個大圓圈302以及兩個小圓圈304的球體300。如圖所示,大圓圈302跨越球面與穿過球體300的中心的2D平面的交點。因此,大圓圈302是包含球體300的直徑的球體300的截面。小圓圈304示出了球面與不穿過球體300的中心的2D平面的交點,以及因此每一者與球體300的截面相關聯,其不包含球體300的直徑。
使用大圓圈與/或小圓圈可以有許多不同的方式來連接或使用線連接球體上的兩個點。球體上任何兩個點可以由唯一的大圓圈連接,其提供在球體上它們之間的最短路徑。兩個點也可以由藉由包含兩個點的2D平面相交的小圓圈(如,無限多個)來連接。當使用小圓圈時,當該2D平面固定時(如,固定的與球體的特定軸正交),兩個點之間的路徑是獨一無二的。出於示例的目的,以下對視埠的描述假定第3B圖示出的北極以及南極與偏航(yaw)、俯仰(pitch)以及翻動(roll)的默認座標系統(未示出)一起是固定的。每一ROI可以具有ROI中心,其是球體上的點,被指定為使用其俯仰以及偏航視點來指示該ROI是包含該視點的球體上的區域。例如,第3C圖示出了根據一些實施例的一般矩形形狀的ROI 350。ROI 350包括視點352作為其中心。該ROI 350包括沿著水平方向的兩個點:在視點的中心的左側的左邊點(LL),以及在視點的中心的右側的右邊點(RR)。該ROI 350包括沿著垂直方向的兩個點:在視點的中心的頂側的頂點(TT),以及在視埠的中心的底側的底點(BB)。
MPEG-B部分10指定了用於2D平面上的矩形區域的一種類型的2D笛卡爾座標(“2dcc”),其在N16191的附錄中被提供,“Text of ISO/IEC 23001-10:201x/FDAM 1 Carriage of spatial information”,瑞士,加內瓦(2016年6月),其整體內容在此藉由參考納入其中。因此,對於2D情況,“2dcc”可以用於標識矩形區域。對於3D情況,因為可能有如方向以及基於該方向的區域的其他方面,表示可能會複雜(如,相比2D情況更加複雜)。視埠是可以用於顯示或觀看的全向圖像或視訊的區域(如,3D)。視點可以表示單個攝像機,以及當有多個攝像機時可以使用多個視點(如,去標識每一攝像機在哪兒)。視點組可以指共用相同共同參考座標系統的一組視點。
第4A-4B圖,其是本文進一步所討論的示出了根據一些實施例的ROI形狀的示例性表示。在一些實施例中,ROI可以採用矩形的形狀。也可以使用其他形狀,如圓形、三角形、三維形狀等等。如本文進一步討論的,一些實施例提供了使用一系列特徵描述各種ROI來指定不同形狀、位置與/或關於ROI的其他額外資訊的技術。
矩形ROI可以以各種方式表示。例如,矩形區域可以在球體表面表示,其可以使用小圓圈、大圓圈與/或小以及大圓圈的組合來表示。第4A圖示出了根據一些實施例的矩形ROI 410。矩形ROI 410使其中心視點410A處於(偏航、俯仰)或者(中心方位角、中心仰角)(如,其可相對於基礎默認座標系(未圖示)來制定,該基礎默認座標系的中心可稱為(x,y,z)以及發生於第4A-4B圖中示出的三個虛線的交點的位置處)。矩形ROI 410在大圓圈上具有水平以及垂直邊界。第一大圓圈410B相交點LL(如,其可以被稱為第一中心方位值,或cAzimuth1),第二大圓圈410C相交點RR(如,其可以被稱為第二中心方位值,或cAzimuth2),第三大圓圈410D相交點TT(如,其可以被稱為第二仰角值,或cElevation2),以及第四大圓圈410E相交點BB(如,其可以被稱為第一仰角值,或cElevation1)。矩形ROI 410具有沿著點(LL-視點-RR)或者(cAzimuth1-視點-cAzimuth2)指定的寬度,其可以作為yaw_width。矩形ROI 410具有沿著點(TT-視點-BB)或者(cElevation2-視點-cElevation1)指定的高度,其可以作為pitch_height。在一些實施例中,矩形ROI 410可以由yaw、pitch、yaw_width以及pitch_height來發信。yaw_width的值可以指定垂直邊界之間的寬度。pitch_height可以指定水平邊界之間的高度。
第4B圖示出了根據一些實施例的第二矩形ROI 420。矩形ROI 420使其中心視點420A在(偏航、俯仰)或者(中心方位角,中心仰角)。矩形ROI 420在大圓圈具有垂直邊界。第一大圓圈420B相交點LL(如,cAzimuth1),以及第二大圓圈420C相交點RR(如,cAzimuth2)。矩形ROI 420在小圓圈具有水平邊界。第一小圓圈420D相交點TT(如,或者cElevation2),以及第二小圓圈420E相交點BB(如,cElevation1)。矩形ROI 420具有沿著(TT-視點-BB)或者(cElevation2-視點-cElevation1)指定的一高度,其可以作為pitch_height。矩形ROI 420具有沿著點(LL-視點-RR)或者(cAzimuth1-視點-cAzimuth2)指定的寬度,其可以作為yaw_width。在一些實施例中,矩形ROI 420可以由yaw、pitch、yaw_width以及pitch_height發信。yaw_width的值可以指定垂直邊界之間的寬度。pitch_height的值可以指定水平邊界之間的高度。
在一些實施例中,矩形ROI可以藉由交換大圓圈與小圓圈的使用到第4B圖示出的那樣的來表示。例如,可以在水平方向使用大圓圈(如,帶),以及可以在垂直方向使用小圓圈(如,帶)。這一示例性矩形ROI具有在(偏航,俯仰)的其中心視點,以及大圓圈上的水平邊界與小圓圈上的垂直邊界,水平邊界之間的高度(TT-視點-BB)是pitch_height,垂直邊界之間的寬度(LL-視點-RR)是yaw_width這一示例性ROI可以使用(yaw, pitch, yaw_width, pitch_height)來發信。
在一些實施例中,矩形ROI可以都使用水平以及垂直方向(如,帶)中的小圓圈表示。這一示例性矩形ROI具有在(yaw,pitch)的中心視點以及小圓圈上的水平以及垂直邊界,垂直邊界之間的寬度(TT-視點-BB)為yaw_width以及水平邊界之間的高度(TT-視點-BB)為pitch_height的。這一示例性ROI可以被發信為(yaw, pitch, yaw_width, pitch_height)。
在一些實施例中,本文所討論的矩形ROI可以使用其他技術來指定。例如,矩形ROI可以使用(yaw, pitch ,yaw_left, yaw_right, pitch_top, pitch_bottom)來指定,其中中心是在(偏航,俯仰)以及ROI的LL、RR、TT以及BB點由yaw_left、yaw_right、pitch_top以及pitch_bottom分別指定。例如,LL在(yaw_left, pitch_bottom + (pitch_top, pitch_bottom)/2)。
如果支援多個視埠,每一ROI可以與索引號或者形狀號相關聯。例如,如下文進一步討論的,如果支援兩個ROI,這兩個ROI可以用號碼1以及2支援來標識ROI的類型。如另一個示例,第4A-4B圖中示出的每一ROI可以使用索引號或形狀號來表示(如,這一示例的1或2,或者無論系統支援多少ROI的每一者的唯一編號)。
在一些實施例中,本文所討論的笛卡爾座標包括3D以及6D笛卡爾座標,不同於它們的球面對應物。例如,本文所討論的笛卡爾座標可以不同於它們的2D矩形的區域,而不是3D球面(如,本文進一步討論的“6dcc”以及“6dsc”)。例如,技術可以促進使用不同視點與/或視埠(如,包括在球體上指定的,指定為矩形的視埠等等)的多個不同攝像機之間的移動。如另一個示例,當前的“2dcc”標準不具有樣本條目級上定義用於位置與/尺寸在樣本級上不改變的區域。
如本文所討論的,對於2D情況,MPEG 部分10包括可以用於標識大區域中興趣區域的“2dcc”標準。第5A圖以及第5B圖分別示出了“2dcc”標準500以及相關2DCartesianCoordinatesSample 550的示例。“2dcc”標準可以用於動態情況,其中使用2DCartesianCoordinatesSample 550在樣本級指定位置以及尺寸,其可以允許在每一樣本基礎上改變元資料。例如,因為媒體呈現在時間上移動時,屬性可以改變(如,top_left_x, top_left_y,與/或2DCartesianCoordinatesSample 500中的其他欄位可以改變)。
“2dcc”標準不提供用於靜態用例。例如,如果位置與/或尺寸不在樣本級改變,先前“2dcc”方案需要為每一樣本指定(如,以及處理)冗餘數據。第5A圖示出了根據一些實施例的二維笛卡爾座標樣本陣列500的示例性語法。出於說明的目的,示例可以包括擴展MetadataSampleEntry的2DCartesianCoordinatesSampleEntry “2dcc” 502,其將被用於解釋本文的概念,儘管本領域具有通常知識這可以理解,可以在不背離本發明精神的情況下使用其他術語表、結構與/或欄位。本文進一步所描述的樣本條目可以提供最佳方法來最小化所使用的比特數目與/或所需要的處理,如,當矩形區域具有任一靜態位置、靜態尺寸或兩者時。
2D笛卡爾座標樣本條目500可以提供與參考軌道相關的空間資訊,其可以在二維笛卡爾座標系統中表達。reference_width 504以及reference_height 506可以提供參考矩形空間的寬度以及高度,在參考矩形空間中分別計算矩形區域座標(如,top_left_x,top_left_y,寬度以及高度)。例如,reference_width 504以及reference_height 506可以用於將矩形區域元資料軌道與不同解析度但表示相同視覺來源的視訊軌道相關聯。
dynamic_location_flag 508可以指定區域的位置是否變化。例如,dynamic_location_flag 508等於0可以指定矩形區域的位置在參考這一樣本條目的所有樣本中保持不變。dynamic_location_flag 508等於1可以指定矩形區域的位置以樣本格式來指示。
dynamic_size_flag 510可以指定區域的尺寸是否變化。例如,dynamic_size_flag 510等於0可以指定矩形區域的尺寸在參考這一樣本條目的樣本中保持不變。dynamic_size_flag 510等於1可以指定矩形區域的寬度以及高度以樣本格式來指示。
static_top_left_x 512以及static_top_left_y 514可以分別指定參考這一樣本條目的樣本的矩形區域的左上角的水平以及垂直座標。static_width 516以及static_height 518可以分別指定參考這一樣本條目的樣本的矩形區域的寬度以及高度。
第5B圖示出了根據一些實施例的示例性2D笛卡爾座標樣本550。出於說明的目的,示例可以包括2DCartesianCoordinatesSample分類,其將用於解釋本文的概念,雖然本領域具有通常知識者將能理解,可以在不背離本發明精神的情況下使用其他術語表、結構與/或欄位。top_left_x 552以及top_left_y 554可以分別提供與參考軌道的媒體樣本相關的矩形區域的左上角水平以及垂直座標。width 556以及height 558可以分別提供與參考軌道的媒體樣本相關的矩形區域的寬度以及高度。interpolate(插值)560可以指示連續樣本在時間上的連續性。當插值interpolate被設置為真(如,1)時,本申請可以在先前樣本與當前樣本之間線性地插值ROI座標值。當插值560為假時(如,0),在先前樣本與當前樣本之間可能沒有任何插值的值。在一些實施例中,區域元資料軌道的同步樣本是插值560被設置為假(如,0)的樣本。在一些實施例中,當使用插值時,其可以期望(如,由解碼裝置)插值樣本匹配參考軌道中樣本的呈現時間。例如,對於視訊軌道的每一視訊樣本,解碼裝置可以計算一個插值的2D笛卡爾座標樣本。例如,元資料可以具有比視訊定時更粗糙的定時。因此插值可以用於決定如何處理這一情景中的內容。
如示例性2D笛卡爾座標樣本550中示出的,使用2D笛卡爾座標樣本條目指定的dynamic_location_flag 508以及dynamic_size_flag 510可以控制2D笛卡爾座標樣本550的尺寸以及欄位的數目。如果dynamic_location_flag 508與dynamic_size_flag 510任一者或者兩者被設置為假,那麼相關欄位不被指定為樣本的部分。有利地,對於靜態的方面,包括尺寸與/或位置,可以相應地控制樣本條目的尺寸。
關於6D球面座標,參考第6圖,6D座標可以用六自由度來指定,包括圍繞X軸602(俯仰)、Y軸604(偏航)以及Z軸606(滾動),以及沿著X軸602(左以及右)、Y軸604(上以及下)以及Z軸606(前以及後)的全平移運動。
第7圖示出了根據一些實施例的6D球面座標樣本條目700的示例性語法。處於說明的目的,示例可以包括擴展MetadataSampleEntry的6DSphericalCoordinatesSampleEntry “6dsc”,其將用於解釋本文的概念,雖然本領域具有通常知識者將能理解,在不背離本發明精神的情況下,可以使用其他術語表、結果與/或欄位。如本文進一步討論的,6D球面座標樣本條目可以提供與參考軌道相關的球體區域的空間資訊,該參考軌道在三維球面座標系統中用以沿著X、Y以及Z軸的全平移運動的額外的自由度來表達。
參考6D球面座標樣本條目700示出的欄位,shape_type 702可以用於指示如何指定球體區域。例如,shape_type 702等於0可以指定球體區域由四個大圓圈指定。shape_type 702等於1可以指定球體區域由兩個方位圓以及兩個仰角圓來指示。在一些實施例中,shape_type 702的值可以被保留。例如,大於1的shape_type 702值可以被保留。在一些實施例中,shape_type 702的值可以用作形狀類型值(例如,如相關標準中指定的,如OMAF標準)。
dynamic_location_flag 704可以指定球體的中心位置是否變化。例如,dynamic_location_flag 704等於0可以指定球體區域的中心位置(中心x,y以及z)在參考這一樣本條目的樣本中保持不變。dynamic_location_flag 704等於1可以指定球體區域的中心位置以樣本格式來指示。
dynamic_orientation_flag 706可以指定方向是否變化(如,區域是否正在移動)。例如,如果使用者在該方向觀看區域但不移動他的頭部,那麼旗標可以指示方向是否移動(如,是靜態的或動態的)。例如,dynamicn_orientation_flag 706等於0可以指定球體區域的方向(如,中心方位角、仰角與/或傾斜)在參考這一樣本條目的樣本中保持不變。dynamic_orientation_flag 706等於1可以指定球體區域的方向以樣本格式來指示。
unit_sphere_flag 710可以指示球體是否是單元球體。例如,unit_sphere_flag 710等於0可以指定球體不是單元球體(如,其半徑不等於1)。unit_sphere_flag 710等於1可以指定球體不是單元球體(如,其可以是預設情況)。單元球體可以用於放大或縮小。例如,如果半徑是10,那麼其可以放大10倍,以放大10倍觀看。如果內容被放大,那麼使用者看到較大球體的較小區域,如果內容縮小,那麼使用者看到較小球體的較大區域。
static_centre_x 712、static_centre_y 714以及staticn_centre_z 716可以分別指定相對於基礎座標系統的原點的球體區域的中心的x、y以及z軸值。
static_centre_azimuth 718以及static_centre_elevation 720可以分別指定球體區域的中心(如,以2-16度為單元)的方位以及仰角值。在一些實施例中,static_centre_azimuth 718可以是在包括-180 × 216 到180 × 216 -1的範圍內,以及static_centre_elevation 720可以在包括-90 × 216 到90 × 216 的範圍內。
static_centre_tilt 722可以指定球體區域(如,以2-16 度為單位)的傾斜角。在一些實施例中,static_centre_tilt可以在包括-180 × 216 到180 × 216 -1的範圍內。
static_azimuth_range 724以及static_elevation_range 726可以分別為參考這一樣本條目(如,以2-16 度為單元)的每一樣本指定球體區域的方位以及仰角範圍。static_azimuth_range 724以及static_elevation_range 726可以通過球體區域的中心點指定範圍。在一些實施例中,static_azimuth_range 724可以在包括0到360 × 216 的範圍內。在一些實施例中, static_elevation_range 726可以在包括0到180 × 216 的範圍內。在一些實施例中,當static_azimuth_range 724以及static_elevation_range 726存在並且都等於0時,參考這一樣本條目的每一樣本的球體區域可以是球體表面上的一點。當static_azimuth_range 724以及static_elevation_range 726存在時,azimuth_range以及elevation_range的值可以分別被推斷為等於static_azimuth_range 724以及static_elevation_range 726。
sphere_radius 728可以指定球體的半徑(如,當其不是單元球體時)。
如6D球面座標樣本條目700中示出的,dynamic_location_flag 704、dynamic_orientation_flag 706以及dynamic_range_flag708可以控制6D球面座標樣本條目700的尺寸以及欄位數目。如果dynamic_location_flag 704、dynamic_orientation_flag 706以及dynamic_range_flag708的一個或多個在這一示例中被設置為0,那麼相關欄位被指定為樣本的一部分(否則,不包括欄位)。有利地,對於靜態方面,包括位置、方向與/或範圍,樣本條目的尺寸可以被相應地控制。
第8圖示出了根據一些實施例的6D球面座標樣本800的示例性語法。出於說明的目的,示例可以包括6DsphericalCoordinatesSample分類,其將用於解釋本文的概念,儘管本領域具有通常知識者將理解,在不背離本發明精神的情況下,可以使用其他術語表、結構與/或欄位。
參考6D球面座標樣本800中示出的欄位,centre_x 802、centre_y 804以及centre_z 806分別指定球體區域的中心的x、y以及z軸值。
centre_azimuth 808以及centre_elevation 810可以分別指定球體區域(如,以2-16 度為單元)的中心的方位以及仰角值。在一些實施例中,centre_azimuth 808可以在包括-180 × 216 到180 × 216 -1的範圍內。centre_elevation 810可以在包括-90 × 216 到90 × 216 的範圍內。
cnetre_tilt 812可以指定球體區域(如,以2-16 度為單元)的傾斜角。在一些實施例中,centre_tilt 806可以在包括-180 × 216 到180 × 216 -1的範圍內。
當azimuth_range 814以及elevation_range 816存在時可以分別指定球體區域(如,以2-16 度為單元指定的)的方位以及仰角範圍。azimuth_range 814以及elevation_range 816可以通過球體區域的中心點指定範圍。在一些實施例中,當azimuth_range 814以及elevation_range 816不存在時,它們可以分別被推斷為樣本條目中的static_azimuth_range以及static_elevation_range。在一些實施例中,azimuth_range 814可以在包括在0到360 × 216 的範圍內。elevation_range 816可以在包括2到180 x 216 的範圍內。
interpolate 818可以指示連續樣本在時間上的連續性。例如,interpolate 818等於0可以指定這一樣本中應用於目標媒體樣本的centre_azimuth 808、centre_elevation 810、centre_tilt 812、azimuth_range 814(如果存在)以及elevation_range 816(如果存在)的值。interpolate 818等於1可以指定應用於目前媒體樣本的centre_azimuth 808、centre_elevation 810、centre_tilt 812、azimuth_range 814(如果存在)以及elevation_range 816(如果存在)的值是從這一樣本以及先前樣本的對應欄位的值來插值的。在一些實施例中,用於同步樣本、軌道的第一樣本以及軌道分段的第一樣本的插值818的值將等於0。
如示例性6D球面座標樣本800中示出的,使用6D球面座標樣本條目指定的dynamic_location_flag、dynamicn_orientation_flag以及dynamic_range_flag可以控制6D球面座標樣本800的尺寸以及欄位數目。如果dynamic_location_flag、dynamicn_orientation_flag以及dynamic_range_flag的一個或多個被設置為假,那麼相關欄位不被包括為樣本的部分。有利地,對於靜態方面,包括位置、方向與/或範圍,樣本條目的尺寸可以被相應地控制。
視埠/ROI可以使用笛卡爾座標指定。3D笛卡爾座標可以被指定用於具有6DoF的內容,以及視圖的欄位是2D矩形區域(如,而不是3D球體區域)。區域的平面可以描述2D區域或3D上下文中的矩形區域。例如,3D笛卡爾座標可以用於覆蓋球面背景上矩形範圍上的內容。例如,其可以期望示出商業或文本來指示有使用者看到的視埠內有一汽車。因為區域在3D環境內,其期望以方向(如,從球體中心到區域表面的方向)以及尺寸(如,矩形的寬度/高度的尺寸)的方式指定區域在哪兒。矩形區域可以不是視埠,而是僅僅標識一矩形區域。
第9圖示出了根據一些實施例的2D矩形區域900的6D笛卡爾座標的示例。矩形區域900具有由width_range 902示出的寬度以及由height_range 904示出的高度。矩形區域900具有位於特定方位以及仰角的中心906,分別由centre_azimuth以及centre_elevation指示。球體區域908的中心可以被指定(如,經由centre_x、centre_y以及centre_z)。
第10圖是根據一些實施例的6D笛卡爾座標樣本條目1000的示例性語法。出於說明的目的,示例可以包括擴展MetadataSampleEntry的6DcartesianCoordinatesSampleEntry“6dcc”,其將用於解釋本文的概念,儘管本領域具有通常知識者能理解,在不背離本發明精神的情況下,可以使用其他語法表、結構與/或欄位。6D笛卡爾座標樣本條目可以提供矩形區域的空間資訊(如,包括其高度以及寬度),其與在三維球面座標系統中表達的參考軌道相關。6D笛卡爾座標樣本條目可以額外地包括在沿著X、Y以及Z軸的全平移運動中的三個自由度。
該6D笛卡爾座標樣本條目1000可以包括與結合6D球面座標樣本條目700所討論欄位(如,shape_type 702、 dynamic_location_flag 704、 dynamic_orientation_flag 706、 dynamic_range_flag 708、 the unit_sphere_flag 710、 static_centre_x 712、 static_centre_y 714、以及 static_centre_z 716、 static_centre_azimuth 718、 static_centre_elevation 720、 static_centre_tilt 722以及sphere_radius 728)類似的欄位。shape_type 1002可以用於指示如何指示球體區域(如,四個大圓圈、兩個方位圓以及兩個仰角圓等等)。dynamicn_location_flag 1004可以指定球體的中心位置是否變化、dynamic_orientation_flag 1006可以指定參考這一樣本條目的樣本中的方向是否變化。dynamic_range_flag 1008可以指定參考這一樣本條目的樣本中的範圍是否變化。unit_sphere_flag 1010可以指示球體是否是單元球體。static_centre_x 1012、static_centre_y 1014以及static_centre_z 1016可以分別指定球體區域的中心相對於基礎座標系統原點的x,y以及z軸值。static_centre_azimuth 1018以及static_centre_elevation 1020可以分別指定矩形區域的中心的方位以及仰角值。static_centre_tilt 1022可以指定矩形區域的傾斜角。sphere_radius 1028可以指定球體的半徑。
當static_width_range 1024以及static_height_range 1026存在時可以分別指定參考這一樣本條目的每一樣本的矩形區域。如第9圖所示,static_width_range 1024以及static_height_range 1026可以通過矩形區域的中心點指定範圍。當static_width_range 1024以及static_height_range 1026不存在時(如,dynamic_range_flag == 1),矩形區域的寬度以及高度範圍可以採用參考這一樣本條目的樣本中指定的width_range以及height_range的值。
如6D笛卡爾座標樣本條目1000中示出的,dynamic_location_flag、dynamic_orientation_flag以及dynamic_range_flag可以指定6D笛卡爾座標樣本條目1000的尺寸以及欄位數目。如果dynamic_location_flag、dynamic_orientation_flag以及dynamic_range_flag的一個或多個在這一示例中被設置為0,那麼相關欄位被指定為樣本的部分(否則,不包括這些欄位)。有利地,對於靜態方面,包括位置、方向與/或範圍,可以相應地控制樣本條目的尺寸。
第11圖示出了根據一些實施例的6D笛卡爾座標樣本1100的示例性語法。出於說明的目的,示例可以包括6DCartesianCoordinatesSample分類,其將用於解釋本文的概念,儘管本領域具有通常知識者能理解,可以在不背離本發明精神的情況下使用其他術語表、結構與/或欄位。
6D笛卡爾座標樣本1100可以包括與結合6D球面座標樣本800所討論欄位(如,centre_x 802、 centre_y 804以及centre_z 806、 centre_azimuth 808、centre_elevation 810、centre_tilt 812以及interpolate 818)類似的欄位。centre_x 1102、centre_y 1104以及centre_z 1106可以分別指定球體區域的中心的x,y以及z軸值。centre_azimuth 1108以及centre_elevation 1100可以分別指定球體區域的中心的方位以及仰角值。centre_tilt 1112可以指定球體區域的傾斜角。interpolate 1118可以指示連續樣本在時間上的連續性。
當width_range 1114以及height_range 1116存在時可以分別指定矩形區域的寬度以及高度範圍。如第8圖所示,width_range 1114以及height_range 1116可以通過矩形區域的中心點指示範圍。當width_range 1114以及height_range 1116不存在時(如,dyamic_range_falg == 0),矩形區域的寬度以及高度可以採用樣本條目中指定的static_width_range以及static_height_range的值。
點雲資料可以包括場景中的一組3D點。每一點可以基於位置(x, y, z)以及色彩資訊來指定,如(R,V,B)、(Y,U,V)、反射率、透明度等等。點雲資料通常不是有序的,以及通常不包括與其他點的關係(如,使得在不參考其他點的情況下指定每一點)。點雲資料對許多應用可以是有用的,如提供6DoF的3D沉浸式媒體體驗。然而,點雲資料資訊可能消耗大量資料,如果通過網路連接在裝置間轉移,其反過來會消耗大量頻寬。例如,如果未壓縮,場景中的800000點可以消耗1Gbps。因此,通常需要壓縮以使點雲資料對基於網路的應用是有用的。
MPEG已經致力於點雲壓縮來減少點雲資料的尺寸,其可以使能點雲資料的即時流媒體,以在其他裝置上消耗。第12圖示出了根據一些示例的作為一般3DoF+/6DoF處理模型的特定產生實體的點雲內容的示例性處理流1200。處理流1200在N17771中進一步詳細描述,2018年7月,“PCC WD V-PCC (Video-based PCC)”,斯諾文尼亞,盧布亞納,其整體內容在此藉由參考納入其中。用戶端1202接收點雲媒體內容檔1204,其由兩個2D平面視訊位元流以及元資料組成,該元資料指定2D平面視訊到3D立體視訊轉換。內容2D平面視訊到3D立體視訊轉換元資料可以位於作為定時元資料軌道的檔層級或者作為SEI消息的2D視訊位元流內。
解析模組1206讀取點雲內容1204。解析模組1206遞送兩個2D視訊位元流1208到2D視訊解碼器1210。解析模組1206將2D平面視訊到3D立體視訊轉換元資料1212遞送到2D視訊到3D點雲轉換器模組1214。解析模組1206在本地用戶端可以遞送一些需要遠端渲染(如,具有更多計算功耗、專用渲染引擎等等)的資料到遠端渲染模組(未示出)用於部分渲染。2D視訊解碼器模組1210解碼該2D平面視訊位元流1208來生成2D像素資料。該2D視訊到3D點雲轉換器模組1214在必要時使用從解析模組1206接收到的元資料,將來自該2D視訊解碼器1210的該2D像素資料轉換成3D點雲資料。
渲染模組1216接收關於使用者的6自由度視埠資訊的資訊以及決定將被渲染的點雲媒體的部分。如果使用了遠端渲染器,用戶的6DoF視埠資訊也可以被遞送到遠端渲染模組。渲染器模組1216藉由使用3D資料或者3D資料與2D像素資料的組合生成點雲媒體。如果有部分渲染的點雲媒體資料來自遠端渲染器模組,那麼渲染器1216也可以將這種資料與本地渲染的點雲媒體組合來生成最終的點雲視訊用於在顯示器1218上顯示。如3D空間中用戶的位置或者用戶的方向與視埠等使用者交互資訊可以被遞送到涉及處理點雲媒體的模組(如,解析器1206、2D視訊解碼器1210與/或視訊到點雲轉換器1214)來根據使用者的交互資訊1220,動態地改變用於內容自適應渲染的部分資料。
發明人已經理解,點雲媒體的使用者交互資訊需要被提供以實現這種基於用戶交互的渲染。具體地,使用者交互資訊1220需要被指定以及發信以便於用戶端1202來與渲染模組1216通訊,包括提供用戶選擇的視埠的資訊。發明人也已理解,其期望經由編輯剪切或如推薦或指導視圖或視埠將點雲資料呈現給使用者。第13圖示出了根據一些示例的自由視圖路徑1300的示例。該自由視圖路徑1300允許使用者圍繞該路徑從不同的視點觀看場景1302。因此發明人已理解,其期望為點雲資料指定這種使用者交互資訊,包括來提供推薦或指導視圖。目前沒有辦法來提供點雲資料的視埠。
本文所描述的技術為點雲內容提供發信視埠,例如推薦的視埠。例如,技術可以用於提供基於視訊的點雲壓縮(V-PCC)視埠,如推薦的視埠。如PCC(如V-PCC或G-PCC(基於幾何的點雲壓縮))視埠的點雲視埠可以是適合顯示以及由使用者觀看的點雲內容的一區域。根據使用者觀看裝置,視埠可以是2D視埠或3D視埠。例如,視埠可以是3D球面區域或者3D空間中的2D平面區域,具有6自由度(6DoF)。技術可以利用6D笛卡爾座標(如,結合第7圖討論的“6dsc”)與/或6D笛卡爾座標(如,結合第10圖討論的“6dcc”)來提供點雲視埠。技術可以包括6D球面座標與/或6D笛卡爾座標作為定時元資料,如ISOBMFF中的定時元資料。技術可以使用6D球面座標與/或6D笛卡爾座標來指定2D點雲視埠以及3D點雲視埠,包括存儲於ISOBMFF檔中的V-PCC內容。如本文所討論的,“6dsc”以及“6dcc”是用於2D空間中平面區域的2D笛卡爾座標“2dcc”的自然擴展,如MPEG-B部分10中所提供的。
在V-PCC中,基於視訊的點雲資料的幾何以及紋理資訊被轉換成2D投影幀以及然後被壓縮為一組不同的視訊序列。視訊序列可以是三種類型:一種表示佔用圖(occupancy map)資訊,第二種表示幾何資訊以及第三種表示點雲資料的紋理資訊。例如,幾何軌道可以包括點雲資料的一個或多個幾何方面,例如點雲的形狀資訊、尺寸資訊與或位置資訊。例如,紋理軌道可以包括點雲資料的一個或多個紋理方面,如點雲的色彩資訊(如,RGB(紅色、綠色、藍色)資訊)、不透明度資訊、反射率資訊與/或反照率信息。這些軌道可以用於重構點雲的一組3D點。額外的元資料需要說明幾何以及視訊序列,如,輔助修補(auxiliary patch)資訊,也可以分別被生成以及壓縮。雖然本文提供的示例以V-PCC的上下文進行解釋,其將能理解,這種示例僅是說明的目的,以及本文所描述的技術不限於V-PCC。
V-PCC已經完成軌道結構。N18059中描述了ISOBMFF的V-PCC工作草案中考慮的示例性軌道結構,2018年10月,“WD of Storage of V-PCC in ISOBMFF Files”,中國澳門,其整體內容在此藉由參考納入其中。軌道結構可以包括包含一組修補流(patch stream)的軌道,其中每一修補流本質上是觀看3D內容的不同視角。如說明性示例,如果3D點雲內容被認為包括在3D立體內,那麼有六個不同的修補,每一修補是從該立體的外部觀看該3D立體的一側的視圖。軌道結構也可以包括定時元資料以及幾何、屬性(如,紋理)以及佔用圖資料的一組受限制的視訊方案軌道。該定時元資料軌道包含V-PCC指定的元資料(如,參數集、輔助資訊等等)。該組受限制的視訊方案軌道可以包括一個或多個受限制的視訊方案軌道,其包含幾何資料的視訊編碼的基本流,包含紋理資料的視訊編碼基本流的一個或多個受限制的視訊方案軌道,以及包含佔用圖資料的視訊編碼基本流的受限制視訊軌道。V-PCC軌道結構可以允許改變與/或選擇不同的幾何以及紋理資料,與定時元資料以及佔用圖資料一起用於視埠內容的變體。其期望包括多個幾何與/或紋理軌道用於各種各樣的場景。例如,點雲可以以全品質以及一個或多個減少品質來編碼,例如出於自適應流的目的。在這種示例中,編碼可以生成多個幾何/紋理軌道來捕獲點雲的3D點集合的不同採樣。對應於更好採樣的幾何/紋理軌道相比於對應於更粗糙採樣的軌道可以具有更好的品質。在點雲內容的流對話期間,用戶端可以選擇以靜態或動態的方式(如,根據用戶端的顯示裝置與/或網路頻寬)在多個幾何/紋理軌道中檢索內容。
然而,雖然點雲軌道結構可以允許點雲方面的不同的軌道,如幾何與/或屬性/紋理,發明人已經理解,因為編碼器與/或解碼器不可以將視埠與多個這種軌道相關聯,視埠不可以被指定用於這種點雲軌道。其可以期望出於各種理由將視埠與特定軌道相關聯,例如特定的幾何與/或紋理軌道。例如,因為可以有多個幾何/紋理軌道,可以有與軌道的視埠不相關的幾何/紋理軌道。例如,使用ISOBMFF,在不與每一所包括視埠相關的ISOBMFF檔中可以有幾何/紋理軌道。因此,在沒有能夠決定(如,經由顯示信令)每一視埠與合適幾何/紋理軌道的相關聯的情況下,解碼器不可以在視埠與集合/紋理軌道的檔內決定相關性。如另一個示例,為了提供有效的視埠相關媒體處理,在其區域內容被編碼以及封裝成多個幾何/紋理軌道之前,點雲可以首先被分割成許多區域。因此,可以期望將每一視埠與其相應區域軌道關聯(如,以及因此區域的具體幾何/紋理軌道)。
本文所描述的技術提供用於將視埠與點雲軌道結構相關聯,如N18059中討論的V-PCC軌道那樣。如果點雲軌道結構包括多個分量軌道用於佔用、幾何與/或屬性,技術可以用於將視埠與特定軌道關聯,其中由多個這樣的軌道。例如,視埠可以與特定軌道識別字(ID)相關聯,如特定幾何軌道ID與/或特定紋理軌道ID。結果,技術可以提供用於將視埠與特定幾何與/或紋理軌道相關聯以提供特定體驗,例如,來反映編輯剪切與/或不同的推薦。例如,點雲可以用不同的溫度色彩的不同的紋理軌道來編碼,以及推薦視埠可以比另一個更暖,以及因此兩個視埠可以與它們對應的具有正確溫度色彩的紋理軌道相關聯。
在一些實施例中,本文所提供的技術可以提供將本文所描述6D球面座標以及6D笛卡爾座標擴展到點雲軌道結構的定時元資料軌道。在一些實施例中,如第6圖所示,可以為6DoF中觀看的內容的球體區域序列的定時元資料軌道指定3D點雲視埠。例如,3D點雲視埠可以是被推薦的、動態V-PCC視埠。第14A圖示出了根據一些實施例的示例性3D V-PCC視埠樣本條目“3pcv”1400。3D V-PCC視埠樣本條目1400可以具有作為容器的樣本描述框(“stsd”),不是強制性的,因此可以包括0或1的量。出於說明的目的,示例可以包括3DV-PCCViewportSampleEntry分類,其將用於解釋本文的概念,儘管本領域具有通常知識者在不背離本發明精神的情況下,可以使用其他術語表、結構與/或欄位。
3D V-PCC視埠樣本條目1400擴展6D球面座標樣本條目,在它們具有選擇的情況下具有幾何和紋理的潛在選擇。multiple_geometry_flag 1402可以指定是否有多個幾何軌道。例如,如果multiple_geometry_flag 1402等於0,multiple_geometry_flag 1402可以指定僅有一個幾何軌道。如果multiple_geometry_flag 1402等於1,那麼multiple_geometry_flag 1402可以指定有不止一個幾何軌道。
multiple_texture_flag 1404可以指定是否有多個紋理軌道。例如,multiple_texture_flag 1404等於0可以指定僅有一個紋理軌道。如果multiple_texture_flag 1404等於1,那麼multiple_texture_flag 1404可以指定有不止一個紋理軌道。
geometry_track_ID 1406可以指定將由視埠使用的幾何軌道的識別字。texture_track_ID 1408可以指定將由視埠使用的紋理軌道的識別字。
各種結構與/或欄位可以用於實現本文所描述的技術,包括第14A圖中示出的這些。第14B圖示出了根據一些實施例的另一個示例性3D V-PCC視埠樣本條目“3pcv”1450。3D V-PCC視埠樣本條目“3pcv”與3D V-PCC視埠樣本條目“3pcv”1400相比,3D V-PCC視埠樣本條目“3pcv”1450省略了multiple_geometry_flag 1402以及multiple_texture_flag 1404,以及包括geometry_track_ID 1406以及texture_track_ID 1408。
在一些實施例中,如第9圖所示,可以為以6DoF觀看的內容的球面區域序列的定時元資料軌道指定2D點雲視埠。例如,2D點雲視埠可以是推薦的、動態V-PCC視埠。第15A圖示出了根據一些實施例的示例性2D V-PCC視埠樣本條目“2pcv”1500。2D V-PCC視埠樣本條目1500可以具有作為容器的樣本描述框(“stsd”),不是強制性的,以及因此可以包括0或1的量。出於說明的目的,示例可以包括2DV-PCCViewportSampleEntry分類,其將用於解釋本文的概念,雖然本領域具有通常知識者能夠理解,在不背離本發明精神的情況下,可以使用其他術語表、結構與/或欄位。
2D V-PCC視埠樣本條目“2pcv”1500包括與3D V-PCC視埠樣本條目1400類似的欄位,包括multiple_geometry_flag 1402、 multiple_texture_flag 1404、geometry_track_ID 1406以及texture_track_ID 1408。multiple_geometry_flag 1502可以指定是否有多個幾何軌道。multiple_texture_flag 1504可以指定是否有多個紋理軌道。geometry_track_ID 1506可以指定將用於視埠的幾何軌道的識別字。texture_track_ID 1508可以指定將用於視埠的紋理軌道的識別字。
各種結構與/或欄位可以用於實現本文所描述的技術,包括第15A圖中示出的這些。第15B圖示出了根據一些實施例的另一個示例性2D V-PCC視埠樣本條目“2pcv”1550。2D V-PCC視埠樣本條目“2pcv”與2D V-PCC視埠樣本條目“2pcv”1500相比,該2D V-PCC視埠樣本條目“2pcv”1550省略了multiple_geometry_flag 1502與multiple_texture_flag 1504,以及包括geometry_track_ID 1506與texture_track_ID 1508。
第16圖示出了根據一些實施例的解碼具有興趣區域的視訊資料的示例性方法1600。方法1600通常可以用於使用興趣區域/視埠來解碼點雲資料。在步驟1602,裝置(如,第12圖中的用戶端裝置)接收包括元資料(如,元資料1212)的點雲視訊資料(如,點雲內容1204),該元資料指定該點雲視訊資料的一個或多個興趣區域。在步驟1604,該裝置從該一個或多個區域決定一第一興趣區域(如,一初始視埠,如推薦的視埠)。在步驟1606,該裝置決定與該第一興趣區域相關的該點雲視訊資料的一部分。在步驟1608,該裝置基於與該第一興趣區域相關的該點雲視訊資料的所決定的該部分,生成一使用者觀看的點雲媒體。
參考步驟1602,如本文所描述的,點雲視訊資料可以包括兩個二維(2D)平面視訊位元流以及指定一組2D平面視訊位元流到3D立體媒體轉換的元資料。也如本文所描述的,點雲視訊資料可以是V-PCC資料。點雲視訊資料可以包括軌道結構,該軌道結構包括定時元資料軌道以及幾何(如,一個或多個幾何軌道)、紋理(如一個或多個紋理軌道)以及佔用圖資料的一組的受限制的視訊方案軌道,以致V-PCC軌道結構可以允許改變或者選擇不同的幾何以及紋理資料,與定時元資料以及佔用圖資料一起用於視埠內容的變體。在一些實施例中,點雲視訊資料可以包括軌道結構,該軌道結構包括指定該點雲資料的一個或多個興趣區域的一個或多個定時元資料,其中每一定時元資料指定一個興趣區域。在一些實施例中,多個興趣區域可以在單個定時元資料軌道內被指定。第18-19圖分別示出了根據一些實施例的示例性語法1800以及1900,其中擴展第7-8圖的定時元資料軌道類型“6dsc”來指定一個或多個興趣區域。如第18圖示出的,語法1800包括可以用於指定點雲媒體中區域數目的number_of_region 欄位1802。如語法1800的部分1804所示,number_of_region欄位1802用於為每一區域指定結合第7圖所討論的語法元素。如第19圖所述,語法1900包括部分1902,其用於為每一區域指定結合第8圖所討論的語法元素。
在一些示例中,該裝置基於興趣區域決定幾何與/或紋理軌道。興趣區域可以包括指定點雲視訊資料的幾何軌道資料的第一識別字(如,第14A-B圖的geometry_track_ID 1406或者第15A-B圖的geometry_tarck_ID 1506)與/或點雲視訊資料的紋理軌道的第二識別字(第14A-B圖的texture_track_ID 1408或者第15A-B圖的texture_track_ID 1508)。裝置可以決定基於在興趣區域中指定的這種資訊決定使用哪一幾何與/或紋理軌道。
參考步驟1604,在一些實施例中,裝置決定與興趣區域相關的2D平面視訊位元流的資料的子集。系統可以動態地改變2D平面視訊位元流的部分來自適應地渲染內容用於改變的視埠。第17圖示出了根據一些實施例的用於基於使用者交互資料改變點雲資料的視埠的示例性電腦化的方法1700。在步驟1702,裝置接收與該點雲視訊資料相關的使用者交互資料,包括3D空間中用戶的位置,用戶的方向以及視點等等。系統可以使用該交互資料來動態地改變該點雲視訊資料的處理。在步驟1704中,該裝置決定基於所接收的使用者交互資料是否改變該興趣區域,該方法前進到步驟1706以及選擇新的興趣區域。否則,方法回退到步驟1702以及等待進一步的使用者交互資料。在步驟1708,該裝置決定與新選擇的興趣區域相關的該點雲視訊資料的新部分。在步驟1710,該裝置基於該點雲視訊資料的該新部分,生成使用者觀看的新的點雲媒體。
興趣區域可以包括區域結構,如6D球面座標樣本條目或6D笛卡爾座標樣本條目,其基於球體指定該興趣區域的一個或多個方面。如結合第7-8圖以及10-11圖所描述的,該一個或多個方面包括該第一興趣區域的位置、該第一興趣區域的方向、該第一興趣區域的範圍或其組合。例如,該區域結構可以包括指示該區域結構是否包括全域(如,靜態)資訊的一個或多個旗標,該全域資訊應用於與該區域結構相關的樣本。例如,該旗標可以包括動態方向旗標、動態位置旗標、動態範圍旗標與/或指示該區域結構是否指定資訊的其他旗標,該資訊應用於與該興趣區域相關的樣本。
參考一些實施例的步驟1606,裝置決定該區域結構是否包括該興趣區域的全域(如,靜態)座標方面(如,位置、方向、範圍等等)。在一些實施例中,該解碼裝置可以決定該區域結構包括一個或多個全域方面。在一些實施例中,該解碼裝置可以決定該區域結構包括一個或多個全域方面,但不包括一個或多個其他方面。例如,該區域結構可以指定一全域方面(如,位置、方向或範圍),而該區域結構可以不指定其他可能的方面(如,為與該興趣區域相關的每一樣本指定的非指定位置、方向、範圍等)。
參考步驟1608的一些實施例,該解碼裝置基於該區域結構是否包括指示該興趣區域的一個或多個全域方面的資料,決定該點雲視訊資料中的該興趣區域。該解碼裝置決定哪一方面由該區域結構指定(如,其應用於參考該區域結構的樣本),以及在每一樣本基礎上指定的其他方面。如6D球面座標的說明性示例,該解碼裝置可以決定“6dsc”區域結構指定靜態方向(如,靜態中心方位角、仰角以及傾斜)以及範圍(靜態方位以及仰角範圍)兩者,以及因此每一樣本的6D球面座標樣本不指定方向或範圍,但是指定位置。如另一個示例,該解碼裝置可以決定“6dsc”區域結構僅指定靜態方向,以及因此每一樣本的6D球面座標樣本指定該(如,非靜態)範圍以及位置。
如本文所討論的,技術可以類似地用於編碼視訊內容。技術可以包括編碼點雲視訊資料,其包括指定該點雲視訊資料的一個或多個區域的元資料。編碼該點雲視訊資料可以包括決定該一個或多個興趣區域的第一興趣區域,決定與該第一興趣區域相關的該點雲視訊資料的一部分,以及基於與該第一興趣區域相關的該點雲視訊資料的所決定的部分編碼該點雲視訊資料包括編碼指定該點雲視訊資料的該一個或多個興趣區域的該元資料。
本文描述了各種示例性語法以及用例,其旨在說明的目的而不旨在被限制。應當理解,僅這些示例性欄位的子集可以用於具體區域與/或可以使用其他欄位,以及該欄位不需要包括用於本文描述目的的欄位名。例如,根據ROI或視埠的類型,語法可以省略一些欄位與/或可以不構成一些欄位(如,或構成具有無效值的這種欄位)。如另一個示例,在不背離本文所描述技術的精神的情況下,可以使用其他語法與/或分類。
根據本文描述的原理操作的技術可以以任何合適的方式實施。以上流程圖的處理以及決定塊表示可以包括執行各種進程的演算法的步驟以及動作。從這些進程推導的演算法可以被實施為與一個或多個單一功能或多功能處理器集成以及指導其操作的軟體,可以被實施為功能等效電路,如數位訊號處理器(DSP)電路或專用積體電路(ASIC),或者可以以任何其他合適的方式實施。應當理解,本文所包括的流程圖不描繪任何特定電路或任何特定程式語言或者程式語言類型的語法或操作。反之,流程圖說明了本領域具有通常知識者可以用於製造電路或實施電腦軟體演算法來執行實施本文所描述技術類型的特定裝置的處理功能資訊。還應當理解,除非另有指示,每一流程圖中描述的步驟與/或動作的特定序列僅是實現演算法的說明,演算法可以在本文所描述原理的表示與實施方式中變化。
因此,在一些實施例中,本文所描述的技術可以以被實施為軟體的電腦執行指令來實施,包括應用軟體、系統軟體、固件、中介軟體、嵌入碼或任何其他合適類型的電腦代碼。這種計算執行指令可以使用多種合適的程式語言與/或程式或腳本工具的任一種來編寫,以及也可以被編譯為在框架或虛擬機器上執行的可執行機器語言代碼或中間代碼。
當本文所描述的技術被實施為機器可執行指令時,這些計算器可執行指令可以以任何合適的方式實施,包括一些功能設施,每一者提供一個或多個操作來完成根據這些技術操作的演算法的執行。無論以何種方式產生實體的“功能設施”都是電腦系統的結構元件,當與一個或多個電腦整合或由其執行時,使得該一個或多個電腦執行特定操作角色。功能設施可以是整個軟體元件的一部分或整個軟體元件。例如,功能設施可以實施為進程的一功能,或者實施為離散的進程,或者實施為任何其他合適的處理單元。如果本文所描述的技術被實施為多個功能設施,每一功能設施可以以自己的方式實施,所有這些都不需要以相同的方式實施。此外,這些功能設施可以在適當時並行與/或串聯地執行,以及可以使用在其上執行這些功能設施的電腦上的共用記憶體,使用消息傳輸協定或以任何其他合適的方式在彼此之間傳輸資訊。
通常,功能設施包括常式、程式、物件、元件、資料結構等等,執行特定任務或實施特定抽象資料類型。通常,功能設施的功能可以根據需要在它們運行的系統中組合或分佈。在一些實施例中,執行本文技術的一個或多個功能設施可以一起形成完整的軟體封包。在可選實施例中,這些功能設施可以被採用來與其他不相關的功能設施與/或進程交互,來實施軟體程式應用。
本文已經描述了一些示例性功能設施用於執行一個或多個任務。然而,應理解,所描述的功能設施以及任務的劃分僅是說明可實施本文所描述的示例性技術的功能設施的類型,以及實施例不限於以任何特定數目、劃分或類型的功能設施來實施。在一些實施例中,本文所描述的所有的功能設施可以在單個功能設施中實施。將能夠理解,在一些實施例中,本文所描述的一些功能設施可以一起與其他功能設施一起實施或與其他功能設施彼此分離(即,作為單個單元或分離的單元)來實施,或者這些功能設施中的一些可以不被實施。
在一些實施例中,實施本文所描述技術(當實施為一個或多個功能設施或以任何其他方式)的電腦可執行指令可以在一個或多個電腦可讀媒介上編碼來提供功能到該媒介。電腦可讀媒介包括如硬碟驅動器、光碟媒介(如光碟(CD)或數位化視訊光碟(DVD))、永久性或非永久性固態記憶體(如,快速記憶體、磁性RAM等)或任何其他合適的儲存媒介。這種電腦可讀媒介可以以任何合適的方式實施。如本文所使用的,“電腦可讀媒介”(也稱為“電腦可讀儲存媒介”)指有形儲存媒介。有形存儲媒介是非暫態的以及具有至少一個物理、結構元件。在如本文使用的“電腦可讀媒介”中,至少一個物理結構元件具有至少一個物理屬性,其在創建具有嵌入資訊的媒介的進程、在其上記錄資訊的進程或者用資訊編碼該媒介的任何其他進程中,可以以某種方式改變。例如,電腦可讀媒介的一部分物理結構的磁化狀態可以在記錄進程中被改變。
進一步的,本文以上所描述的一些技術包括以某些方式存儲資訊(如,資料與/或指令)以由這些技術使用的動作。在這些技術的一些實施例中,如技術被實施為電腦可讀指令的實施例中,資訊可以在電腦可讀儲存媒介上被編碼。當特定結構在本文被描述為在其中存儲這一資訊的有利格式的時,這些結構可以用於在編碼於存儲媒體上時給予資訊的物理組織。藉由影響與該資訊交互的一個或多個處理器的操作,例如藉由增加由處理器執行的電腦操作的效率,這些有利結構然後可以提供功能到儲存媒介。
在一些但不是所有實施例中,其中技術可以被實施為電腦可執行指令,這些指令可以在任何合適的電腦系統中操作的一個或多個合適電腦裝置上來執行,或者一個或多個計算裝置(或一個或多個計算裝置的一個或多個處理器)可以被程式設計來執行該電腦可執行指令。當指令以電腦或處理器可存取的方式被存儲時,如在資料儲存中(如,片上高速緩衝記憶體或指令寄存器、經由匯流排的電腦可讀儲存媒介、經由一個或多個網路的電腦可讀儲存媒介以及裝置/處理器可存取的等等)計算裝置或處理器可以被程式設計來執行指令。功能設施包括可以與單個多功能可程式設計數位計算裝置整合或指導其操作的這些電腦可執行指令,兩個或多個多功能計算裝置的協調系統共用處理功率以及共同實施本文所描述的技術,專用執行本文所描述技術的單個電腦裝置或計算裝置的協調系統(並位或地理分佈),用於實施本文所描述技術的一個或多個現場可程式閘陣列(FPGA),或者任何其他合適的系統。
計算裝置可以包括至少一個處理、網路介面卡以及電腦可讀儲存媒介。例如,計算裝置可以是桌上型電腦或筆記型電腦、個人數位助手(PDA)、智慧行動電話、伺服器或者任何合適的計算裝置。網路介面卡可以是任何合適的硬體與/或軟體來使能該計算裝置通過任何合適的計算網路與任何其他合適的計算裝置有線與/或無線地通訊。該計算網路包括無線存取點、交換機、路由器、閘道器(gateway)與/或其他網路設備以及任何合適的有線與/或無線通訊媒介或用於在兩個或多個電腦間交換資料的媒介,包括互聯網。電腦可讀媒介可以適用於存儲將被處理器的資料與/或將由處理器執行的指令。該處理器使能資料的處理以及指令的執行。該資料以及指令可以被存儲在電腦可讀儲存媒介中。
計算裝置可以額外地具有一個或多個元件以及介面,包括輸入以及輸出裝置。除此之外,這些裝置可以用於呈現使用者介面。輸出裝置的示例可以被用於提供包括使用者介面的用於輸出的視覺呈現的打印紙或顯示幕以及用於輸出的聲音呈現的麥克風或其他聲音生成裝置。可以用於使用者介面的輸入裝置的示例包括鍵盤以及定位裝置的使用者解碼,如滑鼠、觸控板以及數位平板。如另一個示例,計算裝置可以通過語義標識或者以其他可聽見的格式接收輸入資訊。
已經描述了實施例,其中技術在電路與/或電腦可執行指令中實施。將能理解,一些實施例可以是方法的形式,已提供了其至少一個示例。執行為方法一部分的動作可以以任何合適的方式記錄。因此,實施例可以被構造,其以與所示出不同的次序來執行動作,其可以包括同時執行一些動作,即使如說明性實施例中序列動作。
以上所描述的實施例的各方面可以單獨、組合或未在前述描述的實施例中具體討論的各種安排來使用,以及因此不限制其應用到前述描述或圖示中示出的的細節以及元件佈置。例如,一個實施例的所描述的方面可以以任何方式與其他實施例中描述的方面組合。
在申請專利範圍中使用諸如“第一”、“第二”、“第三”等的序數術語來修改申請專利範圍要素本身並不意味著一個申請專利範圍要素相對於另一個申請專利範圍要素的任何優先順序、優先序或順序或者執行方法的動作的時間順序,而是僅用作標籤來將具有特定名稱的一個申請專利範圍要素與具有相同名稱的另一要素區分開(但用於序數術語的使用)。
此外,在此使用的片語和術語是為了描述的目的,而不應被認為是限制性的。本文中“包括(including)”、“包括(comprising)”、“具有(having)”、“包含(containing)”、“涉及(involving)”及其變體的使用意指包括此後列出的項目及其等同物以及附加項目。
這裡使用的詞語“示例性”是指用作示例、實例或說明。本文所描述為示例的任何實施例、實施方式、過程、特徵等應當被理解為說明性示例,並且除非另外指出,否則不應當被理解為優選或有利的示例。
已經如此描述了至少一個實施例的若干方面,應當理解,本領域技術人員將容易想到各種改變、修正和改善。這樣的改變、修正和改善旨在成為本發明的一部分,並且旨在落入本文描述的原理的精神和範圍內。因此,前面的描述和附圖僅作為示例。
102A~102N:攝像機 104:編碼裝置 106:視訊處理器 108:編碼器 110:解碼裝置 112:解碼器 114:渲染器 116:顯示器 201:球面視埠 202:拼接、投影、映射 204:編碼 206:遞送 208:解碼 210:構造 212:渲染 214:用戶交互 302:大圓圈 304:小圓圈 350、410、420:ROI 352:視點 410A、420A:中心視點 410B~410E、420B~420E:大圓圈 502~560、702~728、802~818、902~908、1002~1028、1102~1118:語法 602:X軸 604:Y軸 606:Z軸 1202:用戶端 1204:點雲內容 1206:解析模組 1208:視訊位元流 1210:視訊解碼器 1212:元資料 1214:視訊到點雲轉換器 1216:渲染器 1218:顯示器 1220:使用者交互資訊 1302:場景 1402~1408、1502~1554、1802~1804、1902:語法 1602~1608、1702~1710:步驟
在圖示中,各種圖示中示出的每一相同或幾乎相同的元件由相同的參考符號表示。為了簡便,不是每一元件都在每一附圖中標示。圖示不需要按比例繪製,而是將重點放在說明本文所描述的技術以及裝置的各個方面。 第1圖示出了根據一些實施例的示例性視訊編解碼配置。 第2圖示出了根據一些實施例的VR內容的視埠相關的內容流處理。 第3A圖示出了根據一些示例的具有一個大圓圈以及兩個小圓圈的球體。 第3B圖示出了根據一些示例的球體的北極(N)以及南極(S)。 第3C圖示出了根據一些實施例的具有一般矩形形狀的ROI。 在4A圖示出了根據一些實施例的矩形ROI。 第4B圖示出了根據一些實施例的第二矩形ROI。 第5A圖示出了根據一些實施例的二維笛卡爾(Cartesian)座標樣本陣列的示例性語法。 第5B圖示出了根據一些實施例的示例性2D笛卡爾座標樣本。 第6圖示出了根據一些示例的3D以及6D座標以及輪廓範圍。 第7圖示出了根據一些實施例的6D球面座標樣本條目的示例性語法。 第8圖示出了根據一些實施例的6D球面座標樣本的示例性語法。 第9圖示出了根據一些示例的2D矩形區域的3D笛卡爾座標的示例。 第10圖示出了根據一些實施例的6D笛卡爾座標樣本條目的示例性語法。 第11圖示出了根據一些實施例的6D笛卡爾座標樣本的示例性語法。 第12圖示出了根據一些示例的點雲內容的示例性處理流程。 第13圖示出了根據一些示例的自由觀看路徑的示例。 第14A圖示出了根據一些實施例的示例性基於3D視訊的點雲壓縮(V-PCC,video-based point cloud compression)視埠樣本條目。 第14B圖示出了根據一些實施例的另一個示例性3D V-PCC視埠樣本條目。 第15A圖示出了根據一些實施例的示例性2D V-PCC視埠樣本條目。 第15B圖示出了根據一些實施例的另一個示例性2D V-PCC視埠樣本條目。 第16圖示出了根據一些實施例的對具有興趣區域的視訊資料解碼的示例性方法。 第17圖示出了根據一些實施例的用於基於使用者交互資料改變點雲資料的視埠的示例性電腦化方法。 第18圖示出了根據一些實施例的用於擴展第7圖的6D球面座標樣本條目來指定一個或多個興趣區域的示例性語法。 第19圖示出了根據一些實施例的用於擴展第8圖的6D球面座標樣本來指定一個或多個興趣區域的示例性語法。
1602~1608:步驟

Claims (19)

  1. 一種解碼視訊資料的解碼方法,該方法包括:接收包括元資料的點雲視訊資料,該元資料指定該點雲視訊資料的一個或多個興趣區域;從該一個或多個興趣區域決定一第一興趣區域;決定與該第一興趣區域相關的該點雲視訊資料的一部分;以及基於與該第一興趣區域相關的該點雲視訊資料的所決定的該部分,生成由一使用者觀看的點雲媒體;其中接收該點雲視訊資料包括接收一組二維平面視訊位元流;以及決定與該第一興趣區域相關的該點雲視訊資料的該部分包括決定與該第一興趣區域相關的該組二維平面視訊位元流的資料的一子集。
  2. 如申請專利範圍第1項所述之解碼視訊資料的解碼方法,其中接收該點雲視訊資料包括接收第二元資料,該第二元資料指定該組二維平面視訊位元流到三維立體媒體的一轉換。
  3. 如申請專利範圍第1項所述之解碼視訊資料的解碼方法,進一步包括:接收與該點雲視訊資料相關的使用者交互資料,其中該使用者交互資料包括指示該使用者的位置、該用戶的視點或者其組合的資料;從該一個或多個興趣區域決定一第二興趣區域,其中該第二興趣區域不同於該第一興趣區域;決定與該第二興趣區域相關的該點雲視訊資料的一第二部分,其中該第二部分不同於與該第一興趣區域相關的該部分;以及基於與該第二興趣區域相關的該點雲視訊資料的所決定的該第二部分,生 成該使用者觀看的第二點雲媒體。
  4. 如申請專利範圍第1項所述之解碼視訊資料的解碼方法,其中決定該第一興趣區域包括決定該點雲視訊資料的一幾何軌道的一第一識別字、該點雲視訊資料的一紋理軌道的一第二識別字或其兩者,其中該幾何軌道指定該點雲視訊資料的一個或多個幾何方面,以及該紋理軌道指定該點雲視訊資料的一個或多個紋理方面;以及決定與該第一興趣區域相關的該點雲視訊資料的該部分包括選擇由該第一識別字標識的該幾何軌道、選擇由該第二識別字標識的該紋理軌道或其兩者。
  5. 如申請專利範圍第1項所述之解碼視訊資料的解碼方法,進一步包括:基於一球體確定與該點雲視訊資料相關聯的指定該興趣區域的一個或多個方面的一區域結構,其中該一個或多個方面包括該第一興趣區域的一位置、該第一興趣區域的一方向、該第一興趣區域的一形狀、該第一興趣區域的一尺寸範圍或其組合,該區域結構包括:一資料,該資料指示該區域結構的該一個或多個方面是否包括指示該興趣區域的一個或多個全域方面的資料,其應用於與該區域結構相關的一組樣本的每一者;以及基於指示該區域結構的該一個或多個方面是否包括指示該興趣區域的該一個或多個全域方面的資料的該資料,決定該點雲視訊資料中的該第一興趣區域。
  6. 如申請專利範圍第5項所述之解碼視訊資料的解碼方法,其中基於指示該區域結構的是否包括指示該興趣區域的該一個或多個全域方面的資料的該資料,決定該點雲視訊資料中的該第一興趣區域包括:決定不指定該一個或多個方面的至少一個全域方面的該區域結構;以及 為與該區域結構相關的每一樣本決定該第一興趣區域的該樣本的一樣本特定的方面。
  7. 如申請專利範圍第5項所述之解碼視訊資料的解碼方法,其中決定該點雲視訊資料中的該第一興趣區域包括藉由決定該第一興趣區域的一中心位置決定該第一興趣區域的該位置。
  8. 如申請專利範圍第5項所述之解碼視訊資料的解碼方法,其中決定該點雲視訊資料中的該第一興趣區域包括藉由決定該第一興趣區域的一中心方位角、一中心仰角以及一中心傾斜,決定該第一區域的該方向。
  9. 如申請專利範圍第5項所述之解碼視訊資料的解碼方法,其中決定該點雲視訊資料中的該第一興趣區域包括藉由決定該第一興趣區域的一方位角範圍以及一仰角範圍,決定該第一興趣區域的該尺寸範圍。
  10. 一種用於編碼視訊資料的方法,該方法包括:編碼包括元資料的點雲視訊資料,該元資料指定該點雲視訊資料的一個或多個興趣區域,包括:決定該一個或多個興趣區域的一第一興趣區域;決定與該第一興趣區域相關的該點雲視訊資料的一部分;基於與該第一興趣區域相關的該點雲視訊資料的所決定的該部分,編碼該點雲視訊資料包括編碼指定該點雲視訊資料的該一個或多個興趣區域的該元資料;其中接收該點雲視訊資料包括接收一組二維平面視訊位元流;以及決定與該第一興趣區域相關的該點雲視訊資料的該部分包括決定與該第一興趣區域相關的該組二維平面視訊位元流的資料的一子集。
  11. 一種用於解碼視訊資料的裝置,該裝置包括與記憶體通訊的一處理器,該處理器用於執行存儲於該記憶體中的指令,使得該處理器執行: 接收包括元資料的點雲視訊資料,該元資料指定該點雲視訊資料的一個或多個興趣區域;從該一個或多個興趣區域決定一第一興趣區域;決定與該第一興趣區域相關的該點雲視訊資料的一部分;以及基於與該第一興趣區域相關的該點雲視訊資料的所決定的該部分,生成由一使用者觀看的點雲媒體;其中接收該點雲視訊資料包括接收一組二維平面視訊位元流;以及決定與該第一興趣區域相關的該點雲視訊資料的該部分包括決定與該第一興趣區域相關的該組二維平面視訊位元流的資料的一子集。
  12. 如申請專利範圍第11項所述之解碼視訊資料的裝置,其中:接收該點雲視訊資料包括接收以及第二元資料,該第二元資料指定該組二維平面視訊位元流到三維立體媒體的一轉換。
  13. 如申請專利範圍第11項所述之解碼視訊資料的裝置,其中該指令進一步使得該處理器執行:接收與該點雲視訊資料相關的使用者交互資料,其中該使用者交互資料包括指示該使用者的位置、該用戶的視點或者其組合的資料;從該一個或多個興趣區域決定一第二興趣區域,其中該第二興趣區域不同於該第一興趣區域;決定與該第二興趣區域相關的該點雲視訊資料的一第二部分,其中該第二部分不同於與該第一興趣區域相關的該部分;以及基於與該第二興趣區域相關的該點雲視訊資料的所決定的該第二部分,生成該使用者觀看的第二點雲媒體。
  14. 如申請專利範圍第11項所述之解碼視訊資料的裝置,其中:決定該第一興趣區域包括決定該點雲視訊資料的一幾何軌道的一第一識別 字、該點雲視訊資料的一紋理軌道的一第二識別字或其兩者,其中該幾何軌道指定該點雲視訊資料的一個或多個幾何方面,以及該紋理軌道指定該點雲視訊資料的一個或多個紋理方面;以及決定與該第一興趣區域相關的該點雲視訊資料的該部分包括選擇由該第一識別字標識的該幾何軌道、選擇由該第二識別字標識的該紋理軌道或其兩者。
  15. 如申請專利範圍第11項所述之解碼視訊資料的裝置,其中該指令進一步使得該處理器執行:基於一球體確定與該點雲視訊資料相關聯的指定該興趣區域的一個或多個方面的一區域結構,其中該一個或多個方面包括該第一興趣區域的一位置、該第一興趣區域的一方向、該第一興趣區域的一形狀、該第一興趣區域的一尺寸範圍或其組合,該區域結構包括:一資料,該資料指示該區域結構的該一個或多個方面是否包括指示該興趣區域的一個或多個全域方面的資料,其應用於與該區域結構相關的一組樣本的每一者;以及基於指示該區域結構的該一個或多個方面是否包括指示該興趣區域的該一個或多個全域方面的資料的該資料,決定該點雲視訊資料中的該第一興趣區域。
  16. 如申請專利範圍第15項所述之解碼視訊資料的裝置,其中基於指示該區域結構的是否包括指示該興趣區域的該一個或多個全域方面的資料的該資料,決定該點雲視訊資料中的該第一興趣區域包括:決定不指定該一個或多個方面的至少一個全域方面的該區域結構;以及為與該區域結構相關的每一樣本決定該第一興趣區域的該樣本的一樣本特定的方面。
  17. 如申請專利範圍第15項所述之解碼視訊資料的裝置,其中 決定該點雲視訊資料中的該第一興趣區域包括藉由決定該第一興趣區域的一中心位置決定該第一興趣區域的該位置。
  18. 如申請專利範圍第15項所述之解碼視訊資料的裝置,其中決定該點雲視訊資料中的該第一興趣區域包括藉由決定該第一興趣區域的一中心方位角、一中心仰角以及一中心傾斜,決定該第一區域的該方向。
  19. 如申請專利範圍第15項所述之解碼視訊資料的裝置,其中決定該點雲視訊資料中的該第一興趣區域包括藉由決定該第一興趣區域的一方位角範圍以及一仰角範圍,決定該第一興趣區域的該尺寸範圍。
TW109100879A 2019-01-10 2020-01-10 發信點雲多媒體資料的視埠以及興趣區域的方法及裝置 TWI740347B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201962790600P 2019-01-10 2019-01-10
US62/790,600 2019-01-10
US16/738,387 US11200700B2 (en) 2019-01-10 2020-01-09 Methods and apparatus for signaling viewports and regions of interest for point cloud multimedia data
US16/738,387 2020-01-09

Publications (2)

Publication Number Publication Date
TW202029757A TW202029757A (zh) 2020-08-01
TWI740347B true TWI740347B (zh) 2021-09-21

Family

ID=71516781

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109100879A TWI740347B (zh) 2019-01-10 2020-01-10 發信點雲多媒體資料的視埠以及興趣區域的方法及裝置

Country Status (2)

Country Link
US (1) US11200700B2 (zh)
TW (1) TWI740347B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10803229B2 (en) * 2015-07-16 2020-10-13 Thinxtream Technologies Pte. Ltd. Hybrid system and method for data and file conversion across computing devices and platforms
WO2020013567A1 (ko) * 2018-07-10 2020-01-16 삼성전자 주식회사 컨텐츠의 처리 방법 및 장치
WO2020189983A1 (en) * 2019-03-18 2020-09-24 Samsung Electronics Co., Ltd. Method and apparatus for accessing and transferring point cloud content in 360-degree video environment
KR102596002B1 (ko) * 2019-03-21 2023-10-31 엘지전자 주식회사 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신장치 및 포인트 클라우드 데이터 수신 방법
US11049285B2 (en) * 2019-06-21 2021-06-29 Disney Enterprises, Inc. Media content validation using geometrically encoded metadata
US11388437B2 (en) * 2019-06-28 2022-07-12 Tencent America LLC View-position and angle dependent processing of point cloud data
EP4005202B1 (en) * 2019-07-22 2023-11-15 InterDigital VC Holdings, Inc. A method and apparatus for delivering a volumetric video content
US20200329088A1 (en) * 2019-07-26 2020-10-15 Intel Corporation Viewport indication during streaming of volumetric point cloud content
WO2021029155A1 (ja) * 2019-08-14 2021-02-18 ソニー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
US11381817B2 (en) * 2019-09-24 2022-07-05 At&T Intellectual Property I, L.P. Viewport-based transcoding for immersive visual streams
CN114503587A (zh) * 2019-10-07 2022-05-13 Lg电子株式会社 点云数据发送装置、点云数据发送方法、点云数据接收装置和点云数据接收方法
CN113114608B (zh) * 2020-01-10 2022-06-10 上海交通大学 点云数据封装方法及传输方法
US11875539B2 (en) * 2020-03-16 2024-01-16 Samsung Electronics Co., Ltd. Partial access metadata for video-based point cloud compression data
US11190771B2 (en) * 2020-03-16 2021-11-30 At&T Intellectual Property I, L.P. System and method of enabling adaptive bitrate streaming for volumetric videos
WO2022032161A1 (en) * 2020-08-07 2022-02-10 Vid Scale, Inc. Tile tracks for geometry‑based point cloud data
US11706450B2 (en) * 2020-09-18 2023-07-18 Samsung Electronics Co., Ltd. Partial decoding and reconstruction of a video-based point cloud compression bitstream
US11836953B2 (en) * 2020-10-06 2023-12-05 Sony Group Corporation Video based mesh compression
CN114549778A (zh) * 2020-11-26 2022-05-27 腾讯科技(深圳)有限公司 非时序点云媒体的处理方法、装置、设备及存储介质
CN113949829B (zh) * 2021-10-15 2022-09-20 腾讯科技(深圳)有限公司 媒体文件封装及解封装方法、装置、设备及存储介质
US20230237730A1 (en) * 2022-01-21 2023-07-27 Meta Platforms Technologies, Llc Memory structures to support changing view direction

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170236024A1 (en) * 2016-02-15 2017-08-17 Pictometry International Corp. Automated system and methodology for feature extraction
US20170347122A1 (en) * 2016-05-28 2017-11-30 Microsoft Technology Licensing, Llc Scalable point cloud compression with transform, and corresponding decompression

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8477154B2 (en) * 2006-03-20 2013-07-02 Siemens Energy, Inc. Method and system for interactive virtual inspection of modeled objects
US10553015B2 (en) * 2017-03-31 2020-02-04 Google Llc Implicit view-dependent quantization
US10827159B2 (en) * 2017-08-23 2020-11-03 Mediatek Inc. Method and apparatus of signalling syntax for immersive video coding
US10559126B2 (en) * 2017-10-13 2020-02-11 Samsung Electronics Co., Ltd. 6DoF media consumption architecture using 2D video decoder
KR102390208B1 (ko) * 2017-10-17 2022-04-25 삼성전자주식회사 멀티미디어 데이터를 전송하는 방법 및 장치
JP7376496B2 (ja) * 2018-03-20 2023-11-08 ピーシーエムエス ホールディングス インコーポレイテッド 優先順位付けされた変換に基づいて動的点群を最適化するためのシステムおよび方法
US10984541B2 (en) * 2018-04-12 2021-04-20 Samsung Electronics Co., Ltd. 3D point cloud compression systems for delivery and access of a subset of a compressed 3D point cloud
WO2020009344A1 (ko) * 2018-07-06 2020-01-09 엘지전자 주식회사 360 비디오 데이터의 서브픽처 기반 처리 방법 및 그 장치
US11039115B2 (en) * 2018-12-21 2021-06-15 Samsung Electronics Co., Ltd. Low complexity color smoothing of reconstructed point clouds

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170236024A1 (en) * 2016-02-15 2017-08-17 Pictometry International Corp. Automated system and methodology for feature extraction
US20170347122A1 (en) * 2016-05-28 2017-11-30 Microsoft Technology Licensing, Llc Scalable point cloud compression with transform, and corresponding decompression

Also Published As

Publication number Publication date
TW202029757A (zh) 2020-08-01
US11200700B2 (en) 2021-12-14
US20200226792A1 (en) 2020-07-16

Similar Documents

Publication Publication Date Title
TWI740347B (zh) 發信點雲多媒體資料的視埠以及興趣區域的方法及裝置
US10742999B2 (en) Methods and apparatus for signaling viewports and regions of interest
US11245926B2 (en) Methods and apparatus for track derivation for immersive media data tracks
TWI749483B (zh) 用信號通知點雲多媒體資料軌道的空間關係的方法和裝置
CN110049330B (zh) 用于编码和解码虚拟现实内容的方法和装置
KR102371099B1 (ko) 광시야 비디오를 인코딩하기 위한 구면 회전 기법
JP2021048649A (ja) パノラマビデオのための提案されるビューポート指示
TWI768372B (zh) 用於沉浸式媒體資料軌道的空間分組以及坐標信令的方法及裝置
WO2018069466A1 (en) Processing spherical video data on the basis of a region of interest
CN109257587B (zh) 一种编解码视频数据的方法及装置
TWI707577B (zh) 編解碼方法及裝置
TW202021367A (zh) 將軌道推導用於基於網路的媒體處理的方法和裝置
US10931930B2 (en) Methods and apparatus for immersive media content overlays
TW202118289A (zh) 用於編碼/解碼沉浸式媒體的視訊資料的方法和裝置
TWI793602B (zh) 用以傳訊沉浸式媒體中多種類型視域的方法和裝置
US20240114168A1 (en) Methods and apparatus for signaling 2d and 3d regions in immersive media
US11922561B2 (en) Methods and systems for implementing scene descriptions using derived visual tracks
US11743559B2 (en) Methods and systems for derived immersive tracks