TWI768372B - 用於沉浸式媒體資料軌道的空間分組以及坐標信令的方法及裝置 - Google Patents
用於沉浸式媒體資料軌道的空間分組以及坐標信令的方法及裝置 Download PDFInfo
- Publication number
- TWI768372B TWI768372B TW109119784A TW109119784A TWI768372B TW I768372 B TWI768372 B TW I768372B TW 109119784 A TW109119784 A TW 109119784A TW 109119784 A TW109119784 A TW 109119784A TW I768372 B TWI768372 B TW I768372B
- Authority
- TW
- Taiwan
- Prior art keywords
- data
- track
- immersive media
- patch
- encoded
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 121
- 230000011664 signaling Effects 0.000 title description 10
- 239000000463 material Substances 0.000 claims description 60
- 230000008439 repair process Effects 0.000 claims description 50
- 238000007654 immersion Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 28
- 238000012545 processing Methods 0.000 description 28
- 230000008569 process Effects 0.000 description 19
- 238000000354 decomposition reaction Methods 0.000 description 14
- 239000002609 medium Substances 0.000 description 13
- 230000001419 dependent effect Effects 0.000 description 11
- 238000009877 rendering Methods 0.000 description 11
- 230000006835 compression Effects 0.000 description 9
- 238000007906 compression Methods 0.000 description 9
- 230000003993 interaction Effects 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 238000009795 derivation Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000000638 solvent extraction Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000007787 solid Substances 0.000 description 4
- 239000002131 composite material Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 239000012572 advanced medium Substances 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000005415 magnetization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- URWAJWIAIPFPJE-YFMIWBNJSA-N sisomycin Chemical compound O1C[C@@](O)(C)[C@H](NC)[C@@H](O)[C@H]1O[C@@H]1[C@@H](O)[C@H](O[C@@H]2[C@@H](CC=C(CN)O2)N)[C@@H](N)C[C@H]1N URWAJWIAIPFPJE-YFMIWBNJSA-N 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/40—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/44—Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/16—Spatio-temporal transformations, e.g. video cubism
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/001—Model-based coding, e.g. wire frame
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/96—Tree coding, e.g. quad-tree coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/593—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Graphics (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
Abstract
本文所描述的技術涉及用於編碼與/或解碼視訊資料的方法、裝置以及電腦可讀媒介。沉浸式媒體資料包括一第一修補軌道、一第二修補軌道、一基本資料軌道以及一分組資料,該第一修補軌道包括對應於沉浸式媒體內容的一第一空間部分的第一已編碼沉浸式媒體資料,該第二修補軌道包括對應於該沉浸式媒體內容的一第二空間部分的第二已編碼沉浸式媒體資料,該第二空間部分不同於該第一空間部分,該基本資料軌道包括第一沉浸式媒體基本資料,其中該第一修補軌道與/或第二修補軌道參考該基本資料軌道,該分組資料指定該沉浸式媒體內容中該第一修補軌道與該第二修補軌道之間的一空間關係。基於該第一修補軌道、該第二修補軌道、該基本資料軌道以及該分組資料執行一編碼與/或解碼操作來生成已編碼/已解碼沉浸式媒體資料。
Description
本文所描述的技術通常涉及視訊編解碼,更具體地,涉及用於沉浸式媒體軌道(如,點雲(point cloud)多媒體、3D沉浸式媒體與/或等等)的空間分組以及坐標信令(signaling)的方法及裝置,包括分塊的點雲內容的空間分組、發信6個自由度(6DoF)的子點雲的坐標等等。
存在各種類型的視訊內容,如2D內容、3D內容以及多方向內容。例如,全景視訊是一種使用一組攝像機來捕獲的視訊,其與單個攝像機完成的傳統單向視訊截然相反。例如,攝像機可以沿著特定的中心點放置,以致每一攝像機捕獲場景的球面覆蓋的一部分視訊來捕獲360°視訊。來自多個攝像機的視訊可以被拼接、適當地旋轉以及被投影來生成表示球面內容的投影的二維圖像。例如,等矩形投影可以用於將球面映射放入二維圖像。例如,這可以使用二維編碼以及壓縮技術來完成。最後,編碼以及壓縮的內容使用所期望的遞送機制(如,拇指驅動器、數位視訊硬碟(DVD)與/或線上流媒體)被存儲並被遞送。這種視訊可以用於虛擬實境(VR),與/或3D視訊。
在用戶端側,當用戶端處理內容時,視訊解碼器解碼已編碼視訊並執行逆投影來將內容放回到球面。然後使用者可以觀看渲染的內容,如使用頭戴觀看裝置。內容通常根據使用者的視口(viewport)來渲染,其表示使用者觀看內容時所在的角度。視口也可以包括表示觀看區域的構成部分,其可以描述在特定角度觀看者所觀看到的區域有多大、是哪種形狀。
當每一以視口依賴的方式完成視訊處理時,以致視訊轉碼器不知道用戶將實際觀看到什麼,那麼整個編碼以及解碼進程將處理整個球面內容。例如,因為所有的球面內容都被遞送並被解碼,這可以允許用戶在任何特定視口與/或區域觀看內容。
然而,處理所有的球面內容可以是計算密集以及可能消耗大量頻寬。例如,對於線上流媒體應用,處理所有球面內容可以對網路頻寬造成很大負擔。因此,當頻寬資源與/或計算資源受限時,其難以維持用戶的體驗。一些技術僅處理被使用者觀看到的內容。例如,如果用戶正在觀看正面(如,北極),那麼不需要遞送背面部分的內容(如,南極)。如果用戶改變視口,那麼可以相應地遞送內容用於新的視口。又例如,對於自由視點TV(free viewpoint TV,FTV)應用(如,其使用多個攝像機捕獲視訊場景),可以根據使用者觀看場景所在的角度來遞送內容。例如,如果用戶正從一個視口(如,攝像機與/或相鄰攝像機)觀看內容,這可能不需要遞送其他視口的內容。
根據所公開的主題、裝置、系統以及方法,其被提供用於處理(如,編碼或解碼)沉浸式媒體資料結構中點雲視訊資料與/或其他3D沉浸式媒體,該沉浸式媒體資料結構包括用於編碼點雲內容的不同部分的各自的修補軌道。在一些實施例中,點雲視訊包括2D與/或3D點雲資料。該點雲視訊資料可以被分割成2D與/或3D區域,以及被編碼成該沉浸式媒體資料結構內對應2D軌道與/或3D軌道的多個組。根據一些實施例中,該等修補軌道可以共用一個或多個共同基本資料軌道(如,包括一個或多個幾何、屬性與/或佔用軌道)。該技術用於編碼具有分組資訊的修補軌道來指示該點雲內容的各種軌道中空間相關性。根據一些實施例,該技術可以提供靈活性觀看沉浸式媒體內容的技術,包括提供點雲內容的旋轉控制(全域與/或圖塊細微級別兩者)。
一些實施例涉及用於解碼沉浸式媒體視訊資料的解碼方法。該方法包括存取沉浸式媒體資料,該沉浸式媒體資料包括第一修補軌道、第二修補軌道、一基本資料軌道以及一分組資料。該第一修補軌道包含第一已編碼沉浸式媒體資料,該第一已編碼沉浸式媒體資料對應於沉浸式媒體內容的第一空間部分,該第二修補軌道包含第二已編碼沉浸式媒體資料,其中該第二沉浸式媒體資料對應於該沉浸式媒體內容的第二空間部分,該第二空間部分不同於該第一空間部分,該基本資料軌道包括第一沉浸式媒體基本資料,其中該第一修補軌道、該第二修補軌道或兩者參考該基本資料軌道;該分組資料指定該沉浸式媒體內容中該第一修補軌道與該第二修補軌道之間的一空間關係。該方法也包括基於該第一修補軌道、該第二修補軌道、該基本資料軌道以及分組資料執行一解碼操作來生成已解碼沉浸式媒體資料。
在一些示例中,該第一修補軌道包括分組資料的一第一相關部分,指示該第一修補軌道是一個或多個修補軌道組的一部分,以及該第二修補軌道包括該分組資料的一第二相關部分,指示該第二修補軌道是該一個或多個修補軌道組的一部分。
在一些示例中,該一個或多個修補軌道組包括多個修補軌道組,包括至少:一第一修補軌道組以及一第二修補軌道組,該第一修補軌道組對應於沉浸式媒體內容的一第三空間部分,該第三空間部分包括該第一修補軌道的沉浸式媒體內容的第一空間部分以及該第二修補軌道的沉浸式媒體內容的該第二空間部分,該第二修補軌道組對應於沉浸式媒體內容的一第四部分,其中,該第一修補軌道包含該第二修補軌道,以及該沉浸式媒體內容的第三空間部分包含沉浸式媒體內容的該第四空間部分。
在一些示例中,該沉浸式媒體內容包括點雲多媒體。
在一些示例中,該基本資料軌道包括:至少一個幾何軌道,包括該沉浸式媒體的幾何資料;至少一個屬性軌道,包括該沉浸式媒體的屬性資料;以及一佔用軌道,包括該沉浸式資料的佔用圖資料;存取該沉浸式媒體資料包括:存取該至少一個幾何軌道中的該幾何資料;存取該至少一個屬性軌道中的該屬性資料;以及存取該佔用軌道中的該佔用圖資料;以及執行該解碼操作包括使用該幾何資料、該屬性資料以及該佔用圖資料執行該解碼操作來生成該已解碼沉浸式媒體資料。
在一些示例中,該第一已編碼沉浸式媒體資料以及該第二已編碼沉浸式媒體資料包括已編碼的二維(2D)資料。
在一些示例中,該第一已編碼沉浸式媒體資料以及該第二已編碼沉浸式媒體資料包括已編碼的三維(3D)資料。
在一些示例中,該沉浸式媒體樹包括執行該已編碼3D資料的空間方向的資料,該資料包括:包括該已編碼3D資料的x、y、z坐標的一位置、已編碼3D子立體資料的一寬度、該已編碼3D子立體資料的一高度以及該已編碼3D子立體資料的一深度。
在一些示例中,指定該已編碼3D資料的該空間方向的該資料進一步包括指示關於一共同參數坐標系統的該已編碼3D資料的一旋轉的資料。
在一些示例中,其中該旋轉資料包括指示一俯仰、一偏航以及一翻滾的資料。
一些實施例涉及用於編碼沉浸式媒體的視訊資料的方法。該方法包括編碼沉浸式媒體資料,包括編碼至少:一第一修補軌道、一第二修補軌道、基本資料軌道以及一分組資料。該第一修補軌道包括第一沉浸式媒體資料,其中該第一沉浸式媒體資料對應於沉浸式媒體內容的一第一空間部分;該第二修補軌道包括第二沉浸式媒體資料,其中該第二沉浸式媒體資料對應於沉浸式媒體內容的一第二空間部分,該第二空間部分不同於該第一空間部分;該基本資料軌道包括第一沉浸式媒體基本資料,其中該第一修補軌道、該第二修補軌道或兩者參考該基本資料軌道;以及該分組資料指定該沉浸式媒體內容中該第一修補軌道與該第二修補軌道之間的一空間關係。
一些實施例涉及用於解碼視訊資料的裝置。該裝置包括與記憶體通訊的一處理器。該處理器用於執行存儲於該記憶體中的指令使得該處理器執行存取沉浸式媒體資料,該沉浸式媒體資料包括至少:一第一修補軌道、一第二修補軌道、一基本資料軌道以及一分組資料。該第一修補軌道對應於沉浸式媒體內容的一第一空間部分,該第二修補軌道對應於該沉浸式媒體內容的第二空間部分,該第二空間部分不同於該第一空間部分;該基本資料軌道包括第一沉浸式媒體基本資料,其中該第一修補軌道、該第二修補軌道或兩者參考該基本資料軌道;以及該分組資料指定該沉浸式媒體內容中該第一修補軌道與該第二修補軌道之間的一空間關係。該處理器基於該第一修補軌道、該第二修補軌道、該基本資料軌道以及該分組資料執行一解碼操作來生成已解碼沉浸式媒體資料。
在一些示例中,該第一修補軌道包括該分組資料的一第一相關部分,指示該第一修補軌道是一個或多個修補軌道組的一部分;以及該第二修補軌道包括該分組資料的一第二相關部分,指示該第二修補軌道是該一個或多個修補軌道組的一部分。
在一些示例中,該一個或多個修補軌道組包括多個修補軌道組,包括至少:對應於沉浸式媒體內容的一第三空間部分的一第一修補軌道組,該第三空間部分包括該第一修補軌道組的沉浸式媒體內容的該第一空間部分以及該第二修補軌道的沉浸式媒體內容的該第二空間部分;對應於沉浸式媒體內容的一第四空間部分的一第二修補軌道組,其中該第一修補軌道組包含該第二修補軌道組;以及沉浸式媒體內容的該第三空間部分包含沉浸式媒體內容的該第四部分。
在一些示例中,沉浸式媒體內容包含點雲多媒體。
在一些示例中,該基本資料軌道包括:包括該沉浸式媒體的幾何資料的至少一個幾何軌道、包括該沉浸式媒體的屬性資料的至少一個屬性軌道以及包括該沉浸式媒體的佔用圖資料的佔用軌道;存取該沉浸式媒體資料包括:存取該至少一個幾何軌道的幾何資料、存取該至少一個屬性軌道的屬性資料以及存取該佔用軌道的該佔用圖資料;以及執行解碼操作包括使用該幾何資料、該屬性資料以及該佔用圖資料來執行該解碼操作來生成該已解碼沉浸式媒體資料。
在一些示例中,該第一已編碼沉浸式媒體資料以及該第二已編碼沉浸式媒體資料包括已編碼三維(3D)資料。
在一些示例中,沉浸式媒體資料進一步包括指定該已編碼3D資料的一空間方向的資料,該資料包括:該已編碼3D資料的x、y、z坐標的一位置;已編碼3D子立體資料的一寬度、該已編碼3D子立體資料的一高度以及該已編碼3D子立體資料的一深度。
在一些示例中,指定該已編碼3D資料的該空間方向的該資料進一步包括關於一共同參考坐標系統的該已編碼3D資料的一旋轉。
在一些示例中,該旋轉資料包括指示一偏航、一俯仰以及一旋轉的資料。
因此,已經相當寬泛地概述了所公開的主題的特徵,以便可以更好地理解其隨後的詳細描述,並且可以更好的理解本發明對本領域的貢獻。當然,存在將在下文中描述的所公開的主題的另外的特徵,這些特徵將形成所附申請專利範圍的主題。應當理解,本文所採用的措辭和術語是為了描述的目的,而不應當被認為是限制。
點雲資料或其他沉浸式媒體(如,基於視訊的點雲壓縮(V-PCC))資料可以提供壓縮的點雲資料用於各種類型的3D多媒體應用。用於點雲內容的傳統儲存結構將點雲內容(如,V-PCC分量軌道)表示為計時器序列的順序單元(如,V-PCC單元),其編碼相關沉浸式媒體資料的整個沉浸式媒體內容,以及也包括許多分量資料軌道(如,幾何、紋理與/或佔用軌道)。這種傳統的技術不將點雲內容子分割成較小的部分,其由儲存結構中單個單元所攜帶。發明人已經理解,其期望提供技術用於使用各自的修補軌道(patch track)編碼與/或解碼點雲視訊資料,每一修補軌道編碼點雲內容的相關的不同部分。本文所描述的技術提供新的點雲內容結構利用各自的修補軌道來打碎並編碼原始沉浸式媒體內容(如,其可以包括2D與/或3D點雲內容),以致多修補軌道可以被包括於沉浸式媒體結構以及可以共用一個或多個共同基本資料軌道(如,包括一個或多個幾何、屬性與/或佔用軌道)。技術進一步用於編碼修補軌道,以致每一修補軌道包括一個或多個分組結構來指示與修補軌道的哪些組軌道相關來儲存結構中形成較大的空間部分。分組資訊可以由解碼器使用來決定如何解碼修補軌道,包括決定哪些修補軌道對應於沉浸式媒體內容的空間部分。技術可以用於改善視口依賴的點雲媒體處理,以致僅需要根據使用者的視口以及其隨時間動態的移動處理的相關修補軌道。例如,如果使用者僅觀看沉浸式媒體內容的一部分,僅與該內容相關的修補軌道以及空間中隨時間任何預期移動的部分可以被傳輸給使用者裝置用於解碼以及處理。因為先於點雲內容結構編碼了整個點雲內容,這種結構不允許軌道級(track level)的沉浸式媒體內容的基於視口的處理。
在後續描述中,給出了關於所公開主題的系統以及方法以及系統與方法可能在其中操作的環境等的各種具體細節以提供所公開主題的透徹理解。此外,將能理解,下文提供的示例是示例性的,以及存在其他的系統以及方法也在所要求保護主題的範圍內。
第1圖示出了根據一些實施例的示例性視訊編碼配置100。攝像機102A~102N是N個攝像機,以及可以是任何類型的攝像機(如,包括音訊記錄功能的攝像機,與/或分離式攝像與音訊記錄功能的攝像機)。編碼裝置104包括視訊處理器106以及編碼器108。視訊處理器106處理從攝像機102A~102N接收的視訊,如拼接、投影與/或映射。編碼器108編碼與/或壓縮二維視訊資料。解碼裝置110接收已編碼資料。解碼裝置110可以接收視訊為視訊產品(如,數位視訊光碟或其他計算可讀媒體),通過廣播網路、通過移動網路(如,蜂窩網路)與/或通過互聯網。例如,解碼裝置110可以是電腦、頭戴顯示器的一部分或具有解碼能力的任何其他裝置。解碼裝置110包括解碼器112用於解碼已編碼視訊。解碼裝置110還包括渲染器114用於將二維內容渲染回一格式用於播放。顯示器116播放來自渲染器114的已渲染內容。
通常,3D內容可以使用球面內容來表示以提供360°視野的場景(如,有時稱為全景媒體內容)。雖然多個視野可以使用3D球面來支援,終端使用者通常僅觀看3D球體上的一部分內容。需要傳輸整個3D球體的頻寬可能對網路造成負擔,以及可能不足以支撐球面內容。因此需要使3D內容遞送更加有效。視口依賴的處理可以被執行來改善3D內容遞送。3D球面內容可以被拆分成多個區域/圖塊/子圖像,以及僅與觀看螢幕(如,視口)有關這些可以被傳輸並遞送到終端使用者。
第2圖示出了根據一些實施例的VR內容的視口依賴的內容流進程200。如圖所示,球面視口201(如,其可以包括整個球體)在塊202經過拼接、投影、映射(來生成已投影與映射的區域)、在塊204被編碼(來生成多個品質的已編碼/轉碼圖塊)、在塊208被解碼(來生成多個已解碼圖塊)、在塊210被構造(來構造球面渲染的視口)以及在塊212被渲染。在塊214的用戶交互可以選擇視口,其如經由實線箭頭示出的,發起多個“即時”處理步驟。
在進程200,由於當前網路頻寬限制以及各種適應性需求(如,不同的品質、編解碼以及投影方案),3D球面VR內容首先被處理(平均、投影以及映射)到2D平面(由塊202)以及然後封裝到多個基於圖塊(或基於子圖像)以及分段的檔中用於遞送與播放。在這種基於圖塊以及分段檔中,2D平面中的空間檔(如,其表示空間部分,通常以2D平面內容的矩形形狀)通常被封裝為一些變體,如以不同的品質以及位元流,或者以不同的編解碼以及投影方案(如,不同的加密演算法以及模式)。在一些示例中,這些變體對應於MPEG DASH中適應性集合內的表示。在一些示例中,基於用戶對視口的選擇,當被放在一起時提供所選擇的視口範圍的不同圖塊的這些變體中的一些被接收器(通過遞送塊206)檢索或遞送到接收器,然後被解碼(在塊208)以構造並呈現期望的視口(在塊210和212)。
如第2圖所示,視口是用戶所看到的,其涉及球面上區域的角度以及尺寸。對於360°視訊,通常,技術將所需要的圖塊/子圖像內容遞送到用戶端來覆蓋使用者將觀看到的內容。因為技術僅遞送覆蓋當前興趣視口的內容而不是整個球面內容,這一進程是視口依賴的。視口(如,一種類型的球面區域)可以改變從而不是靜態的。例如,當使用者移動頭部時,那麼系統需要提取相鄰圖塊(或子圖像)來覆蓋使用者接下來想要看到的內容。
興趣區域(region of interest,ROI)有點類似於視口的概念。例如,ROI可以表示全景視訊的3D或2D編碼中的區域。ROI可以具有不同的形狀(如,正方形或圓形),其可以被指定關於3D或2D視訊(如,基於位置、高度等)。例如,興趣區域可以表示圖像中可以被放大的區域,以及對應的ROI視訊可以用於被顯示用於放大的視訊內容。在一些實施例中,ROI是已準備好的。在這種實施例中,興趣區域通常具有攜帶ROI內容的分離的視訊軌道。因此,已編碼視訊指定ROI,以及ROI視訊如何與底層視訊關聯。本文所描述的技術以區域的方式進行描述,其可以包括視口、ROI與/或視訊內容中的其他興趣區域。
ROI或視口軌道可以與主要視訊相關聯。例如,ROI可以與主要視訊相關聯來滿足放大或縮小操作,其中ROI用於提供放大區域的內容。例如,MPEG-B,部分10,標題為“Carriage of Timed Metadata Metrics of Media in ISO Base Media File Format”,日期2016年6月2日(w16191,也記錄為ISO/IEC 23001-10:2015),描述了ISO基本媒體檔案格式(ISOBMFF)檔案格式,其使用定時元資料軌道來發信主要2D視訊軌道具有2D ROI軌道,其整體內容藉由參考納入其中。又例如,HTTP上的動態適應性流(DASH)包括空間關係描述符來發信主要2D視訊表示與其相關2D ROI視訊表示之間的空間關係。ISO/IEC 23009-1,草案第三版(w10225),2016年6月29,公開了DSAH,以及其內容藉由參考納入其中。又例如,在SISO/IEC 23090-2中指定了全景媒體格式(OMAF),其內容在此藉由參考納入其中。OMAF指定了全景媒體格式用於全景媒體的編解碼、儲存、遞送以及渲染。OMAF指定了坐標系統,以致使用者的觀看視角是從球體的中心看向球體的內表面。OMAF包括ISOBMFF的擴展用於全景媒體以及用於球體區域的定時元資料。
當發信ROI時,可以生成各種資訊,包括與ROI的特性相關的資訊(如,位置、形狀、尺寸)、目標(品質、等級等)。資訊可以被生成來將內容與ROI相關聯,包括視覺(3D)球面內容,與/或球面內容的投影及映射(2D)幀。ROI可以由多個屬性來表徵,如其識別符、內容中與其相關的位置以及其形狀以及尺寸(如,關於球面與/或3D內容)。如本文進一步討論的,也可以添加如區域的品質以及比率等級的額外屬性。
點雲資料可以包括場景中的一組3D點。每一點可以基於(x,y,z)位置以及色彩資訊來指定,如(R,V,B)、(Y,U,V)、反射比、透明度與/或等等。點雲通常不記錄,以及通常不包括與其他點的關係(如,以致每一點被指定而不參考其他點)。點雲資料對許多應用可以是有用的,如提供6DoF的3D沉浸式媒體體驗。然而,點雲資訊可以消耗大量資料,如果通過網路連接在裝置之間轉移,其反過來可能消耗大量頻寬。例如,如果未被壓縮,場景中的800000點可以消耗1Gbps。因此,通常需要壓縮以使點雲資料對基於網路的應用是有用的。
MPEG已經致力於點雲壓縮來減少點雲資料的尺寸,其可能使即時的點雲資料的流媒體用於其他裝置的消耗。第3圖示出了根據一些實施例的用於點雲內容的示例性處理流300,如通常視口/ROI(如,3DoF/6DoF)處理模型的特定實例。例如,在N1771中進一步描述了處理流300的細節,“PCC WD V-PCC (Video-based PCC)”,2018年7月,Ljubljana,SI,其整體內容在此藉由參考納入其中。用戶端302接收點雲媒體內容檔304,其由兩個2D平面視訊位元流以及指定2D平面視訊到3D立體視訊轉換的元資料組成。內容2D平視訊到3D立體視訊轉換元資料可以位於檔級(如定時元資料軌道)或在2D視訊位元流內(如SEI消息)。
解析器模組306讀取點雲內容304。解析器模組306遞送兩個2D視訊位元流308到2D視訊解碼器310。解析器模組306將2D平面視訊到3D立體視訊轉換元資料312遞送到2D視訊到3D點雲轉換器模組314。解析器模組306在本地用戶端可以遞送一些需要遠端渲染(如,用更多的計算功率、特定的渲染引擎與/或等等)的資料到遠端渲染模組(未示出)用於部分渲染。2D視訊解碼器模組310解碼2D平面視訊位元流308來生成2D像素資料。如果需要,使用從解析器模組306接收的元資料312,2D視訊到3D點雲轉換模組314將來自2D視訊解碼器310的2D像素資料轉換成3D點雲資料。
渲染器模組316接收關於使用者的6°視口資訊的資訊以及決定待渲染的點雲媒體的部分。如果使用了遠端渲染器,用戶的6DoF視口資訊也可以被遞送到遠端渲染器模組。渲染器模組316藉由使用3D資料或3D資料與2D像素資料的組合來生點雲媒體。如果有來自遠端渲染器模組的部分渲染的點雲媒體資料,那麼渲染器316也可以將這種資料與本地渲染的點雲媒體組合來生成最終點雲視訊用於在顯示器318上播放。使用者交互資訊320(如3D空間中用戶的位置或方向以及用戶的視點)可以被遞送到處理該點雲媒體所涉及的模組(如,解析器306、2D視訊解碼器310,與/或視訊到點雲轉換器314)來動態地改變一部分資料用於根據使用者的交互資訊320適應性渲染的內容。
用於點雲媒體的使用者交互資訊需要被提供來實現這種基於用戶交互的渲染。具體地,使用者交互資訊320需要被指定並被發信來讓用戶端302來與渲染器模組316通訊,包括提供用戶選擇的視口的資訊。點雲內容可以經由編輯剪輯、推薦或指導視圖或視口被呈現給用戶。第4圖示出了根據一些實施例的自由視圖路徑400的示例。自由視圖路徑400允許使用者移動路徑來觀看來自不同視點的場景402。
視口(如推薦的視口(如,基於視訊的點雲壓縮(V-PCC)視口))可以被發信用於點雲內容。點雲視口(如PCC (如,V-PCC或G-PCC(基於幾何的點雲壓縮))視口)可以是適合於播放並由使用者觀看的點雲內容的區域。根據使用者的觀看裝置,視口可以是2D視口或3D視口。例如,視口可以是3D球面區域或3D空間中的2D平面區域,具有六個自由度(6DoF)。技術可以利用6D球面坐標(如,“6dsc”)與/或6D笛卡爾坐標(如,“6dcc”)來提供點雲視口。在共同擁有的美國專利申請號16/738,387,標題為“Methods and Apparatus for Signaling Viewports and Regions of Interest for Point Cloud Multimedia Data”中描述了視口信令技術(包括利用的“6dsc”以及“6dcc”),其內容在此藉由參考納入其中。技術可以包括6D球面坐標與/或6D笛卡爾坐標作為定時元資料,如ISOBMFF中的定時元資料。技術可以使用6D球面坐標與/或6D笛卡爾坐標來指定2D點雲視口以及3D點雲視口,包括用於存儲於ISOBMFF檔中的V-PCC內容。“6dsc”以及“6dcc”可以是用於2D空間中平面區域的2D笛卡爾坐標“2dcc”的自然擴展,如MPEG-B部分10中所提供的。
在V-PCC中,基於視訊的點雲的幾何以及紋理資訊被轉換到2D投影幀並然後被壓縮為一組不同的視訊序列。視訊序列可以是三種類型:一種表示佔用圖資訊、第二種表示幾何資訊以及第三種表示點雲資料的紋理資訊。例如,幾何軌道可以包括點雲資料的一個或多個幾何方面,如點雲的形狀資訊、尺寸資訊與/或位置資訊。如,紋理軌道可以包含點雲資料的一個或多個紋理方面,如點雲的色彩資訊(如,GRB(紅綠藍))、透明度資訊、反射比資訊與/或反射率資訊。這些軌道可以用於重構點雲的3D點集合。說明幾何以及視訊序列所需要額外的元資料也可以被生成並分別壓縮,如複製補助資訊。雖然本文提供的示例在V-PCC的上下文進行解釋,將能理解,這種示例是說明的目的,以及本文所描述的技術不限於V-PCC。
V-PCC有待完成軌道結構。在N18059中描述了ISOBMFF中V-PCC工作草案中所考慮的示例性軌道結構,“WD of Storage of V-PCC in ISOBMFF Files”,2018年10月,中國澳門,其內容藉由參考納入其中。軌道結構可以包括包含一組修補流的軌道,其中每一修補流本質上是觀看3D內容的不同視圖。如一說明性示例,如果3D點雲內容被認為是包含於3D立方體,那麼有6個不同的修補,每一修補是從立方體的外側的3D立方體的一個邊的視圖。該軌道結構也包括定時元資料軌道以及受限制的視訊方案軌道的集合用於幾何、屬性(如,紋理)以及佔用圖資料。定時元資料軌道包含V-PCC指定的元資料(如,參數集合、輔助資訊與/或等等)。該受限制的視訊方案軌道的集合可以包括一個或多個包括視訊編解碼基本流的受限制的視訊方案軌道用於佔用圖資料。V-PCC軌道結構可以允許改變與/或選擇不同的幾何以及紋理資料以及定時元資料以及佔用圖資料一起用於視口內容的變體。其期望包括多個幾何與或紋理軌道用於各種情況。例如,點雲可以以全品質以及一個或多個減少的品質進行編碼,如用於適應性流的目的。在這種示例中,編碼可能生成多個幾何/紋理軌道來捕獲點雲的一些3D點的不同採樣。對應於更細化的採樣的幾何/紋理軌道可以比對應於較粗採樣的這些具有更好的品質。在流媒體點雲內容的會話中,用戶端可以選擇來檢索多個幾何/紋理軌道中的內容,以靜態或動態形式(如,根據用戶端的顯示裝置與/或網路頻寬)。
點雲圖塊可以表示點雲資料的3D與/或2D方面。例如,如N18188所描述的,標題為“Description of PCC Core Experiment 2.19 on V-PCC tiles”,Marrakech,MA(2019年1月),V-PCC圖塊可以用於基於視訊的PCC。在N18180中描述了基於視訊的PCC的示例,標題為“ISO/IEC 23090-5: Study of CD of Video-based Point Cloud Compression (V-PCC)” ,Marrakech,MA(2019年1月)。N18188以及N18180兩者的內容在此藉由參考納入其中。點雲可以包括邊界區域或框來表示內容或部分,包括用於3D內容的定界框與/或用於2D內容的定界框。在一些示例,點雲圖塊(tile)包括3D定界框、相關的2D定界框以及2D定界框中的一個或多個單獨的編碼單元(ICU)。例如,3D定界框可以是三個維度中的給定點集合的最小的封閉框。3D定界框可以具有各種3D形狀,如可以由兩個3元組(如,三維中每一邊的起點以及長度)表示的矩形平行的形狀。例如,2D定界框可以是對應於3D定界框(如,3D空間中)的最小封閉框(如,給定視訊幀中)。2D定界框可以具有各種2D形狀,如可以由2元組(如二維中每一邊的起點以及長度)表示的矩形的形狀。視訊幀的2D定界框中可能有的一個或多個ICU(如,視訊圖塊)。單獨的編碼單元可以在不需要相鄰編碼單元的相關性的情況下被編碼與/或解碼。
第5圖示出了根據一些實施例的示例性點雲圖塊,包括3D以及2D定界框。點雲內容通常僅包括圍繞3D內容的單個3D定界框,如第5圖示出的3D點雲內容504周圍的大框502。如以上所描述的,點雲圖塊可以包括3D定界框、相關的2D定界框,以及2D定界框中的一個或多個單獨的編碼單元(ICU)。為了支持視口獨立處理,3D點雲內容通常需要被子拆分成較小的片(piece)或圖塊。例如,第5圖示出了3D定界框502可以被拆分成多個較小的3D定界框506、508以及510,其每一者分別具有相關的3D定界框512、514以及516。
如本文所描述的,例如,技術的一些實施例可以包括,將圖塊(如,子拆分3D/2D定界框)子拆分成多個較小單元來形成所期望的ICU用於V-PCC內容。技術可以將子拆分的3D立體區域以及3D圖像封裝到軌道,如到ISOBMFF視覺(如,子立體以及子圖像)軌道。例如,每一定界框的內容可以被存儲到相關軌道集合中,其中每一軌道集合存儲一個子拆分的3D子立體區域與/或2D子圖像的內容。對於3D子立體情況,這種軌道集合僅包括存儲幾何、屬性以及紋理屬性的軌道。對於2D子圖像情況,這種軌道集合可以僅包含存儲子圖像內容的單個軌道。技術可以提供多個軌道集合中的信令資訊,如使用“3dcc”以及“2dcc”類型的軌道組與/或樣本組發信該等軌道集合的各自3D/2D空間關係。技術可以發信與特定定界框、特定子立體區域或特定子圖像相關的軌道,與/或發信不同定界框、子立體區域以及子圖像的多個軌道集合的關係。提供各自軌道中的點雲內容可以説明高級媒體處理,而不是以其他方式可用於點雲內容,如點雲分塊(tiling)(如,V-PCC分塊)以及視口依賴的媒體處理。
在一些實施例中,技術用於將點雲定界框拆分成多個子單元。例如,3D以及2D定界框可以被分別子拆分成多個3D子立體框以及2D子圖像區域。子區域可以提供ICU,其足夠用於基於軌道的渲染技術。例如,子區域可以提供從系統觀點來看足夠精細的ICU用於遞送和渲染,以便支援視口依賴的媒體處理。在一些實施例中,技術可以支援視口依賴的媒體處理用於V-PCC媒體內容,如m46208中所提供的,標題為“Timed Metadata for (Recommended) Viewports of V-PCC Content in ISOBMFF”,Marrakech,MA(2019年1月),其內容在此藉由參考納入其中。如本文進一步所描述的,每一子拆分3D子立體框以及2D子圖像區域可以分別以類似的方式被存儲於軌道中,就好像(如,未子拆分的)3D框以及2D圖像,但它們在尺寸方面具有較小尺寸。例如,在3D情況下,子拆分的3D子立體框/區域將被存儲到包括幾何、紋理以及屬性軌道的軌道集合中。又例如,在2D情況中,子拆分的子圖像區域將被存儲於單個(子圖像)軌道中。如將內容子拆分成較小子立體以及子圖像的結果,ICU可以以各種方式來攜帶。例如,在一些實施例中,不同軌道集合可以被用於攜帶子立體或子圖像,以致攜帶子拆分內容的軌道相比於存儲所有非子拆分內容時具有更少的資料。又例如,在一些實施例,一些與/或所有資料可以被存儲於相同軌道(如,甚至當被子拆分時),但具有用於子拆分的資料與/或ICU的較小的單元(如,以致可以在整個軌道集合中單獨存取ICU)。
各種類型的分割可以用於提供子單元或ICU,包括3D以及2D拆分。第6圖示出了根據一些實施例的用於3D子立體分解的示例性基於八叉樹分割。如左側所示出的,3D定界框602可以被拆分成八個子區域604,其可以被進一步子拆分成子區域606以及608。在一些實施例中,系統基於各自參數可以決定如何拆分並進一步子拆分成點雲內容,如與點雲內容相關的ROI、特定側支援的細節量與/或等等。參考樹結構,樹中的每一內部節點(如,節點612、614以及616)表示3D來源,其被拆分成多個區域以致每一子節點表示子立體軌道。如本文進一步描述的,軌道組(如,“3dcc”軌道組)可以用於表示子立體軌道。
第7圖示出了根據一些實施例的用於2D子圖像分解的示例性基於四叉樹的分割。如左側示出的,2D定界框702可以被拆分成四個子區域704,其可以被進一步子拆分成子區域706以及708。樹中每一內節點(如,點712、714以及716)表示2D來源,其被拆分成多個區域,以致每一子節點表示子圖像軌道。如本文進一步描述的,軌道組(如,“2dcc”軌道組)可以用於表示子圖像軌道。
子拆分的2D以及3D區域可以是各種形狀,如正方形、立方體、矩形與/或任意的形狀。沿著每一維度的拆分可以不是二元的。因此,最外面2D/3D定界框的每一拆分樹可以遠多於本文所提供的的四叉樹以及八叉樹樣本。因此將能理解,各種形狀以及子拆分策略可以用於決定拆分樹中的每一葉區域,其表示(2D或3D空間或定界框中的)ICU。如本文所描述的,ICU可以被配置以用於ICU可以支援視口依賴處理的(包括遞送以及渲染)端對端的媒體系統。例如,ICU可以根據m46208來配置,其中最小數目的ICU可以空間地隨機存取用於覆蓋可能動態移動的視口(如,由使用者在觀看裝置上控制或者基於來自編輯器的推薦)。
點雲ICU可以在相關、分離的軌道中來攜帶。在一些實施例中,ICU以及拆分樹可以被攜帶與/或封裝於各自的子立體以及子圖像軌道以及軌道組中。例如,子立體以及子圖像軌道與軌道組的空間關係以及樣本組可以在如ISO/IEC 14496-12中描述的ISOBMFF中描述。
對於2D情況,一些實施例可以利用具有OMAF中提供的軌道分組類型“2dcc”的通用子圖像軌道分組延伸,如OMAF,第二版,N18277,標題為“WD 4 of ISO/IEC 23090-2 OMAF 2nd edition”,Marrakech, MA (2019年1月)的工作草案的節7.1.11所提供的,其內容在此藉由參考納入其中。對於3D情況,一些實施例可以更新並擴展具有新軌道分組類型“3dcc”的通用子立體軌道組延伸。如3D與2D軌道分組方案可以用於將八叉樹分解中示例性(葉節點)子立體軌道以及四叉樹分解中的子圖像軌道分別分組成是三個“3dcc”軌道組以及“2dcc”軌道組。
點雲位元流可以包括攜帶點雲內容的一組單元。例如,單元可以允許隨機存取點雲內容(如,用於廣告插入與/或其他基於時間的媒體處理)。例如,V-PCC可以包括一組V-PCC單元,如N18180中所描述的,“ISO/IEC 23090-5: Study of CD of Video-based Point Cloud Compression (V-PCC)”,Marrakech, MA (2019年1月),其內容在此藉由參考納入其中。第8圖示出了根據一些實施例的包括一組V-PCC單元804的V-PCC位元流802。每一V-PCC單元804具有V-PCC單元標頭(header)以及V-PCC單元負載,如V-PCC單元804A所示,其包括V-PCC單元標頭以及V-PCC單元負載。V-PCC單元標頭描述了V-PCC單元類型。V-PCC單元負載可以包括序列參數集806、修補序列資料808,佔用視訊資料810、幾何視訊資料812以及屬性視訊資料814。如圖所述,修補序列資料單元808可以包括一個或多個修補序列資料單元816(如在這一非限制性示例中,序列參數集、幀參數集、幾何參數集、屬性參數集、幾何修補參數集、屬性修補參數集與/或修補資料)。
在一些示例中,佔用、幾何以及屬性視訊資料單元負載810、812、814分別對應於可以由視訊解碼器解碼的指定於對應的佔用、幾何以及屬性參數集V-PCC單元的視訊資料單元。參考修補序列資料單元類型,V-PCC認為整個3D定界框(如,第5圖中的502)為立體,以及將該立體上的一個表面上的投影考慮為修補(如,以致每一邊可以有六個修補)。因此,修補資訊可以用於指示如何編碼修補並且彼此如何關聯。
第9圖示出了根據一些實施例的基於ISOBMFF的V-PCC容器(container)900。例如,容器900可以記錄於點雲資料攜帶的最新工作草案N18266m“WD of ISO/IEC 23090-10 Carriage of PC data”中,Marrakech, MA. 2019年1月,其內容在此藉由參考納入其中。如圖所示,V-PCC容器900包括元資料框902以及電影框904,其包括V-PCC參數軌道906、幾何軌道908、屬性軌道910以及佔用軌道912。因此,電影框904包括通用軌道(如,幾何、屬性以及佔用軌道),以及單獨的元資料框軌道902包括參數以及分組資訊。
如示例性示例,元資料框902的GroupListBox 902A的EntityToGroupBox 902B包含對實體的一列參考,其在這一示例中包括對V-PCC參數軌道906、幾何軌道908、屬性軌道910以及佔用軌道912的一列參考。裝置使用這些參考軌道來共同地重新構造底層點雲內容的版本(如,具有某些品質)。
各種結構可以用於攜帶點雲內容。例如,如N18479中所描述的,標題為“Continuous Improvement of Study Test of ISO/IEC CD 23090-5 Video-based Point Cloud Compression”,瑞士加內瓦(2019年3月),其內容在此藉由參考納入其中,V-PCC位元流可以包含如第8圖所示的一組V-PCC單元。在一些實施例總,每一V-PCC單元可以V-PCC單元標頭以及V-PCC單元負載。V-PCC單元標頭描述了V-PCC單元類型。
如本文所描述的,佔用、幾何以及屬性視訊資料單元負載對應於對應的佔用、幾何以及屬性參數集V-PCC單元中指定的視訊資料單元,其可以由視訊解碼器來解碼。如N18485所描述的,標題為“V-PCC CE 2.19 on tiles”,瑞士加內瓦(2019年3月),其內容在此藉由參考納入其中,核心實驗(CE)可以用於調查V-PCC圖塊用於N18479中指定的基於視訊的PCC,用於滿足並行編碼與解碼、空間隨機存取以及基於ROI的修補包裝的需求。
V-PCC圖塊可以是3D定界框、2D定界框、一個或多個獨立的編碼單元(ICU)與/或等同的結構。例如,這可以結合第5圖的示例進行描述並在m46207中描述,標題為“Track Derivation for Storage of V-PCC Content in ISOBMFF”,Marrakech, MA (2019年1月),其內容在此藉由參考納入其中。在一些實施例中,3D定界框可以是3個維度中給定點集合的最小封閉框。具有矩形管線形狀的3D定界框可以由兩個3元組表示。例如,兩個3元組可以包括三個維度中每一邊緣的原點以及長度。在一些實施例中,2D定界框可以包是對應於(如,3D空間中)3D定界框的(如,給定視訊中)最小封閉框。具有矩形形狀的2D定界框可以由兩個3元組表示。例如,兩個2元組可以包括兩個維度中每一邊緣的原點以及長度。在一些實施例中,在視訊幀的2D定界框中可以有一個或多個獨立的編碼單元(ICU)。獨立的編碼單元可以在不具有相鄰編碼單元依賴性的情況下被編碼或解碼。
在一些實施例中,3D以及2D定界框可以分別被子拆分成3D子立體區域以及2D子圖像(如,m46207中所提供的的,“Track Derivation for Storage of V-PCC Content in ISOBMFF”,Marrakech, MA. (2019年1月)以及m47355,“On Track Derivation Approach to Storage of Tiled V-PCC Content in ISOBMFF”,瑞士加內瓦,(2019年3月),其內容在此藉由參考納入其中),因此,從系統的觀點來看,為了支援視口依賴的用於V-PCC媒體內容的媒體處理,它們變成所需要的也足夠精細的ICU用於遞送和呈現,如m 46208中所述。
如上所描述的,第6圖示出了3D子立體分解的基於八叉樹的拆分,以及第7圖示出了2D子圖像分解的基於四叉樹拆分。
四叉樹被認為是3D八叉樹的2D模擬,以及最經常用於分割2D以及3D空間,藉由遞迴地將2D以及3D空間子拆分成四個象限以及八個象限或區域。
出於分塊V-PCC媒體內容的目的,子拆分的2D圖像以及3D區域可以是正方形形狀、立體形狀、矩形形狀與/或可以具有任意形狀。此外,沿著每一維度的拆分可以不需要是二元的。因此,最遠2D/3D定界框的每一拆分樹可以比四叉樹與/或八叉樹更通用。從端對端的系統視角看,不管形狀,拆分樹中每一葉子圖像或區域可以表示ICU(如,2D或3D定界框內),對於支援視口依賴的處理,其可以包括遞送以及渲染(如m46208所描述的),其中最小數目的ICU可以被空間隨機可存取的用於覆蓋可能動態移動的視口,例如,由使用者在觀看裝置上控制或基於來自編輯器的推薦。
發明人已經理解使用傳統點雲容器技術的各種不足。例如,考慮到對分塊V-PCC媒體內容的上述考慮,基於ISOBMFF的V-PCC容器的結構變得不恰當(如,如第9圖示出的與/或N18413所描述的V-PCC容器,標題為“WD of ISO/IEC 23090-10 Carriage of PC data”,瑞士加內瓦(2019年3月),其內容在此藉由參考納入其中)。例如,用於傳統的基於ISOBMFF的V-PCC容器的子拆分的2D子圖像以及3D子區域的每一葉節點需要被攜帶為有效基本V-PCC媒體軌道,以及每一非葉節點也需要被攜帶為有效合成V-PCC媒體軌道。
發明人已經理解,其需要提供技術用於使用各自的修補軌道編碼與/或解碼點雲視訊資料,每一修補軌道編碼單個沉浸式媒體結構中點雲內容的相關不同部分。本文描述的技術提供新的點雲內容結構,其利用單獨的修補軌道來打碎以及編碼原始沉浸式媒體內容(如,其可以包括2D與/或3D點雲內容),以致多個修補軌道可以被包括於沉浸式媒體結構以及可以共用一個或多個共同基本資料軌道(如,包括一個或多個幾何、屬性與/或佔用軌道)。
在本發明的一些實施例中,基於修補軌道的容器結構(如,ISOBMFF V-PCC容器結構)可以用於存儲V-PCC媒體內容。基於修補軌道的容器結構可以指定各自的V-PCC修補軌道,其編碼資料用於點雲內容的不同部分,同時共用一些與/或所有相同的基本資料軌道(如,包括一個或多個幾何、屬性與/或佔用)。例如,基於修補軌道的容器結構可以用作所推導的基於軌道的結構的替換,如m46207以及m47355所描述的。在一些實施例中,當V-PCC媒體內容在V-PCC層級或系統層級被子拆分時,可以使用修補軌道2D/3D空間分組機制,如藉由使用2D子圖像以及3D子區域分組機制。例如,技術可以使用m47335中所描述的2D子圖像以及3D子區域分組機制,標題為“Signaling of 2D and 3D spatial relationship and sample groups for V-PCC Sub-Volumetric Tracks in ISOBMFF”,瑞士加內瓦(2019年3月),其內容在此藉由參考納入其中。
根據一些實施例,點雲容器結構(如基於修補軌道的ISOBMFF容器結構)可以用於存儲V-PCC媒體內容。根據一些實施例,(如,“2dcc”以及“3dcc”類型的)軌道組以及樣本組可以用於發信V-PCC圖塊(或子拆分)的修補組的3D/2D空間關係。例如,m47335公開的軌道組可以用於發信V-PCC內容的2D/3D空間關係。第10圖是根據一些實施例的容器結構1000的示例性圖式,用於ISOBMFF中V-PCC內容的基於修補軌道的儲存。圖式1000基於V-PCC位元流結構(如,N18485提供的)。在這一ISOBMFF容器結構1000中,V-PCC分量資料單元可以被存儲於它們各自的軌道(如N18413所描述的),而不需要必須參考其他軌道的參數(元資料)軌道。如這一示例示出的,容器結構1000中其他的軌道可以包括參數軌道1002,其可以包含V-PCC定義的定時元資料(例如,參數集合與/或輔助資訊),包含幾何資料的視訊編解碼基本流的一個或多個幾何視訊軌道1004、包含用於屬性資料的視訊編解碼基本流的一個或多個屬性視訊軌道1006、包含佔用圖資料的視訊編解碼的基本流的佔用圖視訊軌道1008。V-PCC媒體軌道可以被編碼為具有新媒體(處理器)類型“volm”的單個修補軌道,其可以作為V-PCC內容的條目點。這一軌道可以參考分量軌道,其可以包括參數軌道、幾何視訊軌道、屬性軌道、佔用視訊軌道與/或等等。
根據一些實施例,V-PCC媒體內容可以被分塊。V-PCC分塊或子拆分方法包括修補層級分割、3D網格拆分與/或等等。關於基於修補軌道的ISOBMFF V-PCC容器結構,這些方法對應於具有多個修補軌道的單個容器以及具有單個修補軌道的多個容器。
在一些實施例中,V-PCC分塊可以使用修補層級分割方法來完成,其中多個圖塊修補軌道可以在單個容器來創造,然而其他分量軌道(如,分量、幾何、屬性與/或佔用軌道)保留完整。第11圖是根據一些實施例的V-PCC修補層級分割的示例性圖式。根據修補層級分割方法,多個圖塊修補(如包括1101、1102以及1103)可以在單個容器1100內被創造。每一圖塊修補軌道可以與相關的分割V-PCC內容相關。V-PCC內容(如V-PCC圖塊)可以是本文所描述以及如示例性第5圖所看到的3D定界框、2D定界框與/或一個或多個ICU。
在一些實施例中,V-PCC分開可以使用3D網格拆分方法來完成,其中每一3D圖塊可以在系統層被單獨認為是有效的V-PCC媒體內容,並因此被封裝於單個ISOBMFF容器中。因此,這種技術可以生成修補軌道與其他分量軌道一起的多個容器。第12圖示出了根據本發明一些實施例的單個V-PCC軌道1202、1204以及1206(如,來自第11圖),如與分量軌道相關聯的,例如包括參數軌道1208、幾何軌道1210、屬性軌道1212與/或佔用軌道1214。將能理解,雖然第12圖示出了每一圖塊的相同分量軌道的多個集合(如參數1208、幾何1210與/或佔用軌道1214)用於每一圖塊,第12圖僅用於說明的目的來示出在系統層級每一圖塊可以被考慮為其自身的有效的V-PCC媒體內容。軌道結構應該僅包括第11圖示出的分量軌道的一個集合。
根據一些實施例,技術與V-PCC媒體內容的分塊的修補軌道的空間分組有關。在一些示例中,2D與3D空間關係與/或樣本組可以用於空間分組。例如,2D與3D空間關係與V-PCC子立體軌道的樣本組可以被發信,如m47335中所描述的用於ISOBMFF的技術。例如,在2D情況下,具有軌道分組類型“2dcc”的“通用子圖像軌道分組延伸”(如,N18227的節7.1.11所描述的)可以用於2D圖塊。如另一個示例,對於3D情況,具有軌道分組類型“3dcc”的“通用子立體軌道分組延伸”可以用於3D圖塊。
第11圖示出了本文所討論的空間分組技術的示例。軌道組1105被示出包含另一個軌道組1106。例如,如圖所示,不同組中的圖塊修補(包括1101、1102以及1103)可以被在單個容器1100中被創造。V-PCC網格圖塊的空間分組可以由對應的圖塊軌道的空間分組來實現(即,藉由將對應的3D分組框(grouping box)類型“3dcc”與/或對應的2D分組框類型“2dcc”放置在圖塊分組內)。因為每一者與分量軌道(參數1208、幾何軌道1210、屬性軌道1212與/或佔用軌道1213)相關聯,第12圖的軌道組1216以及1218示出了屬於一個或多個軌道組(如來自第11圖)的單個V-PCC軌道1202、1204以及1206。
第13圖示出了根據一些實施例的,基於第6圖示出的用於3D子立體分解的示例性基於八叉樹的拆分的子立體(葉節點)軌道的三個“3dcc”軌道組。參考第13圖,例如,三個“3dcc”軌道組包括軌道組1301(包含非葉合成軌道以及也軌道)以及軌道組1302以及1303(兩者都包含葉軌道)。組內的軌道可以被視為屬於相同空間部分的一部分。例如,組1302中多個軌道的每一者提供空間部分1305的相關部分,以及組1303中多個軌道的每一者提供空間部分1306的相關部分。軌道組可以包含一個或多個其他組,如第13圖以及第14圖所示出的(如,組1302以及1303被包含於第13圖的1301中,組1402以及1403被包含於第14圖的1401中)。根據一些實施例,“3dcc”軌道組可以包括其他組以致如果第一組(如1301)包含第二組(如,1302、1303),對應於第一組(如1301)的沉浸式媒體內容的空間部分包含對應於第二組的沉浸式媒體內容的空間部分。對應於屬於第二組(如,1302、1303)的修補軌道的沉浸式媒體的空間部分可以因此是對應於第一組(如,1301)的修補軌道的沉浸式媒體內容的空間部分的較小立體。例如,分別指定較小空間部分1305以及1306的1302以及1303的葉軌道指定由軌道組1301指定的較大空間部分1307的空間部分。
第14圖示出了根據本發明一些實施例的基於第7圖示出的用於2D子圖像分解的示例性基於四叉樹拆分的子立體(葉節點)軌道的三個“2dcc”軌道組。例如,第14圖示出了三個“2dcc”軌道組包括軌道組1401(包含非葉合成軌道以及葉軌道)以及包括軌道組1402以及1403(兩者都包括葉軌道)。相同組內的軌道可以被視為屬於相同空間部分的一部分。例如,組1402中的軌道每一者提供空間部分1405的相關部分,以及組1403中的軌道每一者提供空間部分1406的相關部分。根據一些實施例,“2dcc”軌道組可以包括其他組,以致如果第一組(如,1401)包含第二組(如,1402、1403),對應於第一組(如,1401)的沉浸式媒體內容的空間部分包含對應於第二組(如,1402、1403)的沉浸式媒體內容的空間部分。對應於屬於第二組(如,1402、1403)的修補軌道的沉浸式媒體內容的空間部分可以因此尺寸小於對應於第一組(如,1401)的修補軌道的沉浸式媒體內容的空間部分。例如,每一者分別指定較小的空間部分1405以及1406的1402以及1403的葉軌道指定由軌道組1401指定的較大空間部分1407的空間部分。根據3D以及2D軌道分組機制,八叉樹分解中的示例子立體軌道1300與1400以及四叉樹分解中的子圖像軌道可以被說明性的分組成多個(在每一示例中為3)“3dcc”以及“2dcc”軌道組,如第13圖以及第14圖所示出的。根據一些實施例,當點雲媒體內容根據本文所描述的技術來存儲時(如,當V-PCC媒體內容被存儲於本文所描述的基於修補軌道的ISOBMFF容器時)。在一些實施例中,當點雲內容使用下文所討論的方法進行分塊時,V-PCC圖塊的空間分組可以由對應的圖塊修補軌道的空間分組來實現,即,藉由在圖塊修補軌道內放置對應的“2dcc”以及“3dcc”類型的2D/3D分組框。
在一些實施例中,技術與修補層級分割有關。例如,V-PCC分塊可以使用本文所描述的修補層級分割技術來完成。例如,如本文所描述的,可以在單個容器裡創建一個多圖塊修補軌道,而其他分量軌道可以保持完整。這些圖塊修補軌道的空間關係可以由其包含的(如“2dcc”類型、 “3dcc”類型)2D/3D分組框來發信,這取決於圖塊(子拆分)層級的數目,可以處於多個層級。
在一些實施例中,技術與3D網格拆分有關。例如,V-PCC分塊可以使用本文所描述的3D網格拆分技術來完成。例如,每一3D圖塊可以在系統層級被考慮為其自身的有效的V-PCC媒體內容,以及因此可以被封裝於單個ISOBMFF容器中。因此,技術可以生成修補軌道與其他分量軌道一起的多個容器。這些圖塊修補軌道的空間關係可以在它們的容器中,取決於圖塊或子拆分的級別的數量,可以處於多個級別,可以由它們包含的(例如,類型“2dcc”和類型“3dcc”)2D/3D分組框來發信。
V-PCC圖塊可以是3D定界框、2D定界框、一個或多個單獨的編碼單元(ICU)、與/或相等的結構,其中在本文討論了這些結構的一些實施例。如本文所討論的,V-PCC圖塊內的點雲內容可以對應於V-PCC位元流或一個潛在的多修補資料組(如2019年6月13-14舉行的V-PCC系統臨時會議所討論的)。例如示出於第8圖,其說明的V-PCC位元流結構的示例。
根據一些實施例,點雲可以被子拆分成多個子點雲(或CE 2.19中的V-PCC圖塊)用於部分遞送以及存取(如,m48109所描述的,“Signaling of 2D and 3D Spatial Relationship of V-PCC Tiles for their Partial Access and Delivery”),Gothenburg,SE(2019年7月)以及N18414,“Technologies Under Consideration for Carriage of Point Cloud Data”,瑞士加內瓦(2019年3月),其內容在此藉由參考納入其中)。在一些實施例中,子點雲可以在V-PCC位元流層級或修補資料組層級被發信以及被封裝。
子點雲可以以各種方式發信。在一些實施例中,子點雲可以在V-PCC位元流與/或修補資料組層級被發信,來分別在ISOBMFF軌道的多個組中封裝子點雲的V-PCC內容。在一些實施例中,每一組可以對應於V-PCC位元流,以及在多個ISOBMFF軌道的情況下,每一組可以對應於相同V-PCC位元流內的修補資料組。
在一些實施例中,發信子點雲(用於V-PCC圖塊)的6DoF坐標可以發生於V-PCC位元流中(如N18479所描述的)。根據本文所描述的技術,子點雲6DoF坐標集合可以被添加到V-PCC位元流SPS以及PSPS(patch sequence parameter set,修補序列參數集)語法。例如,如N18479中所提供的,可以以general_sequence_parameter_set())(如N18479的節7.3.4.1所描述的)、patch_sequence_parameter_set()(如N18479的節7.3.5.3所描述的)的形式添加子點雲6DoF坐標集合。
在一些實施例中,可以在幾何相關的資料集合中發信子點雲。在一些實施例中,可以在位元流層級(如,N18479的節7.3.4.4所描述的)與/或修補資料組層級(如,N18479的節7.3.5.4以及7.3.5.5所描述的)添加幾何相關的語法。在子點雲在V-PCC位元流以及其修補資料組的兩個層級發信的情況下,在
修補資料組層級的這些可以被考慮為在位元流層級的子點雲。
第15圖示出了根據一些實施例的子點雲。如第15圖所示,子點雲1520可以被認為是由點雲1510使用的3D定界框包圍,其可以具有相對於共同參考6DoF坐標系統1530的一位置(如(x,y,z))、一尺寸(如(寬度、高度、深度))以及可以被旋轉(如(偏航、俯仰、翻滾))。
第16圖示出了根據一些實施例的V-PCC子點雲6DoF坐標1600的示例性語法。語法包含指示與本文所描述的位置、尺寸以及旋轉有關的欄位。將能理解,雖然第16圖示出了示例性語法,這僅是說明的目的以及不旨在進行限制。可以在不背離本文所描述技術的情況下來使用各種其他欄位、命名規格等等。
spc_position_x欄位1601可以在定界框的所有8個頂點中指定具有最小x坐標值的子點雲的3D定界框的頂點的x坐標位置。spc_position_y欄位1602可以在定界框的所有8個頂點中指定具有最小y坐標值的子點雲的3D定界框的頂點的y坐標位置。spc_position_z欄位1603可以在定界框的所有8個頂點中指定具有最小z坐標值的子點雲的3D定界框的頂點的z坐標位置。spc_rotation_yaw欄位1604可以用於指定沿著z坐標軸的子點雲的3D定界框的偏航旋轉角度。spc_rotation_pitch欄位1605可以用於指定沿著y坐標軸的子點雲的3D定界框的俯仰旋轉角度。spc_rotation_roll欄位1606可以用於指定沿著x坐標軸的子點雲的3D定界框的翻滾旋轉角度。spc_size_width欄位1607可以用於指定沿著x坐標軸的子點雲的3D定界框的尺寸長度。spc_size_heitght欄位1608可以用於指定沿著y坐標軸的子點雲的3D定界框的尺寸長度。spc_size_depth欄位1609可以用於指定沿著z坐標軸的子點雲的3D定界框的尺寸長度。
第17圖示出了根據一些實施例的用於解碼沉浸式資料的視訊資
料的示例性方法。該方法包括在步驟1701存取與/或接收沉浸式媒體資料,該沉浸式媒體資料包括多個修補軌道,包括至少(a)第一修補軌道以及(b)第二修補軌道,該第一修補軌道包括對應於沉浸式媒體內容的第一空間部分的已編碼沉浸式媒體,該第二修補軌道包括對應於沉浸式媒體內容的第二空間部分的已編碼沉浸式媒體資料。該沉浸式媒體資料還包括(c)基本資料軌道,該基本資料軌道包括沉浸式媒體基本資料。如本文所描述的,例如,基本資料軌道可以是參數軌道、幾何軌道、紋理軌道與/或佔用軌道。該第一修補軌道、該第二修補軌道或兩者參考基本資料軌道。該沉浸式媒體資料還包括(d)分組資料(group data),該分組資料指定沉浸式媒體內容中第一修補軌道與第二修補軌道之間空間關係。
在步驟1702,該方法包括基於該第一修補軌道、該第二修補軌道、該基本資料軌道以及該分組資料執行一解碼操作來生成已解碼沉浸式媒體資料。該沉浸式媒體內容可以是點雲多媒體。
根據一些實施例,修補軌道(如,第17圖的第一以及第二修補軌道)包括分組資料的相關部分,其指示該修補分組是一個或多個修補軌道組的一部分。當有多於一個組時,一些情況中的組包括一個或多個其他分組,如第13圖以及第14圖所示的(如,第13圖所包含的組1302以及1303、第14圖所包含的組1402以及1403)。當有多於一個分組時,以致第一組包含第二組,對應於該第一組的沉浸式媒體內容的空間部分包含對應於該第二組的沉浸式媒體內容的空間部分。
如在示例性方法1700的步驟1701中存取沉浸式媒體資料包括存取一個或多個幾何軌道中的幾何資料,一個或多個屬性軌道中的屬性資料,與/或佔用軌道的佔用圖資料。在1702中執行沉浸式媒體軌道推導操作包括對該幾何資料、該屬性資料以及該佔用圖資料執行沉浸式媒體軌道推導操作來生成已
解碼沉浸式媒體資料。
沉浸式媒體資料可以是已編碼的二維(2D)資料與/或已編碼的三維(3D)資料。如本文所描述的(如,結合第16圖),沉浸式媒體資料可以包括指定已編碼三維(3D)子立體資料的空間方向的資料。例如,該資料可以指定已編碼三維(3D)子立體資料的位置(如,(x,y,z)坐標)與/或已編碼三維(3D)子立體資料的寬度、高度以及深度所描述的尺寸。在一些實施例中,資料進一步包括關於共同參考坐標系統的已編碼三維(3D)子立體資料的旋轉(如(偏航、俯仰、翻滾))。
如本文所討論的,技術可以類似地用於編碼視訊內容。例如,第18圖示出了根據一些實施例的示例性方法1800用於編碼沉浸式資料的視訊資料。該方法包括步驟1802,在其中編碼一第一修補軌道,以及步驟1804,在其中編碼一第二修補軌道,其中該第一以及第二修補軌道每一者包括沉浸式媒體資料,該沉浸式媒體資料分別對應於沉浸式媒體內容的第一以及第二空間部分,以及步驟1806對應於編碼包括沉浸式媒體基本資料的基本資料軌道。該第一修補軌道、該第二修補軌道或兩者參考基本資料軌道。該方法進一步包括步驟1808,在其中編碼分組資料。编码分组数据,
本文描述了各種示例性語法以及用例,其是說明性的目的並不旨在進行限制。將能理解,僅這些示例性欄位的子集可以被用於特定區域與/或其他欄位可以被使用,以及欄位元可以不需要包括本文用於描述性目的的欄位元名稱。例如,語法可以忽略一些欄位與/或可以不構成一些欄位(如,或構成具有無效值的欄位)。又例如,在不背離本文所描述技術精神的情況下,其他語法與/或分類可以被使用。
根據本文所描述原理操作的技術可以以任何合適的方式實施。以上流程圖的處理以及決定塊呈現了包括於實施各種進程的演算法的步驟以及動作。從這些進程推導的演算法可以被實施為指導一個或多個單功能或多功能處
理器操作、可以被實施為如數位信號處理(DSP)電路或專用積體電路(ASIC)的功能等同電路、或者可以以任何合適的方式實施。將能理解,本文所包括的流程圖不描繪任何特定電路或任何特定編碼語言或程式設計語言類型的語法或操作。而且,流程圖說明瞭功能資訊,本領域具體通常知識者可以用於製造電路或來實施電腦軟體演算法來執行實施本文所描述技術類型的特定裝置的處理。將能理解,除非本文另有指示,每一流程圖中所描述的步驟與/或動作的特定序列僅是演算法的說明,其可以被實施以及可以在本文所描述原理的是實施方式和實施例中變化。
因此,在一些實施例中,本文所描述的技術可以以實施為軟體的電腦執行的指令來呈現,包括應用軟體、系統軟體、韌體、仲介軟體、嵌入式代碼或任何其他合適類型的電腦代碼。這種電腦執行的指令可以使用任何數目合適的程式設計語言與/或程式設計或腳本工具來寫入,以及也可以被編碼為在框架或虛擬機器上執行的機器語言代碼或中間代碼。
當在此描述的技術被實現為電腦可執行指令時,這些電腦可執行式指令可以以任何合適的方式來實現,包括作為多個功能設施,每個功能設施提供一個或多個操作以完成根據這些技術操作的演算法的執行。無論如何產生實體,“功能設施”是電腦系統的結構元件,當與一個或多個電腦整合並由其執行時,該結構元件使該一台或多台電腦執行特定的操作角色。功能設施可以是軟體元素的一部分或整個軟體元素。例如,功能設施可被實現為過程的功能,或實現為離散進程,或者實現為任何其他合適的處理單元。如果在此描述的技術被實現為多個功能設施,則每個功能設施可以其自己的方式來實現;所有功能設施不需要以相同的方式實現。另外,這些功能設施可以適當地並行地和/或串列地執行,並且可以使用它們在其上執行的電腦上的共用記憶體、使用消息傳遞協定、或以任何其他合適的方式在彼此之間傳遞資訊。
通常,功能設施包括執行特定任務或實現特定抽象資料類型的常式、程式、物件、元件、資料結構等。典型地,功能設施的功能可以根據需要組合或分佈在它們操作的系統中。在一些實現中,執行本文中的技術的一個或多個功能設施可以一起形成完整的套裝軟體。在替代實施例中,這些功能設施可適於與其它無關的功能設施和/或過程交互,以實現軟體程式應用。
這裡已經描述了用於執行一個或多個任務的一些示例性功能設施。然而,應當理解,所描述的功能設施和任務劃分僅僅是可實現本文中所述的示例性技術的功能性設施的類型的說明,並且實施例不限於以任何特定數目、劃分或類型的功能設備來實現。在一些實現中,可以在單個功能設施中實現所有功能。還應當理解,在一些實施方式中,本文描述的功能設施中的一些功能設施可以與其它功能設施一起實施或分開實施(即,作為單個單元或單獨單元),或者這些功能設施的一些可能不被實施。
在一些實施例中,實現本文描述的技術的電腦可執行指令(當被實現為一個或多個功能設施或以任何其他方式時)可以被編碼在一個或更多個電腦可讀介質上以向介質提供功能。電腦可讀介質包括諸如硬碟驅動器之類的磁介質、諸如光碟(CD)或數位多功能盤(DVD)之類的光學介質、持久或非持久固態記憶體(例如,快閃記憶體、磁RAM等)、或任何其他合適的存儲介質。這樣的電腦可讀介質可以以任何合適的方式來實現。如本文所使用的,“電腦可讀介質”(也稱為“電腦可讀存儲介質”)是指有形存儲介質。有形存儲介質是非瞬態的,並且具有至少一個物理、結構元件。在本文所使用的“電腦可讀介質”中,至少一個物理結構元件具有至少一個可在創建具有嵌入資訊的介質的過程、在其上記錄資訊的過程或用資訊編碼介質的任何其它過程期間以某種方式改變的物理特性。例如,可以在記錄過程期間改變電腦可讀介質的物理結構的一部分的磁化狀態。
此外,上述一些技術包括以某些方式存儲資訊(例如,資料和/或指令)以供這些技術使用的動作。在這些技術的一些實現中,諸如其中這些技術被實現為電腦可執行指令的實現-資訊可以被編碼在電腦可讀存儲介質上。在這裡將特定結構描述為存儲該資訊的有利格式的情況下,當在存儲介質上編碼時,這些結構可以用於賦予資訊的物理組織。然後,這些有利結構可以通過影響與資訊交互的一個或多個處理器的操作來向存儲介質提供功能;例如,通過提高由處理器執行的電腦操作的效率。
在其中所述技術可體現為電腦可執行指令的一些但不是全部實現中,這些指令可在在任何合適的電腦系統中操作的一個或多個合適的計算設備上執行,或者一個或更多個計算設備(或一個或一個以上計算設備的一個或者多個處理器)可被程式設計以執行所述電腦可實施指令。計算設備或處理器可被程式設計為當指令以計算設備或者處理器可訪問的方式被存儲時執行指令,諸如在資料存儲中(例如,片上快取記憶體或者指令寄存器、可經由匯流排訪問的電腦可讀存儲介質、可通過一個或多個網路訪問的並且可由設備/處理器訪問等)。包括這些電腦可執行指令的功能設施可以與單個多用途可程式設計數位計算設備、共用處理能力並共同執行本文所述技術的兩個或更多個多用途計算設備的協調系統、專用於執行本文中所述的技術的單個計算設備或計算設備協調系統(共處一地或地理分佈的)集成並指導其操作。一個或多個現場可程式設計閘陣列(FPGA),用於執行在此描述的技術,或任何其它合適的系統。
計算設備可包括至少一個處理器、網路介面卡和電腦可讀存儲介質。計算設備可以是例如臺式或膝上型個人電腦、個人數位助理(PDA)、智慧行動電話、伺服器或任何其他合適的計算設備。網路介面卡可以是任何合適的硬體和/或軟體,以使計算設備能夠通過任何合適計算網路與任何其他合適的計算設備有線和/或者無線地通訊。計算網路可包括無線接入點、交換機、路由器、
閘道、和/或其它聯網設備以及用於在兩個或更多個電腦(包括網際網路)之間交換資料的任何合適的有線和/或者無線通訊介質。電腦可讀介質可適於存儲要處理的資料和/或要由處理器執行的指令。處理器能夠處理資料和執行指令。資料和指令可以存儲在電腦可讀存儲介質上。
計算設備可另外具有一個或多個元件和週邊設備,包括輸入和輸出設備。這些設備尤其可以用於呈現使用者介面。可用於提供使用者介面的輸出設備的示例包括用於輸出的可視呈現的印表機或顯示幕以及用於輸出可聽呈現的揚聲器或其他聲音生成設備。可用於使用者介面的輸入裝置的示例包括鍵盤和定點設備,諸如滑鼠、觸控板和數位化平板電腦。作為另一示例,計算設備可藉由語音辨識或以其他可聽格式接收輸入資訊。
已經描述了在電路和/或電腦可執行指令中實現這些技術的實施例。應當理解,一些實施例可以是方法的形式,已經提供了該方法的至少一個示例。作為方法的一部分而執行的動作可以以任何合適的方式來排序。因此,可構造其中以不同於所說明的次序執行動作的實施例,其可包含同時執行一些動作,即使在說明性實施例中展示為順序動作。
上述實施例的各個方面可單獨使用、組合使用或以在前述實施例中未具體論述的各種佈置使用,且因此其應用不限於前述說明中所闡述或圖式中所說明的元件的細節及佈置。例如,在一個實施例中描述的方面可以以任何方式與在其他實施例中說明的方面相組合。
在申請專利範圍中使用諸如“第一”,“第二”、“第三”等序數術語來修改申請專利範圍要素本身並不意味著一個申請專利範圍單元相對於另一個的任何優先順序、優先順序或順序或者執行方法動作的時間順序。而是僅用作將具有某一名稱的一個申請專利範圍元素與具有相同名稱的另一元素區分開的標籤(但用於序號),以區分申請專利範圍的元素。
而且,本文所使用的措辭和術語是為了描述的目的,而不應被認為是限制。在此使用“包括”、“包含”、“具有”,“含有”、“涉及”及其變化形式是指包括此後列出的專案及其等同物以及附加項目。
這裡使用的詞語“示例性的”意思是用作示例、實例或說明。因此,本文中作為示例性描述的任何實施例、實施方式、工藝、特徵等應當被理解為說明性示例,而不應當理解為優選或有利示例,除非另有指示。
因此已經描述了至少一個實施例的幾個方面,應當理解,本領域技術人員將容易想到各種改變、修改和改進。這些改變、改變和改進旨在成為本公開內容的一部分,並且旨在落入本文所述原理的精神和範圍內。因此,前面的描述和附圖僅作為示例。
102A~102N:攝像機
104:編碼裝置
106:視訊處理器
108:編碼器
110:解碼裝置
112:解碼器
114:渲染器
116:顯示器
201:球面視口
202~214:塊
302:用戶端
304:點雲媒體內容
306:解析器
308:視訊位元流
310:視訊解碼器
314:視訊到3D點雲轉換器
316:渲染器
318:顯示器
320:使用者交互資訊
400:自由視圖路徑
402:場景
502~516:定界框
602:3D定界框
604~608:子區域
612~616、650~654:節點
702:2D定界框
704~708:704
712~716、750~754:點
802:V-PCC位元流
804~804A:V-PCC單元
806:序列參數集
808:修補序列資料
810:佔用視訊資料
812:幾何視訊資料
814:屬性視訊資料
816:修補序列資料單元
902:元資料框
904:電影框
906:V-PCC參數軌道
908:幾何軌道
910:屬性軌道
912:佔用軌道
902A~902B:框
1010:VPCC軌道
1002:參數軌道
1004:幾何視訊軌道
1006:屬性視訊軌道
1008:佔用圖視訊軌道
1101~1103:圖塊修補
1105、1106:軌道組
1202~1206:V-PCC軌道
1208:參數軌道
1210:幾何軌道
1212:屬性軌道
1214:佔用軌道
1216、1218:軌道組
1305~1307:空間部分
1301~1303:軌道組
1401~1403:軌道組
1406~1407:空間部分
1510:點雲
1520:子點雲
1530:坐標系統
1601~1609:語法元素
1701~1702、1802~1808:步驟
在附圖中,在各種圖式中示出的每一相同或近似的元件由相同的參考符號表示。出於簡便的目的,不是每一元件都在每一附圖中被標記。圖式不需要按比例繪製,重點在於說明本文所描述的技術以及裝置的各個方面。
第1圖示出了根據一些實施例的示例性視訊編解碼配置。
第2圖示出了根據一些實施例的用於VR內容的視口依賴的內容流處理。
第3圖示出了根據一些實施例的用於點雲內容的示例性處理流程。
第4圖示出了根據一些實施例的自由觀看路徑的示例。
第5圖示出了根據一些實施例的示例性點雲圖塊,包括3D以及2D包圍盒(bounding boxes)。
第6圖示出了根據一些實施例的用於3D子立體(sub-volumetric)分解的示例性基於八叉樹的分割。
第7圖示出了根據一些實施例的用於2D子圖像分解的示例性基於四叉樹的分割。
第8圖示出了根據一些實施例的由一組V-PCC單元組成的V-PCC位元流。
第9圖示出了根據一些實施例的基於ISOBMFF的V-PCC容器(container)。
第10圖示出了根據一些實施例的旨在支持軌道推導的點雲結構的示例。
第11圖示出了根據一些實施例的V-PCC修補級分割的示例。
第12圖示出了V-PCC軌道與分量軌道之間的相關性。
第13圖示出了根據一些實施例的基於第6圖示出的3D子立體分解的示例性基於八叉樹分割的子立體軌道的三個“3dcc”軌道組。
第14圖示出了根據一些實施例的基於第7圖示出的2D子圖像分解的示例性基於四叉樹的分割的子立體軌道的三個“2dcc”軌道組。
第15圖示出了根據一些實施例的示出子點雲的示例性圖示。
第16圖示出了根據一些實施例的V-PCC子點雲6DoF左邊的示例性語法。
第17圖示出了根據一些實施例的用於解碼沉浸式資料的視訊資料的示例性方法。
第18圖示出了根據一些實施例的用於編碼沉浸式資料的視訊資料的示例性方法。
1701~1702:步驟
Claims (18)
- 一種解碼沉浸式媒體的視訊資料的解碼方法,該方法包括:存取沉浸式媒體資料,該沉浸式媒體資料至少包括:一第一修補軌道,該第一修補軌道包括第一已編碼沉浸式媒體資料,其中該第一已編碼沉浸式媒體資料對應於沉浸式媒體內容的一第一空間部分;一第二修補軌道,該第二修補軌道包括第二已編碼沉浸式媒體資料,其中該第二已編碼沉浸式媒體資料對應於該沉浸式媒體資料的一第二空間部分,該第二空間部分不同於該第一空間部分;一基本資料軌道,該基本資料軌道包括第一沉浸式媒體基本資料,其中該第一修補軌道、該第二修補軌道或兩者參考該基本資料軌道;以及一分組資料,該分組資料指定該沉浸式媒體內容中該第一修補軌道與該第二修補軌道之間的一空間關係;以及基於該第一修補軌道、該第二修補軌道、該基本資料軌道以及該分組資料執行一解碼操作來生成已解碼沉浸式媒體資料;其中該第一修補軌道包括該分組資料的一第一相關部分,指示該第一修補軌道是一個或多個修補軌道組的一部分;以及該第二修補軌道包括該分組資料的一第二相關部分,指示該第二修補軌道是該一個或多個修補軌道組的一部分。
- 如請求項1所述之解碼沉浸式媒體的視訊資料的解碼方法,其中該一個或多個修補軌道組包括多個修補軌道組,至少包括:一第一修補軌道組,該第一修補軌道組對應於該沉浸式媒體內容的一第三空間部分,該第三空間部分包括該第一修補軌道的沉浸式媒體內容的該第一空間部分以及該第二修補軌道的沉浸式媒體內容的該第二空間部分; 一第二修補軌道組,對應於沉浸式媒體內容的一第四空間部分,其中:該第一修補軌道組包含該第二軌道組;以及沉浸式媒體內容的該第三空間部分包含沉浸式媒體內容的該第四空間部分。
- 如請求項1所述之解碼沉浸式媒體的視訊資料的解碼方法,其中該沉浸式媒體內容包括點雲多媒體。
- 如請求項1所述之解碼沉浸式媒體的視訊資料的解碼方法,其中該基本資料軌道包括:至少一個幾何軌道,包括該沉浸式媒體的幾何資料;至少一個屬性軌道,包括該沉浸式媒體的屬性資料;以及一佔用軌道,包括該沉浸式媒體的佔用圖資料,存取該沉浸式媒體資料包括:存取該至少一個幾何軌道中的該幾何資料;存取該至少一個屬性軌道中的該屬性資料;以及存取該佔用軌道中的該佔用圖資料;以及執行該解碼操作包括使用該幾何資料、該屬性資料以及該佔用圖資料執行該解碼操作來生成該已解碼沉浸式媒體資料。
- 如請求項1所述之解碼沉浸式媒體的視訊資料的解碼方法,其中該第一已編碼沉浸式媒體資料以及該第二已編碼沉浸式媒體資料包括已編碼二維資料。
- 如請求項1所述之解碼沉浸式媒體的視訊資料的解碼方法,其中該第一已編碼沉浸式媒體資料以及該第二已編碼沉浸式媒體資料包括已編碼三維資料。
- 如請求項6所述之解碼沉浸式媒體的視訊資料的解碼方法, 其中該沉浸式媒體資料進一步包括指定該已編碼三維資料的一空間方向的資料,該資料包括:一位置,包括該已編碼三維資料的x、y、z坐標;已編碼三維子立體資料的一寬度;該已編碼三維子立體資料的一高度;以及該已編碼三維子立體資料的一深度。
- 如請求項7所述之解碼沉浸式媒體的視訊資料的解碼方法,其中指定該已編碼三維資料的該空間方向的該資料進一步包括指示關於一共同參考坐標系統的該已編碼三維資料的旋轉的資料。
- 如請求項8所述之解碼沉浸式媒體的視訊資料的解碼方法,其中該旋轉資料包括指示偏航、俯仰以及翻滾的資料。
- 一種編碼沉浸式媒體的視訊資料的方法,該方法包括:編碼沉浸式媒體資料,包括編碼至少:一第一修補軌道,該第一修補軌道包括第一沉浸式媒體資料,其中該第一沉浸式媒體資料對應於沉浸式媒體內容的一第一空間部分;一第二修補軌道,該第二修補軌道包括第二沉浸式媒體資料,其中該第二沉浸式媒體資料對應於沉浸式媒體內容的一第二空間部分,該第二空間部分不同於該第一空間部分;一基本資料軌道,該基本資料軌道包括第一沉浸式媒體基本資料,其中該第一修補軌道、該第二修補軌道或兩者參考該基本資料軌道;以及一分組資料,該分組資料指定該沉浸式媒體內容中該第一修補軌道與該第二修補軌道之間的一空間關係;其中該第一修補軌道包括該分組資料的一第一相關部分,指示該第一修補軌道是一個或多個修補軌道組的一部分;以及該第二修補軌道包括該分組資料 的一第二相關部分,指示該第二修補軌道是該一個或多個修補軌道組的一部分。
- 一種用於解碼視訊資料的裝置,該裝置包括與記憶體通訊的一處理器,該處理器用於執行存儲於該記憶體中的指令使得該處理器執行一解碼方法,該方法包括:存取沉浸式媒體資料,該沉浸式媒體資料至少包括:一第一修補軌道,該第一修補軌道包括第一已編碼沉浸式媒體資料,其中該第一已編碼沉浸式媒體資料對應於沉浸式媒體內容的一第一空間部分;一第二修補軌道,該第二修補軌道包括第二已編碼沉浸式媒體資料,其中該第二已編碼沉浸式媒體資料對應於該沉浸式媒體內容的一第二空間部分,該第二空間部分不同於該第一空間部分;一基本資料軌道,該基本資料軌道包括第一沉浸式媒體基本資料,其中該第一修補軌道、該第二修補軌道或兩者參考該基本資料軌道;以及一分組資料,該分組資料指定該沉浸式媒體內容中該第一修補軌道與該第二修補軌道之間的一空間關係;以及基於該第一修補軌道、該第二修補軌道、該基本資料軌道以及該分組資料執行一解碼操作來生成已解碼沉浸式媒體資料;其中該第一修補軌道包括該分組資料的一第一相關部分,指示該第一修補軌道是一個或多個修補軌道組的一部分;以及該第二修補軌道包括該分組資料的一第二相關部分,指示該第二修補軌道是該一個或多個修補軌道組的一部分。
- 如請求項11所述之用於解碼視訊資料的裝置,其中該一個或多個修補軌道組包括多個修補軌道組,包括至少:一第一修補軌道組,該第一修補軌道組對應於沉浸式媒體內容的一第三空 間部分,該第三空間部分包括該第一修補軌道的沉浸式媒體內容的該第一空間部分以及該第二修補軌道的沉浸式媒體內容的該第二空間部分;一第二修補軌道組,該第二修補軌道組對應於沉浸式媒體內容的一第四空間部分,其中:該第一修補軌道組包含該第二修補軌道組;以及沉浸式媒體內容的該第三空間部分包含沉浸式媒體內容的該第四空間部分。
- 如請求項11所述之用於解碼視訊資料的裝置,其中該沉浸式媒體內容包括點雲多媒體。
- 如請求項11所述之用於解碼視訊資料的裝置,其中該基本資料軌道包括:至少一個幾何軌道,包括該沉浸式媒體資料的幾何資料;至少一個屬性軌道,包括該沉浸式媒體資料的屬性資料;以及一佔用軌道,包括該沉浸式媒體資料的佔用圖資料,存取該沉浸式媒體資料包括:存取該至少一個幾何軌道中的該幾何資料;存取該至少一個屬性軌道中的該屬性資料;以及存取該佔用軌道中的該佔用圖資料;以及執行該解碼操作包括使用該幾何資料、該屬性資料以及該佔用圖資料執行該解碼操作來生成該已解碼沉浸式媒體資料。
- 如請求項11所述之用於解碼視訊資料的裝置,其中該第一已編碼沉浸式媒體資料以及該第二已編碼沉浸式媒體資料包括已編碼三維資料。
- 如請求項15所述之用於解碼視訊資料的裝置,其中該沉浸 式媒體資料進一步包括指定該已編碼三維資料的一空間方向的資料,該資料包括:一位置,包括該已編碼三維資料的x,y,z坐標;已編碼三維子立體資料的一寬度;該已編碼三維子立體資料的一高度;以及該已編碼三維子立體資料的一深度。
- 如請求項16所述之用於解碼視訊資料的裝置,其中指定該已編碼三維資料的該空間方向的資料進一步包括指示關於一共同參考坐標系統的該已編碼三維資料的一旋轉。
- 如請求項17所述之用於解碼視訊資料的裝置,其中該旋轉資料包括指示一偏航、一俯仰以及一翻滾的資料。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962861372P | 2019-06-14 | 2019-06-14 | |
US62/861,372 | 2019-06-14 | ||
US201962870716P | 2019-07-04 | 2019-07-04 | |
US62/870,716 | 2019-07-04 | ||
US16/898,138 | 2020-06-10 | ||
US16/898,138 US11218715B2 (en) | 2019-06-14 | 2020-06-10 | Methods and apparatus for spatial grouping and coordinate signaling for immersive media data tracks |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202106001A TW202106001A (zh) | 2021-02-01 |
TWI768372B true TWI768372B (zh) | 2022-06-21 |
Family
ID=73745326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109119784A TWI768372B (zh) | 2019-06-14 | 2020-06-12 | 用於沉浸式媒體資料軌道的空間分組以及坐標信令的方法及裝置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11218715B2 (zh) |
TW (1) | TWI768372B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11122102B2 (en) * | 2019-07-03 | 2021-09-14 | Lg Electronics Inc. | Point cloud data transmission apparatus, point cloud data transmission method, point cloud data reception apparatus and point cloud data reception method |
US20200329088A1 (en) * | 2019-07-26 | 2020-10-15 | Intel Corporation | Viewport indication during streaming of volumetric point cloud content |
US11831861B2 (en) * | 2019-08-12 | 2023-11-28 | Intel Corporation | Methods for viewport-dependent adaptive streaming of point cloud content |
WO2021066162A1 (ja) * | 2019-10-03 | 2021-04-08 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 三次元データ符号化方法、三次元データ復号方法、三次元データ符号化装置、及び三次元データ復号装置 |
EP4047935A4 (en) * | 2020-01-09 | 2022-12-14 | LG Electronics Inc. | POINT CLOUD DATA TRANSMITTING DEVICE, POINT CLOUD DATA TRANSMITTING METHOD, POINT CLOUD DATA RECEIVING DEVICE AND POINT CLOUD DATA RECEIVING METHOD |
WO2021205061A1 (en) * | 2020-04-07 | 2021-10-14 | Nokia Technologies Oy | An apparatus, a method and a computer program for video coding and decoding |
EP4270962A4 (en) * | 2020-12-28 | 2024-05-01 | Sony Group Corporation | INFORMATION PROCESSING DEVICE AND METHOD |
WO2022141453A1 (zh) * | 2020-12-31 | 2022-07-07 | 深圳市大疆创新科技有限公司 | 点云编解码方法、装置及系统 |
US11743559B2 (en) * | 2021-01-05 | 2023-08-29 | Mediatek Singapore Pte. Ltd. | Methods and systems for derived immersive tracks |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180268570A1 (en) * | 2017-03-16 | 2018-09-20 | Samsung Electronics Co., Ltd. | Point cloud and mesh compression using image/video codecs |
TW201836358A (zh) * | 2017-03-27 | 2018-10-01 | 日商佳能股份有限公司 | 用於產生媒體資料的方法及設備 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200153885A1 (en) * | 2018-10-01 | 2020-05-14 | Lg Electronics Inc. | Apparatus for transmitting point cloud data, a method for transmitting point cloud data, an apparatus for receiving point cloud data and/or a method for receiving point cloud data |
CN118474424A (zh) * | 2019-03-21 | 2024-08-09 | Lg电子株式会社 | 对画面进行解码/编码的方法 |
-
2020
- 2020-06-10 US US16/898,138 patent/US11218715B2/en active Active
- 2020-06-12 TW TW109119784A patent/TWI768372B/zh active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180268570A1 (en) * | 2017-03-16 | 2018-09-20 | Samsung Electronics Co., Ltd. | Point cloud and mesh compression using image/video codecs |
TW201836358A (zh) * | 2017-03-27 | 2018-10-01 | 日商佳能股份有限公司 | 用於產生媒體資料的方法及設備 |
Also Published As
Publication number | Publication date |
---|---|
TW202106001A (zh) | 2021-02-01 |
US20200396471A1 (en) | 2020-12-17 |
US11218715B2 (en) | 2022-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI768372B (zh) | 用於沉浸式媒體資料軌道的空間分組以及坐標信令的方法及裝置 | |
TWI768308B (zh) | 沈浸式媒體資料軌道之軌道導出方法和裝置 | |
TWI749483B (zh) | 用信號通知點雲多媒體資料軌道的空間關係的方法和裝置 | |
US11200700B2 (en) | Methods and apparatus for signaling viewports and regions of interest for point cloud multimedia data | |
TWI768487B (zh) | 用於編碼/解碼沉浸式媒體的視訊資料的方法和裝置 | |
TWI709325B (zh) | 用於編解碼視訊資料的方法及裝置 | |
CN110049330B (zh) | 用于编码和解码虚拟现实内容的方法和装置 | |
TWI735038B (zh) | 將軌道推導用於基於網路的媒體處理的方法和裝置 | |
TWI674797B (zh) | 球面區域呈現之方法與裝置 | |
US11146802B2 (en) | Methods and apparatus for providing two-dimensional spatial relationships | |
US10931930B2 (en) | Methods and apparatus for immersive media content overlays | |
TW201906409A (zh) | 一種推導合成軌道的方法及裝置 | |
US20240114168A1 (en) | Methods and apparatus for signaling 2d and 3d regions in immersive media | |
TW201944776A (zh) | 編碼和解碼虛擬實境內容的方法和裝置 | |
US11922561B2 (en) | Methods and systems for implementing scene descriptions using derived visual tracks | |
TW202116063A (zh) | 用以編碼、傳輸及解碼容積視訊之方法及裝置 | |
US11743559B2 (en) | Methods and systems for derived immersive tracks |