WO2024014826A1 - 포인트 클라우드 데이터의 전송 장치와 이 전송 장치에서 수행되는 방법 및, 포인트 클라우드 데이터의 수신 장치와 이 수신 장치에서 수행되는 방법 - Google Patents

포인트 클라우드 데이터의 전송 장치와 이 전송 장치에서 수행되는 방법 및, 포인트 클라우드 데이터의 수신 장치와 이 수신 장치에서 수행되는 방법 Download PDF

Info

Publication number
WO2024014826A1
WO2024014826A1 PCT/KR2023/009825 KR2023009825W WO2024014826A1 WO 2024014826 A1 WO2024014826 A1 WO 2024014826A1 KR 2023009825 W KR2023009825 W KR 2023009825W WO 2024014826 A1 WO2024014826 A1 WO 2024014826A1
Authority
WO
WIPO (PCT)
Prior art keywords
sample
point cloud
track
cloud data
unit
Prior art date
Application number
PCT/KR2023/009825
Other languages
English (en)
French (fr)
Inventor
헨드리헨드리
이진원
서종열
김승환
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Publication of WO2024014826A1 publication Critical patent/WO2024014826A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements

Definitions

  • This disclosure relates to a method and apparatus for processing point cloud content.
  • Point cloud content is content expressed as a point cloud, which is a set of points belonging to a coordinate system expressing three-dimensional space.
  • Point cloud content can express three-dimensional media and provides various services such as VR (virtual reality), AR (augmented reality), MR (mixed reality), and autonomous driving services. It is used to provide Since tens to hundreds of thousands of point data are required to express point cloud content, a method for efficiently processing massive amounts of point data is required.
  • the purpose of this disclosure is to provide a method and device for efficiently processing point cloud data.
  • the present disclosure aims to provide a method and device that supports a correct random access function.
  • the present disclosure aims to provide a method and device for providing a random access function based on the sample entry type of the track to which the random access sample belongs.
  • the present disclosure aims to provide a method and device for providing a random access function based on the presence or absence of a sync sample box or a parameter set sample group box.
  • the present disclosure aims to provide a method and device for processing file storage techniques to support efficient access to stored G-PCC bitstreams.
  • a method performed in a point cloud data receiving device is based on the occurrence of a random access request from a first sample among samples included in the point cloud data, Obtaining parameter sets necessary for random access, and decoding the first sample and one or more samples subsequent to the first sample in decoding order based on the parameter sets, wherein the parameter sets include: It may be obtained from a sample entry of the track or a predetermined sample based on at least one of the sample entry type of the track including the first sample, the presence or absence of a sync sample box, or the presence or absence of parameter set sample group boxes.
  • a point cloud data receiving device includes a memory and at least one processor, wherein the at least one processor performs random access from a first sample among samples included in the point cloud data. Based on the request occurring, obtain parameter sets required for the random access from the point cloud data, and decode the first sample and one or more samples subsequent to the first sample in decoding order based on the parameter sets.
  • the parameter sets are based on at least one of the sample entry type of the track including the first sample, the presence or absence of a sync sample box, or the presence of parameter set sample group boxes, or a predetermined number of sample entries of the track. It can be obtained from a sample.
  • a method performed in a point cloud data transmission device includes storing a bitstream including the point cloud data in one or more tracks, and G-PCC based on the tracks. Generating a (geometry-based point cloud compression) file, wherein the parameter sets required to perform random access from the first sample included in the point cloud data include the sample of the track including the first sample. Based on at least one of the entry type, the presence or absence of a sync sample box, or the presence or absence of parameter set sample group boxes, the sample may be included in the entry or predetermined sample of the track.
  • a point cloud data transmission device includes a memory and at least one processor, wherein the at least one processor stores a bitstream including the point cloud data in one or more tracks.
  • a geometry-based point cloud compression (G-PCC) file is generated based on the tracks, and the parameter sets required to perform random access from the first sample included in the point cloud data are the first sample.
  • the sample may be included in a sample entry or a predetermined sample of the track based on at least one of the sample entry type of the track including the sample, the presence or absence of a sync sample box, or the presence or absence of parameter set sample group boxes.
  • a method and apparatus for efficiently processing point cloud data can be provided.
  • a method and device supporting a correct random access function can be provided.
  • a method and apparatus for providing a point cloud content service that processes random access based on the sample entry type of the track to which the random access sample belongs can be provided.
  • a method and apparatus for providing a point cloud content service that processes random access based on the presence or absence of a sync sample box or a parameter set sample group box can be provided.
  • a method and device for processing file storage techniques to support efficient access to stored G-PCC bitstreams can be provided.
  • FIG. 1 is a block diagram illustrating an example of a point cloud content providing system according to embodiments of the present disclosure.
  • Figure 2 is a block diagram illustrating an example of a point cloud content providing process according to embodiments of the present disclosure.
  • Figure 3 shows an example of a point cloud encoding device according to embodiments of the present disclosure.
  • Figure 4 is a block diagram showing an example of a point cloud decoding device according to embodiments of the present disclosure.
  • Figure 5 is a block diagram showing another example of a point cloud decoding device according to embodiments of the present disclosure.
  • Figure 6 is a block diagram showing another example of a transmission device according to embodiments of the present disclosure.
  • Figure 7 is a block diagram showing another example of a receiving device according to embodiments of the present disclosure.
  • Figure 8 shows an example of a structure that can be interoperable with a method/device for transmitting and receiving point cloud data according to embodiments of the present disclosure.
  • Figure 9 is a block diagram showing another example of a transmission device according to embodiments of the present disclosure.
  • Figure 10 shows an example of spatial division of a bounding box into 3D blocks according to embodiments of the present disclosure.
  • Figure 11 is a block diagram showing another example of a receiving device according to embodiments of the present disclosure.
  • Figure 12 shows an example of a file containing a single track according to embodiments of the present disclosure.
  • Figure 13 shows an example of a file containing multiple tracks according to embodiments of the present disclosure.
  • Figure 14 is a flowchart showing a random access processing method according to an embodiment of the present disclosure.
  • Figure 15 is a flowchart showing a method performed in a device for receiving point cloud data according to an embodiment of the present disclosure.
  • Figure 16 is a flowchart showing a method performed in an apparatus for transmitting point cloud data according to an embodiment of the present disclosure.
  • a component when a component is said to be “connected,” “coupled,” or “connected” to another component, this is not only a direct connection relationship, but also an indirect connection relationship where another component exists in between. It may also be included.
  • a component when a component is said to "include” or “have” another component, this does not mean excluding the other component, but may further include another component, unless specifically stated to the contrary. .
  • first and second are used only for the purpose of distinguishing one component from other components, and do not limit the order or importance of the components unless specifically mentioned. Accordingly, within the scope of the present disclosure, a first component in one embodiment may be referred to as a second component in another embodiment, and similarly, the second component in one embodiment may be referred to as a first component in another embodiment. It may also be called.
  • distinct components are intended to clearly explain each feature, and do not necessarily mean that the components are separated. That is, a plurality of components may be integrated to form one hardware or software unit, or one component may be distributed to form a plurality of hardware or software units. Accordingly, even if not specifically mentioned, such integrated or distributed embodiments are also included in the scope of the present disclosure.
  • components described in various embodiments do not necessarily mean essential components, and some may be optional components. Accordingly, embodiments consisting of a subset of the elements described in one embodiment are also included in the scope of the present disclosure. Additionally, embodiments that include other components in addition to the components described in the various embodiments are also included in the scope of the present disclosure.
  • This disclosure relates to encoding and decoding of point cloud-related data, and terms used in this disclosure may have common meanings commonly used in the technical field to which this disclosure belongs, unless newly defined in this disclosure.
  • “/” and “,” may be interpreted as “and/or.”
  • “A/B” and “A, B” can be interpreted as “A and/or B.”
  • “A/B/C” and “A, B, C” may mean “at least one of A, B and/or C.”
  • This disclosure relates to compression of point cloud related data.
  • Various methods or embodiments of the present disclosure can be applied to the point cloud compression or point cloud coding (PCC) standard (e.g., G-PCC or V-PCC standard) of the moving picture experts group (MPEG) or the next-generation video/image coding standard.
  • PCC point cloud compression or point cloud coding
  • MPEG moving picture experts group
  • point cloud may refer to a set of points located in three-dimensional space.
  • point cloud content is content expressed as a point cloud and may mean “point cloud video/image.”
  • 'point cloud video/image' is referred to as 'point cloud video'.
  • a point cloud video may include one or more frames, and one frame may be a still image or picture.
  • a point cloud video may include a point cloud image/frame/picture and may be referred to as any one of “point cloud image”, “point cloud frame”, and “point cloud picture”.
  • point cloud data may mean data or information related to each point in the point cloud.
  • Point cloud data may include geometry and/or attributes. Additionally, point cloud data may further include meta data.
  • Point cloud data may be referred to as “point cloud content data” or “point cloud video data”. Additionally, point cloud data may be referred to as “point cloud content,” “point cloud video,” “G-PCC data,” etc.
  • a point cloud object corresponding to point cloud data may be expressed in a box shape based on a coordinate system, and the box shape based on this coordinate system may be referred to as a bounding box. That is, the bounding box may be a rectangular cuboid that can contain all the points of the point cloud, and may be a rectangular cuboid that includes the source point cloud frame.
  • geometry includes the position (or position information) of each point, and this position includes parameters (e.g., a coordinate system consisting of x-axis, y-axis, and z-axis) representing a three-dimensional coordinate system (e.g., For example, it can be expressed as x-axis value, y-axis value, and z-axis value).
  • Geometry may be referred to as “geometry information.”
  • the attribute may include a property of each point, and this property is one of texture information, color (RGB or YCbCr), reflectance (r), transparency, etc. of each point. It may include more. Attributes may be referred to as “attribute information.” Metadata may include various data related to acquisition during the acquisition process described later.
  • Figure 1 shows an example of a system providing point cloud content (hereinafter referred to as a 'point cloud content providing system') according to embodiments of the present disclosure.
  • Figure 2 shows an example of a process in which a point cloud content providing system provides point cloud content.
  • the point cloud content providing system may include a transmission device (10) and a reception device (20).
  • the point cloud content providing system includes an acquisition process (S20), an encoding process (S21), a transmission process (S22), a decoding process (S23) illustrated in FIG. 2 by the operation of the transmitting device 10 and the receiving device 20.
  • a rendering process (S24) and/or a feedback process (S25) may be performed.
  • the transmission device 10 acquires point cloud data, goes through a series of processes (e.g., encoding process) for the acquired point cloud data (original point cloud data), and generates a bitstream. Can be printed.
  • the point cloud data can be output in bitstream form through an encoding process.
  • the transmitting device 10 may transmit the output bitstream in the form of a file or streaming (streaming segment) to the receiving device 20 through a digital storage medium or network.
  • Digital storage media may include various storage media such as USB, SD, CD, DVD, Blu-ray, HDD, and SSD.
  • the receiving device 20 may process (eg, decode or restore) the received data (eg, encoded point cloud data) back into the original point cloud data and render it.
  • Point cloud content can be provided to users through these processes, and the present disclosure can provide various embodiments necessary to effectively perform these series of processes.
  • the transmission device 10 may include an acquisition unit 11, an encoding unit 12, an encapsulation processing unit 13, and a transmission unit 14, and a reception device 20 may include a receiving unit 21, a decapsulation processing unit 22, a decoding unit 23, and a rendering unit 24.
  • the acquisition unit 11 may perform a process (S20) of acquiring a point cloud video through a capture, synthesis, or creation process. Accordingly, the acquisition unit 11 may be referred to as a 'point cloud video acquisition unit'.
  • Point cloud data (geometry and/or attributes, etc.) for multiple points may be generated through the acquisition process (S20). Additionally, metadata related to the acquisition of the point cloud video may be generated through the acquisition process (S20). Additionally, mesh data (eg, triangle-shaped data) representing connection information between point clouds may be generated through the acquisition process (S20).
  • Metadata may include initial viewing orientation metadata.
  • Initial viewing orientation metadata can indicate whether the point cloud data is data representing the front or the back.
  • Metadata may be referred to as “auxiliary data”, which is metadata about the point cloud.
  • the acquired point cloud video may include a PLY (polygon file format or the stanford triangle format) file. Since a point cloud video has one or more frames, the acquired point cloud video may include one or more PLY files.
  • the PLY file may include point cloud data for each point.
  • the acquisition unit 11 includes camera equipment capable of acquiring depth (depth information) and an RGB camera capable of extracting color information corresponding to depth information. It can be composed of a combination of these.
  • the camera equipment capable of acquiring depth information may be a combination of an infrared pattern projector and an infrared camera.
  • the acquisition unit 11 may be composed of LiDAR, which can use a radar system that measures the location coordinates of a reflector by shooting a laser pulse and measuring the time it takes for it to be reflected and return.
  • the acquisition unit 110 may extract the shape of a geometry composed of points in a three-dimensional space from depth information and extract an attribute expressing the color or reflection of each point from RGB information.
  • Methods for extracting (or capturing, acquiring, etc.) point cloud video include an inward-facing method that captures the central object, and an outward-facing method that captures the external environment. There may be an outward-facing method.
  • post-processing may be necessary to improve the quality of the captured point cloud content.
  • the maximum/minimum depth values can be adjusted within the range provided by the camera equipment, but post-processing is required to remove point data from unwanted areas (e.g., background) or unwanted areas.
  • post-processing may be performed to recognize connected spaces and fill spatial holes.
  • post-processing may be performed to integrate point cloud data extracted from cameras sharing a spatial coordinate system into one content through a conversion process into a global coordinate system for each point based on the position coordinates of each camera. there is. Through this, a single wide range of point cloud content may be generated, or point cloud content with a high density of points may be obtained.
  • the encoder 12 may perform an encoding process (S21) to encode the data (geometry, attribute and/or meta data and/or mesh data, etc.) generated from the acquisition unit 11 into one or more bitstreams. . Accordingly, the encoder 12 may be referred to as a 'point cloud video encoder'. The encoder 12 may encode data generated from the acquisition unit 11 serially or in parallel.
  • the encoding process (S21) performed by the encoder 12 may be geometry-based point cloud compression (G-PCC).
  • G-PCC geometry-based point cloud compression
  • the encoder 12 can perform a series of procedures such as prediction, transformation, quantization, and entropy coding for compression and coding efficiency.
  • Encoded point cloud data can be output in bitstream form.
  • the encoder 12 can encode point cloud data by dividing it into geometry and attributes, as will be described later.
  • the output bitstream may include a geometry bitstream including encoded geometry and an attribute bitstream including encoded attributes.
  • the output bitstream may further include one or more of a metadata bitstream including metadata, an auxiliary bitstream including auxiliary data, and a mesh data bitstream including mesh data.
  • the encoding process (S21) will be explained in more detail below.
  • a bitstream containing encoded point cloud data may be referred to as a 'point cloud bitstream' or a 'point cloud video bitstream'.
  • the encapsulation processing unit 13 may perform a process of encapsulating one or more bitstreams output from the decoding unit 12 in the form of a file or segment. Accordingly, the encapsulation processing unit 13 may be referred to as a 'file/segment encapsulation module'.
  • the drawing shows an example in which the encapsulation processing unit 13 is composed of a separate component/module in relation to the transmission unit 14. However, depending on the embodiment, the encapsulation processing unit 13 is configured as a separate component/module in relation to the transmission unit 14. ) may also be included.
  • the encapsulation processing unit 13 may encapsulate the data in a file format such as ISO Base Media File Format (ISOBMFF) or process it in other formats such as DASH segments.
  • the encapsulation processor 13 may include metadata in the file format. Metadata may be included in various levels of boxes in the ISOBMFF file format, for example, or as data in separate tracks within the file.
  • the encapsulation processor 130 may encapsulate the metadata itself into a file. Metadata processed by the encapsulation processing unit 13 may be received from a metadata processing unit not shown in the drawing.
  • the metadata processing unit may be included in the encoding unit 12, or may be configured as a separate component/module.
  • the transmission unit 14 may perform a transmission process (S22) in which processing according to the file format (processing for transmission) is applied to the 'encapsulated point cloud bitstream'.
  • the transmission unit 140 may transmit a bitstream or a file/segment including the bitstream to the reception unit 21 of the reception device 20 through a digital storage medium or a network. Accordingly, the transmitter 14 may be referred to as a 'transmitter' or a 'communication module'.
  • the transmission unit 14 may process point cloud data according to an arbitrary transmission protocol.
  • ‘processing point cloud data according to an arbitrary transmission protocol’ may be ‘processing for transmission.’
  • Processing for transmission may include processing for transmission through a broadcast network, processing for transmission through a broadband, etc.
  • the transmission unit 14 may receive not only point cloud data but also metadata from the metadata processing unit and process the delivered metadata for transmission.
  • processing for transmission may be performed in a transmission processing unit, and the transmission processing unit may be included in the transmission unit 14 or may be configured as a separate component/module from the transmission unit 14.
  • the receiving unit 21 may receive a bitstream transmitted by the transmission device 10 or a file/segment including the bitstream. Depending on the transmitted channel, the receiving unit 21 may receive a bitstream or a file/segment including the bitstream through a broadcasting network, or may receive a bitstream or a file/segment including the bitstream through a broadband. there is. Alternatively, the receiving unit 21 may receive a bitstream or a file/segment including the bitstream through a digital storage medium.
  • the receiving unit 21 may perform processing according to a transmission protocol on the received bitstream or a file/segment including the bitstream.
  • the receiving unit 21 may perform the reverse process of transmission processing (processing for transmission) to correspond to the processing for transmission performed in the transmission device 10.
  • the receiving unit 21 may transmit encoded point cloud data to the decapsulation processing unit 22 and transfer meta data to the meta data parsing unit. Metadata may be in the form of a signaling table.
  • the reverse process of processing for transmission may be performed in a receiving processor.
  • Each of the reception processing unit, decapsulation processing unit 22, and metadata parsing unit may be included in the reception unit 21 or may be configured as a separate component/module from the reception unit 21.
  • the decapsulation processing unit 22 may decapsulate the point cloud data in the form of a file (i.e., a bitstream in the form of a file) received from the reception unit 21 or the reception processing unit. Accordingly, the decapsulation processing unit 22 may be referred to as a 'file/segment decapsulation module'.
  • the decapsulation processing unit 22 may obtain a point cloud bitstream or a metadata bitstream by decapsulating files according to ISOBMFF, etc. Depending on embodiments, meta data (metadata bitstream) may be included in the point cloud bitstream.
  • the obtained point cloud bitstream may be transmitted to the decoding unit 23, and the acquired metadata bitstream may be transmitted to the metadata processing unit.
  • the metadata processing unit may be included in the decoding unit 23, or may be configured as a separate component/module.
  • the metadata acquired by the decapsulation processing unit 23 may be in the form of a box or track within a file format. If necessary, the decapsulation processing unit 23 may receive metadata required for decapsulation from the metadata processing unit.
  • the metadata may be delivered to the decoder 23 and used in the decoding process (S23), or may be delivered to the rendering unit 24 and used in the rendering process (S24).
  • the decoder 23 receives a bitstream and performs an operation corresponding to the operation of the encoder 12, thereby performing a decoding process (S23) of decoding the point cloud bitstream (encoded point cloud data). . Therefore, the decoder 23 may be referred to as a 'point cloud video decoder'.
  • the decoder 23 can decode the point cloud data by dividing it into geometry and attributes. For example, the decoder 23 may restore (decode) the geometry from the geometry bitstream included in the point cloud bitstream, and create an attribute based on the restored geometry and the attribute bitstream included in the point cloud bitstream. It can be restored (decoded). A 3D point cloud video/image can be restored based on position information according to the restored geometry and attributes (such as color or texture) according to the decoded attributes.
  • the decoding process (S23) will be described in more detail below.
  • the rendering unit 24 may perform a rendering process (S24) of rendering the restored point cloud video. Accordingly, the rendering unit 24 may be referred to as a 'renderer'.
  • the rendering process (S24) may refer to the process of rendering and displaying point cloud content in 3D space.
  • the rendering process (S24) can be performed according to a desired rendering method based on the position information and attribute information of the points decoded through the decoding process.
  • Points of point cloud content may be rendered as a vertex with a certain thickness, a cube with a specific minimum size centered on the vertex position, or a circle with the vertex position as the center. Users can view all or part of the rendered result through a VR/AR display or a regular display.
  • the rendered video may be displayed through the display unit. Users can view all or part of the rendered result through a VR/AR display or a regular display.
  • the feedback process (S25) may include transferring various feedback information that can be obtained in the rendering process (S24) or the display process to the transmitting device 10 or to other components in the receiving device 20.
  • the feedback process (S25) may be performed by one or more of the components included in the receiving device 20 of FIG. 1, or may be performed by one or more of the components shown in FIGS. 10 and 11.
  • the feedback process (S25) may be performed by a 'feedback unit' or a 'sensing/tracking unit'.
  • Interactivity for point cloud content consumption may be provided through the feedback process (S25).
  • head orientation information, viewport information indicating the area the user is currently viewing, etc. may be fed back in the feedback process (S25).
  • a user may interact with things implemented on a VR/AR/MR/autonomous driving environment, in which case information related to the interaction is sent to the transmission device 10 or the transmission device 10 in the feedback process (S25). It may also be passed on to the service provider.
  • the feedback process (S25) may not be performed.
  • Head orientation information may refer to information about the user's head position, angle, movement, etc. Based on this information, information about the area the user is currently viewing within the point cloud video, that is, viewport information, can be calculated.
  • Viewport information may be information about the area that the user is currently viewing in the point cloud video.
  • the viewpoint is the point the user is looking at in the point cloud video, and may mean the exact center of the viewport area.
  • the viewport is an area centered on the viewpoint, and the size and shape occupied by the area can be determined by the field of view (FOV).
  • FOV field of view
  • Gaze analysis may be performed on the receiving side (receiving device) and transmitted to the transmitting side (transmitting device) through a feedback channel.
  • Devices such as VR/AR/MR displays can extract the viewport area based on the user's head position/orientation and the vertical or horizontal FOV supported by the device.
  • feedback information may not only be transmitted to the transmitting side (transmitting device), but may also be consumed at the receiving side (receiving device). That is, the decoding process, rendering process, etc. of the receiving side (receiving device) can be performed using the feedback information.
  • the receiving device 20 may preferentially decode and render only the point cloud video for the area that the user is currently viewing using head orientation information and/or viewport information.
  • the receiving unit 21 may receive all point cloud data, or may receive point cloud data indicated by orientation information and/or viewport information based on the orientation information and/or viewport information.
  • the decapsulation processing unit 22 may decapsulate all point cloud data or decapsulate point cloud data indicated by orientation information and/or viewport information based on the orientation information and/or viewport information.
  • the decoder 23 may decode all point cloud data or may decode point cloud data indicated by orientation information and/or viewport information based on the orientation information and/or viewport information.
  • Figure 3 shows an example of a point cloud encoding device 300 according to embodiments of the present disclosure.
  • the point cloud encoding device 300 of FIG. 3 may correspond to the encoder 12 of FIG. 1 in configuration and function.
  • the point cloud encoding device 300 includes a coordinate system transformation unit 305, a geometry quantization unit 310, an octree analysis unit 315, an approximation unit 320, a geometry encoding unit 325, Restoration unit 330, attribute conversion unit 340, RAHT conversion unit 345, LOD generation unit 350, lifting unit 355, attribute quantization unit 360, attribute encoding unit 365, and/or color It may include a conversion unit 335.
  • the point cloud data acquired by the acquisition unit 11 may undergo processes to adjust the quality of the point cloud content (e.g., lossless-lossless, loss-lossy, near-lossless) depending on the network situation or application. there is. Additionally, each point of the acquired point cloud content can be transmitted without loss, but in that case, real-time streaming may not be possible due to the large size of the point cloud content. Therefore, in order to smoothly provide point cloud content, a process of reconstructing point cloud content according to the maximum target bit rate is necessary.
  • the quality of the point cloud content e.g., lossless-lossless, loss-lossy, near-lossless
  • Processes for controlling the quality of point cloud content may include a process of reconstructing and encoding location information (position information included in geometry information) or color information (color information included in attribute information) of points.
  • location information position information included in geometry information
  • color information color information included in attribute information
  • the process of reconstructing and encoding the position information of points may be referred to as geometry coding
  • the process of reconstructing and encoding attribute information associated with each point may be referred to as attribute coding.
  • Geometry coding may include a geometry quantization process, a voxelization process, an octree analysis process, an approximation process, a geometry encoding process, and/or a coordinate system transformation process. Additionally, geometry coding may further include a geometry restoration process. Attribute coding may include a color transformation process, an attribute transformation process, a prediction transformation process, a lifting transformation process, a RAHT transformation process, an attribute quantization process, an attribute encoding process, etc.
  • the coordinate system conversion process may correspond to the process of converting the coordinate system for the positions of points. Therefore, the coordinate system transformation process can be referred to as 'transform coordinates'.
  • the coordinate system conversion process may be performed by the coordinate system conversion unit 305.
  • the coordinate system conversion unit 305 converts the positions of points from a global space coordinate system to position information in a three-dimensional space (e.g., a three-dimensional space expressed by an X-axis, Y-axis, and Z-axis coordinate system, etc.). You can.
  • Position information in 3D space may be referred to as 'geometry information'.
  • the geometry quantization process may correspond to a process of quantizing position information of points and may be performed by the geometry quantization unit 310.
  • the geometry quantization unit 310 searches for position information with the minimum (x, y, z) value among the position information of the points, and finds the position information with the minimum (x, y, z) value from the position information of each point. Position information with value can be subtracted.
  • the geometry quantization unit 310 can perform the quantization process by multiplying the subtracted value by a preset quantization scale value and then adjusting (lowering or raising) the result to a close integer value. there is.
  • the voxelization process may correspond to a process of matching geometry information quantized through a quantization process with a specific voxel existing in a three-dimensional space.
  • the voxelization process may also be performed by the geometry quantization unit 310.
  • the geometry quantization unit 310 may perform octree-based voxelization based on the position information of the points in order to reconstruct each point to which the quantization process has been applied.
  • a voxel can refer to a space for storing information on points that exist in three dimensions, similar to a pixel, which is the minimum unit containing information in a two-dimensional image/video. Voxel is a portmanteau combining the words volume and pixel.
  • Only one point may not exist (match) in one voxel. That is, information related to multiple points may exist in one voxel. Alternatively, information related to multiple points included in one voxel may be integrated into one point information. This adjustment may be performed selectively.
  • the position value of the center point of the voxel can be set based on the position values of the points existing within the voxel, and it is necessary to perform an attribute conversion process related to this. There is. For example, the attribute conversion process may be adjusted by the position value of the points included in the voxel or the center point of the voxel and the average value of the color or reflectance of neighboring points within a specific radius.
  • the octree analysis unit 315 may use an octree to efficiently manage the area/position of the voxel.
  • An octree can be expressed as an occupancy code. For example, if a point is included in each node, the octree analysis unit 315 may express the occupancy code of the node as 1, and if the point is not included, the octree analysis unit 315 may express the occupancy code of the node as 0.
  • the geometry encoding process may correspond to the process of performing entropy coding on the occupancy code.
  • the geometry encoding process may be performed by the geometry encoding unit 325.
  • the geometry encoding unit 325 may perform entropy coding on the occupancy code.
  • the generated occupancy code may be encoded directly, or may be encoded through an intra/inter coding process to increase compression efficiency.
  • the receiving device 20 can reconstruct the octree through the occupancy code.
  • the point cloud encoding device 300 divides the node (specific node) corresponding to this specific area into 8 sub-nodes (child nodes), The positions of the points can be transmitted directly only for the specific area, or the positions of the points within the specific area can be reconstructed on a voxel basis using a surface model.
  • a mode in which the location of each point is directly transmitted to a specific node may be a direct mode.
  • the point cloud encoding device 300 can check whether the conditions for enabling the direct mode are satisfied.
  • the conditions for enabling direct mode are 1) the option to use direct mode must be enabled, 2) the specific node does not correspond to a leaf node, and 3) there must be points below the threshold within the specific node. and 4) the total number of points to be directly transmitted does not exceed a limit.
  • the point cloud encoding device 300 can entropy code and transmit the position value of the point directly to the specific node through the geometry encoding unit 325.
  • a mode that uses a surface model to reconstruct the positions of points within a specific area on a voxel basis may be a trisoup mode.
  • Trishop mode may be performed by the approximation unit 320.
  • the approximation unit 320 determines a specific level of the octree, and from the determined specific level, the positions of points within the node area can be reconstructed on a voxel basis using a surface model.
  • the point cloud encoding device 300 may selectively apply the trichome mode. Specifically, when using the trichome mode, the point cloud encoding device 300 can specify a level (specific level) to which the trichome mode will be applied. For example, if the specific level specified is equal to the depth (d) of the octree, the treesharp mode may not be applied. That is, the specific level specified must be less than the depth value of the octree.
  • a three-dimensional cubic area of nodes at a specified specific level is called a block, and one block may include one or more voxels.
  • a block or voxel may correspond to a brick.
  • Each block may have 12 edges, and the approximation unit 320 can check whether each edge is adjacent to a voxel with a point.
  • Each edge may be adjacent to several occupied voxels.
  • a specific position of an edge adjacent to a voxel is called a vertex, and when multiple occupied voxels are adjacent to one edge, the approximation unit 320 may determine the average position of the positions as a vertex.
  • the point cloud encoding device 300 When a vertex exists, the point cloud encoding device 300 generates the starting point of the edge (x, y, z), the direction vector of the edge ( ⁇ x, ⁇ y, ⁇ z), and the position value of the vertex (relative within the edge). position values) can be entropy coded through the geometry encoding unit 325.
  • the geometry restoration process may correspond to a process of generating restored geometry by reconstructing an octree and/or an approximated octree.
  • the geometry restoration process may be performed by the restoration unit 330.
  • the restoration unit 330 may perform a geometry restoration process through triangle reconstruction, up-sampling, voxelization, etc.
  • the restoration unit 330 can reconstruct the triangle based on the starting point of the edge, the direction vector of the edge, and the position value of the vertex.
  • the restoration unit 330 may perform an upsampling process to voxelize the triangle by adding points in the middle along the edge of the triangle.
  • the restoration unit 330 may generate additional points based on the upsampling factor value and the width of the block. These points can be called refined vertices.
  • the restoration unit 330 can voxelize the refined vertices, and the point cloud encoding device 300 can perform attribute coding based on the voxelized position value.
  • the geometry encoding unit 325 may increase compression efficiency by applying context adaptive arithmetic coding.
  • the geometry encoding unit 325 can directly entropy code the occupancy code using an arithmetic code.
  • the geometry encoding unit 325 adaptively performs encoding based on whether neighboring neighboring nodes have occupancy (intra coding) or adaptively encodes based on the occupancy code of the previous frame. It can also be performed (intercoding).
  • a frame may refer to a set of point cloud data generated at the same time. Since intra-coding and inter-coding are optional processes, they may be omitted.
  • Attribute coding may correspond to the process of coding attribute information based on the restored (reconstructed) geometry and the geometry before coordinate system conversion (original geometry). Because an attribute may be dependent on geometry, the restored geometry can be used for attribute coding.
  • attributes may include color, reflectance, etc.
  • the same attribute coding method can be applied to information or parameters included in the attribute. Color has three elements and reflectance has one element, and each element can be processed independently.
  • Attribute coding may include a color transformation process, an attribute transformation process, a prediction transformation process, a lifting transformation process, a RAHT transformation process, an attribute quantization process, an attribute encoding process, etc.
  • the prediction transformation process, lifting transformation process, and RAHT transformation process may be used selectively, or a combination of one or more may be used.
  • the color conversion process may correspond to the process of converting the format of the color within an attribute to another format.
  • the color conversion process may be performed by the color conversion unit 335. That is, the color conversion unit 335 can convert the color within the attribute.
  • the color converter 335 may perform a coding task to convert the color in an attribute from RGB to YCbCr.
  • the operation of the color conversion unit 335 that is, the color conversion process, may be applied optionally according to the color value included in the attribute.
  • the position values for the points within the voxel are set to the center of the voxel in order to display them by integrating them into one point information for the voxel. It can be set to a point. Accordingly, a process of converting the values of attributes related to the points may be necessary. In addition, the attribute conversion process can be performed even when the trichome mode is performed.
  • the attribute conversion process may correspond to a process of converting an attribute based on a position for which no geometry coding has been performed and/or a reconstructed geometry.
  • the attribute conversion process may correspond to a process of converting the attribute of a point in a voxel based on the position of the point included in the voxel.
  • the attribute conversion process may be performed by the attribute conversion unit 340.
  • the attribute conversion unit 340 may calculate the average value of the central position value of the voxel and the attribute values of neighboring points (neighboring points) within a specific radius. Alternatively, the attribute conversion unit 340 may apply a weight according to the distance from the central location to the attribute values and calculate the average value of the weighted attribute values. In this case, each voxel has a location and a calculated attribute value.
  • the prediction conversion process may correspond to a process of predicting the attribute value of the current point (point corresponding to the target of prediction) based on the attribute value of one or more points (neighboring points) neighboring the current point.
  • the prediction conversion process may be performed by the level of detail (LOD) generator 350.
  • LOD level of detail
  • Predictive conversion is a method in which the LOD conversion technique is applied, and the LOD generator 350 can calculate and set the LOD value of each point based on the LOD distance value of each point. Points with the lowest LOD can be sparsely distributed, and points with the highest LOD can be densely distributed. That is, as the LOD increases, the interval (or distance) between points may become shorter.
  • Each point existing in the point cloud may be separated by LOD, and the composition of points for each LOD may include points belonging to an LOD lower than the corresponding LOD value.
  • a configuration of points with LOD level 2 may include all points belonging to LOD level 1 and LOD level 2. Points can be reordered by LOD, with higher LODs containing points belonging to lower LODs.
  • the LOD generator 350 may generate a predictor for each point for prediction conversion. Accordingly, when N points exist, N predictors can be generated.
  • neighboring points may be points that exist within a distance set for each LOD from the current point.
  • the predictor may multiply the attribute values of neighboring points by a 'set weight value' and set the average of the attribute values multiplied by the weight value as the predicted attribute value of the current point.
  • An attribute quantization process may be performed on a residual attribute value obtained by subtracting the predicted attribute value of the current point from the attribute value of the current point.
  • the lifting transformation process may correspond to the process of reconstructing points into a set of detail levels through the LOD generation process.
  • the lifting conversion process may be performed by the lifting unit 355.
  • the lifting transformation process also includes the process of creating a predictor for each point, setting the calculated LOD in the predictor, registering neighboring points, and setting weights according to the distance between the current point and neighboring points. It can be included.
  • the RAHT transformation process may correspond to a method of predicting attribute information of nodes at a higher level using attribute information associated with nodes at a lower level of an octree.
  • the RATH conversion process may correspond to an attribute information intra coding method through octree backward scan.
  • the RAHT conversion process may be performed by the RAHT conversion unit 345.
  • the RAHT conversion unit 345 scans from voxels to the entire area and can perform the RAHT conversion process up to the root node by summing (merging) voxels into a larger block at each step. Since the RAHT conversion unit 345 performs the RAHT conversion process only on occupied nodes, in the case of an empty node that is not occupied, the RAHT conversion process can be performed on the node of the upper level immediately above.
  • the attribute quantization process may correspond to a process of quantizing the attribute output from the RAHT conversion unit 345, the LOD generation unit 350, and/or the lifting unit 355.
  • the attribute quantization process may be performed by the attribute quantization unit 360.
  • the attribute encoding process may correspond to the process of encoding a quantized attribute and outputting an attribute bitstream.
  • the attribute encoding process may be performed by the attribute encoding unit 365.
  • the attribute quantization unit 360 calculates the residual by subtracting the predicted attribute value of the current point from the attribute value of the current point. Attribute values can be quantized.
  • the attribute encoding unit 365 may directly entropy code the attribute value (unquantized attribute value) of the current point. In contrast, when neighboring points exist in the predictor of the current points, the attribute encoding unit 365 may entropy encode the quantized residual attribute value.
  • the attribute quantization unit 360 outputs the result.
  • the value resulting from the multiplication can be quantized, and the attribute encoding unit 365 can entropy encode the quantized value.
  • Figure 4 shows an example of a point cloud decoding device 400 according to an embodiment of the present disclosure.
  • the point cloud decoding device 400 of FIG. 4 may correspond to the decoding unit 23 of FIG. 1 in configuration and function.
  • the point cloud decoding device 400 may perform a decoding process based on data (bitstream) transmitted from the transmission device 10.
  • the decoding process may include restoring (decoding) the point cloud video by performing an operation corresponding to the encoding operation described above on the bitstream.
  • the decoding process may include a geometry decoding process and an attribute decoding process.
  • the geometry decoding process may be performed by the geometry decoding unit 410
  • the attribute decoding process may be performed by the attribute decoding unit 420. That is, the point cloud decoding device 400 may include a geometry decoding unit 410 and an attribute decoding unit 420.
  • the geometry decoder 410 can restore the geometry from the geometry bitstream, and the attribute decoder 420 can restore the attribute based on the restored geometry and the attribute bitstream. Additionally, the point cloud decoding device 400 can restore a 3D point cloud video (point cloud data) based on position information according to the restored geometry and attribute information according to the restored attributes.
  • Figure 5 shows a specific example of a point cloud decoding device 500 according to another embodiment of the present disclosure.
  • the point cloud decoding device 500 includes a geometry decoding unit 505, an octree synthesis unit 510, an approximation synthesis unit 515, a geometry restoration unit 520, and a coordinate system inversion unit 525.
  • it may include an attribute decoding unit 530, an attribute inverse quantization unit 535, a RATH conversion unit 550, an LOD generation unit 540, an inverse lifting unit 545, and/or a color inverse conversion unit 555.
  • the geometry decoding unit 505, the octree synthesis unit 510, the approximation synthesis unit 515, the geometry restoration unit 520, and the coordinate system inversion unit 550 may perform geometry decoding.
  • Geometry decoding can be performed as a reverse process of the geometry coding described in FIGS. 1 to 3.
  • Geometry decoding may include direct coding and trisoup geometry decoding. Direct coding and tryop geometry decoding can be optionally applied.
  • the geometry decoding unit 505 may decode the received geometry bitstream based on arismatic coding.
  • the operation of the geometry decoding unit 505 may correspond to the reverse process of the operation performed by the geometry encoding unit 325.
  • the octree synthesis unit 510 may generate an octree by obtaining an occupancy code from the decoded geometry bitstream (or information about the geometry obtained as a result of decoding).
  • the operation of the octree synthesis unit 510 may correspond to the reverse process of the operation performed by the octree analysis unit 515.
  • the approximate synthesis unit 515 may synthesize a surface based on the decoded geometry and/or the generated octree.
  • the geometry restoration unit 520 may restore geometry based on the surface and decoded geometry. When direct coding is applied, the geometry restoration unit 520 can directly retrieve and add position information of points to which direct coding has been applied. Additionally, when Trisup geometry encoding is applied, the geometry restoration unit 520 may restore the geometry by performing a reconstruction operation, such as triangle reconstruction, up-sampling, and voxelization. The restored geometry may include a point cloud picture or frame that does not contain the attributes.
  • the coordinate system inversion unit 550 may obtain positions of points by transforming the coordinate system based on the restored geometry. For example, the coordinate system inversion unit 550 may inversely transform the positions of points from a three-dimensional space (e.g., a three-dimensional space expressed by the You can.
  • a three-dimensional space e.g., a three-dimensional space expressed by the You can.
  • the attribute decoding unit 530, the attribute inverse quantization unit 535, the RATH conversion unit 530, the LOD generation unit 540, the inverse lifting unit 545, and/or the color inverse conversion unit 550 perform attribute decoding. You can. Attribute decoding may include RAHT transform decoding, prediction transform decoding, and lifting transform decoding. The three decodings described above may be used selectively, or a combination of one or more decodings may be used.
  • the attribute decoding unit 530 may decode the attribute bitstream based on arismatic coding. For example, if there are no neighboring points in the predictor of each point and the attribute value of the current point is directly entropy encoded, the attribute decoder 530 may decode the attribute value (unquantized attribute value) of the current point. You can. As another example, when neighboring points exist in the predictor of the current point and the quantized residual attribute value is entropy-encoded, the attribute decoder 530 may decode the quantized residual attribute value.
  • the attribute dequantization unit 535 may dequantize the decoded attribute bitstream or information about the attribute obtained as a result of decoding, and output the dequantized attributes (or attribute values). For example, when a quantized residual attribute value is output from the attribute decoder 530, the attribute dequantization unit 535 may dequantize the quantized residual attribute value and output the residual attribute value.
  • the inverse quantization process may be selectively applied based on whether or not the point cloud encoding device 300 encodes the attributes. That is, when there are no neighboring points in the predictor of each point and the attribute value of the current point is directly encoded, the attribute decoder 530 can output the unquantized attribute value of the current point, and the attribute encoding process is It can be skipped.
  • the RATH conversion unit 550, the LOD generation unit 540, and/or the inverse lifting unit 545 may process the reconstructed geometry and inverse quantized attributes.
  • the RATH converter 550, the LOD generator 540, and/or the inverse lifting unit 545 may selectively perform a decoding operation corresponding to the encoding operation of the point cloud encoding device 300.
  • the color inversion unit 555 may perform inverse transformation coding to inversely transform color values (or textures) included in the decoded attributes.
  • the operation of the color inverse converter 555 may be selectively performed based on whether the color converter 335 is operating.
  • Figure 6 shows another example of a transmission device according to embodiments of the present disclosure.
  • the transmission device includes a data input unit 605, a quantization processing unit 610, a voxelization processing unit 615, an octree occupancy code generation unit 620, a surface model processing unit 625, Intra/inter coding processing unit 630, Arithmetic coder 635, meta data processing unit 640, color conversion processing unit 645, attribute conversion processing unit 650, prediction/lifting/RAHT conversion processing unit 655 , may include an arismatic coder 660 and a transmission processing unit 665.
  • the function of the data input unit 605 may correspond to the acquisition process performed by the acquisition unit 11 of FIG. 1. That is, the data input unit 605 can obtain a point cloud video and generate point cloud data for a plurality of points. Geometry information (position information) in the point cloud data is generated by a quantization processing unit 610, a voxelization processing unit 615, an octree occupancy code generation unit 620, a surface model processing unit 625, an intra/inter coding processing unit 630, and , It can be generated in the form of a geometric bitstream through the arismatic coder 635.
  • Attribute information in point cloud data can be generated in the form of an attribute bitstream through a color conversion processor 645, an attribute conversion processor 650, a prediction/lifting/RAHT conversion processor 655, and an arithmetic coder 660.
  • the geometry bitstream, attribute bitstream, and/or metadata bitstream may be transmitted to the receiving device through processing by the transmission processor 665.
  • the function of the quantization processing unit 610 may correspond to the quantization process performed by the geometry quantization unit 310 of FIG. 3 and/or the function of the coordinate system transformation unit 305.
  • the function of the voxelization processing unit 615 may correspond to the voxelization process performed by the geometry quantization unit 310 of FIG. 3, and the function of the octree occupancy code generation unit 620 may correspond to the octree analysis unit 315 of FIG. 3.
  • the function of the surface model processing unit 625 may correspond to the function performed by the approximation unit 320 of FIG.
  • the function of the intra/inter coding processing unit 630 and the function of the arismatic coder 635 may correspond to the function performed by the approximation unit 320 of FIG. 3. It may correspond to the function performed by the geometry encoding unit 325.
  • the function of the metadata processing unit 640 may correspond to the function of the metadata processing unit described in FIG. 1.
  • the function of the color conversion processing unit 645 may correspond to the function performed by the color conversion unit 335 of FIG. 3, and the function of the attribute conversion processing unit 650 is performed by the attribute conversion unit 340 of FIG. 3. It can correspond to the function that does.
  • the function of the prediction/lifting/RAHT conversion processing unit 655 may correspond to the functions performed by the RAHT conversion unit 345, the LOD generation unit 350, and the lifting unit 355 of FIG. 3, and the arismatic coder 660 ) may correspond to the function of the attribute encoding unit 365 of FIG. 3.
  • the function of the transmission processing unit 665 may correspond to the function performed by the transmission unit 14 and/or the encapsulation processing unit 13 of FIG. 1.
  • Figure 7 shows another example of a receiving device according to embodiments of the present disclosure.
  • the receiving device includes a receiving unit 705, a receiving processing unit 710, an arismatic decoder 715, a metadata parser 735, an occupancy code-based octree reconstruction processing unit 720, and a surface model processing unit. (725), inverse quantization processor 730, arismatic decoder 740, inverse quantization processor 745, prediction/lifting/RAHT inversion processor 750, color inverse transformation processor 755, and renderer 760. may include.
  • the function of the receiving unit 705 may correspond to the function performed by the receiving unit 21 of FIG. 1, and the function of the receiving processing unit 710 may correspond to the function performed by the decapsulation processing unit 22 of FIG. 1. there is. That is, the reception unit 705 receives a bitstream from the transmission processor 765, and the reception processor 710 can extract a geometry bitstream, an attribute bitstream, and/or a metadata bitstream through decapsulation processing. .
  • the geometry bitstream is a reconstructed (restored) position value (position information) through the arismatic decoder 715, the occupancy code-based octree reconstruction processor 720, the surface model processor 725, and the inverse quantization processor 730.
  • the attribute bitstream can be generated from the attribute value restored through the arismatic decoder 740, the inverse quantization processor 745, the prediction/lifting/RAHT inversion processor 750, and the color inverse transformation processor 755.
  • the metadata bitstream may be created as metadata (or metadata information) restored through the metadata parser 735.
  • Position values, attribute values, and/or metadata may be rendered in the renderer 760 to provide experiences such as VR/AR/MR/autonomous driving to the user.
  • the function of the arismatic decoder 715 may correspond to the function performed by the geometry decoding unit 505 of FIG. 5, and the function of the occupancy code-based octree reconstruction processor 720 may correspond to the function of the octree synthesis unit of FIG. 5. It may correspond to the function performed by (510).
  • the function of the surface model processing unit 725 may correspond to the function performed by the approximation synthesis unit of FIG. 5, and the function of the inverse quantization processing unit 730 may be performed by the geometry restoration unit 520 and/or the coordinate system inversion unit 525 of FIG. 5. ) may correspond to the function performed.
  • the function of the metadata parser 735 may correspond to the function performed by the metadata parser described in FIG. 1.
  • the function of the arismatic decoder 740 may correspond to the function performed by the attribute decoder 530 of FIG. 5, and the function of the inverse quantization processor 745 may correspond to the function of the attribute inverse quantization unit 535 of FIG. 5. It can correspond to a function.
  • the function of the prediction/lifting/RAHT inversion processing unit 750 may correspond to the functions performed by the RAHT conversion unit 550, the LOD generation unit 540, and the inverse lifting unit 545 of FIG. 5, and the color inversion processing unit ( The function of 755) may correspond to the function performed by the color inversion unit 555 of FIG. 5.
  • Figure 8 shows an example of a structure that can be interoperable with a method/device for transmitting and receiving point cloud data according to embodiments of the present disclosure.
  • the structure of FIG. 8 includes at least an AI Server, a Robot, a Self-Driving Vehicle, an XR device, a Smartphone, a Home Appliance, and/or an HMD. Indicates a configuration where one or more cloud networks are connected. Robots, autonomous vehicles, XR devices, smartphones, or home appliances may be referred to as devices. Additionally, the XR device may correspond to or be linked to a point cloud data device (PCC) according to embodiments.
  • PCC point cloud data device
  • a cloud network may refer to a network that forms part of a cloud computing infrastructure or exists within a cloud computing infrastructure.
  • the cloud network may be configured using a 3G network, 4G or Long Term Evolution (LTE) network, or 5G network.
  • LTE Long Term Evolution
  • the server is connected to at least one of a robot, autonomous vehicle, XR device, smartphone, home appliance, and/or HMD through a cloud network, and may assist with at least part of the processing of the connected devices.
  • the HMD may represent one of the types in which an XR device and/or a PCC device according to embodiments may be implemented.
  • An HMD-type device may include a communication unit, a control unit, a memory unit, an I/O unit, a sensor unit, and a power supply unit.
  • XR/PCC devices apply PCC and/or XR technology and are used in HMDs, HUDs installed in vehicles, televisions, mobile phones, smart phones, computers, wearable devices, home appliances, digital signage, vehicles, fixed or mobile robots, etc. It can also be implemented as:
  • XR/PCC devices analyze 3D point cloud data or image data acquired through various sensors or from external devices to generate location (geometry) data and attribute data for 3D points, providing information on surrounding space or real objects. Information can be acquired, and the XR object to be output can be rendered and output. For example, the XR/PCC device can output an XR object containing additional information about the recognized object in correspondence to the recognized object.
  • XR/PCC devices can be implemented in mobile phones, etc. by applying PCC technology.
  • Mobile phones can decode and display point cloud content based on PCC technology.
  • Self-driving vehicles can be implemented as mobile robots, vehicles, unmanned aerial vehicles, etc. by applying PCC technology and XR technology.
  • An autonomous vehicle equipped with XR/PCC technology may refer to an autonomous vehicle equipped with a means to provide XR images or an autonomous vehicle that is subject to control/interaction within XR images.
  • autonomous vehicles that are subject to control/interaction within XR images are distinct from XR devices and can be interoperable with each other.
  • An autonomous vehicle equipped with a means for providing an XR/PCC image can acquire sensor information from sensors including a camera and output an XR/PCC image generated based on the acquired sensor information.
  • an autonomous vehicle may be equipped with a HUD to output XR/PCC images, thereby providing passengers with XR/PCC objects corresponding to real objects or objects on the screen.
  • the XR/PCC object when the XR/PCC object is output to the HUD, at least a portion of the XR/PCC object may be output to overlap the actual object toward which the passenger's gaze is directed.
  • the XR/PCC object when the XR/PCC object is output to a display provided inside the autonomous vehicle, at least a portion of the XR/PCC object may be output to overlap the object in the screen.
  • an autonomous vehicle can output XR/PCC objects corresponding to objects such as lanes, other vehicles, traffic lights, traffic signs, two-wheeled vehicles, pedestrians, buildings, etc.
  • VR technology is a display technology that provides objects and backgrounds in the real world only as CG images.
  • AR technology refers to a technology that shows a virtual CG image on top of an image of a real object.
  • MR technology is similar to the AR technology described above in that it mixes and combines virtual objects with the real world to display them.
  • AR technology there is a clear distinction between real objects and virtual objects made of CG images, and virtual objects are used as a complement to real objects, whereas in MR technology, virtual objects are considered to be equal to real objects. It is distinct from technology. More specifically, for example, the MR technology described above is applied to a hologram service. VR, AR and MR technologies can be integrated and referred to as XR technology.
  • Point cloud data may represent a volumetric encoding of a point cloud consisting of a sequence of frames (point cloud frames).
  • Each point cloud frame may include the number of points, positions of the points, and attributes of the points. The number of points, positions of points, and attributes of points may vary from frame to frame.
  • Each point cloud frame may refer to a set of 3D points specified by Cartesian coordinates (x, y, z) of 3D points and zero or more attributes at a specific time instance.
  • the Cartesian coordinate system (x, y, z) of the three-dimensional points may be position or geometry.
  • the present disclosure may further perform a spatial division process of dividing the point cloud data into one or more 3D blocks before encoding (encoding) the point cloud data.
  • a 3D block may refer to all or a portion of the 3D space occupied by point cloud data.
  • a 3D block is one of a tile group, tile, slice, coding unit (CU), prediction unit (PU), or transform unit (TU). It can mean more than that.
  • a tile corresponding to a 3D block may mean all or a portion of the 3D space occupied by point cloud data. Additionally, a slice corresponding to a 3D block may mean all or a portion of the 3D space occupied by point cloud data.
  • a tile may be divided into one or more slices based on the number of points included in one tile.
  • a tile may be a group of slices with bounding box information. Bounding box information for each tile may be specified in the tile inventory (or tile parameter set (TPS)). Tiles can overlap with other tiles within the bounding box.
  • a slice may be a unit of data on which encoding is independently performed, and may be a unit of data on which decoding is independently performed.
  • a slice can be a set of points that can be encoded or decoded independently.
  • a slice may be a series of syntax elements representing part or all of a coded point cloud frame.
  • Each slice may include an index to identify the tile to which the slice belongs.
  • Spatially divided 3D blocks can be processed independently or non-independently.
  • spatially divided 3D blocks may be independently or non-independently encoded or decoded, and may be transmitted or received independently or non-independently.
  • the spatially divided 3D blocks may be independently or non-independently quantized or dequantized, and may be independently or non-independently transformed or inverted.
  • spatially divided 3D blocks may be rendered independently or non-independently.
  • encoding or decoding may be performed on a slice basis or a tile basis.
  • quantization or dequantization may be performed differently for each tile or slice, and may be performed differently for each transformed or inverted tile or slice.
  • the process of processing the 3D blocks is performed in real time and at the same time, the process is performed in real time. It may be treated as a delay. Additionally, random access and parallel encoding or parallel decoding on the three-dimensional space occupied by point cloud data may be possible, and errors accumulated during the encoding or decoding process may be prevented.
  • FIG. 9 is a block diagram illustrating an example of a transmission device 900 that performs a space division process according to embodiments of the present disclosure.
  • the transmission device 900 includes a space division unit 905 that performs a space division process, a signaling processor 910, a geometry encoder 915, an attribute encoder 920, and an encapsulation processor ( 925) and/or a transmission processing unit 930.
  • the spatial division unit 905 may perform a spatial division process of dividing point cloud data into one or more 3D blocks based on a bounding box and/or sub-bounding box.
  • point cloud data may be divided into one or more tiles and/or one or more slices.
  • point cloud data may be divided into one or more tiles, and each divided tile may be further divided into one or more slices.
  • Figure 10 shows an example of spatial division of a bounding box (i.e., point cloud data) into one or more 3D blocks.
  • the overall bounding box of the point cloud data consists of three tiles: tile #0, tile #1, and tile #2.
  • tile #0 can be further divided into two slices, namely slice #0 and slice #1.
  • tile #1 can be further divided into two slices, namely slice #2 and slice #3.
  • tile #2 can be divided again into slice #4.
  • the signaling processing unit 910 may generate and/or process (for example, entropy encoding) signaling information and output it in the form of a bitstream.
  • bitstream output from the signaling processing unit (in which signaling information is encoded) is referred to as a 'signaling bitstream'.
  • Signaling information may include information for space division or information about space division. That is, the signaling information may include information related to the space division process performed by the space division unit 905.
  • the point cloud data is divided into one or more 3D blocks, information for decoding some of the point cloud data corresponding to a specific tile or a specific slice among the point cloud data may be needed. Additionally, to support spatial access (or partial access) to point cloud data, information related to three-dimensional spatial regions may be needed. Here, spatial access may mean extracting only a portion of the point cloud data required from the entire point cloud data from the file.
  • Signaling information may include information for decoding some point cloud data, information related to 3D spatial regions to support spatial access, etc. For example, signaling information may include 3D bounding box information, 3D spatial area information, tile information, and/or tile inventory information.
  • Signaling information may be provided from the spatial division unit 905, the geometry encoder 915, the attribute encoder 920, the transmission processing unit 925, and/or the encapsulation processing unit 930.
  • the signaling processing unit 910 processes the feedback information fed back from the receiving device 900 of FIG. 13 into a space dividing unit 905, a geometry encoder 915, an attribute encoder 920, a transmission processing unit 925, and/or It can be provided to the encapsulation processing unit 930.
  • Signaling information may be stored and signaled in a sample within a track, a sample entry, a sample group, a track group, or a separate metadata track.
  • signaling information includes a sequence parameter set (SPS) for sequence level signaling, a geometry parameter set (GPS) for signaling of geometry coding information, and signaling of attribute coding information. It can be signaled in units such as an attribute parameter set (APS) for tile-level signaling, a tile parameter set (TPS) (or tile inventory) for tile-level signaling. Additionally, signaling information may be signaled in units of coding units such as slices or tiles.
  • positions (position information) of 3D blocks can be output to the geometry encoder 915, and the attributes (attribute information) of 3D blocks can be output to the attribute encoder 920.
  • the geometry encoder 915 may construct an octree based on position information, encode the constructed octree, and output a geometry bitstream. Additionally, the geometry encoder 915 may reconstruct (restore) the octree and/or the approximated octree and output them to the attribute encoder 920.
  • the restored octree may be a restored geometry.
  • the geometry encoder 915 includes the coordinate system conversion unit 305, geometry quantization unit 310, octree analysis unit 315, approximation unit 320, geometry encoding unit 325, and/or restoration unit 330 of FIG. 3. All or part of the operations performed can be performed. Depending on the embodiment, the geometry encoder 915 includes the quantization processing unit 610 of FIG.
  • the voxelization processing unit 615 the octree occupancy code generation unit 620, the surface model processing unit 625, and the intra/inter coding processing unit. All or part of the operations performed by 630 and/or the arismatic coder 635 may be performed.
  • the attribute encoder 920 may output an attribute bitstream by encoding the attribute based on the restored geometry.
  • the attribute encoder 920 includes the attribute conversion unit 340, RAHT conversion unit 345, LOD generation unit 350, lifting unit 355, attribute quantization unit 360, attribute encoding unit 365, and /Or, all or part of the operations performed by the color converter 335 may be performed.
  • the attribute encoder 920 is performed by the attribute conversion processor 650, prediction/lifting/RAHT conversion processor 655, arismatic coder 660, and/or color conversion processor 645 of FIG. 6. All or part of the actions can be performed.
  • the encapsulation processing unit 925 may encapsulate one or more input bitstreams into a file or segment. For example, the encapsulation processing unit 925 may encapsulate each of the geometry bitstream, attribute bitstream, and signaling bitstream, or may multiplex the geometry bitstream, attribute bitstream, and signaling bitstream to perform encapsulation. can do. Depending on embodiments, the encapsulation processing unit 925 may encapsulate a bitstream (G-PCC bitstream) composed of a sequence of a type-length-value (TLV) structure into a file.
  • the TLV (or TLV encapsulation) structures constituting the G-PCC bitstream may include a geometry bitstream, an attribute bitstream, a signaling bitstream, etc.
  • the G-PCC bitstream may be generated in the encapsulation processor 925 or the transmission processor 930.
  • the TLV structure or TLV encapsulation structure will be described in detail later.
  • the encapsulation processing unit 925 may perform all or part of the operations performed by the encapsulation processing unit 13 of FIG. 1 .
  • the transmission processor 930 may process an encapsulated bitstream or file/segment according to an arbitrary transmission protocol.
  • the transmission processing unit 930 may perform all or part of the operations performed by the transmission unit 14 and the transmission processing unit described with reference to FIG. 1 or the transmission processing unit 665 of FIG. 6.
  • FIG. 11 is a block diagram illustrating an example of a receiving device 1100 according to embodiments of the present disclosure.
  • the receiving device 1100 may perform operations corresponding to the operations of the transmitting device 900 that performs space division.
  • the receiving device 1100 includes a reception processing unit 1105, a decapsulation processing unit 1110, a signaling processing unit 1115, a geometry decoder 1120, an attribute encoder 1125, and/or a post-processing unit. It may include (1130).
  • the reception processing unit 1105 may receive a file/segment in which a G-PCC bitstream is encapsulated, a G-PCC bitstream, or a bitstream, and process them according to a transmission protocol.
  • the reception processing unit 1105 may perform all or part of the operations performed by the reception unit 21 and the reception processing unit described with reference to FIG. 1, or the reception unit 705 or the reception processing unit 710 of FIG. 7.
  • the decapsulation processing unit 1110 may obtain a G-PCC bitstream by performing the reverse process of the operations performed by the encapsulation processing unit 925.
  • the decapsulation processing unit 1110 can obtain a G-PCC bitstream by decapsulating the file/segment.
  • the decapsulation processor 1110 may obtain a signaling bitstream and output it to the signaling processor 1115, obtain a geometry bitstream and output it to the geometry decoder 1120, and obtain an attribute bitstream. It can be acquired and output to the attribute decoder (1125).
  • the decapsulation processor 1110 may perform all or part of the operations performed by the decapsulation processor 22 of FIG. 1 or the reception processor 710 of FIG. 7 .
  • the signaling processing unit 1115 may parse and decode signaling information by performing the reverse process of the operations performed by the signaling processing unit 910.
  • the signaling processing unit 1115 may parse and decode signaling information from the signaling bitstream.
  • the signaling processing unit 1115 may provide decoded signaling information to the geometry decoder 1120, the attribute decoder 1125, and/or the post-processing unit 1130.
  • the geometry decoder 1120 can restore geometry from the geometry bitstream by performing the reverse process of the operations performed by the geometry encoder 915.
  • the geometry decoder 1120 can restore geometry based on signaling information (parameters related to geometry).
  • the restored geometry may be provided to the attribute decoder 1125.
  • the attribute decoder 1125 can restore the attribute from the attribute bitstream by performing the reverse process of the operations performed by the attribute encoder 920.
  • the attribute decoder 1125 can restore the attribute based on signaling information (parameters related to the attribute) and the restored geometry.
  • the post-processing unit 1130 may restore point cloud data based on the restored geometry and restored attributes. Restoration of point cloud data can be performed through a process of matching restored geometry and restored attributes. According to embodiments, when the restored point cloud data is in tile and/or slice units, the post-processing unit 1130 performs a reverse process of the spatial division process of the transmission device 900 based on signaling information, The bounding box of point cloud data can be restored. Depending on the embodiment, when the bounding box is divided into a plurality of tiles and/or a plurality of slices through a space division process, the post-processing unit 1130 divides some slices and/or some slices based on signaling information. By combining tiles, part of the bounding box can also be restored. Here, some slices and/or some tiles used to restore the bounding box may be slices and/or some tiles related to a three-dimensional spatial area for which spatial access is desired.
  • the TLV encapsulation structure can be created in the transmission unit, transmission processing unit, and encapsulation unit mentioned in this specification.
  • the G-PCC bitstream composed of TLV encapsulation structures may be transmitted to the receiving device as is, or may be encapsulated and transmitted to the receiving device.
  • the encapsulation processing unit 1125 may encapsulate a G-PCC bitstream consisting of TLV encapsulation structures in the form of a file/segment and transmit it.
  • the decapsulation processing unit 1110 may obtain a G-PCC bitstream by decapsulating the encapsulated file/segment.
  • the G-PCC bitstream may be encapsulated in an ISOBMFF-based file format.
  • the G-PCC bitstream can be stored in a single track or multiple tracks in the ISOBMFF file.
  • single tracks or multiple tracks within a file may be referred to as “tracks” or “G-PCC tracks.”
  • ISOBMFF-based files may be referred to as containers, container files, media files, G-PCC files, etc.
  • the file may be composed of boxes and/or information that may be referred to as ftyp, moov, or mdat.
  • the ftyp box can provide information about the file type or file compatibility for the file.
  • the receiving device can distinguish the corresponding files by referring to the ftyp box.
  • the mdat box is also called a media data box and may contain actual media data.
  • a geometry slice or coded geometry bitstream
  • zero or more attribute slices or coded attribute bitstream
  • the moov box is also called the movie box, and may contain metadata about the media data of the file.
  • the moov box may include information necessary for decoding and playing the corresponding media data, and may include information about tracks and samples of the corresponding file.
  • the moov box can act as a container for all metadata.
  • the moov box may be a box of the highest layer among metadata-related boxes.
  • the moov box may include a track (trak) box that provides information related to the track of the file
  • the trak box may include a media (mdia) box (MediaBox) that provides media information of the track
  • a track reference container (tref) box may be included to connect (reference) the track and the sample of the file corresponding to the track.
  • the media box (MediaBox) may include a media information container (minf) box that provides information on the corresponding media data and a handler (hdlr) box (HandlerBox) that indicates the type of stream.
  • the minf box may contain a sample table (stbl) box that provides metadata related to the samples in the mdat box.
  • the stbl box may include a sample description (stsd) box that provides information about the coding type used and initialization information required for the coding type.
  • the sample description (stsd) box may include a sample entry for the track.
  • signaling information or metadata
  • such as SPS, GPS, APS, and tile inventory may be included in a sample entry of the moov box or a sample of the mdat box in the file.
  • a G-PCC track is defined as a volumetric visual track that carries either a geometry slice (or coded geometry bitstream) or an attribute slice (or coded attribute bitstream), or both geometry slices and attribute slices. It can be.
  • the volumetric visual track is a volumetric visual media handler type 'volv' in the handler box of the MediaBox and/or the minf box of the MediaBox. It can be identified by its volumetric visual media header (vvhd).
  • the minf box may be referred to as a media information container or media information box.
  • the minf box is included in the media box (MediaBox), the media box (MediaBox) is included in the track box, and the track box can be included in the moov box of the file.
  • a single volumetric visual track or multiple volumetric visual tracks can exist in the file.
  • the encapsulation processing unit mentioned in this disclosure may create a sample group by grouping one or more samples.
  • the encapsulation processing unit, meta data processing unit, or signaling processing unit mentioned in this disclosure may signal signaling information associated with the sample group to a sample, sample group, or sample entry. That is, sample group information associated with the sample group may be added to the sample, sample group, or sample entry.
  • Sample group information may include 3D bounding box sample group information, 3D area sample group information, 3D tile sample group information, and 3D tile inventory sample group information.
  • Figure 12 is a diagram for explaining an ISOBMFF-based file including a single track.
  • Figure 12 (a) shows an example of the layout of an ISOBMFF-based file including a single track
  • Figure 12 (b) shows a sample structure of an mdat box when a G-PCC bitstream is stored in a single track of the file.
  • Figure 13 is a diagram for explaining an ISOBMFF-based file including multiple tracks.
  • Figure 13 (a) shows an example of the layout of an ISOBMFF-based file including multiple tracks
  • Figure 13 (b) shows a sample structure of an mdat box when a G-PCC bitstream is stored in a single track of the file. Shows an example.
  • the stsd box (SampleDescriptionBox) included in the moov box of the file may contain a sample entry for a single track storing the G-PCC bitstream.
  • SPS, GPS, APS, and tile inventory can be included in sample entries in the moov box or samples in the mdat box within the file.
  • geometry slices and zero or more attribute slices may be included in the sample of the mdat box in the file.
  • each sample may contain multiple G-PCC components. That is, each sample may consist of one or more TLV encapsulation structures.
  • the sample may include TLV encapsulation structures including geometry slices. Additionally, a sample may include TLV encapsulation structures containing one or more parameter sets. Additionally, a sample may include TLV encapsulation structures containing one or more attribute slices.
  • each geometry slice or attribute slice may be mapped to an individual track.
  • a geometry slice may be mapped to track 1
  • an attribute slice may be mapped to track 2.
  • the track carrying the geometry slice (track 1) may be referred to as a geometry track or a G-PCC geometry track
  • the track carrying an attribute slice (track 2) may be referred to as an attribute track or a G-PCC attribute track.
  • the geometry track can be defined as a volumetric visual track carrying a geometry slice
  • the attribute track can be defined as a volumetric visual track carrying an attribute slice.
  • a track carrying part of a G-PCC bitstream that includes both geometry slices and attribute slices may be referred to as a multiplexed track.
  • each sample in the track may include at least one TLV encapsulation structure carrying data of a single G-PCC component.
  • each sample contains neither geometry nor an attribute, and may not contain multiple attributes.
  • Multi-track encapsulation of the G-PCC bitstream may enable a G-PCC player to effectively access one of the G-PCC components.
  • Temporal scalability may refer to a feature that allows the possibility of extracting one or more subsets of independently coded frames. Additionally, temporal scalability may mean the ability to divide G-PCC data into a plurality of different temporal levels and process each G-PCC frame belonging to different temporal levels independently. If temporal scalability is supported, the G-PCC player (or the transmitting device and/or receiving device of the present disclosure) can effectively access a desired component (target component) among G-PCC components. Additionally, when temporal scalability is supported, G-PCC frames are processed independently of each other, so temporal scalability support at the system level can be expressed as more flexible temporal sub-layering.
  • the system that processes G-PCC data can manipulate data at a high level to match network capabilities (capability) or decoder capabilities (capability), etc.
  • the performance of the point cloud content provision system can be improved.
  • a G-PCC bitstream according to the existing file format has only intra-coded frames. In this case, since all frames in the G-PCC bitstream are intra-coded, it appears that the random access function will be activated automatically, but in reality, random access is possible without additional information depending on how the frames are transported/stored within the tracks of the G-PCC file. Access features may not be available.
  • Parameter sets can be carried in only sample entries or samples, or in sample entries and samples. If parameter sets are carried in samples, then a frame in a particular sample If we refer to parameter sets, the decoding process cannot start from the sample X. As a result, for safe playback from random samples, the file parser/player needs to solve the issue of finding all parameter sets required or referenced by frames starting from the random access point.
  • SyncSampleBox ('stss') that can convey information about which samples in the track are sync samples.
  • sample grouping mechanism has been proposed to provide useful information in supporting random access functions.
  • This SyncSampleBox and sample grouping mechanism can work together to provide random access functionality.
  • the mechanism for this i.e. how they work together to support random access functionality
  • the present disclosure may provide various embodiments of SyncSampleBox properties and player operations to support correct random access functions.
  • Embodiments of the present disclosure may be provided based on the following aspects. Depending on the embodiment, the components below may be applied individually or in combination of two or more.
  • the Parameter Set Sample Group Boxes or SyncSampleBox and Parameter Set Sample Group Boxes may be restricted to exist within that track. there is.
  • SyncSampleBox exists, the box may be restricted to exist only in tracks containing geometry components or in tile base tracks. Sync samples within a track containing only attribute components can be inferred from the associated track carrying the geometry component.
  • the file player can start decoding and playback directly from the sample X.
  • Necessary parameter sets for decoding the sample X and the samples following it in decoding order may be available within the sample entry of the track.
  • the file player can find samples containing the parameter sets required for decoding from the information provided by the parameter set sample group boxes and start decoding from the sample X.
  • the random access from the sample X may be unspecified.
  • a sync sample may refer to a sample in a track starting from the ISAU of a SAP (Stream Access Point) of a certain type (e.g., type 1 or type 2) or a media sample that starts a sequence of new independent samples.
  • SAP Stream Access Point
  • a media sample that starts a sequence of new independent samples.
  • the Sync Sample box can provide simple marking of sync samples in the stream.
  • An example of the syntax structure of the sync sample box is shown in Table 1.
  • the syntax element entry_count may indicate the number of entries in the subsequent table. If the entry_count value is 0, there are no sync samples in the stream and the subsequent table may be empty.
  • the syntax element sample_number may indicate the number of sink samples in the stream.
  • a sync sample box may exist in the following tracks.
  • the sync sample box need not be present in a track with sample entry type 'gpe1' and a track with sample entry type 'gpc1'. This is because all samples have an intra-coded frame, and the parameter sets needed to decode a sample within the track are carried within a sample entry.
  • SyncSampleBox can be restricted to not exist in tracks that do not contain geometry components and have sample entry type 'gpcg'. If samples in a track that contain a geometry component and have sample entry type 'gpcg' are designated as sync samples (i.e., samples included in a SyncSampleBox), then corresponding samples in the associated track (i.e., have the same decoding timestamp and/or Samples with a presentation timestamp) can also be considered sync samples.
  • the SyncSampleBox and Parameter Set sample group boxes are all in a track with sample entry type 'gpeg', a track with sample entry 'gpcg' containing a geometry component, or a track with sample entry 'gpeb' or 'gpcb'. If not present, a method for performing random access playback may not be specified.
  • a SyncSampleBox can only exist in the track containing temporal level 0.
  • the file player can start decoding and playback directly from the sample X.
  • parameter sets necessary for decoding the sample X and samples following it in decoding order may be available within the sample entry of the track.
  • the file player can select a sample containing the parameter sets (e.g., SPS, GPS, APS and FSAP) required for decoding from the information provided by the parameter set sample group boxes. You can start decoding from the sample Samples containing the parameter sets may be the sample X itself or samples preceding the sample X. Upon finding the samples, the file parser can extract all parameter sets within the samples and make them available for decoding/playback starting from sample X.
  • the parameter sets e.g., SPS, GPS, APS and FSAP
  • the file player can determine whether a SyncSampleBox exists and whether the sample X is indicated as a sync sample (S1420). As a result of the determination, if SyncSampleBox exists and the sample You can start from sample X (S1440).
  • the file player may consider random access playback impossible and not perform decoding from the sample X.
  • a specific mechanism regarding SyncSampleBox properties and player operation during random access can be provided. Accordingly, the random access function can be properly supported.
  • Figure 15 is a flowchart showing a method performed in a device for receiving point cloud data according to an embodiment of the present disclosure.
  • the receiving device may obtain parameter sets required for the random access from the point cloud data based on a random access request from a first sample among the samples included in the point cloud data. (S1510).
  • the receiving device may decode the first sample and one or more samples following the first sample in decoding order (S1520).
  • the parameter sets may be obtained from the sample entry of the track.
  • the point cloud data may not include a sync sample box.
  • the parameter sets are configured to determine if the point cloud data includes a sync sample box and the first sample is Based on what is indicated by the sync sample, it can be obtained from the sample entry of the track or the first sample.
  • the sync sample box may exist within a predetermined track of the point cloud data.
  • the predetermined track is one of a track with a sample entry type of 'gpeg', a track containing a geometry component and a sample entry type of 'gpcg', or a track with a sample entry type of 'gpeb' or 'gpcb'. It can be.
  • the sync sample box may be restricted to not exist in tracks that do not contain a geometry component and have a sample entry type of 'gpcg'.
  • corresponding samples in the associated track may be treated as sync samples.
  • the parameter sets are based on the point cloud data including parameter set sample group boxes. Thus, it can be obtained from the first sample or samples preceding the first sample in decoding order. In contrast, if the point cloud data does not include parameter set sample group boxes, the acquisition of the above-described parameter sets (S1510) and the decoding (S1520) may not be performed.
  • Figure 16 is a flowchart showing a method performed in an apparatus for transmitting point cloud data according to an embodiment of the present disclosure.
  • the transmission device may store a bitstream including the point cloud data in one or more tracks (S1610).
  • the transmission device can generate a geometry-based point cloud compression (G-PCC) file based on the tracks (S1620).
  • G-PCC geometry-based point cloud compression
  • the parameter sets required to perform random access from a first sample among the samples included in the point cloud data are such that the sample entry type of the track including the first sample is 'gpe1' or 'gpc1'. ', may be included in the sample entry of the track.
  • the parameter sets are based on the point cloud data including a sync sample box and the first sample being indicated as a sync sample. Thus, it may be included in the sample entry of the track or the first sample.
  • the parameter sets are based on the point cloud data including parameter set sample group boxes. Thus, it may be included in the first sample or samples preceding the first sample in decoding order. Alternatively, if the point cloud data does not include parameter set sample group boxes, the parameter sets may not be included in the point cloud data.
  • Exemplary methods of the present disclosure are expressed as a series of operations for clarity of explanation, but this is not intended to limit the order in which the steps are performed, and each step may be performed simultaneously or in a different order, if necessary.
  • other steps may be included in addition to the exemplified steps, some steps may be excluded and the remaining steps may be included, or some steps may be excluded and additional other steps may be included.
  • a transmitting device or a receiving device that performs a predetermined operation may perform an operation (step) that checks performance conditions or situations for the corresponding operation (step). For example, when it is described that a predetermined operation is performed when a predetermined condition is satisfied, the video encoding device or video decoding device performs an operation to check whether the predetermined condition is satisfied and then performs the predetermined operation. It can be done.
  • various embodiments of the present disclosure may be implemented by hardware, firmware, software, or a combination thereof.
  • one or more ASICs Application Specific Integrated Circuits
  • DSPs Digital Signal Processors
  • DSPDs Digital Signal Processing Devices
  • PLDs Programmable Logic Devices
  • FPGAs Field Programmable Gate Arrays
  • general purpose It can be implemented by a processor (general processor), controller, microcontroller, microprocessor, etc.
  • the scope of the present disclosure is software or machine-executable instructions (e.g., operating system, application, firmware, program, etc.) that cause operations according to the methods of various embodiments to be executed on a device or computer, and such software or It includes non-transitory computer-readable medium in which instructions, etc. are stored and can be executed on a device or computer.
  • software or machine-executable instructions e.g., operating system, application, firmware, program, etc.
  • Embodiments according to the present disclosure can be used to provide point cloud content. Additionally, embodiments according to the present disclosure can be used to encode/decode point cloud data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

포인트 클라우드 데이터의 전송 장치, 전송 장치에서 수행되는 방법, 수신 장치, 및 수신 장치에서 수행되는 방법이 제공된다. 본 개시에 따른 포인트 클라우드 데이터의 수신 장치에서 수행되는 방법은, 상기 포인트 클라우드 데이터에 포함된 샘플들 중 제1 샘플로부터의 랜덤 액세스 요청이 발생한 것에 기반하여, 상기 포인트 클라우드 데이터로부터 상기 랜덤 액세스에 필요한 파라미터 세트들을 획득하는 단계, 및 상기 파라미터 세트들에 기반하여 상기 제1 샘플 및 디코딩 순서상 상기 제1 샘플에 후속하는 하나 이상의 샘플들을 디코딩하는 단계를 포함하고, 상기 파라미터 세트들은, 상기 제1 샘플을 포함하는 트랙의 샘플 엔트리 타입, 싱크 샘플 박스의 존재 여부, 또는 파라미터 세트 샘플 그룹 박스들의 존재 여부 중 적어도 하나에 기반하여, 상기 트랙의 샘플 엔트리 또는 소정 샘플로부터 획득될 수 있다.

Description

포인트 클라우드 데이터의 전송 장치와 이 전송 장치에서 수행되는 방법 및, 포인트 클라우드 데이터의 수신 장치와 이 수신 장치에서 수행되는 방법
본 개시는 포인트 클라우드 콘텐트(point cloud content)를 처리하는 방법 및 장치에 대한 것이다.
포인트 클라우드 콘텐트는 3차원 공간을 표현하는 좌표계에 속한 점(포인트)들의 집합인 포인트 클라우드로 표현되는 콘텐트이다. 포인트 클라우드 콘텐트는 3차원으로 이루어진 미디어를 표현할 수 있으며, VR(virtual reality, 가상현실), AR(augmented reality, 증강현실), MR(mixed reality, 혼합현실), 및 자율 주행 서비스 등의 다양한 서비스를 제공하기 위해 사용된다. 포인트 클라우드 콘텐트를 표현하기 위해서는 수만 개에서 수십만 개의 포인트 데이터가 필요하므로, 방대한 양의 포인트 데이터를 효율적으로 처리하기 위한 방법이 요구된다.
본 개시는 포인트 클라우드 데이터를 효율적으로 처리하기 위한 방법 및 장치를 제공하는 것을 목적으로 한다.
또한, 본 개시는 올바른 랜덤 액세스 기능을 지원하는 방법 및 장치를 제공하는 것을 목적으로 한다.
또한, 본 개시는 랜덤 액세스 샘플이 속한 트랙의 샘플 엔트리 타입에 기반하여 랜덤 액세스 기능을 제공하는 방법 및 장치를 제공하는 것을 목적으로 한다.
또한, 본 개시는 싱크 샘플 박스 또는 파라미터 세트 샘플 그룹 박스의 존재 여부에 기반하여 랜덤 액세스 기능을 제공하는 방법 및 장치를 제공하는 것을 목적으로 한다.
또한, 본 개시는 저장된 G-PCC 비트스트림에 대한 효율적인 접근을 지원할 수 있도록 하기 위한 파일 저장 기법을 처리하는 방법 및 장치를 제공하는 것을 목적으로 한다.
본 개시에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 개시의 일 실시예에 따른 포인트 클라우드 데이터의 수신 장치에서 수행되는 방법은, 상기 포인트 클라우드 데이터에 포함된 샘플들 중 제1 샘플로부터의 랜덤 액세스 요청이 발생한 것에 기반하여, 상기 포인트 클라우드 데이터로부터 상기 랜덤 액세스에 필요한 파라미터 세트들을 획득하는 단계, 및 상기 파라미터 세트들에 기반하여 상기 제1 샘플 및 디코딩 순서상 상기 제1 샘플에 후속하는 하나 이상의 샘플들을 디코딩하는 단계를 포함하되, 상기 파라미터 세트들은, 상기 제1 샘플을 포함하는 트랙의 샘플 엔트리 타입, 싱크 샘플 박스의 존재 여부, 또는 파라미터 세트 샘플 그룹 박스들의 존재 여부 중 적어도 하나에 기반하여, 상기 트랙의 샘플 엔트리 또는 소정 샘플로부터 획득될 수 있다.
본 개시의 다른 실시예에 따른 포인트 클라우드 데이터의 수신 장치는, 메모리 및 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 상기 포인트 클라우드 데이터에 포함된 샘플들 중 제1 샘플로부터의 랜덤 액세스 요청이 발생한 것에 기반하여, 상기 포인트 클라우드 데이터로부터 상기 랜덤 액세스에 필요한 파라미터 세트들을 획득하고, 상기 파라미터 세트들에 기반하여 상기 제1 샘플 및 디코딩 순서상 상기 제1 샘플에 후속하는 하나 이상의 샘플들을 디코딩하되, 상기 파라미터 세트들은, 상기 제1 샘플을 포함하는 트랙의 샘플 엔트리 타입, 싱크 샘플 박스의 존재 여부, 또는 파라미터 세트 샘플 그룹 박스들의 존재 여부 중 적어도 하나에 기반하여, 상기 트랙의 샘플 엔트리 또는 소정 샘플로부터 획득될 수 있다.
본 개시의 또 다른 실시예에 따른 포인트 클라우드 데이터의 전송 장치에서 수행되는 방법은, 상기 포인트 클라우드 데이터를 포함하는 비트스트림을 하나 이상의 트랙들에 저장하는 단계, 및 상기 트랙들에 기반하여 G-PCC(geometry-based point cloud compression) 파일을 생성하는 단계를 포함하되, 상기 포인트 클라우드 데이터에 포함된 제1 샘플로부터의 랜덤 액세스를 수행하는 데 필요한 파라미터 세트들은, 상기 제1 샘플을 포함하는 트랙의 샘플 엔트리 타입, 싱크 샘플 박스의 존재 여부, 또는 파라미터 세트 샘플 그룹 박스들의 존재 여부 중 적어도 하나에 기반하여, 상기 트랙의 샘플 엔트리 또는 소정 샘플에 포함될 수 있다.
본 개시의 또 다른 실시예에 따른 포인트 클라우드 데이터의 전송 장치는, 메모리 및 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 상기 포인트 클라우드 데이터를 포함하는 비트스트림을 하나 이상의 트랙들에 저장하고, 상기 트랙들에 기반하여 G-PCC(geometry-based point cloud compression) 파일을 생성하되, 상기 포인트 클라우드 데이터에 포함된 제1 샘플로부터의 랜덤 액세스를 수행하는 데 필요한 파라미터 세트들은, 상기 제1 샘플을 포함하는 트랙의 샘플 엔트리 타입, 싱크 샘플 박스의 존재 여부, 또는 파라미터 세트 샘플 그룹 박스들의 존재 여부 중 적어도 하나에 기반하여, 상기 트랙의 샘플 엔트리 또는 소정 샘플에 포함될 수 있다.
본 개시에 따르면, 포인트 클라우드 데이터를 효율적으로 처리하기 위한 방법 및 장치가 제공될 수 있다.
또한, 본 개시에 따르면, 올바른 랜덤 액세스 기능을 지원하는 방법 및 장치가 제공될 수 있다.
또한, 본 개시에 따르면, 랜덤 액세스 샘플이 속한 트랙의 샘플 엔트리 타입에 기반하여 랜덤 액세스를 처리하는 포인트 클라우드 콘텐트 서비스 제공을 위한 방법 및 장치가 제공될 수 있다.
또한, 본 개시에 따르면, 싱크 샘플 박스 또는 파라미터 세트 샘플 그룹 박스의 존재 여부에 기반하여 랜덤 액세스를 처리하는 포인트 클라우드 콘텐트 서비스 제공을 위한 방법 및 장치가 제공될 수 있다.
또한, 본 개시에 따르면, 저장된 G-PCC 비트스트림에 대한 효율적인 접근을 지원할 수 있도록 하기 위한 파일 저장 기법을 처리하는 방법 및 장치가 제공될 수 있다.
본 개시에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 개시의 실시예들에 따른 포인트 클라우드 콘텐트 제공 시스템의 예시를 나타내는 블록도이다.
도 2는 본 개시의 실시예들에 따른 포인트 클라우드 콘텐트 제공 과정의 예시를 나타내는 블록도이다.
도 3은 본 개시의 실시예들에 따른 포인트 클라우드 부호화 장치의 예시를 나타낸다.
도 4는 본 개시의 실시예들에 따른 포인트 클라우드 복호화 장치의 예시를 나타내는 블록도이다.
도 5는 본 개시의 실시예들에 따른 포인트 클라우드 복호화 장치의 다른 예시를 나타내는 블록도이다.
도 6은 본 개시의 실시예들에 따른 전송 장치의 다른 예시를 나타내는 블록도이다.
도 7은 본 개시의 실시예들에 따른 수신 장치의 다른 예시를 나타내는 블록도이다.
도 8은 본 개시의 실시예들에 따른 포인트 클라우드 데이터 송수신 방법/장치와 연동 가능한 구조의 예시를 나타낸다.
도 9는 본 개시의 실시예들에 따른 전송 장치의 또 다른 예시를 나타내는 블록도이다.
도 10은 본 개시의 실시예들에 따른 바운딩 박스를 3차원 블록들로 공간 분할한 예시를 나타낸다.
도 11은 본 개시의 실시예들에 따른 수신 장치의 또 다른 예시를 나타내는 블록도이다.
도 12는 본 개시의 실시예들에 따른 싱글 트랙을 포함하는 파일에 대한 예시를 나타낸다.
도 13은 본 개시의 실시예들에 따른 멀티플 트랙을 포함하는 파일에 대한 예시를 나타낸다.
도 14는 본 개시의 일 실시예에 따른 랜덤 액세스 처리 방법을 나타낸 흐름도이다.
도 15는 본 개시의 일 실시예에 따른 포인트 클라우드 데이터의 수신 장치에서 수행되는 방법을 나타낸 흐름도이다.
도 16은 본 개시의 일 실시예에 따른 포인트 클라우드 데이터의 전송 장치에서 수행되는 방법을 나타낸 흐름도이다.
이하에서는 첨부한 도면을 참고로 하여 본 개시의 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.
본 개시의 실시예를 설명함에 있어서 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그에 대한 상세한 설명은 생략한다. 그리고, 도면에서 본 개시에 대한 설명과 관계없는 부분은 생략하였으며, 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 개시에 있어서, 어떤 구성요소가 다른 구성요소와 "연결", "결합" 또는 "접속"되어 있다고 할 때, 이는 직접적인 연결 관계뿐만 아니라, 그 중간에 또 다른 구성요소가 존재하는 간접적인 연결 관계도 포함할 수 있다. 또한 어떤 구성요소가 다른 구성요소를 "포함한다" 또는 "가진다"고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 배제하는 것이 아니라 또 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 개시에 있어서, 제1, 제2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 특별히 언급되지 않는 한 구성요소들 간의 순서 또는 중요도 등을 한정하지 않는다. 따라서, 본 개시의 범위 내에서 일 실시예에서의 제1 구성요소는 다른 실시예에서 제2 구성요소라고 칭할 수도 있고, 마찬가지로 일 실시예에서의 제2 구성요소를 다른 실시예에서 제1 구성요소라고 칭할 수도 있다.
본 개시에 있어서, 서로 구별되는 구성요소들은 각각의 특징을 명확하게 설명하기 위함이며, 구성요소들이 반드시 분리되는 것을 의미하지는 않는다. 즉, 복수의 구성요소가 통합되어 하나의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있고, 하나의 구성요소가 분산되어 복수의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있다. 따라서, 별도로 언급하지 않더라도 이와 같이 통합된 또는 분산된 실시예도 본 개시의 범위에 포함된다.
본 개시에 있어서, 다양한 실시예에서 설명하는 구성요소들이 반드시 필수적인 구성요소들을 의미하는 것은 아니며, 일부는 선택적인 구성요소일 수 있다. 따라서, 일 실시예에서 설명하는 구성요소들의 부분집합으로 구성되는 실시예도 본 개시의 범위에 포함된다. 또한, 다양한 실시예에서 설명하는 구성요소들에 추가적으로 다른 구성요소를 포함하는 실시예도 본 개시의 범위에 포함된다.
본 개시는 포인트 클라우드 관련 데이터의 부호화 및 복호화에 관한 것으로서, 본 개시에서 사용되는 용어는, 본 개시에서 새롭게 정의되지 않는 한 본 개시가 속한 기술 분야에서 통용되는 통상의 의미를 가질 수 있다.
본 개시에서 “/”와 “,”는 “및/또는”으로 해석될 수 있다. 예를 들어, “A/B”와 “A, B”는 “A 및/또는 B”로 해석될 수 있다. 또한, “A/B/C”와 “A, B, C”는 “A, B 및/또는 C 중 적어도 하나”를 의미할 수 있다.
본 개시에서 “또는”은 “및/또는”으로 해석될 수 있다. 예를 들어, “A 또는 B”는, 1) “A” 만을 의미하거나 2) “B” 만을 의미하거나, 3) “A 및 B”를 의미할 수 있다. 또는, 본 개시에서 “또는”은 “추가적으로 또는 대체적으로(additionally or alternatively)”를 의미할 수 있다.
본 개시는 포인트 클라우드 관련 데이터의 압축에 관한 것이다. 본 개시의 다양한 방법 또는 실시예들은 MPEG(moving picture experts group)의 PCC(point cloud compression 또는 point cloud coding) 표준(ex. G-PCC or V-PCC 표준) 또는 차세대 비디오/이미지 코딩 표준에 적용될 수 있다.
본 개시에 있어서, “포인트 클라우드”는 3차원 공간에 위치한 포인트들의 집합을 의미할 수 있다. 또한, 본 개시에 있어서, “포인트 클라우드 콘텐트”는 포인트 클라우드로 표현되는 콘텐트로서, “포인트 클라우드 비디오/영상”를 의미할 수 있다. 이하에서는, '포인트 클라우드 비디오/영상'을 '포인트 클라우드 비디오'라 한다. 포인트 클라우드 비디오는 하나 이상의 프레임들을 포함할 수 있으며, 하나의 프레임은 정지 영상 또는 픽쳐일 수 있다. 따라서, 포인트 클라우드 비디오는 포인트 클라우드 영상/프레임/픽쳐를 포함할 수 있으며, “포인트 클라우드 영상”, “포인트 클라우드 프레임” 및 “포인트 클라우드 픽쳐” 중에서 어느 하나로 지칭될 수 있다.
본 개시에 있어서, “포인트 클라우드 데이터”는 포인트 클라우드 내 각 포인트들에 관련된 데이터 또는 정보 등을 의미할 수 있다. 포인트 클라우드 데이터는 지오메트리(geometry) 및/또는 어트리뷰트(attribute, 속성)를 포함할 수 있다. 또한, 포인트 클라우드 데이터는 메타(meta) 데이터를 더 포함할 수도 있다. 포인트 클라우드 데이터는 “포인트 클라우드 콘텐트 데이터” 또는 “포인트 클라우드 비디오 데이터” 등으로 지칭될 수 있다. 또한, 포인트 클라우드 데이터는 “포인트 클라우드 콘텐트”, “포인트 클라우드 비디오”, “G-PCC 데이터” 등으로 지칭될 수 있다.
본 개시에 있어서, 포인트 클라우드 데이터에 해당하는 포인트 클라우드 오브젝트(object)는 좌표계에 기반한 박스 형태로 나타낼 수 있으며, 이 좌표계에 기반한 박스 형태를 바운딩 박스(bounding box)라 할 수 있다. 즉, 바운딩 박스는 포인트 클라우드의 포인트들을 모두 담을 수 있는 직육면체(rectangular cuboid)일 수 있으며, 원본(source) 포인트 클라우드 프레임이 포함되는 직육면체일 수 있다.
본 개시에 있어서, 지오메트리는 각 포인트들의 포지션(또는, 포지션 정보)을 포함하며, 이 포지션은 3차원 좌표계(예를 들어, x축, y축 및 z축으로 이루어진 좌표계)를 나타내는 파라미터들(예를 들어, x축 값, y축 값 및 z축 값)로 표현될 수 있다. 지오메트리는 “지오메트리 정보”로 지칭될 수 있다.
본 개시에 있어서, 어트리뷰트는 각 포인트들의 속성을 포함할 수 있으며, 이 속성은 각 포인트들의 텍스쳐(texture) 정보, 색상(RGB 또는 YCbCr), 반사율(reflectance, r), 투명도(transparency) 등 중에서 하나 이상을 포함할 수 있다. 어트리뷰트는 “어트리뷰트 정보”로 지칭될 수 있다. 메타 데이터는 후술되는 획득 과정에서 획득에 관련된 다양한 데이터들을 포함할 수 있다.
포인트 클라우드 콘텐트 제공 시스템의 개요
도 1은 본 개시의 실시예들에 따른 포인트 클라우드 콘텐트를 제공하는 시스템(이하에서는, '포인트 클라우드 콘텐트 제공 시스템'이라 한다)의 예시를 나타낸다. 도 2는 포인트 클라우드 콘텐트 제공 시스템이 포인트 클라우드 콘텐트를 제공하는 과정의 예시를 나타낸다.
도 1에 예시된 바와 같이, 포인트 클라우드 콘텐트 제공 시스템은 전송 장치(transmission device, 10) 및 수신 장치(reception device, 20)를 포함할 수 있다. 포인트 클라우드 콘텐트 제공 시스템은 전송 장치(10)와 수신 장치(20)의 동작에 의해 도 2에 예시된 획득 과정(S20), 인코딩 과정(S21), 전송 과정(S22), 디코딩 과정(S23), 렌더링 과정(S24) 및/또는 피드백 과정(S25)을 수행할 수 있다.
전송 장치(10)는 포인트 클라우드 콘텐트를 제공하기 위하여, 포인트 클라우드 데이터를 획득하고, 획득된 포인트 클라우드 데이터(원본 포인트 클라우드 데이터)에 대한 일련의 과정(예를 들어, 인코딩 과정)을 거쳐 비트스트림을 출력할 수 있다. 여기서, 포인트 클라우드 데이터는 인코딩 과정을 거쳐 비트스트림 형태로 출력될 수 있다. 실시예들에 따라, 전송 장치(10)는 출력된 비트스트림을 파일 또는 스트리밍(스트리밍 세그먼트) 형태로 디지털 저장매체 또는 네트워크를 통하여 수신 장치(20)로 전송할 수 있다. 디지털 저장 매체는 USB, SD, CD, DVD, 블루레이, HDD, SSD 등 다양한 저장 매체를 포함할 수 있다. 수신 장치(20)는 수신된 데이터(예를 들어, 인코딩된 포인트 클라우드 데이터)를 다시 원래의 포인트 클라우드 데이터로 가공(예를 들어, 디코딩 또는 복원)하여 렌더링할 수 있다. 이러한 과정들을 통해 포인트 클라우드 콘텐트가 사용자에게 제공될 수 있으며, 본 개시는 이러한 일련의 과정들을 효과적으로 수행하기 위해 필요한 다양한 실시예들을 제공할 수 있다.
도 1에 예시된 바와 같이, 전송 장치(10)는 획득부(11), 부호화부(12), 인캡슐레이션 처리부(13) 및 전송부(14)를 포함할 수 있으며, 수신 장치(20)는 수신부(21), 디캡슐레이션 처리부(22), 복호화부(23) 및 렌더링부(24)를 포함할 수 있다.
획득부(11)는 캡쳐, 합성 또는 생성 과정 등을 통해 포인트 클라우드 비디오를 획득하는 과정(S20)을 수행할 수 있다. 따라서, 획득부(11)는 '포인트 클라우드 비디오 획득부(point cloud video acquisition)'로 지칭될 수 있다.
획득 과정(S20)에 의해 다수의 포인트들에 대한 포인트 클라우드 데이터(지오메트리 및/또는 어트리뷰트 등) 등이 생성될 수 있다. 또한, 획득 과정(S20)을 통해, 포인트 클라우드 비디오의 획득에 관련된 메타 데이터가 생성될 수 있다. 또한, 획득 과정(S20)에 의해 포인트 클라우드들 간의 연결 정보를 나타내는 메쉬(mesh) 데이터(예를 들어, 삼각형 형태의 데이터)가 생성될 수도 있다.
메타 데이터는 이니셜 뷰잉 오리엔테이션 메타 데이터(initial viewing orientation metadata)를 포함할 수 있다. 이니셜 뷰잉 오리엔테이션 메타 데이터는 포인트 클라우드 데이터가 앞을 나타내는 데이터인지 아니면 뒤를 나타내는 데이터인지를 지시할 수 있다. 메타 데이터는 포인트 클라우드에 대한 메타 데이터인 “보조(auxiliary) 데이터”로 지칭될 수 있다.
획득된 포인트 클라우드 비디오에는 PLY(polygon file format or the stanford triangle format) 파일이 포함될 수 있다. 포인트 클라우드 비디오는 하나 이상의 프레임들을 가지므로, 획득된 포인트 클라우드 비디오에는 하나 이상의 PLY 파일들이 포함될 수 있다. PLY 파일은 각 포인트들의 포인트 클라우드 데이터를 포함할 수 있다.
포인트 클라우드 비디오(또는, 포인트 클라우드 데이터)의 획득을 위해서, 획득부(11)는 깊이(depth, 깊이 정보)를 획득할 수 있는 카메라 장비와 깊이 정보에 대응되는 색상 정보를 추출할 수 있는 RGB 카메라들의 조합으로 구성될 수 있다. 여기서, 깊이 정보를 획득할 수 있는 카메라 장비는 적외선 패턴 프로젝터와 적외선 카메라의 조합일 수 있다. 또한, 획득부(11)는 라이다(LiDAR)로 구성될 수도 있는 데, 라이다는 레이저 펄스를 쏘고 반사되어 돌아오는 시간을 측정하여 반사체의 위치 좌표를 측정하는 레이더 시스템을 이용할 수 있다.
획득부(110)는 깊이 정보로부터 3차원 공간상의 포인트들로 구성된 지오메트리의 형태를 추출하고, RGB 정보로부터 각 포인트들의 색상이나 반사 등을 표현하는 어트리뷰트를 추출할 수 있다.
포인트 클라우드 비디오(또는, 포인트 클라우드 데이터)를 추출(또는, 캡쳐, 획득 등)하는 방식으로는, 중심 객체를 캡쳐하는 인워드-페이싱(inward-facing) 방식과, 외부 환경을 캡쳐하는 아웃워드-페이싱(outward-facing) 방식이 있을 수 있다.
한편, 컴퓨터로 생성된 가상의 공간에 대한 포인트 클라우드 비디오를 제공하고자 하는 경우에는, 실제 카메라를 통한 캡쳐가 수행되지 않을 수 있다. 이 경우, 캡쳐된 포인트 클라우드 콘텐트의 질을 향상시키기 위한 후처리가 필요할 수도 있다. 예를 들어, 획득 과정(S20)에서 카메라 장비가 제공하는 범위에서 최대/최소 깊이 값을 조정할 수 있지만, 원하지 않는 영역(예를 들어, 배경) 또는 원하지 않는 영역의 포인트 데이터들을 제거하는 후처리가 수행되거나, 연결된 공간을 인식하고 구멍(spatial hole)을 메우는 후처리가 수행될 수도 있다. 다른 예로, 공간 좌표계를 공유하는 카메라들로부터 추출된 포인트 클라우드 데이터를 각 카메라의 위치 좌표를 기준으로 각 포인트들에 대한 글로벌 좌표계로의 변환 과정을 통해 하나의 콘텐트로 통합하는 후처리가 수행될 수 있다. 이를 통해, 하나의 넓은 범위의 포인트 클라우드 컨텐트가 생성될 수도 있고, 또는 포인트들의 밀도가 높은 포인트 클라우드 컨텐트가 획득될 수도 있다.
부호화부(12)는 획득부(11)로부터 생성된 데이터들(지오메트리, 어트리뷰트 및/또는 메타 데이터 및/또는 메쉬 데이터 등)을 하나 이상의 비트스트림으로 인코딩하는 인코딩 과정(S21)을 수행할 수 있다. 따라서, 부호화부(12)는 '포인트 클라우드 비디오 인코더(point cloud video encoder)'로 지칭될 수 있다. 부호화부(12)는 획득부(11)로부터 생성된 데이터들을 직렬적 또는 병렬적으로 인코딩할 수 있다.
부호화부(12)가 수행하는 인코딩 과정(S21)은 지오메트리 기반 포인트 클라우드 압축(geometry-based point cloud compression, G-PCC)일 수 있다. 부호화부(12)는 압축 및 코딩 효율을 위하여 예측, 변환, 양자화, 엔트로피 코딩 등의 일련의 절차를 수행할 수 있다.
인코딩된 포인트 클라우드 데이터는 비트스트림 형태로 출력될 수 있다. G-PCC 절차에 기반하는 경우, 부호화부(12)는 포인트 클라우드 데이터를 후술하는 바와 같이 지오메트리 및 어트리뷰트로 나누어 인코딩할 수 있다. 이 경우, 출력되는 비트스트림은 인코딩된 지오메트리를 포함하는 지오메트리 비트스트림 및 인코딩된 어트리뷰트를 포함하는 어트리뷰트 비트스트림을 포함할 수 있다. 또한, 출력되는 비트스트림은 메타 데이터를 포함하는 메타 데이터 비트스트림, 보조 데이터를 포함하는 보조 비트스트림, 및 메쉬 데이터를 포함하는 메쉬 데이터 비트스트림 중에서 하나 이상을 더 포함할 수도 있다. 인코딩 과정(S21)에 대해서는 아래에서 더욱 상세하게 설명하도록 한다. 인코딩된 포인트 클라우드 데이터를 포함하는 비트스트림은 '포인트 클라우드 비트스트림' 또는 '포인트 클라우드 비디오 비트스트림'으로 지칭될 수 있다.
인캡슐레이션 처리부(13)는 복호화부(12)로부터 출력된 하나 이상의 비트스트림들을 파일 또는 세그먼트(segment) 등의 형태로 인캡슐레이션하는 과정을 수행할 수 있다. 따라서, 인캡슐레이션 처리부(13)는 '파일/세그먼트 인캡슐레이션 모듈(file/segment encapsulation module)'로 지칭될 수 있다. 도면에는 인캡슐레이션 처리부(13)가 전송부(14)와의 관계에서 별도의 컴포넌트/모듈로 구성되는 예시가 표현되어 있으나, 실시예들에 따라, 인캡슐레이션 처리부(13)는 전송부(14)에 포함될 수도 있다.
인캡슐레이션 처리부(13)는 해당 데이터들을 ISOBMFF(ISO Base Media File Format) 등의 파일 포맷으로 인캡슐레이션하거나, 기타 DASH 세그먼트 등의 형태로 처리할 수 있다. 실시예들에 따라, 인캡슐레이션 처리부(13)는 메타 데이터를 파일 포맷 상에 포함시킬 수 있다. 메타 데이터는 예를 들어 ISOBMFF 파일 포맷 상의 다양한 레벨의 박스(box)에 포함되거나, 파일 내에서 별도의 트랙 내의 데이터로 포함될 수 있다. 실시예들에 따라, 인캡슐레이션 처리부(130)는 메타 데이터 자체를 파일로 인캡슐레이션할 수 있다. 인캡슐레이션 처리부(13)에 의해 처리되는 메타 데이터는 도면에는 도시되지 않은 메타 데이터 처리부 등으로부터 전달받은 것일 수 있다. 메타 데이터 처리부는 부호화부(12)에 포함될 수도 있고, 또는 별도의 컴포넌트/모듈로 구성될 수도 있다.
전송부(14)는 '인캡슐레이션된 포인트 클라우드 비트스트림'에 파일 포맷에 따른 처리(전송을 위한 처리)를 가하는 전송 과정(S22)을 수행할 수 있다. 전송부(140)는 비트스트림 또는 해당 비트스트림을 포함하는 파일/세그먼트를 디지털 저장매체 또는 네트워크를 통하여 수신 장치(20)의 수신부(21)로 전달할 수 있다. 따라서, 전송부(14)는 '송신기(transmitter)' 또는 '통신 모듈(communication module)' 등으로 지칭될 수 있다.
전송부(14)는 임의의 전송 프로토콜에 따라 포인트 클라우드 데이터의 처리를 수행할 수 있다. 여기서, '임의의 전송 프로토콜에 따라 포인트 클라우드 데이터를 처리하는 것'은 '전송을 위한 처리'일 수 있다. 전송을 위한 처리에는 방송망을 통한 전달을 위한 처리, 브로드밴드를 통한 전달을 위한 처리 등이 포함될 수 있다. 실시예에 따라, 전송부(14)는 포인트 클라우드 데이터뿐만 아니라, 메타 데이터 처리부로부터 메타 데이터를 전달받아, 전달된 메타 데이터에 전송을 위한 처리를 가할 수도 있다. 실시예들에 따라, 전송을 위한 처리는 전송 처리부에서 수행될 수도 있으며, 전송 처리부는 전송부(14)에 포함되거나 전송부(14)와는 별도의 컴포넌트/모듈로 구성 수 있다.
수신부(21)는 전송 장치(10)가 전송한 비트스트림 또는 해당 비트스트림을 포함하는 파일/세그먼트를 수신할 수 있다. 전송되는 채널에 따라 수신부(21)는 방송망을 통하여 비트스트림 또는 해당 비트스트림을 포함하는 파일/세그먼트를 수신할 수도 있고, 브로드밴드를 통하여 비트스트림 또는 해당 비트스트림을 포함하는 파일/세그먼트를 수신할 수도 있다. 혹은, 수신부(21)는 디지털 저장 매체를 통하여 비트스트림 또는 해당 비트스트림을 포함하는 파일/세그먼트를 수신할 수도 있다.
수신부(21)는 수신된 비트스트림 또는 해당 비트스트림을 포함하는 파일/세그먼트에 대해 전송 프로토콜에 따른 처리를 수행할 수 있다. 수신부(21)는 전송 장치(10)에서 전송을 위한 처리가 수행된 것에 대응되도록, 전송 처리(전송을 위한 처리)의 역과정을 수행할 수 있다. 수신부(21)는 수신한 데이터들 중에서, 인코딩된 포인트 클라우드 데이터를 디캡슐레이션 처리부(22)로 전달하고, 메타 데이터를 메타 데이터 파싱부로 전달할 수 있다. 메타 데이터는 시그널링 테이블의 형태일 수 있다. 실시예들에 따라, 전송을 위한 처리의 역과정은 수신 처리부에서 수행될 수 있다. 수신 처리부, 디캡슐레이션 처리부(22) 및 메타 데이터 파싱부 각각은 수신부(21)에 포함되거나 수신부(21)와는 별도의 컴포넌트/모듈로 구성될 수 있다.
디캡슐레이션 처리부(22)는 수신부(21) 또는 수신 처리부로부터 전달받은 파일 형태의 포인트 클라우드 데이터(즉, 파일 형태의 비트스트림)를 디캡슐레이션할 수 있다. 따라서, 디캡슐레이션 처리부(22)는 '파일/세그먼트 디캡슐레이션 모듈(file/segment decapsulation module)'로 지칭될 수 있다.
디캡슐레이션 처리부(22)는 ISOBMFF 등에 따라 파일들을 디캡슐레이션함으로써 포인트 클라우드 비트스트림 내지 메타 데이터 비트스트림을 획득할 수 있다. 실시예들에 따라, 메타 데이터(메타데이터 비트스트림)는 포인트 클라우드 비트스트림에 포함될 수도 있다. 획득된 포인트 클라우드 비트스트림은 복호화부(23)로 전달될 수 있으며, 획득된 메타 데이터 비트스트림은 메타 데이터 처리부로 전달될 수 있다. 메타 데이터 처리부는 복호화부(23)에 포함될 수도 있고, 또는 별도의 컴포넌트/모듈로 구성될 수도 있다. 디캡슐레이션 처리부(23)가 획득하는 메타 데이터는 파일 포맷 내의 박스 혹은 트랙 형태일 수 있다. 디캡슐레이션 처리부(23)는 필요한 경우 메타 데이터 처리부로부터 디캡슐레이션에 필요한 메타 데이터를 전달받을 수도 있다. 메타 데이터는 복호화부(23)로 전달되어 디코딩 과정(S23)에 사용될 수도 있고, 또는 렌더링부(24)로 전달되어 렌더링 과정(S24)에 사용될 수도 있다.
복호화부(23)는 비트스트림을 입력 받아 부호화부(12)의 동작에 대응하는 동작을 수행함으로써, 포인트 클라우드 비트스트림(인코딩된 포인트 클라우드 데이터)을 디코딩하는 디코딩 과정(S23)을 수행할 수 있다. 따라서, 복호화부(23)는 '포인트 클라우드 비디오 디코더(point cloud video decoder)'로 지칭될 수 있다.
복호화부(23)는 포인트 클라우드 데이터를 지오메트리 및 어트리뷰트로 나누어 디코딩할 수 있다. 예를 들어, 복호화부(23)는 포인트 클라우드 비트스트림에 포함된 지오메트리 비트스트림으로부터 지오메트리를 복원(디코딩)할 수 있고, 포인트 클라우드 비트스트림에 포함된 어트리뷰트 비트스트림 및 복원된 지오메트리를 기반으로 어트리뷰트를 복원(디코딩)할 수 있다. 복원된 지오메트리에 따른 포지션 정보 및 디코딩된 어트리뷰트에 따른 어트리뷰트(컬러 또는 텍스처 등)를 기반으로 3차원의 포인트 클라우드 비디오/영상이 복원될 수 있다. 디코딩 과정(S23)에 대해서는 아래에서 더욱 상세하게 설명하도록 한다.
렌더링부(24)는 복원된 포인트 클라우드 비디오를 렌더링하는 렌더링 과정(S24)을 수행할 수 있다. 따라서, 렌더링부(24)는 '렌더러(renderer)'로 지칭될 수 있다.
렌더링 과정(S24)은 3D 공간상에 포인트 클라우드 콘텐트를 렌더링하고 디스플레이하는 과정을 의미할 수 있다. 렌더링 과정(S24)은 디코딩 과정을 통해 디코딩된 포인트들의 포지션 정보 및 어트리뷰트 정보에 기반하여 원하는 렌더링 방식에 따라 렌더링할 수 있다.
포인트 클라우드 콘텐트의 포인트들은 일정 두께를 갖는 정점, 해당 정점 위치를 중앙으로 하는 특정 최소 크기를 갖는 정육면체, 또는 정점 위치를 중앙으로 하는 원 등으로 렌더링될 수도 있다. 사용자는 VR/AR 디스플레이 또는 일반 디스플레이 등을 통하여 렌더링된 결과의 전부 또는 일부 영역을 볼 수 있다. 렌더링된 비디오는 디스플레이부를 통하여 디스플레이될 수 있다. 사용자는 VR/AR 디스플레이 또는 일반 디스플레이 등을 통하여 렌더링된 결과의 전부 또는 일부 영역을 볼 수 있다.
피드백 과정(S25)은 렌더링 과정(S24) 또는 디스플레이 과정에서 획득될 수 있는 다양한 피드백 정보들을 전송 장치(10)로 전달하거나 수신 장치(20) 내 다른 구성들로 전달하는 과정을 포함할 수 있다. 피드백 과정(S25)은 도 1의 수신 장치(20)에 포함된 구성들 중에서 하나 이상에 의해 수행되거나, 또는 도 10 및 도 11에 표현된 구성들 중에서 하나 이상에 의해 수행될 수 있다. 실시예들에 따라, 피드백 과정(S25)은 '피드백부' 또는 '센싱/트랙킹부(sensing/tracking)'에 의해 수행될 수도 있다.
피드백 과정(S25)을 통해 포인트 클라우드 컨텐트 소비에 대한 인터랙티비티(interactivity)가 제공될 수 있다. 실시예들에 따라, 피드백 과정(S25)에서 헤드 오리엔테이션(head orientation) 정보, 사용자가 현재 보고 있는 영역을 나타내는 뷰포트(viewport) 정보 등이 피드백될 수 있다. 실시예들에 따라, 사용자는 VR/AR/MR/자율주행 환경 상에 구현된 것들과 상호 작용할 수도 있는 데, 이 경우 그 상호 작용과 관련된 정보가 피드백 과정(S25)에서 전송 장치(10) 내지 서비스 프로바이더측으로 전달될 수도 있다. 실시예들에 따라, 피드백 과정(S25)은 수행되지 않을 수도 있다.
헤드 오리엔테이션 정보는 사용자의 머리 위치, 각도, 움직임 등에 대한 정보를 의미할 수 있다. 이 정보를 기반으로 사용자가 현재 포인트 클라우드 비디오 내에서 보고 있는 영역에 대한 정보, 즉 뷰포트(viewport) 정보가 계산될 수 있다.
뷰포트 정보는 현재 사용자가 포인트 클라우드 비디오에서 보고 있는 영역에 대한 정보일 수 있다. 시점(viewpoint)은 사용자가 포인트 클라우드 비디오에서 보고 있는 지점으로서, 뷰포트 영역의 정중앙 지점을 의미할 수 있다. 즉, 뷰포트는 시점을 중심으로 한 영역인데, 그 영역이 차지하는 크기 형태 등은 FOV(field of view)에 의해 결정될 수 있다. 뷰포트 정보를 이용한 게이즈 분석(gaze analysis)을 통해, 사용자가 어떠한 방식으로 포인트 클라우드 비디오를 소비하는 지, 포인트 클라우드 비디오의 어느 영역을 얼마나 응시하는지 등이 확인될 수 있다. 게이즈 분석은 수신측(수신 장치)에서 수행되어 송신측(전송 장치)으로 피드백 채널을 통해 전달될 수도 있다. VR/AR/MR 디스플레이 등의 장치는 사용자의 머리 위치/방향, 장치가 지원하는 수직(vertical) 혹은 수평(horizontal) FOV 등에 근거하여 뷰포트 영역을 추출할 수 있다.
실시예들에 따라, 피드백 정보는 송신측(전송 장치)으로 전달되는 것뿐 아니라, 수신측(수신 장치)에서 소비될 수도 있다. 즉, 피드백 정보를 이용하여 수신측(수신 장치)의 디코딩 과정, 렌더링 과정 등이 수행될 수 있다.
예를 들어, 수신 장치(20)는 헤드 오리엔테이션 정보 및/또는 뷰포트 정보를 이용하여 현재 사용자가 보고 있는 영역에 대한 포인트 클라우드 비디오만 우선적으로 디코딩 및 렌더링할 수도 있다. 또한, 수신부(21)는 모든 포인트 클라우드 데이터를 수신하거나, 오리엔테이션 정보 및/또는 뷰포트 정보에 기반하여 오리엔테이션 정보 및/또는 뷰포트 정보가 나타내는 포인트 클라우드 데이터를 수신할 수도 있다. 또한, 디캡슐레이션 처리부(22)는 모든 포인트 클라우드 데이터를 디캡슐레이션하거나, 오리엔테이션 정보 및/또는 뷰포트 정보에 기반하여 오리엔테이션 정보 및/또는 뷰포트 정보가 나타내는 포인트 클라우드 데이터를 디캡슐레이션할 수도 있다. 또한, 복호화부(23)는 모든 포인트 클라우드 데이터를 디코딩하거나, 오리엔테이션 정보 및/또는 뷰포트 정보에 기반하여 오리엔테이션 정보 및/또는 뷰포트 정보가 나타내는 포인트 클라우드 데이터를 디코딩할 수도 있다.
포인트 클라우드 부호화 장치의 개요
도 3은 본 개시의 실시예들에 따른 포인트 클라우드 부호화 장치(300)의 예시를 나타낸다. 도 3의 포인트 클라우드 부호화 장치(300)는 도 1의 부호화부(12)와 구성 및 기능에서 대응될 수 있다.
도 3에 예시된 바와 같이, 포인트 클라우드 부호화 장치(300)는 좌표계 변환부(305), 지오메트리 양자화부(310), 옥트리 분석부(315), 근사화부(320), 지오메트리 인코딩부(325), 복원부(330), 어트리뷰트 변환부(340), RAHT 변환부(345), LOD 생성부(350), 리프팅부(355), 어트리뷰트 양자화부(360), 어트리뷰트 인코딩부(365) 및/또는 컬러 변환부(335)를 포함할 수 있다.
획득부(11)에 의해 획득된 포인트 클라우드 데이터는 네트워크의 상황 혹은 애플리케이션 등에 따라 포인트 클라우드 콘텐트의 질(예를 들어, 무손실-lossless, 손실-lossy, near-lossless)을 조절하기 위한 과정들을 거칠 수 있다. 또한, 획득된 포인트 클라우드 콘텐트의 각 포인트들을 손실 없이 전송할 수도 있지만, 그럴 경우 포인트 클라우드 콘텐트의 크기가 크기 때문에 실시간 스트리밍이 가능하지 않을 수 있다. 따라서, 포인트 클라우드 콘텐트의 원활한 제공을 위하여, 최대 타깃 비트율(bitrate)에 맞추어 포인트 클라우드 콘텐트를 재구성하는 과정이 필요하다.
포인트 클라우드 콘텐트의 질을 조절하기 위한 과정들은 포인트들의 위치 정보(지오메트리 정보에 포함된 포지션 정보) 또는 색상 정보(어트리뷰트 정보에 포함된 컬러 정보)를 재구성하는 과정과 인코딩하는 과정 등일 수 있다. 포인트들의 포지션 정보를 재구성 및 인코딩하는 과정을 지오메트리 코딩이라 지칭하고, 각 포인트들과 연관된 어트리뷰트 정보를 재구성 및 인코딩하는 과정을 어트리뷰트 코딩이라고 지칭할 수 있다.
지오메트리 코딩은 지오메트리 양자화 과정, 복셀화 과정, 옥트리 분석 과정, 근사화 과정, 지오메트리 인코딩 과정 및/또는 좌표계 변환 과정을 포함할 수 있다. 또한, 지오메트리 코딩은 지오메트리 복원 과정을 더 포함할 수 있다. 어트리뷰트 코딩은 색상 변환 과정, 어트리뷰트 변환 과정, 예측 변환 과정, 리프팅 변환 과정, RAHT 변환 과정, 어트리뷰트 양자화 과정, 어트리뷰트 인코딩 과정 등을 포함할 수 있다.
지오메트리 코딩
좌표계 변환 과정은 포인트들의 포지션들에 대한 좌표계(coordinate)를 변환하는 과정에 해당할 수 있다. 따라서, 좌표계 변환 과정은 'transform coordinates'로 지칭될 수 있다. 좌표계 변환 과정은 좌표계 변환부(305)에 의해 수행될 수 있다. 예를 들어, 좌표계 변환부(305)는 포인트들의 포지션을 글로벌 공간 좌표계로부터 3차원 공간(예를 들어, X축, Y축 및 Z축 좌표계로 표현되는 3차원 공간 등)의 포지션 정보로 변환할 수 있다. 실시예들에 따른 3차원 공간의 포지션 정보는 '지오메트리 정보'로 지칭될 수 있다.
지오메트리 양자화 과정은 포인트들의 포지션 정보를 양자화하는 과정에 해당할 수 있으며, 지오메트리 양자화부(310)에 의해 수행될 수 있다. 예를 들어, 지오메트리 양자화부(310)는 포인트들의 포지션 정보들 중에서 최소의 (x, y, z) 값을 가지는 포지션 정보를 찾고, 각 포인트들의 포지션 정보들로부터 최소의 (x, y, z) 값을 가지는 포지션 정보를 차감할 수 있다. 또한, 지오메트리 양자화부(310)는 차감된 값에 미리 설정된 양자 스케일(quantization scale) 값을 곱한 후에, 그 결과를 가까운 정수(integer) 값으로 조정(내리거나 올려)함으로써, 양자화 과정을 수행할 수 있다.
복셀화 과정은 양자화 과정을 통해 양자화된 지오메트리 정보를 3차원 공간 상에 존재하는 특정 복셀(voxel)로 매칭하는 과정에 해당할 수 있다. 복셀화 과정 또한 지오메트리 양자화부(310)에 의해 수행될 수 있다. 지오메트리 양자화부(310)는 양자화 과정이 적용된 각 포인트들을 재구성하기 위해, 포인트들의 포지션 정보를 기반으로 옥트리(octree) 기반 복셀화(voxelization)를 수행할 수 있다.
복셀은 2차원 이미지/비디오의 정보를 가지고 있는 최소 단위인 픽셀(pixel)과 마찬가지로, 3차원에 존재하는 포인트들의 정보를 저장하기 위한 공간을 의미할 수 있다. 복셀은 볼륨(volume)과 픽셀(pixel)을 조합한 혼성어이다.
하나의 복셀에 하나의 포인트만 존재(매칭)하지 않을 수도 있다. 즉, 하나의 복셀에 여러 개의 포인트들에 관련된 정보가 존재할 수 있다. 또는, 하나의 복셀에 포함된 여러 개의 포인트들에 관련된 정보를 하나의 포인트 정보로 통합할 수도 있다. 이러한 조절은 선택적으로 수행될 수 있다. 하나의 복셀에 하나의 포인트 정보로 통합하여 표현하는 경우, 복셀 내에 존재하는 포인트들에 대한 포지션 값을 기반으로 복셀의 중앙점의 포지션 값이 설정될 수 있으며, 이와 연관된 어트리뷰트 변환 과정을 수행할 필요가 있다. 예를 들어, 어트리뷰트 변환 과정은 복셀에 포함된 포인트들 또는 복셀의 중앙점의 포지션 값과 특정 반경 내에 이웃하고 있는 포인트들의 색상 또는 반사율의 평균 값으로 조정될 수도 있다.
옥트리 분석부(315)는 복셀의 영역/포지션을 효율적으로 관리하기 위해, 옥트리를 사용할 수 있다. 옥트리는 오큐판시(occupancy) 코드로 표현될 수 있다. 예를 들어, 옥트리 분석부(315)는 각 노드 내에 포인트가 포함되어 있으면 해당 노드의 오큐판시 코드를 1로 표현하고, 포인트가 포함되어 있지 않으면 해당 노드의 오큐판시 코드를 0으로 표현할 수 있다.
지오메트리 인코딩 과정은 오큐판시 코드에 대해 엔트로피 코딩을 수행하는 과정에 해당할 수 있다. 지오메트리 인코딩 과정은 지오메트리 인코딩부(325)에 의해 수행될 수 있다. 지오메트리 인코딩부(325)는 오큐판시 코드에 대한 엔트로피 코딩을 수행할 수 있다. 생성된 오큐판시 코드는 바로 인코딩될 수도 있고, 압축 효율을 높이기 위해 인트라/인터 코딩 과정을 통해서 인코딩될 수도 있다. 수신 장치(20)는 오큐판시 코드를 통해서 옥트리를 재구성할 수 있다.
한편, 포인트들이 없거나 매우 적은 특정 영역의 경우, 모든 영역을 복셀화 시키는 것은 비효율적일 수도 있다. 즉, 특정 영역에는 포인트들이 거의 존재하지 않으므로, 전체 옥트리를 구성할 필요가 없을 수 있다. 이러한 경우를 위해, 조기 종료(early termination) 방안이 필요할 수 있다.
포인트 클라우드 부호화 장치(300)는 특정 영역(리프 노드에 해당하지 않는 특정 영역)에 대해, 이 특정 영역에 대응하는 노드(특정 노드)를 8개의 서브 노드들(자식 노드들)로 나누는 대신에, 해당 특정 영역에 대해서만 직접 포인트들의 위치를 전송하거나, 또는 표면 모델(surface model)을 사용하여 특정 영역 내의 포인트의 포지션을 복셀 기반으로 재구성할 수 있다.
특정 노드에 대해서 직접 각 포인트들의 위치를 전송하는 모드는 직접 모드(direct mode)일 수 있다. 포인트 클라우드 부호화 장치(300)는 직접 모드를 가능하게 하기 위한 조건들의 만족 여부를 체크할 수 있다.
직접 모드를 가능하게 하기 위한 조건은 1) 직접 모드 사용 옵션이 활성화되어 있어야 함, 2) 해당 특정 노드가 리프 노드에 해당하지 않음, 3) 해당 특정 노드 내에 한계치(threshold) 이하의 포인트들이 존재해야 함, 및 4) 직접 전송하고자 하는 포인트들의 총 개수가 한계치를 넘지 않음을 포함할 수 있다.
포인트 클라우드 부호화 장치(300)는 위 조건들이 모두 만족하는 경우에 해당 특정 노드에 대해서 직접적으로 포인트의 포지션 값을 지오메트리 인코딩부(325)를 통해 엔트로피 코딩하여 전송할 수 있다.
표면 모델을 사용하여 특정 영역 내의 포인트의 위치를 복셀 기반으로 재구성하는 모드는 트리숩 모드(trisoup mode)일 수 있다. 트리숩 모드는 근사화부(320)에 의해 수행될 수 있다. 근사화부(320)는 옥트리의 특정 레벨을 정하고, 정한 특정 레벨부터는 표면 모델을 사용하여 노드 영역 내의 포인트들의 위치를 복셀 기반으로 재구성할 수 있다.
포인트 클라우드 부호화 장치(300)는 트리숩 모드를 선택적으로 적용할 수도 있다. 구체적으로, 포인트 클라우드 부호화 장치(300)는 트리숩 모드 사용 시에, 트리숩 모드가 적용될 레벨(특정 레벨)을 지정할 수 있다. 예를 들어, 지정된 특정 레벨이 옥트리의 깊이(d)와 같으면 트리숩 모드가 적용되지 않을 수 있다. 즉, 지정된 특정 레벨은 옥트리의 깊이 값보다 작아야 한다.
지정된 특정 레벨의 노드들의 3차원 정육면체 영역을 블록(block)이라고 하며, 하나의 블록은 하나 이상의 복셀을 포함할 수 있다. 블록 또는 복셀은 브릭(brick)에 대응될 수도 있다. 각 블록은 12개의 엣지(edge)를 가지고 있을 수 있으며, 근사화부(320)는 각 엣지가 포인트를 가진 복셀(occupied voxel)과 인접했는지 여부에 체크할 수 있다. 각 엣지는 여러 개의 점유된(occupied) 복셀들과 인접할 수 있다. 복셀과 인접한 엣지의 특정 위치를 버텍스(vertex)라고 하며, 근사화부(320)는 하나의 엣지에 여러 개의 점유된 복셀들이 인접한 경우에는 해당 위치들의 평균 위치를 버텍스로 정할 수 있다.
포인트 클라우드 부호화 장치(300)는 버텍스가 존재하는 경우에, 엣지의 시작점 (x, y, z), 엣지의 방향벡터 (△x, △y, △z) 및, 버텍스의 위치 값(엣지 내의 상대적 위치 값)들을 지오메트리 인코딩부(325)를 통해 엔트로피 코딩할 수 있다.
지오메트리 복원 과정은 옥트리 및/또는 근사화된 옥트리를 재구성하여 복원된 지오메트리를 생성하는 과정에 해당할 수 있다. 지오메트리 복원 과정은 복원부(330)에 의해 수행될 수 있다. 복원부(330)는 삼각형 재구성(triangle reconstruction), 업-샘플링(up-sampling), 복셀화 과정 등을 통하여 지오메트리 복원 과정을 수행할 수 있다.
근사화부(320)에서 트리숩 모드가 적용된 경우에, 복원부(330)는 엣지의 시작점, 엣지의 방향 벡터와 버텍스의 위치 값을 기반으로 삼각형을 재구성할 수 있다. 복원부(330)는 삼각형의 엣지를 따라서 중간에 포인트들을 추가하여 복셀화하기 위해서 업샘플링 과정을 수행할 수 있다. 복원부(330)는 업샘플링 요소 값(upsampling factor)과 블록의 너비를 기준으로 추가 포인트들을 생성할 수 있다. 이러한 포인트들은 refined 버텍스들이라 할 수 있다. 복원부(330)는 refined 버텍스들을 복셀화할 수 있으며, 포인트 클라우드 부호화 장치(300)는 복셀화된 위치 값을 기준으로 어트리뷰트 코딩을 수행할 수 있다.
실시예들에 따라, 지오메트리 인코딩부(325)는 컨텍스트 적응적 산술(context adaptive arithmetic) 코딩을 적용하여 압축 효율을 높일 수 있다. 지오메트리 인코딩부(325)는 산술 코드를 사용하여 오큐판시 코드를 바로 엔트로피 코딩할 수 있다. 실시예들에 따라, 지오메트리 인코딩부(325)는 주변 이웃 노드들의 오큐판시 여부를 기반으로 적응적으로 인코딩을 수행하거나(인트라 코딩) 또는, 이전 프레임의 오큐판시 코드를 기반으로 적응적으로 인코딩을 수행할 수도 있다(인터 코딩). 여기서, 프레임은 같은 시간에 생성된 포인트 클라우드 데이터의 집합을 의미할 수 있다. 인트라 코딩과 인터 코딩은 선택적(optional) 과정이므로, 생략될 수도 있다.
몇 개의 이웃 노드들을 참조하는 지에 따라 압축 효율이 달라질 수 있으며, 비트가 커지면 인코딩 과정이 복잡해지지만 한쪽으로 치우치게 만들어서 압축 효율이 높아질 수도 있다. 예를 들어, 3-bit 컨텍스트를 가지면, 23 = 8가지로 나누어 코딩해야 할 수도 있다. 나누어 코딩을 하는 부분은 구현의 복잡도에 영향을 줄 수 있으므로, 압축의 효율과 복잡도의 적정 수준을 맞출 필요가 있다.
어트리뷰트 코딩
어트리뷰트 코딩은 복원된(재구성된) 지오메트리와 좌표계 변환 전의 지오메트리(원본 지오메트리)에 기반하여 어트리뷰트 정보를 코딩하는 과정에 해당할 수 있다. 어트리뷰트는 지오메트리에 종속적일 수 있으므로, 어트리뷰트 코딩에 복원된 지오메트리가 활용될 수 있다.
앞서 설명된 바와 같이, 어트리뷰트는 색상, 반사율 등을 포함할 수 있다. 어트리뷰트에 포함된 정보 또는 파라미터에 대해 같은 어트리뷰트 코딩 방법이 적용될 수 있다. 색상은 3개의 요소를 가지고 반사율은 1개의 요소를 가지며, 각 요소마다 독립적으로 처리될 수 있다.
어트리뷰트 코딩은 색상 변환 과정, 어트리뷰트 변환 과정, 예측 변환 과정, 리프팅 변환 과정, RAHT 변환 과정, 어트리뷰트 양자화 과정, 어트리뷰트 인코딩 과정 등을 포함할 수 있다. 예측 변환 과정, 리프팅 변환 과정, RAHT 변환 과정은 선택적으로 사용되거나, 하나 또는 그 이상의 조합이 사용될 수 있다.
색상 변환 과정은 어트리뷰트 내 색상의 포맷을 다른 포맷으로 변환하는 과정에 해당할 수 있다. 색상 변환 과정은 컬러 변환부(335)에 의해 수행될 수 있다. 즉, 컬러 변환부(335)는 어트리뷰트 내 색상을 변환할 수 있다. 예를 들어, 컬러 변환부(335)는 어트리뷰트 내 색상을 RGB로부터 YCbCr로 변환하는 코딩 작업을 수행할 수 있다. 실시예들에 따라, 컬러 변환부(335)의 동작, 즉 색상 변환 과정은 어트리뷰트에 포함된 색상 값에 따라 옵셔널(optional)하게 적용될 수 있다.
앞서 설명된 바와 같이, 하나의 복셀에 하나 또는 그 이상의 포인트들이 존재하는 경우에, 이들을 해당 복셀에 대한 하나의 포인트 정보로 통합하여 나타내기 위해 복셀 내에 존재하는 포인트들에 대한 위치 값이 복셀의 중앙점으로 설정될 수 있다. 이에 따라, 해당 포인트들에 연관된 어트리뷰트들의 값을 변환하는 과정이 필요할 수 있다. 또한, 트리숩 모드가 수행된 경우에도 어트리뷰트 변환 과정이 수행될 수 있다.
어트리뷰트 변환 과정은 지오메트리 코딩이 수행되지 않은 포지션 및/또는 재구성된 지오메트리에 기반하여 어트리뷰트를 변환하는 과정에 해당할 수 있다. 예를 들어, 어트리뷰트 변환 과정은 복셀에 포함된 포인트의 포지션에 기반하여 해당 포지션의 포인트가 가지는 어트리뷰트를 변환하는 과정에 해당할 수 있다. 어트리뷰트 변환 과정은 어트리뷰트 변환부(340)에 의해 수행될 수 있다.
어트리뷰트 변환부(340)는 복셀의 중앙 위치 값과 특정 반경 내에 이웃하고 있는 포인트(이웃 포인트)들의 어트리뷰트 값들의 평균 값을 계산할 수 있다. 또는, 어트리뷰트 변환부(340)는 중앙 위치와의 거리에 따른 가중치를 어트리뷰트 값들에 적용하고, 가중치가 적용된 어트리뷰트 값들의 평균 값을 계산할 수도 있다. 이 경우, 각 복셀은 위치와 계산된 어트리뷰트 값을 가지게 된다.
예측 변환 과정은 현재 포인트(예측의 대상에 해당하는 포인트)에 이웃하는 하나 이상의 포인트들(이웃 포인트들)의 어트리뷰트 값에 기반하여 현재 포인트의 어트리뷰트 값을 예측하는 과정에 해당할 수 있다. 예측 변환 과정은 LOD(level of detail) 생성부(350)에 의해 수행될 수 있다.
예측 변환은 LOD 변환 기법이 적용된 방법으로서, LOD 생성부(350)는 각 포인트들의 LOD 거리 값을 기준으로 각 포인트들의 LOD 값을 계산하여 설정할 수 있다. 가장 낮은 LOD의 포인트들은 드문드문(sparse) 분포하며, 가장 높은 LOD의 포인트들은 촘촘히 분포할 수 있다. 즉, LOD가 증가할수록 포인트들 간의 간격(또는, 거리)이 더 짧아질 수 있다.
포인트 클라우드 내에 존재하는 각 포인트들은 LOD 별로 분리될 수 있으며, LOD 별 포인트들의 구성은 해당 LOD 값보다 더 낮은 LOD에 속한 포인트들을 포함할 수 있다. 예를 들어, LOD 레벨 2를 가지는 포인트들의 구성은 LOD 레벨 1과 LOD 레벨 2에 속하는 모든 포인트들을 포함할 수 있다. 포인트들은 LOD 별로 재정렬될 수 있으며, 높은 LOD는 낮은 LOD에 속한 포인트들을 포함할 수 있다.
LOD 생성부(350)는 예측 변환을 위해 각 포인트들에 대한 예측기(predictor)를 생성할 수 있다. 따라서, N개의 포인트들이 존재하는 경우에는 N개의 예측기들이 생성될 수 있다. 예측기는 각 포인트들에 대한 LOD 값, 이웃 포인트들에 대한 인덱싱 정보, 및 이웃 포인트들과의 거리 값을 기반으로 하여 가중치 값(= 1/거리)을 계산하여 설정할 수 있다. 여기서, 이웃 포인트들은 현재 포인트로부터 LOD 별로 설정된 거리 내에 존재하는 포인트들일 수 있다.
또한, 예측기는 이웃 포인트들의 어트리뷰트 값에 '설정된 가중치 값'을 곱하고, 가중치 값이 곱해진 어트리뷰트 값들을 평균한 값을 현재 포인트의 예측된 어트리뷰트 값으로 설정할 수 있다. 현재 포인트의 어트리뷰트 값에서 해당 현재 포인트의 예측된 어트리뷰트 값을 뺀 잔여(residual) 어트리뷰트 값에 대해 어트리뷰트 양자화 과정이 수행될 수 있다.
리프팅 변환 과정은 예측 변환 과정과 마찬가지로, LOD 생성 과정을 통해 포인트들을 디테일 레벨의 집합으로 재구성하는 과정에 해당할 수 있다. 리프팅 변환 과정은 리프팅부(355)에 의해 수행될 수 있다. 리프팅 변환 과정도 각 포인트들에 대한 예측기를 생성하는 과정, 계산된 LOD를 예측기에 설정하는 과정, 이웃 포인트들을 등록하는 과정, 및 현재 포인트와 이웃 포인트들 간의 거리에 따른 가중치를 설정하는 과정 등을 포함할 수 있다.
RAHT 변환 과정은 옥트리의 하위(lower) 레벨에 있는 노드와 연관된 어트리뷰트 정보를 사용하여 상위 레벨에 있는 노드들의 어트리뷰트 정보를 예측하는 방법에 해당할 수 있다. 즉, RATH 변환 과정은 옥트리 백워드(backward) 스캔을 통한 어트리뷰트 정보 인트라 코딩 방법에 해당할 수 있다. RAHT 변환 과정은 RAHT 변환부(345)에 의해 수행될 수 있다.
RAHT 변환부(345)는 복셀에서 전체 영역으로 스캔하며 각 스텝에서 복셀을 더 큰 블록으로 합산(병합)하면서 루트 노드까지 RAHT 변환 과정을 수행할 수 있다. RAHT 변환부(345)는 점유된(occupied) 노드에 대해서만 RAHT 변환 과정을 수행하므로, 점유되지 않은 empty 노드의 경우에는 바로 위의 상위 레벨의 노드를 대상으로 RAHT 변환 과정을 수행할 수 있다.
어트리뷰트 양자화 과정은 RAHT 변환부(345), LOD 생성부(350) 및/또는 리프팅부(355)로부터 출력된 어트리뷰트를 양자화하는 과정에 해당할 수 있다. 어트리뷰트 양자화 과정은 어트리뷰트 양자화부(360)에 의해 수행될 수 있다. 어트리뷰트 인코딩 과정은 양자화된 어트리뷰트를 인코딩하여 어트리뷰트 비트스트림을 출력하는 과정에 해당할 수 있다. 어트리뷰트 인코딩 과정은 어트리뷰트 인코딩부(365)에 의해 수행될 수 있다.
예를 들어, LOD 생성부(350)로부터 현재 포인트의 예측된 어트리뷰트 값이 계산된 경우, 어트리뷰트 양자화부(360)는 현재 포인트의 어트리뷰트 값에서 해당 현재 포인트의 예측된 어트리뷰트 값을 뺀 잔여(residual) 어트리뷰트 값을 양자화할 수 있다.
만약, 각 포인트들의 예측기에 이웃 포인트들이 존재하지 않는 경우에, 어트리뷰트 인코딩부(365)는 현재 포인트의 어트리뷰트 값(양자화되지 않은 어트리뷰트 값)을 직접 엔트로피 코딩할 수 있다. 이와 달리, 현재 포인트들의 예측기에 이웃 포인트들이 존재하는 경우에, 어트리뷰트 인코딩부(365)는 양자화된 잔여 어트리뷰트 값을 엔트로피 인코딩할 수 있다.
다른 예로, 리프팅부(360)로부터, 리프트 업데이트 과정을 통해 업데이트된 어트리뷰트 값에 리프트 예측 과정을 통해 업데이트된(QW에 저장된) 가중치를 곱한 값이 출력되는 경우, 어트리뷰트 양자화부(360)는 그 결과(곱하여 나온 값)를 양자화할 수 있으며, 어트리뷰트 인코딩부(365)는 양자화된 값을 엔트로피 인코딩할 수 있다.
포인트 클라우드 복호화 장치의 개요
도 4는 본 개시의 일 실시예에 따른 포인트 클라우드 복호화 장치(400)의 예시를 나타낸다. 도 4의 포인트 클라우드 복호화 장치(400)는 도 1의 복호화부(23)와 구성 및 기능에서 대응될 수 있다.
포인트 클라우드 복호화 장치(400)는 전송 장치(10)로부터 전송된 데이터들(비트스트림)에 기반하여, 디코딩 과정을 수행할 수 있다. 디코딩 과정은 비트스트림을 대상으로 앞서 설명된 인코딩 동작에 대응하는 동작을 수행하여 포인트 클라우드 비디오를 복원(디코딩)하는 과정을 포함할 수 있다.
도 4에 예시된 바와 같이, 디코딩 과정은 지오메트리 디코딩 과정과 어트리뷰트 디코딩 과정을 포함할 수 있다. 지오메트리 디코딩 과정은 지오메트리 복호화부(410)에 의해 수행될 수 있으며, 어트리뷰트 디코딩 과정은 어트리뷰트 복호화부(420)에 의해 수행될 수 있다. 즉, 포인트 클라우드 복호화 장치(400)는 지오메트리 복호화부(410) 및 어트리뷰트 복호화부(420)를 포함할 수 있다.
지오메트리 복호화부(410)는 지오메트리 비트스트림으로부터 지오메트리를 복원할 수 있고, 어트리뷰트 복호화부(420)는 복원된 지오메트리와 어트리뷰트 비트스트림에 기반하여 어트리뷰트를 복원할 수 있다. 또한, 포인트 클라우드 복호화 장치(400)는 복원된 지오메트리에 따른 포지션 정보 및 복원된 어트리뷰트에 따른 어트리뷰트 정보를 기반으로 3차원의 포인트 클라우드 비디오(포인트 클라우드 데이터)를 복원할 수 있다.
도 5는 본 개시의 다른 일 실시예에 따른 포인트 클라우드 복호화 장치(500)의 구체적인 예시를 나타낸다. 도 5에 예시된 바와 같이, 포인트 클라우드 복호화 장치(500)는 지오메트리 디코딩부(505), 옥트리 합성부(510), 근사화 합성부(515), 지오메트리 복원부(520), 좌표계 역변환부(525), 어트리뷰트 디코딩부(530), 어트리뷰트 역양자화부(535), RATH 변환부(550), LOD 생성부(540), 역리프팅부(545) 및/또는 컬러 역변환부(555)를 포함할 수 있다.
지오메트리 디코딩부(505), 옥트리 합성부(510), 근사화 합성부(515), 지오메트리 복원부(520) 및 좌표계 역변환부(550)는 지오메트리 디코딩을 수행할 수 있다. 지오메트리 디코딩은 도 1 내지 도 3에서 설명한 지오메트리 코딩의 역과정으로 수행될 수 있다. 지오메트리 디코딩은 다이렉트 코딩(direct coding) 및 트라이숩 지오메트리 디코딩(trisoup geometry decoding)을 포함할 수 있다. 다이렉트 코딩 및 트라이숩 지오메트리 디코딩은 선택적으로 적용될 수 있다.
지오메트리 디코딩부(505)는 수신한 지오메트리 비트스트림을 아리스메틱 코딩을 기반으로 디코딩할 수 있다. 지오메트리 디코딩부(505)의 동작은 지오메트리 인코딩부(325)가 수행하는 동작의 역과정에 대응할 수 있다.
옥트리 합성부(510)는 디코딩된 지오메트리 비트스트림으로부터(또는, 디코딩 결과 확보된 지오메트리에 관한 정보)로부터 오큐판시 코드를 획득하여 옥트리를 생성할 수 있다. 옥트리 합성부(510)의 동작은 옥트리 분석부(515)가 수행하는 동작의 역과정에 대응할 수 있다.
근사화 합성부(515)는 트라이숩 지오메트리 인코딩이 적용된 경우에 디코딩된 지오메트리 및/또는 생성된 옥트리에 기반하여 서페이스를 합성할 수 있다.
지오메트리 복원부(520)는 서페이스 및 디코딩된 지오메트리에 기반하여 지오메트리를 복원할 수 있다. 다이렉트 코딩이 적용된 경우에, 지오메트리 복원부(520)는 다이렉트 코딩이 적용된 포인트들의 포지션 정보들을 직접 가져와서 추가할 수 있다. 또한, 트라이숩 지오메트리 인코딩이 적용된 경우에, 지오메트리 복원부(520)는 재구성 동작, 예를 들면 삼각형 재구성, 업-샘플링, 복셀화 동작 등을 수행하여 지오메트리를 복원할 수 있다. 복원된 지오메트리는 어트리뷰트들을 포함하지 않는 포인트 클라우드 픽쳐 또는 프레임을 포함할 수 있다.
좌표계 역변환부(550)는 복원된 지오메트리를 기반으로 좌표계를 변환하여 포인트들의 포지션들을 획득할 수 있다. 예를 들어, 좌표계 역변환부(550)는 포인트들의 포지션을 3차원 공간(예를 들어, X축, Y축 및 Z축 좌표계로 표현되는 3차원 공간 등)으로부터 글로벌 공간 좌표계의 위치 정보로 역변환할 수 있다.
어트리뷰트 디코딩부(530), 어트리뷰트 역양자화부(535), RATH 변환부(530), LOD 생성부(540), 역리프팅부(545) 및/또는 컬러 역변환부(550)는 어트리뷰트 디코딩을 수행할 수 있다. 어트리뷰트 디코딩은 RAHT 변환 디코딩, 예측 변환 디코딩 및 리프팅 변환 디코딩을 포함할 수 있다. 상술한 3가지의 디코딩들은 선택적으로 사용되거나, 하나 또는 그 이상의 디코딩들의 조합이 사용될 수 있다.
어트리뷰트 디코딩부(530)는 아리스메틱 코딩에 기반하여 어트리뷰트 비트스트림을 디코딩할 수 있다. 예를 들어, 각 포인트들의 예측기에 이웃 포인트들이 존재하지 않아 현재 포인트의 어트리뷰트 값이 직접 엔트로피 인코딩된 경우에, 어트리뷰트 디코딩부(530)는 현재 포인트의 어트리뷰트 값(양자화되지 않은 어트리뷰트 값)을 디코딩할 수 있다. 다른 예로, 현재 포인트들의 예측기에 이웃 포인트들이 존재하여 양자화된 잔여 어트리뷰트 값이 엔트로피 인코딩된 경우에, 어트리뷰트 디코딩부(530)는 양자화된 잔여 어트리뷰트 값을 디코딩할 수 있다.
어트리뷰트 역양자화부(535)는 디코딩된 어트리뷰트 비트스트림 또는 디코딩 결과 확보한 어트리뷰트에 대한 정보를 역양자화하고, 역양자화된 어트리뷰트들(또는, 어트리뷰트 값들)을 출력할 수 있다. 예를 들어, 어트리뷰트 디코딩부(530)로부터 양자화된 잔여 어트리뷰트 값이 출력된 경우, 어트리뷰트 역양자화부(535)는 양자화된 잔여 어트리뷰트 값을 역양자화하여 잔여 어트리뷰트 값을 출력할 수 있다. 역양자화 과정은 포인트 클라우드 부호화 장치(300)의 어트리뷰트 인코딩 여부에 기반하여 선택적으로 적용될 수 있다. 즉, 각 포인트들의 예측기에 이웃 포인트들이 존재하지 않아 현재 포인트의 어트리뷰트 값이 직접 인코딩된 경우에, 어트리뷰트 디코딩부(530)는 양자화되지 않은 현재 포인트의 어트리뷰트 값을 출력할 수 있으며, 어트리뷰트 인코딩 과정은 스킵될 수 있다.
RATH 변환부(550), LOD 생성부(540) 및/또는 역리프팅부(545)는 재구성된 지오메트리 및 역양자화된 어트리뷰트들을 처리할 수 있다. RATH 변환부(550), LOD 생성부(540) 및/또는 역리프팅부(545)는 포인트 클라우드 부호화 장치(300)의 인코딩 동작에 대응하는 디코딩 동작을 선택적으로 수행할 수 있다.
컬러 역변환부(555)는 디코딩된 어트리뷰트들에 포함된 컬러 값(또는, 텍스쳐)을 역변환하기 위한 역변환 코딩을 수행할 수 있다. 컬러 역변환부(555)의 동작은 컬러 변환부(335)의 동작 여부에 기반하여 선택적으로 수행될 수 있다.
도 6은 본 개시의 실시예들에 따른 전송 장치의 다른 예시를 나타낸다. 도 6에 예시된 바와 같이, 전송 장치는 데이터 입력부(605), 양자화 처리부(610), 복셀화 처리부(615), 옥트리 오큐판시(Occupancy) 코드 생성부(620), 표면 모델 처리부(625), 인트라/인터 코딩 처리부(630), 아리스메틱(Arithmetic) 코더(635), 메타 데이터 처리부(640), 색상 변환 처리부(645), 속성 변환 처리부(650), 예측/리프팅/RAHT 변환 처리부(655), 아리스메틱 코더(660) 및 전송 처리부(665)를 포함할 수 있다.
데이터 입력부(605)의 기능은 도 1의 획득부(11)가 수행하는 획득 과정에 대응될 수 있다. 즉, 데이터 입력부(605)는 포인트 클라우드 비디오를 획득하고, 다수의 포인트들에 대한 포인트 클라우드 데이터를 생성할 수 있다. 포인트 클라우드 데이터 내 지오메트리 정보(포지션 정보)는 양자화 처리부(610), 복셀화 처리부(615), 옥트리 오큐판시 코드 생성부(620), 표면 모델 처리부(625), 인트라/인터 코딩 처리부(630) 및, 아리스메틱 코더(635)를 거쳐 지오메트리 비트스트림 형태로 생성될 수 있다. 포인트 클라우드 데이터 내 어트리뷰트 정보는 색상 변환 처리부(645), 속성 변환 처리부(650), 예측/리프팅/RAHT 변환 처리부(655) 및, 아리스메틱 코더(660)를 거쳐 어트리뷰트 비트스트림 형태로 생성될 수 있다. 지오메트리 비트스트림, 어트리뷰트 비트스트림 및/또는 메타 데이터 비트스트림은 전송 처리부(665)의 처리를 통해 수신 장치로 전송될 수 있다.
구체적으로, 양자화 처리부(610)의 기능은 도 3의 지오메트리 양자화부(310)가 수행하는 양자화 과정 및/또는 좌표계 변환부(305)의 기능에 대응될 수 있다. 복셀화 처리부(615)의 기능은 도 3의 지오메트리 양자화부(310)가 수행하는 복셀화 과정에 대응될 수 있으며, 옥트리 오큐판시 코드 생성부(620)의 기능은 도 3의 옥트리 분석부(315)가 수행하는 기능에 대응될 수 있다. 표면 모델 처리부(625)의 기능은 도 3의 근사화부(320)가 수행하는 기능에 대응될 수 있으며, 인트라/인터 코딩 처리부(630)의 기능 및 아리스메틱 코더(635)의 기능은 도 3의 지오메트리 인코딩부(325)가 수행하는 기능에 대응될 수 있다. 메타 데이터 처리부(640)의 기능은 도 1에서 설명된 메타 데이터 처리부의 기능에 대응될 수 있다.
또한, 색상 변환 처리부(645)의 기능은 도 3의 컬러 변환부(335)가 수행하는 기능에 대응될 수 있으며, 속성 변환 처리부(650)의 기능은 도 3의 어트리뷰트 변환부(340)가 수행하는 기능에 대응될 수 있다. 예측/리프팅/RAHT 변환 처리부(655)의 기능은 도 3의 RAHT 변환부(345), LOD 생성부(350) 및 리프팅부(355)가 수행하는 기능에 대응될 수 있으며, 아리스메틱 코더(660)의 기능은 도 3의 어트리뷰트 인코딩부(365)의 기능에 대응될 수 있다. 전송 처리부(665)의 기능은 도 1의 전송부(14) 및/또는 인캡슐레이션 처리부(13)가 수행하는 기능에 대응될 수 있다.
도 7은 본 개시의 실시예들에 따른 수신 장치의 다른 예시를 나타낸다. 도 7에 예시된 바와 같이, 수신 장치는 수신부(705), 수신 처리부(710), 아리스메틱 디코더(715), 메타 데이터 파서(735), 오큐판시 코드기반 옥트리 재구성 처리부(720), 표면 모델 처리부(725), 인버스(Inverse) 양자화 처리부(730), 아리스메틱 디코더(740), 인버스 양자화 처리부(745), 예측/리프팅/RAHT 역변환 처리부(750), 색상 역변환 처리부(755) 및 렌더러(760)를 포함할 수 있다.
수신부(705)의 기능은 도 1의 수신부(21)가 수행하는 기능에 대응될 수 있으며, 수신 처리부(710)의 기능은 도 1의 디캡슐레이션 처리부(22)가 수행하는 기능에 대응될 수 있다. 즉, 수신부(705)는 전송 처리부(765)로부터 비트스트림을 수신하고, 수신 처리부(710)는 디캡슐레이션 처리를 통해 지오메트리 비트스트림, 어트리뷰트 비트스트림 및/또는 메타 데이터 비트스트림을 추출할 수 있다. 지오메트리 비트스트림은 아리스메틱 디코더(715), 오큐판시 코드기반 옥트리 재구성 처리부(720), 표면 모델 처리부(725) 및, 인버스 양자화 처리부(730)를 거쳐 재구성된(복원된) 포지션 값(포지션 정보)으로 생성될 수 있다. 어트리뷰트 비트스트림은 아리스메틱 디코더(740), 인버스 양자화 처리부(745), 예측/리프팅/RAHT 역변환 처리부(750) 및, 색상 역변환 처리부(755)를 거쳐 복원된 어트리뷰트 값으로 생성될 수 있다. 메타 데이터 비트스트림은 메타 데이터 파서(735)를 거쳐 복원된 메타 데이터(또는, 메타 데이터 정보)로 생성될 수 있다. 포지션 값, 어트리뷰트 값 및/또는 메타 데이터가 렌더러(760)에서 렌더링되어 사용자에게 VR/AR/MR/자율주행과 같은 경험을 제공할 수 있다.
구체적으로, 아리스메틱 디코더(715)의 기능은 도 5의 지오메트리 디코딩부(505)가 수행하는 기능에 대응될 수 있으며, 오큐판시 코드기반 옥트리 재구성 처리부(720)의 기능은 도 5의 옥트리 합성부(510)가 수행하는 기능에 대응될 수 있다. 표면 모델 처리부(725)의 기능은 도 5의 근사화 합성부가 수행하는 기능에 대응될 수 있으며, 인버스 양자화 처리부(730)의 기능은 도 5의 지오메트리 복원부(520) 및/또는 좌표계 역변환부(525)가 수행하는 기능에 대응될 수 있다. 메타 데이터 파서(735)의 기능은 도 1에서 설명한 메타 데이터 파싱부가 수행하는 기능에 대응될 수 있다.
또한, 아리스메틱 디코더(740)의 기능은 도 5의 어트리뷰트 디코딩부(530)가 수행하는 기능에 대응될 수 있으며, 인버스 양자화 처리부(745)의 기능은 도 5의 어트리뷰트 역양자화부(535)의 기능에 대응될 수 있다. 예측/리프팅/RAHT 역변환 처리부(750)의 기능은 도 5의 RAHT 변환부(550), LOD 생성부(540) 및 역리프팅부(545)가 수행하는 기능에 대응될 수 있으며, 색상 역변환 처리부(755)의 기능은 도 5의 컬러 역변환부(555)가 수행하는 기능에 대응될 수 있다.
도 8은 본 개시의 실시예들에 따른 포인트 클라우드 데이터 송수신 방법/장치와 연동 가능한 구조의 예시를 나타낸다.
도 8의 구조는 서버(AI Server), 로봇(Robot), 자율 주행 차량(Self-Driving Vehicle), XR 장치(XR device), 스마트폰(Smartphone), 가전(Home Appliance) 및/또는 HMD 중에서 적어도 하나 이상이 클라우드 네트워크(Network)와 연결된 구성을 나타낸다. 로봇, 자율 주행 차량, XR 장치, 스마트폰 또는 가전 등은 장치라 지칭될 수 있다. 또한, XR 장치는 실시예들에 따른 포인트 클라우드 데이터 장치(PCC)에 대응되거나 PCC 장치와 연동될 수 있다.
클라우드 네트워크는 클라우드 컴퓨팅 인프라의 일부를 구성하거나 클라우드 컴퓨팅 인프라 안에 존재하는 네트워크를 의미할 수 있다. 여기서, 클라우드 네트워크는 3G 네트워크, 4G 또는 LTE(Long Term Evolution) 네트워크 또는 5G 네트워크 등을 이용하여 구성될 수 있다.
서버는 로봇, 자율 주행 차량, XR 장치, 스마트폰, 가전 및/또는 HMD 중에서 적어도 하나 이상과 클라우드 네트워크를 통하여 연결되고, 연결된 장치들의 프로세싱의 적어도 일부를 도울 수 있다.
HMD는 실시예들에 따른 XR 디바이스 및/또는 PCC 디바이스가 구현될 수 있는 타입 중 하나를 나타낼 수 있다. 실시예들에 따른 HMD 타입의 디바이스는 커뮤니케이션 유닛, 컨트롤 유닛, 메모리 유닛, I/O 유닛, 센서 유닛, 그리고 파워 공급 유닛 등을 포함할 수 있다.
<PCC+XR>
XR/PCC 장치는 PCC 및/또는 XR 기술이 적용되어, HMD, 차량에 구비된 HUD, 텔레비전, 휴대폰, 스마트 폰, 컴퓨터, 웨어러블 디바이스, 가전 기기, 디지털 사이니지, 차량, 고정형 로봇이나 이동형 로봇 등으로 구현될 수도 있다.
XR/PCC 장치는 다양한 센서들을 통해 또는 외부 장치로부터 획득한 3차원 포인트 클라우드 데이터 또는 이미지 데이터를 분석하여 3차원 포인트들에 대한 위치(지오메트리) 데이터 및 어트리뷰트 데이터를 생성함으로써 주변 공간 또는 현실 객체에 대한 정보를 획득하고, 출력할 XR 객체를 렌더링하여 출력할 수 있다. 예컨대, XR/PCC 장치는 인식된 물체에 대한 추가 정보를 포함하는 XR 객체를 해당 인식된 물체에 대응시켜 출력할 수 있다.
<PCC+XR+모바일폰>
XR/PCC 장치는 PCC 기술이 적용되어 모바일폰 등으로 구현될 수 있다. 모바일폰은 PCC 기술에 기반하여 포인트 클라우드 콘텐츠를 디코딩하고, 디스플레이할 수 있다.
<PCC+자율주행+XR>
자율 주행 차량은 PCC 기술 및 XR 기술이 적용되어, 이동형 로봇, 차량, 무인 비행체 등으로 구현될 수 있다. XR/PCC 기술이 적용된 자율 주행 차량은 XR 영상을 제공하는 수단을 구비한 자율 주행 차량이나, XR 영상 내에서의 제어/상호작용의 대상이 되는 자율 주행 차량 등을 의미할 수 있다. 특히, XR 영상 내에서의 제어/상호작용의 대상이 되는 자율 주행 차량은 XR 장치와 구분되며 서로 연동될 수 있다.
XR/PCC 영상을 제공하는 수단을 구비한 자율 주행 차량은 카메라를 포함하는 센서들로부터 센서 정보를 획득하고, 획득한 센서 정보에 기초하여 생성된 XR/PCC 영상을 출력할 수 있다. 예컨대, 자율 주행 차량은 HUD를 구비하여 XR/PCC 영상을 출력함으로써, 탑승자에게 현실 객체 또는 화면 속의 객체에 대응되는 XR/PCC 객체를 제공할 수 있다.
이때, XR/PCC 객체가 HUD에 출력되는 경우에는 XR/PCC 객체의 적어도 일부가 탑승자의 시선이 향하는 실제 객체에 오버랩되도록 출력될 수 있다. 반면, XR/PCC 객체가 자율 주행 차량의 내부에 구비되는 디스플레이에 출력되는 경우에는 XR/PCC 객체의 적어도 일부가 화면 속의 객체에 오버랩되도록 출력될 수 있다. 예컨대, 자율 주행 차량은 차로, 타 차량, 신호등, 교통 표지판, 이륜차, 보행자, 건물 등과 같은 객체와 대응되는 XR/PCC 객체들을 출력할 수 있다.
실시예들에 의한 VR 기술, AR 기술, MR 기술 및/또는 PCC 기술은, 다양한 디바이스에 적용 가능하다. 즉, VR 기술은 현실 세계의 객체나 배경 등을 CG 영상으로만 제공하는 디스플레이 기술이다. 반면, AR 기술은 실제 사물 영상 위에 가상으로 만들어진 CG 영상을 함께 보여 주는 기술을 의미한다. 나아가, MR 기술은 현실세계에 가상 객체들을 섞고 결합시켜서 보여준다는 점에서 전술한 AR 기술과 유사하다. 그러나, AR 기술에서는 현실 객체와 CG 영상으로 만들어진 가상 객체의 구별이 뚜렷하고, 현실 객체를 보완하는 형태로 가상 객체를 사용하는 반면, MR 기술에서는 가상 객체가 현실 객체와 동등한 성격으로 간주된다는 점에서 AR 기술과는 구별이 된다. 보다 구체적으로 예를 들면, 전술한 MR 기술이 적용된 것이 홀로그램 서비스이다. VR, AR 및 MR 기술을 통합하여 XR 기술로 지칭될 수 있다.
공간 분할
포인트 클라우드 데이터(즉, G-PCC 데이터)는 프레임들(포인트 클라우드 프레임들)의 시퀀스로 이루어진 포인트 클라우드의 볼륨메트릭 인코딩(volumetric encoding)을 나타낼 수 있다. 각 포인트 클라우드 프레임은 포인트들의 수, 포인트들의 포지션들, 및 포인트들의 어트리뷰트를 포함할 수 있다. 포인트들의 수, 포인트들의 포지션들, 및 포인트들의 어트리뷰트는 프레임마다 다를 수 있다. 각 포인트 클라우드 프레임은 특정 타임 인스턴스(particulary time instance)에서 3차원 포인트들의 직교 좌표계(cartesian coordinates) (x, y, z)와 제로 이상의 어트리뷰트들에 의해 명시된 3차원 포인트들의 세트를 의미할 수 있다. 여기서, 3차원 포인트들의 직교 좌표계 (x, y, z)은 포지션 또는 지오메트리일 수 있다.
실시예들에 따라, 본 개시는 포인트 클라우드 데이터를 인코딩(부호화)하기 전에 포인트 클라우드 데이터를 하나 이상의 3차원 블록들로 분할하는 공간 분할 과정을 더 수행할 있다. 3차원 블록은 포인트 클라우드 데이터가 점유하는 3차원 공간의 전부 또는 일부 영역을 의미할 수 있다. 3차원 블록은 타일 그룹(tile group), 타일(tile), 슬라이스(slice), 코딩 유닛(coding unit, CU), 예측 유닛(prediction unit, PU), 또는 변환 단위(transform unit, TU) 중에서 하나 이상을 의미할 수 있다.
3차원 블록에 해당하는 타일은 포인트 클라우드 데이터가 점유하는 3차원 공간의 전부 또는 일부 영역을 의미할 수 있다. 또한, 3차원 블록에 해당하는 슬라이스도 포인트 클라우드 데이터가 점유하는 3차원 공간의 전부 또는 일부 영역을 의미할 수 있다. 타일은 하나의 타일에 포함된 포인트들의 개수에 기초하여 하나 이상의 슬라이스들로 분할될 수 있다. 타일은 바운딩 박스 정보를 갖는 슬라이스들의 그룹일 수 있다. 각 타일의 바운딩 박스 정보는 타일 인벤토리(또는, 타일 파라미터 세트, tile parameter set(TPS))에 명시될 수 있다. 타일은 바운딩 박스 내 다른 타일과 오버랩(overlap)될 수 있다. 슬라이스는 독립적으로 인코딩이 수행되는 데이터의 단위일 수 있으며, 독립적으로 디코딩이 수행되는 데이터의 단위일 수 있다. 즉, 슬라이스는 독립적으로 인코딩 또는 디코딩될 수 있는 포인트들의 세트일 수 있다. 실시예들에 따라, 슬라이스는 코딩된 포인트 클라우드 프레임의 일부 또는 전체를 나타내는 신택스 요소들의 시리즈일 수 있다. 각 슬라이스는 해당 슬라이스가 속하는 타일을 식별하기 위한 인덱스를 포함할 수 있다.
공간 분할된 3차원 블록들은 각각 독립적 또는 비독립적으로 처리될 수 있다. 예를 들어, 공간 분할된 3차원 블록들은 각각 독립적 또는 비독립적으로 인코딩 또는 디코딩될 수 있으며, 각각 독립적 또는 비독립적으로 전송 또는 수신될 수 있다. 또한, 공간 분할된 3차원 블록들은 각각 독립적 또는 비독립적으로 양자화 또는 역양자화될 수 있으며, 각각 독립적 또는 비독립적으로 변환 또는 역변환될 수도 있다. 또한, 공간 분할된 3차원 블록들은 각각 독립적 또는 비독립적으로 렌더링될 수도 있다. 예를 들어, 슬라이스 단위 또는 타일 단위로 인코딩 또는 디코딩이 수행될 있다. 또한, 양자화 또는 역양자화가 타일별로 또는 슬라이스별로 다르게 수행될 수 있으며, 변환 또는 역변환된 타일별로 또는 슬라이스별로 다르게 수행될 수 있다.
이와 같이, 포인트 클라우드 데이터를 하나 이상의 3차원 블록들로 공간 분할하고, 공간 분할된 3차원 블록들을 독립적 또는 비독립적으로 처리하면, 3차원 블록들을 처리하는 과정이 실시간으로 이루어짐과 동시에 해당 과정이 저지연으로 처리될 수 있다. 또한, 포인트 클라우드 데이터가 점유하는 3차원 공간 상의 랜덤 액세스(random access)와 병렬 인코딩 또는 병렬 디코딩이 가능해질 수 있으며, 인코딩 또는 디코딩 과정에서 누적되는 오류를 방지할 수도 있다.
도 9는 본 개시의 실시예들에 따른 공간 분할 과정을 수행하는 전송 장치(900)의 예시를 나타내는 블록도이다. 도 9에 예시된 바와 같이, 전송 장치(900)는 공간 분할 과정을 수행하는 공간 분할부(905), 시그널링 처리부(910), 지오메트리 인코더(915), 어트리뷰트 인코더(920), 인캡슐레이션 처리부(925) 및/또는 전송 처리부(930)를 포함할 수 있다.
공간 분할부(905)는 바운딩 박스 및/또는 서브 바운딩 박스 등에 기반하여 포인트 클라우드 데이터를 하나 이상의 3차원 블록들로 분할하는 공간 분할 과정을 수행할 수 있다. 공간 분할 과정을 통해, 포인트 클라우드 데이터가 하나 이상의 타일들 및/또는 하나 이상의 슬라이스들로 분할될 수 있다. 실시예들에 따라, 공간 분할 과정을 통해, 포인트 클라우드 데이터가 하나 이상의 타일들로 분할되고, 분할된 각 타일이 다시 하나 이상의 슬라이스들로 분할될 수도 있다.
도 10는 바운딩 박스(즉, 포인트 클라우드 데이터)를 하나 이상의 3차원 블록들로 공간 분할한 일 예를 나타낸다. 도 10에 예시된 바와 같이, 포인트 클라우드 데이터의 전체(overall) 바운딩 박스는 3개의 타일들, 즉 타일 #0(tile #0), 타일 #1(tile #1) 및 타일 #2(tile #2)로 분할될 수 있다. 또한, 타일 #0은 다시 2개의 슬라이스들, 즉 슬라이스 #0(slice #0) 및 슬라이스 #1(slice #1)로 분할될 수 있다. 또한, 타일 #1은 다시 2개의 슬라이스들, 즉 슬라이스 #2(slice #2) 및 슬라이스 #3(slice #3)으로 분할될 수 있다. 또한, 타일 #2는 다시 슬라이스 #4(slice #4)로 분할될 수 있다.
시그널링 처리부(910)는 시그널링 정보를 생성 및/또는 처리(예를 들어, 엔트로피 인코딩)하여 비트스트림 형태로 출력할 수 있다. 이하에서는, 시그널링 처리부로부터 출력되는(시그널링 정보가 인코딩된) 비트스트림을 '시그널링 비트스트림'이라 한다. 시그널링 정보는 공간 분할을 위한 정보 또는 공간 분할에 대한 정보를 포함할 수 있다. 즉, 시그널링 정보는 공간 분할부(905)에서 수행된 공간 분할 과정에 관련된 정보를 포함할 수 있다.
포인트 클라우드 데이터가 하나 이상의 3차원 블록들로 분할된 경우에는, 포인트 클라우드 데이터 중에서 특정 타일 또는 특정 슬라이스에 해당하는 일부의 포인트 클라우드 데이터를 디코딩하기 위한 정보가 필요할 수 있다. 또한, 포인트 클라우드 데이터에 대한 공간적 접근(또는, 부분적 접근)을 지원하기 위해, 3차원 공간 영역들에 관련된 정보가 필요할 수도 있다. 여기서, 공간적 접근이란, 포인트 클라우드 데이터 전체에서 필요한 일부의 포인트 클라우드 데이터만을 파일로부터 추출하는 것을 의미할 수 있다. 시그널링 정보는 일부의 포인트 클라우드 데이터를 디코딩하기 위한 정보, 공간적 접근을 지원하기 위한 3차원 공간 영역들에 관련된 정보 등을 포함할 수 있다. 예를 들어, 시그널링 정보는 3차원 바운딩 박스 정보, 3차원 공간 영역 정보, 타일 정보 및/또는 타일 인벤토리 정보 등을 포함할 수 있다.
시그널링 정보는 공간 분할부(905), 지오메트리 인코더(915), 어트리뷰트 인코더(920), 전송 처리부(925) 및/또는 인캡슐레이션 처리부(930)로부터 제공될 수 있다. 또한, 시그널링 처리부(910)는 도 13의 수신 장치(900)로부터 피드백되는 피드백 정보를 공간 분할부(905), 지오메트리 인코더(915), 어트리뷰트 인코더(920), 전송 처리부(925) 및/또는 인캡슐레이션 처리부(930)로 제공할 수 있다.
시그널링 정보는 트랙 내 샘플, 샘플 엔트리, 샘플 그룹, 트랙 그룹 또는 별도의 메타 데이터 트랙 등에 저장되어 시그널링될 수 있다. 실시예들에 따라, 시그널링 정보는 시퀀스 레벨의 시그널링을 위한 시퀀스 파라미터 세트(sequence parameter set, SPS), 지오메트리 코딩 정보의 시그널링을 위한 지오메트리 파라미터 세트(geometry parameter set, GPS), 어트리뷰트 코딩 정보의 시그널링을 위한 어트리뷰트 파라미터 세트(attribute parameter set, APS), 타일 레벨의 시그널링을 위한 타일 파라미터 세트(tile parameter set, TPS)(또는, 타일 인벤토리) 등의 단위로 시그널링될 수 있다. 또한, 시그널링 정보는 슬라이스 또는 타일 등과 같은 코딩 유닛 단위로 시그널링될 수도 있다.
한편, 3차원 블록들의 포지션(포지션 정보)은 지오메트리 인코더(915)로 출력될 수 있으며, 3차원 블록들의 어트리뷰트(어트리뷰트 정보)는 어트리뷰트 인코더(920)로 출력될 수 있다.
지오메트리 인코더(915)는 포지션 정보를 기반으로 옥트리를 구성하고, 구성된 옥트리를 인코딩하여 지오메트리 비트스트림을 출력할 수 있다. 또한, 지오메트리 인코더(915)는 옥트리 및/또는 근사화된 옥트리를 재구성(복원)하여 어트리뷰트 인코더(920)로 출력할 수 있다. 복원된 옥트리는 복원된 지오메트리일 수 있다. 지오메트리 인코더(915)는 도 3의 좌표계 변환부(305), 지오메트리 양자화부(310), 옥트리 분석부(315), 근사화부(320), 지오메트리 인코딩부(325) 및/또는 복원부(330)가 수행하는 동작들의 전부 또는 일부를 수행할 수 있다. 실시예들에 따라, 지오메트리 인코더(915)는 도 6의 양자화 처리부(610), 복셀화 처리부(615), 옥트리 오큐판시 코드 생성부(620), 표면 모델 처리부(625), 인트라/인터 코딩 처리부(630) 및/또는 아리스메틱 코더(635)가 수행하는 동작들의 전부 또는 일부를 수행할 수 있다.
어트리뷰트 인코더(920)는 복원된 지오메트리에 기반하여 어트리뷰트를 인코딩함으로써 어트리뷰트 비트스트림을 출력할 수 있다. 어트리뷰트 인코더(920)는 도 3의 어트리뷰트 변환부(340), RAHT 변환부(345), LOD 생성부(350), 리프팅부(355), 어트리뷰트 양자화부(360), 어트리뷰트 인코딩부(365) 및/또는 컬러 변환부(335)가 수행하는 동작들의 전부 또는 일부를 수행할 수 있다. 실시예들에 따라, 어트리뷰트 인코더(920)는 도 6의 속성 변환 처리부(650), 예측/리프팅/RAHT 변환 처리부(655), 아리스메틱 코더(660) 및/또는 색상 변환 처리부(645)가 수행하는 동작들의 전부 또는 일부를 수행할 수 있다.
인캡슐레이션 처리부(925)는 입력되는 하나 이상의 비트스트림들을 파일 또는 세그먼트 등으로 인캡슐레이션 할 수 있다. 예를 들어, 인캡슐레이션 처리부(925)는 지오메트리 비트스트림, 어트리뷰트 비트스트림, 시그널링 비트스트림을 각각 인캡슐레이션 할 수도 있고, 또는 지오메트리 비트스트림, 어트리뷰트 비트스트림, 시그널링 비트스트림을 다중화하여 인캡슐레이션 할 수 있다. 실시예들에 따라, 인캡슐레이션 처리부(925)는 TLV(type-length-value) 구조의 시퀀스로 구성된 비트스트림(G-PCC 비트스트림)을 파일로 인캡슐레이션할 수 있다. G-PCC 비트스트림을 구성하는 TLV(또는, TLV 인캡슐레이션) 구조들은 지오메트리 비트스트림, 어트리뷰트 비트스트림, 시그널링 비트스트림 등을 포함할 수 있다. 실시예들에 따라, G-PCC 비트스트림은 인캡슐레이션 처리부(925)에서 생성될 수 있고, 전송 처리부(930)에서 생성될 수도 있다. TLV 구조 또는 TLV 인캡슐레이션 구조에 대해서는 뒤에서 상세히 설명하도록 한다. 실시예들에 따라, 인캡슐레이션 처리부(925)는 도 1의 인캡슐레이션 처리부(13)가 수행하는 동작들의 전부 또는 일부를 수행할 수 있다.
전송 처리부(930)는 임의의 전송 프로토콜에 따라 인캡슐레이션된 비트스트림 또는 파일/세그먼트 등의 처리를 수행할 수 있다. 전송 처리부(930)는 도 1을 통해 설명한 전송부(14) 및 전송 처리부 또는, 도 6의 전송 처리부(665)가 수행하는 동작들의 전부 또는 일부를 수행할 수 있다.
도 11은 본 개시의 실시예들에 따른 수신 장치(1100)의 예시를 나타내는 블록도이다. 수신 장치(1100)는 공간 분할을 수행하는 전송 장치(900)의 동작들에 대응하는 동작들을 수행할 수 있다. 도 11에 예시된 바와 같이, 수신 장치(1100)는 수신 처리부(1105), 디캡슐레이션 처리부(1110), 시그널링 처리부(1115), 지오메트리 디코더(1120), 어트리뷰트 인코더(1125) 및/또는 후처리부(1130)를 포함할 수 있다.
수신 처리부(1105)는 G-PCC 비트스트림이 인캡슐레이션된 파일/세그먼트, G-PCC 비트스트림 또는 비트스트림을 수신하고, 이들을 대상으로 전송 프로토콜에 따른 처리를 수행할 수 있다. 수신 처리부(1105)는 도 1을 통해 설명한 수신부(21) 및 수신 처리부 또는, 도 7의 수신부(705) 또는 수신 처리부(710)가 수행하는 동작들의 전부 또는 일부를 수행할 수 있다.
디캡슐레이션 처리부(1110)는 인캡슐레이션 처리부(925)가 수행하는 동작들의 역과정을 수행하여 G-PCC 비트스트림을 획득할 수 있다. 디캡슐레이션 처리부(1110)는 파일/세그먼트를 디캡슐레이션하여 G-PCC 비트스트림을 획득할 수 있다. 예를 들어, 디캡슐레이션 처리부(1110)는 시그널링 비트스트림을 획득하여 시그널링 처리부(1115)로 출력할 수 있고, 지오메트리 비트스트림을 획득하여 지오메트리 디코더(1120)로 출력할 수 있으며, 어트리뷰트 비트스트림을 획득하여 어트리뷰트 디코더(1125)로 출력할 수 있다. 디캡슐레이션 처리부(1110)는 도 1의 디캡슐레이션 처리부(22) 또는, 도 7의 수신 처리부(710)가 수행하는 동작들의 전부 또는 일부를 수행할 수 있다.
시그널링 처리부(1115)는 시그널링 처리부(910)가 수행하는 동작들의 역과정을 수행하여 시그널링 정보를 파싱 및 디코딩할 수 있다. 시그널링 처리부(1115)는 시그널링 비트스트림으로부터 시그널링 정보를 파싱 및 디코딩할 수 있다. 시그널링 처리부(1115)는 디코딩된 시그널링 정보를 지오메트리 디코더(1120), 어트리뷰트 디코더(1125) 및/또는 후처리부(1130)로 제공할 수 있다.
지오메트리 디코더(1120)는 지오메트리 인코더(915)가 수행하는 동작들의 역과정을 수행하여 지오메트리 비트스트림으로부터 지오메트리를 복원할 수 있다. 지오메트리 디코더(1120)는 시그널링 정보(지오메트리에 관련된 파라미터들)에 기반하여 지오메트리를 복원할 수 있다. 복원된 지오메트리는 어트리뷰트 디코더(1125)로 제공될 수 있다.
어트리뷰트 디코더(1125)는 어트리뷰트 인코더(920)가 수행하는 동작들의 역과정을 수행하여 어트리뷰트 비트스트림으로부터 어트리뷰트를 복원할 수 있다. 어트리뷰트 디코더(1125)는 시그널링 정보(어트리뷰트에 관련된 파라미터들)와 복원된 지오메트리에 기반하여 어트리뷰트를 복원할 수 있다.
후처리부(1130)는 복원된 지오메트리와 복원된 어트리뷰트에 기반하여 포인트 클라우드 데이터를 복원할 수 있다. 포인트 클라우드 데이터의 복원은 복원된 지오메트리와 복원된 어트리뷰트를 서로 매칭시키는 과정을 통해 수행될 수 있다. 실시예들에 따라, 후처리부(1130)는 복원된 포인트 클라우드 데이터가 타일 및/또는 슬라이스 단위인 경우에, 시그널링 정보를 기반으로 하여 전송 장치(900)의 공간 분할 과정의 역과정을 수행함으로써, 포인트 클라우드 데이터의 바운딩 박스를 복원할 수 있다. 실시예들에 따라, 후처리부(1130)는 바운딩 박스가 공간 분할 과정을 통해 복수 개의 타일들 및/또는 복수 개의 슬라이스들로 분할된 경우에, 시그널링 정보를 기반으로 하여 일부 슬라이스들 및/또는 일부 타일들을 결합함으로써, 바운딩 박스의 일부를 복원할 수도 있다. 여기서, 바운딩 박스의 복원에 이용되는 일부 슬라이스들 및/또는 일부 타일들은 공간적 접근을 원하는 3차원 공간 영역에 관련된 슬라이스들 및/또는 일부 타일들일 수 있다.
인캡슐레이션/디캡슐레이션
TLV 인캡슐레이션 구조는 본 명세서에서 언급된 전송부, 전송 처리부, 인캡슐레이션부에서 생성될 수 있다. TLV 인캡슐레이션 구조들로 구성된 G-PCC 비트스트림은 그대로 수신 장치로 전송되거나, 인캡슐레이션되어 수신 장치로 전송될 수도 있다. 예를 들어, 인캡슐레이션 처리부(1125)는 TLV 인캡슐레이션 구조들로 이루어진 G-PCC 비트스트림을 파일/세그먼트 형태로 인캡슐레이션하여 전송할 수 있다. 디캡슐레이션 처리부(1110)는 인캡슐레이션된 파일/세그먼트를 디캡슐레이션하여 G-PCC 비트스트림을 획득할 수 있다.
실시예들에 따라, G-PCC 비트스트림은 ISOBMFF 기반의 파일 포맷으로 인캡슐레이션될 수 있다. 이 경우, G-PCC 비트스트림은 ISOBMFF 파일 내 싱글 트랙(track) 또는 멀티플 트랙들에 저장될 수 있다. 여기서, 파일 내 싱글 트랙 또는 멀티플 트랙들은 “트랙' 또는 “G-PCC 트랙”이라 지칭될 수 있다. ISOBMFF 기반의 파일은 컨테이너, 컨테이너 파일, 미디어 파일, G-PCC 파일 등으로 지칭될 수 있다. 구체적으로, 파일은 ftyp, moov, mdat이라고 지칭할 수 있는 박스 및/또는 정보 등으로 구성될 수 있다.
ftyp 박스(file type box, 파일 타입 박스)는 해당 파일에 대한 파일 타입 또는 파일 호환성 관련 정보를 제공할 수 있다. 수신 장치는 ftyp 박스를 참조하여 해당 파일을 구분할 수 있다. mdat 박스는 미디어 데이터 박스(media data box)라고도 하며, 실제 미디어 데이터를 포함할 수 있다. 실시예들에 따라, 지오메트리 슬라이스(또는, 코딩된 지오메트리 비트스트림), 제로 이상의 어트리뷰트 슬라이스들(또는, 코딩된 어트리뷰트 비트스트림)은 파일 내 mdat 박스의 샘플에 포함될 수 있다. 여기서, 샘플은 G-PCC 샘플로 지칭될 수 있다. moov 박스는 movie 박스라고도 하며, 해당 파일의 미디어 데이터에 대한 메타 데이터를 포함할 수 있다. 예를 들어, moov 박스는 해당 미디어 데이터의 디코딩 및 재생에 필요한 정보를 포함할 수 있고, 해당 파일의 트랙 및 샘플에 관한 정보를 포함할 수 있다. moov 박스는 모든 메타 데이터를 위한 컨테이너 역할을 할 수 있다. moov 박스는 메타 데이터 관련 박스들 중 최상위 레이어의 박스일 수 있다.
실시예들에 따라, moov 박스는 파일의 트랙에 관련된 정보를 제공하는 트랙(trak) 박스를 포함할 수 있으며, trak 박스는 해당 트랙의 미디어 정보를 제공하는 미디어(mdia) 박스(MediaBox), 및 해당 트랙과 해당 트랙에 대응하는 파일의 샘플을 연결(reference)하기 위한 트랙 레퍼런스 컨테이너(tref) 박스를 포함할 수 있다. 미디어 박스(MediaBox)는 해당 미디어 데이터의 정보를 제공하는 미디어 정보 컨테이너(minf) 박스와 스트림의 타입을 지시하는 핸들러(hdlr) 박스(HandlerBox)를 포함할 수 있다. minf 박스는 mdat 박스의 샘플에 관련된 메타 데이터를 제공하는 샘플 테이블(stbl) 박스를 포함할 수 있다. stbl 박스는 사용된 코딩 타입(coding type)에 대한 정보와 해당 코딩 타입을 위해 필요한 초기 정보(initialization information)를 제공하는 샘플 디스크립션 (stsd) 박스를 포함할 수 있다. 실시예들에 따라, 샘플 디스크립션 (stsd) 박스는 트랙을 위한 샘플 엔트리(sample entry)를 포함할 수 있다. 실시예들에 따라, SPS, GPS, APS, 타일 인벤토리와 같은 시그널링 정보(또는, 메타 데이터)는 파일 내 moov 박스의 샘플 엔트리 또는 mdat 박스의 샘플에 포함될 수 있다.
G-PCC 트랙은 지오메트리 슬라이스(또는, 코딩된 지오메트리 비트스트림) 또는 어트리뷰트 슬라이스(또는, 코딩된 어트리뷰트 비트스트림), 또는 지오메트리 슬라이스와 어트리뷰트 슬라이스 둘 다를 캐리하는 볼륨메트릭 비쥬얼 트랙(volumetric visual track)으로 정의될 수 있다. 실시예들에 따라, 볼륨메트릭 비쥬얼 트랙은 미디어 박스(MediaBox)의 핸들러 박스(HandlerBox) 내 볼륨메트릭 비쥬얼 미디어 핸들러 타입(volumetric visual media handler type) 'volv' 및/또는 미디어 박스(MediaBox)의 minf 박스 내 볼륨메트릭 비쥬얼 미디어 헤더(volumetric visual media header, vvhd)에 의해 식별될 수 있다. minf 박스는 미디어 정보 컨테이너 또는 미디어 정보 박스라 지칭될 수 있다. minf 박스는 미디어 박스(MediaBox)에 포함되고, 미디어 박스(MediaBox)는 트랙 박스에 포함되며, 트랙 박스는 파일의 moov 박스에 포함될 수 있다. 싱글 볼륨메트릭 비쥬얼 트랙 또는 멀티플 볼륨메트릭 비쥬얼 트랙들은 파일에 존재할 수 있다.
샘플 그룹
본 개시에서 언급된 인캡슐레이션 처리부는 하나 이상의 샘플들을 그룹핑하여 샘플 그룹을 생성할 수 있다. 본 개시에서 언급된 인캡슐레이션 처리부, 메타 데이터 처리부 또는 시그널링 처리부는 샘플 그룹에 연관된 시그널링 정보를 샘플, 샘플 그룹 또는 샘플 엔트리에 시그널링할 수 있다. 즉, 샘플 그룹에 연관된 샘플 그룹 정보는 샘플, 샘플 그룹 또는 샘플 엔트리에 추가될 수 있다. 샘플 그룹 정보는 3D 바운딩 박스 샘플 그룹 정보, 3D 영역 샘플 그룹 정보, 3D 타일 샘플 그룹 정보, 3D 타일 인벤토리 샘플 그룹 정보 등일 수 있다.
샘플 엔트리
도 12는 싱글 트랙을 포함하는 ISOBMFF 기반 파일을 설명하기 위한 도면이다. 도 12의 (a)는 싱글 트랙을 포함하는 ISOBMFF 기반 파일의 레이아웃에 대한 일 예를 나타내며, 도 12의 (b)는 G-PCC 비트스트림이 파일의 싱글 트랙에 저장될 때 mdat 박스의 샘플 구조에 대한 일 예를 나타낸다. 도 13은 멀티플 트랙을 포함하는 ISOBMFF 기반 파일을 설명하기 위한 도면이다. 도 13의 (a)는 멀티플 트랙을 포함하는 ISOBMFF 기반 파일의 레이아웃에 대한 일 예를 나타내며, 도 13의 (b)는 G-PCC 비트스트림이 파일의 싱글 트랙에 저장될 때 mdat 박스의 샘플 구조에 대한 일 예를 나타낸다.
파일의 moov 박스에 포함되는 stsd 박스(SampleDescriptionBox)는 G-PCC 비트스트림을 저장하는 싱글 트랙을 위한 샘플 엔트리를 포함할 수 있다. SPS, GPS, APS, 타일 인벤토리가 파일 내 moov 박스의 샘플 엔트리 또는 mdat 박스의 샘플에 포함될 수 있다. 또한, 지오메트리 슬라이스, 제로 이상의 어트리뷰트 슬라이스들이 파일 내 mdat 박스의 샘플에 포함될 수 있다. G-PCC 비트스트림이 파일의 싱글 트랙에 저장될 때, 각 샘플은 멀티플 G-PCC 컴포넌트들을 포함할 수 있다. 즉, 각 샘플은 하나 이상의 TLV 인캡슐레이션 구조들로 구성될 수 있다.
도 13의 (b)에 예시된 바와 같이, 샘플은 지오메트리 슬라이스를 포함하는 TLV 인캡슐레이션 구조들이 포함될 수 있다. 또한, 샘플은 하나 이상의 파라미터 세트들을 포함하는 TLV 인캡슐레이션 구조들을 포함할 수 있다. 또한, 샘플은 하나 이상의 어트리뷰트 슬라이스를 포함하는 TLV 인캡슐레이션 구조들을 포함할 수 있다.
도 13의 (a)에 예시된 바와 같이, G-PCC 비트스트림이 ISOBMFF 기반의 파일의 멀티플 트랙들로 캐리되는 경우에, 각 지오메트리 슬라이스 또는 어트리뷰트 슬라이스는 개별 트랙(indivisual track)에 매핑될 수 있다. 예를 들어, 지오메트리 슬라이스는 트랙 1(track 1)에 매핑될 수 있으며, 어트리뷰트 슬라이스는 트랙2(track 2)에 매핑될 수 있다. 지오메트리 슬라이스를 캐리하는 트랙(track 1)은 지오메트리 트랙 또는 G-PCC 지오메트리 트랙으로 지칭될 수 있고, 어트리뷰트 슬라이스를 캐리하는 트랙(track 2)은 어트리뷰트 트랙 또는 G-PCC 어트리뷰트 트랙으로 지칭될 수 있다. 그리고, 지오메트리 트랙은 지오메트리 슬라이스를 캐리하는 볼륨메트릭 비쥬얼 트랙으로 정의될 수 있으며, 어트리뷰트 트랙은 어트리뷰트 슬라이스를 캐리하는 볼륨메트릭 비쥬얼 트랙으로 정의될 수 있다.
지오메트리 슬라이스와 어트리뷰트 슬라이스 둘 다를 포함하는 G-PCC 비트스트림의 일부를 캐리하는 트랙을 다중화된 트랙(multiplexed track)이라 지칭할 수 있다. 지오메트리 슬라이스와 어트리뷰트 슬라이스가 개별 트랙들(separate tracks)에 저장되는 경우에, 트랙 내 각 샘플은 싱글 G-PCC 컴포넌트의 데이터를 캐리하는 적어도 하나의 TLV 인캡슐레이션 구조를 포함할 수 있다. 이 경우, 각 샘플은 지오메트리와 어트리뷰트 둘 다를 포함하지 않으며, 또한 멀티플 어트리뷰트들을 포함하지 않을 수 있다. G-PCC 비트스트림의 멀티-트랙 인캡슐레이션은 G-PCC 플레이어가 G-PCC 컴포넌트들 중 하나를 효과적(effectively)으로 액세스하는 것을 가능하게 할 수 있다.
시간적 확장성(temporal scalability)
시간적 확장성은 독립적으로 코딩된 프레임들의 하나 이상의 서브 세트들을 추출할 가능성을 허용하는 기능을 의미할 수 있다. 또한, 시간적 확장성은 G-PCC 데이터를 복수 개의 서로 다른 시간적 레벨들(temporal levels)로 구분하고, 서로 다른 시간적 레벨들에 속하는 각 G-PCC 프레임들을 서로 독립적으로 처리하는 기능을 의미할 수 있다. 시간적 확장성이 지원되면, G-PCC 플레이어(또는, 본 개시의 전송 장치 및/또는 수신 장치)는 G-PCC 컴포넌트들 중에서 원하는 컴포넌트(타겟 컴포넌트)에 효과적(effectively)으로 액세스할 수 있다. 또한, 시간적 확장성이 지원되면, G-PCC 프레임이 서로 독립적으로 처리되므로, 시스템 레벨에서 시간적 확장성 지원이 보다 유연한 시간적 서브 레이어링(sub-layering)으로 표현될 수 있다. 또한, 시간적 확장성이 지원되면, G-PCC 데이터를 처리하는 시스템(포인트 클라우드 콘텐트 제공 시스템)이 네트워크 기능(capability)이나 디코더 기능(capability) 등과 일치하도록 높은 수준에서 데이터를 조작할 수 있도록 하므로, 포인트 클라우드 콘텐트 제공 시스템의 성능을 향상시킬 수 있다.
종래 기술의 문제점
기존 파일 포맷에 따른 G-PCC 비트스트림은 인트라 코딩된 프레임들만을 갖는다. 이 경우 G-PCC 비트스트림 내 모든 프레임들이 인트라 코딩되었으므로 랜덤 액세스 기능이 자동으로 활성화될 것으로 보이지만, 실제로는 상기 프레임들이 G-PCC 파일의 트랙들 내에서 어떻게 운반/저장되는지에 따라 추가 정보 없이는 랜덤 액세스 기능이 가용하지 않을 수 있다.
랜덤 액세스 기능이 갖는 이슈들 중 하나는 파라미터 세트들이 트랙 내에서 어떻게 저장되고 운반되는가이다. 파라미터 세트들은 오직 샘플 엔트리 또는 샘플들에서 운반되거나, 혹은 샘플 엔트리 및 샘플들에서 운반될 수 있다. 파라미터 세트들이 샘플들에서 운반되는 경우, 상기 샘플들 내의 프레임들이 인트라 코딩된 프레임들일지라도, 특정 샘플 X 내의 프레임이, 상기 샘플 X에서 운반되지 않고 상기 샘플 X에 선행하는 샘플들 중 하나에서 운반되는 파라미터 세트들을 참조한다면, 디코딩 프로세스는 상기 샘플 X로부터 시작할 수 없게 된다. 결과적으로, 랜덤 샘플로부터의 안전한 재생을 위해서는, 파일 파서/플레이어는 랜덤 액세스 포인트부터 시작하는 프레임들에 의해 요구되거나 참조되는 모든 파라미터 세트들을 찾아야 하는 이슈를 해결할 필요가 있다.
기존 ISOBMFF 파일 포맷에 따르면, 트랙 내 어떤 샘플이 싱크(sync) 샘플인지에 관한 정보를 전달(convey)할 수 있는 SyncSampleBox ('stss')가 존재한다. 나아가, 랜덤 액세스 기능 지원에 있어 유용한 정보를 제공하기 위한 샘플 그룹핑 매커니즘이 제안된 바도 있다. 이와 같은 SyncSampleBox 및 샘플 그룹핑 매커니즘은 랜덤 액세스 기능을 제공하기 위해 함께 작동할 수 있다. 하지만, 이에 관한 매커니즘(즉, 랜덤 액세스 기능 지원을 위해 어떻게 함께 작동하는지)은 아직 구체화된 바 없다. 이에, 본 개시에서는 올바른 랜덤 액세스 기능을 지원하기 위한 SyncSampleBox 속성 및 플레이어 동작에 관한 다양한 실시예가 제공될 수 있다.
본 개시의 실시예들은 아래의 구성들(Aspects)에 기반하여 제공될 수 있다. 실시예에 따라, 아래의 구성들은 개별적으로 적용될 수도 있고, 혹은 2 이상의 조합으로 적용될 수도 있다.
- (구성 1): 파라미터 세트들이 지오메트리 컴포넌트를 운반하는 트랙의 샘플 엔트리 또는 타일 베이스 트랙 내에서 배타적으로(exclusively) 운반되지 않는 경우, 파라미터 세트 샘플 그룹 박스들 혹은 SyncSampleBox 및 파라미터 세트 샘플 그룹 박스들은 상기 트랙 내에 존재할 수 있다.
또는, 파라미터 세트들이 지오메트리 컴포넌트를 운반하는 트랙의 샘플 엔트리 또는 타일 베이스 트랙 내에서 배타적으로 운반되지 않는 경우, 파라미터 세트 샘플 그룹 박스들 혹은 SyncSampleBox 및 파라미터 세트 샘플 그룹 박스들은 상기 트랙 내에 존재하도록 제한될 수 있다.
- (구성 2): 파라미터 세트들이 트랙의 샘플 엔트리 내에서 배타적으로 운반되지 않는 경우, 모든 샘플들을 싱크 샘플들(i.e., SyncSampleBox에 포함된 샘플들)로 간주할 수 있으므로 SyncSampleBox는 존재할 필요가 없다.
- (구성 3): SyncSampleBox가 존재하는 경우, 해당 박스는 오직 지오메트리 컴포넌트를 포함하는 트랙 또는 타일 베이스 트랙 내에 존재하도록 제한될 수 있다. 오직 어트리뷰트 컴포넌트만을 포함하는 트랙 내 싱크 샘플들은 상기 지오메트리 컴포넌트를 운반하는 연관된(associated) 트랙으로부터 추론될 수 있다.
- (구성 4): 시간적 확장성이 다중 시간적 레벨 트랙들과 함께 지원되는 케이스에서, SyncSampleBox는 오직 시간적 레벨 0을 포함하는 트랙 내에 존재할 수 있다.
- (구성 5): 특정 샘플 X로부터의 랜덤 액세스 이벤트에서 파일 플레이어 동작(behavior)은 다음과 같다.
i) 트랙의 샘플 엔트리가 'gpe1' 또는 'gpc1'인 경우, 파일 플레이어는 상기 샘플 X로부터 디코딩 및 재생을 직접적으로 시작할 수 있다. 상기 샘플 X 및 디코딩 순서상 이에 후속하는 샘플들을 디코딩하는 데 필요한(necessary) 파라미터 세트들은 상기 트랙의 샘플 엔트리 내에서 가용할 수 있다.
ii) 또는, SyncSampleBox가 존재하고 상기 샘플 X가 싱크 샘플로 지시되는 경우, 파일 플레이어는 상기 샘플 X로부터 디코딩 및 재생을 직접적으로 시작할 수 있다. 이 때, 상기 샘플 X 및 디코딩 순서상 이에 후속하는 샘플들을 디코딩하는데 필요한 파라미터 세트들은 트랙의 샘플 엔트리 또는 상기 샘플 X 내에서 가용해야 한다.
iii) 또는, 파라미터 세트 샘플 그룹 박스들이 존재하는 경우, 파일 플레이어는 파라미터 세트 샘플 그룹 박스들에 의해 제공되는 정보로부터 디코딩에 필요한 파라미터 세트들을 포함하는 샘플들을 찾아 상기 샘플 X로부터 디코딩을 시작할 수 있다.
iv) 또는 (즉, 트랙이 'gpe1' 또는 'gpc1'이 아니고, SyncSampleBox 및 파라미터 세트 샘플 그룹 박스가 존재하지 않는 경우), 상기 샘플 X로부터의 랜덤 액세스는 지정되지 않을 수 있다.
이상 상술한 구성들에 기반하여 본 개시의 실시예들은 다음과 같이 구현될 수 있다.
(1) 싱크 샘플 박스(SyncSampleBox)
싱크 샘플이란 소정 유형(e.g., type 1 또는 type 2)의 SAP(Stream Access Point)의 ISAU에서 시작하는 트랙 내 샘플 또는 새로운 독립적인 샘플들의 시퀀스를 시작하는 미디어 샘플을 의미할 수 있다. 디코딩 과정이 싱크 샘플에서 시작되는 경우, 해당 샘플 및 디코딩 순서상 이에 후속하는 샘플들은 올바르게 디코딩될 수 있다. 이 때, 디코딩된 샘플들의 결과 세트는 가장 빠른 합성 시간을 갖는 디코딩된 샘플에서 시작하여 미디어의 올바른 프리젠테이션을 형성할 수 있다.
싱크 샘플 박스는 스트림 내 싱크 샘플들의 간단한 마킹을 제공할 수 있다. 싱크 샘플 박스의 신택스 구조의 일 예는 표 1과 같다.
aligned(8) class SyncSampleBox
extends FullBox('stss', version = 0, 0) {
unsigned int(32) entry_count;
int i;
for (i=0; i < entry_count; i++) {
unsigned int(32) sample_number;
}
}
표 1에서, 신택스 요소 entry_count는 후속 테이블 내의 엔트리들의 개수를 나타낼 수 있다. entry_count 값이 0인 경우, 스트림 내 싱크 샘플들이 존재하지 않고 후속 테이블은 비어있을 수 있다. 신택스 요소 sample_number는 스트림 내 싱크 샘들의 개수를 나타낼 수 있다.
싱크 샘플 박스는 다음의 트랙들 내에 존재할 수 있다.
- 샘플 엔트리 타입 'gpeg'를 갖는 트랙
- 지오메트리 컴포넌트를 포함하고 샘플 엔트리 타입 'gpcg'를 갖는 트랙
- 샘플 엔트리 타입 'gpeb' 또는 'gpcb'를 갖는 트랙
싱크 샘플 박스는 샘플 엔트리 타입 'gpe1'을 갖는 트랙 및 샘플 엔트리 타입 'gpc1'을 갖는 트랙 내에 존재할 필요는 없다. 이는, 모든 샘플들은 인트라 코딩된 프레임을 갖고, 상기 트랙 내 샘플을 디코딩하는 데 필요한 파라미터 세트들은 샘플 엔트리 내에서 운반되기 때문이다.
SyncSampleBox는, 지오메트리 컴포넌트를 포함하지 않고 샘플 엔트리 타입 'gpcg'를 갖는 트랙 내에는 존재하지 않도록 제한될 수 있다. 지오메트리 컴포넌트를 포함하고 샘플 엔트리 타입 'gpcg'를 갖는 트랙 내의 샘플들이 싱크 샘플(i.e., SyncSampleBox에 포함된 샘플들)로서 지시되는 경우, 연관된 트랙 내의 대응 샘플들(i.e., 동일한 디코딩 타임스탬프 및/또는 프리젠테이션 타임스탬프를 갖는 샘플들) 역시 싱크 샘플들로 간주될 수 있다.
SyncSampleBox 및 파라미터 세트 샘플 그룹 박스들 모두가 샘플 엔트리 타입 'gpeg'를 갖는 트랙, 지오 메트리 컴포넌트를 포함하는 샘플 엔트리 'gpcg'를 갖는 트랙, 또는 샘플 엔트리 'gpeb' 또는 'gpcb'를 갖는 트랙 내에 존재하지 않는 경우, 랜덤 액세스 재생을 수행하기 위한 방법은 지정되지 않을 수 있다.
시간적 확장성이 지원되고 비트스트림이 다중 시간적 레벨 트랙들 내에 저장되는 경우, SyncSampleBox는 오직 시간적 레벨 0을 포함하는 트랙 내에 존재할 수 있다.
(2) 랜덤 액세스시의 플레이어 동작
특정 샘플 X로부터 랜덤 액세스의 경우, 파일 플레이어는 다음의 과정을 수행할 수 있다.
i) 트랙의 샘플 엔트리가 'gpe1' 또는 'gpc1'인 경우, 파일 플레이어는 상기 샘플 X로부터 디코딩 및 재생을 직접적으로 시작할 수 있다. 이 때, 상기 샘플 X 및 디코딩 순서상 이에 후속하는 샘플들을 디코딩하기 위해 필요한 파라미터 세트들은 상기 트랙의 샘플 엔트리 내에서 가용할 수 있다.
ii) 또는, SyncSampleBox가 존재하고 상기 샘플 X가 싱크 샘플로 지시되는 경우, 파일 플레이어는 상기 샘플 X로부터 디코딩 및 재생을 직접적으로 시작할 수 있다. 이 때, 상기 샘플 X 및 디코딩 순서상 이에 후속하는 샘플들을 디코딩하기 위해 필요한 파라미터 세트들은 상기 트랙의 샘플 엔트리 또는 상기 샘플 X 내에서 가용하도록 제한될 수 있다.
iii) 또는, 파라미터 세트 샘플 그룹 박스들이 존재하는 경우, 파일 플레이어는 파라미터 세트 샘플 그룹 박스들에 의해 제공되는 정보로부터 디코딩에 필요한 파라미터 세트들(e.g., SPS, GPS, APS 및 FSAP)을 포함하는 샘플들을 찾아 상기 샘플 X로부터 디코딩을 시작할 수 있다. 상기 파라미터 세트들을 포함하는 샘플들은 상기 샘플 X 자체이거나 상기 샘플 X에 선행하는 샘플들일 수 있다. 상기 샘플들을 찾은 경우, 파일 파서는 상기 샘플들 내의 모든 파라미터 세트들을 추출하고, 상기 샘플 X로부터 시작되는 디코딩/재생을 위해 이들을 가용하게 할 수 있다.
iv) 또는, (즉, 상기 트랙이 'gpe1' 또는 'gpc1'이 아니고, SyncSampleBox 및 파라미터 세트 샘플 그룹 박스들 모두가 존재하지 않는 경우), 상기 샘플 X로부터의 랜덤 액세스가 지정되지 않을 수 있다.
랜덤 액세스 발생시 상술한 싱크 샘플 박스 속성에 기반한 파일 플레이어 동작을 정리하면 도 14와 같다.
도 14를 참조하면, 특정 샘플 X에서 시작하는 랜덤 액세스 요청이 발생한 경우, 파일 플레이어는 (상기 샘플 X를 포함하는) 트랙이 소정 샘플 엔트리 타입 'gpe1' 또는 'gpc1'을 갖는지 여부를 판단할 수 있다(S1410). 판단 결과, 상기 트랙이 상기 소정 샘플 엔트리 타입을 갖는 경우(S1410의 'YES'), 파일 플레이어는 상기 트랙의 샘플 엔트리 내의 파라미터 세트들을 참조하여 랜덤 액세스 재생을 위한 디코딩을 상기 샘플 X로부터 시작할 수 있다(S1440).
이와 달리, 상기 트랙이 상기 소정 샘플 엔트리 타입을 갖지 않는 경우(S1410의 'NO'), 파일 플레이어는 SyncSampleBox의 존재 여부 및 상기 샘플 X가 싱크 샘플로 지시되는지 여부를 판단할 수 있다(S1420). 판단 결과, SyncSampleBox가 존재하고 상기 샘플 X가 싱크 샘플로 지시되는 경우(S1420의 'YES'), 파일 플레이어는 상기 트랙의 샘플 엔트리 또는 상기 샘플 X 내의 파라미터 세트들을 참조하여 랜덤 액세스 재생을 위한 디코딩을 상기 샘플 X로부터 시작할 수 있다(S1440).
이와 달리, SyncSampleBox가 존재하지 않거나 상기 샘플 X가 싱크 샘플로 지시되지 않는 경우(S1420의 'NO'), 파일 플레이어는 파라미터 세트 샘플 그룹 박스들이 존재하는지 여부를 판단할 수 있다(S1430). 판단 결과, 상기 파라미터 세트 샘플 그룹 박스들이 존재하는 경우(S1430의 'YES'), 파일 플레이어는 상기 파라미터 세트 샘플 그룹 박스들에 기반하여 획득되는 파라미터 세트들을 참조하여 랜덤 액세스 재생을 위한 디코딩을 상기 샘플 X로부터 시작할 수 있다(S1440).
한편, 상기 파라미터 세트 샘플 그룹 박스들이 존재하지 않는 경우(S1430의 'NO'), 파일 플레이어는 랜덤 액세스 재생이 불가한 것으로 보고 상기 샘플 X로부터의 디코딩을 수행하지 않을 수 있다.
이상, 본 개시에 따르면, 랜덤 액세스시 SyncSampleBox 속성 및 플레이어 동작에 관한 구체적 매커니즘이 제공될 수 있다. 이에 따라, 랜덤 액세스 기능이 올바르게 지원될 수 있다.
이하, 본 개시의 실시예들에 따른 포인트 클라우드 데이터의 수신 장치 및 전송 장치에서 수행되는 방법을 상세하게 설명한다.
도 15는 본 개시의 일 실시예에 따른 포인트 클라우드 데이터의 수신 장치에서 수행되는 방법을 나타낸 흐름도이다.
도 15를 참조하면, 수신 장치는 상기 포인트 클라우드 데이터에 포함된 샘플들 중 제1 샘플로부터의 랜덤 액세스 요청이 발생한 것에 기반하여, 상기 포인트 클라우드 데이터로부터 상기 랜덤 액세스에 필요한 파라미터 세트들을 획득할 수 있다(S1510).
그리고, 수신 장치는 상기 파라미터 세트들에 기반하여, 상기 제1 샘플 및 디코딩 순서상 상기 제1 샘플에 후속하는 하나 이상의 샘플들을 디코딩할 수 있다(S1520).
일 실시예에서, 상기 제1 샘플을 포함하는 트랙의 샘플 엔트리 타입이 'gpe1' 또는 'gpc1'인 것에 기반하여, 상기 파라미터 세트들은 상기 트랙의 샘플 엔트리부터 획득될 수 있다.
일 실시예에서, 상기 트랙의 샘플 엔트리 타입이 'gpe1' 또는 'gpc1'인 것에 기반하여, 상기 포인트 클라우드 데이터는 싱크 샘플 박스를 포함하지 않을 수 있다.
일 실시예에서, 상기 제1 샘플을 포함하는 트랙의 샘플 엔트리 타입이 'gpe1' 또는 'gpc1'가 아닌 경우, 상기 파라미터 세트들은, 상기 포인트 클라우드 데이터가 싱크 샘플 박스를 포함하고 상기 제1 샘플이 싱크 샘플로 지시됨에 기반하여, 상기 트랙의 샘플 엔트리 또는 상기 제1 샘플로부터 획득될 수 있다.
일 실시예에서, 상기 싱크 샘플 박스는 상기 포인트 클라우드 데이터의 소정의 트랙 내에 존재할 수 있다. 여기서, 상기 소정의 트랙은, 샘플 엔트리 타입 'gpeg'을 갖는 트랙, 지오메트리 컴포넌트를 포함하고 샘플 엔트리 타입 'gpcg'을 갖는 트랙, 또는 샘플 엔트리 타입 'gpeb' 또는 'gpcb'을 갖는 트랙 중 어느 하나일 수 있다.
일 실시예에서, 상기 싱크 샘플 박스는, 지오메트리 컴포넌트를 포함하지 않고 샘플 엔트리 타입 'gpcg'을 갖는 트랙 내에는 존재하지 않도록 제한될 수 있다.
일 실시예에서, 지오메트리 컴포넌트를 포함하고 샘플 엔트리 타입 'gpcg'을 갖는 트랙 내의 샘플들이 싱크 샘플들로 지시됨에 기반하여, 연관된 트랙 내의 대응 샘플들은 싱크 샘플들로 취급될 수 있다.
일 실시예에서, 상기 포인트 클라우드 데이터가 싱크 샘플 박스를 포함하지 않거나 또는 상기 제1 샘플이 싱크 샘플로 지시되지 않는 경우, 상기 파라미터 세트들은, 상기 포인트 클라우드 데이터가 파라미터 세트 샘플 그룹 박스들을 포함함에 기반하여, 상기 제1 샘플 또는 디코딩 순서상 상기 제1 샘플에 선행하는 샘플들로부터 획득될 수 있다. 이와 달리, 상기 포인트 클라우드 데이터가 파라미터 세트 샘플 그룹 박스들을 포함하지 않는 경우, 상술한 파라미터 세트들의 획득(S1510) 및 상기 디코딩(S1520)은 수행되지 않을 수 있다.
도 16은 본 개시의 일 실시예에 따른 포인트 클라우드 데이터의 전송 장치에서 수행되는 방법을 나타낸 흐름도이다.
도 16을 참조하면, 전송 장치는 상기 포인트 클라우드 데이터를 포함하는 비트스트림을 하나 이상의 트랙들에 저장할 수 있다(S1610).
그리고, 전송 장치는 상기 트랙들에 기반하여 G-PCC(geometry-based point cloud compression) 파일을 생성할 수 있다(S1620).
일 실시예에서, 상기 포인트 클라우드 데이터에 포함된 샘플들 중 제1 샘플로부터의 랜덤 액세스를 수행하는 데 필요한 파라미터 세트들은, 상기 제1 샘플을 포함하는 트랙의 샘플 엔트리 타입이 'gpe1' 또는 'gpc1'인 것에 기반하여, 상기 트랙의 샘플 엔트리에 포함될 수 있다.
일 실시예에서, 상기 트랙의 샘플 엔트리 타입이 'gpe1' 또는 'gpc1'가 아닌 경우, 상기 파라미터 세트들은, 상기 포인트 클라우드 데이터가 싱크 샘플 박스를 포함하고 상기 제1 샘플이 싱크 샘플로 지시됨에 기반하여, 상기 트랙의 샘플 엔트리 또는 상기 제1 샘플에 포함될 수 있다.
일 실시예에서, 상기 포인트 클라우드 데이터가 싱크 샘플 박스를 포함하지 않거나 또는 상기 제1 샘플이 싱크 샘플로 지시되지 않는 경우, 상기 파라미터 세트들은, 상기 포인트 클라우드 데이터가 파라미터 세트 샘플 그룹 박스들을 포함함에 기반하여, 상기 제1 샘플 또는 디코딩 순서상 상기 제1 샘플에 선행하는 샘플들에 포함될 수 있다. 이와 달리, 상기 포인트 클라우드 데이터가 파라미터 세트 샘플 그룹 박스들을 포함하지 않는 경우, 상기 파라미터 세트들은 상기 포인트 클라우드 데이터에 포함되지 않을 수 있다.
본 개시의 예시적인 방법들은 설명의 명확성을 위해서 동작의 시리즈로 표현되어 있지만, 이는 단계가 수행되는 순서를 제한하기 위한 것은 아니며, 필요한 경우에는 각각의 단계가 동시에 또는 상이한 순서로 수행될 수도 있다. 본 개시에 따른 방법을 구현하기 위해서, 예시하는 단계에 추가적으로 다른 단계를 포함하거나, 일부의 단계를 제외하고 나머지 단계를 포함하거나, 또는 일부의 단계를 제외하고 추가적인 다른 단계를 포함할 수도 있다.
본 개시에 있어서, 소정의 동작(단계)을 수행하는 전송 장치 또는 수신 장치는 해당 동작(단계)의 수행 조건이나 상황을 확인하는 동작(단계)을 수행할 수 있다. 예를 들어, 소정의 조건이 만족되는 경우 소정의 동작을 수행한다고 기재된 경우, 영상 부호화 장치 또는 영상 복호화 장치는 상기 소정의 조건이 만족되는지 여부를 확인하는 동작을 수행한 후, 상기 소정의 동작을 수행할 수 있다.
본 개시의 다양한 실시예는 모든 가능한 조합을 나열한 것이 아니고 본 개시의 대표적인 양상을 설명하기 위한 것이며, 다양한 실시예에서 설명하는 사항들은 독립적으로 적용되거나 또는 둘 이상의 조합으로 적용될 수도 있다.
또한, 본 개시의 다양한 실시예는 하드웨어, 펌웨어(firmware), 소프트웨어, 또는 그들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 범용 프로세서(general processor), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.
본 개시의 범위는 다양한 실시예의 방법에 따른 동작이 장치 또는 컴퓨터 상에서 실행되도록 하는 소프트웨어 또는 머신-실행가능한 명령들(예를 들어, 운영체제, 애플리케이션, 펌웨어(firmware), 프로그램 등), 및 이러한 소프트웨어 또는 명령 등이 저장되어 장치 또는 컴퓨터 상에서 실행 가능한 비-일시적 컴퓨터-판독가능 매체(non-transitory computer-readable medium)를 포함한다.
본 개시에 따른 실시예들은 포인트 클라우드 콘텐트를 제공하는데 이용될 수 있다. 또한, 본 개시에 따른 실시예들은 포인트 클라우드 데이터를 부호화/복호화하는데 이용될 수 있다.

Claims (15)

  1. 포인트 클라우드 데이터의 수신 장치에서 수행되는 방법으로서,
    상기 포인트 클라우드 데이터에 포함된 제1 샘플로부터의 랜덤 액세스 요청이 발생한 것에 기반하여, 상기 포인트 클라우드 데이터로부터 상기 랜덤 액세스에 필요한 파라미터 세트들을 획득하는 단계; 및
    상기 획득된 파라미터 세트들에 기반하여, 상기 제1 샘플 및 디코딩 순서상 상기 제1 샘플에 후행하는 하나 이상의 샘플들을 디코딩하는 단계를 포함하되,
    상기 파라미터 세트들은, 상기 제1 샘플을 포함하는 트랙의 샘플 엔트리 타입, 싱크 샘플 박스의 존재 여부, 또는 파라미터 세트 샘플 그룹 박스들의 존재 여부 중 적어도 하나에 기반하여, 상기 트랙의 샘플 엔트리 또는 소정 샘플로부터 획득되는, 방법.
  2. 제1항에 있어서,
    상기 트랙의 샘플 엔트리 타입이 'gpe1' 또는 'gpc1'인 것에 기반하여, 상기 파라미터 세트들은 상기 트랙의 샘플 엔트리로부터 획득되는, 방법.
  3. 제1항에 있어서,
    상기 트랙의 샘플 엔트리 타입이 'gpe1' 또는 'gpc1'인 것에 기반하여, 상기 포인트 클라우드 데이터는 상기 싱크 샘플 박스를 포함하지 않는, 방법.
  4. 제1항에 있어서,
    상기 트랙의 샘플 엔트리 타입이 'gpe1' 또는 'gpc1'이 아닌 것에 기반하여,
    상기 파라미터 세트들은, 상기 포인트 클라우드 데이터가 상기 싱크 샘플 박스를 포함하고 상기 제1 샘플이 싱크 샘플로 지시됨에 기반하여, 상기 트랙의 샘플 엔트리 또는 상기 제1 샘플로부터 획득되는, 방법.
  5. 제4항에 있어서,
    상기 싱크 샘플 박스는, 샘플 엔트리 타입 'gpeg'을 갖는 트랙, 지오메트리 컴포넌트를 포함하고 샘플 엔트리 타입 'gpcg'을 갖는 트랙, 또는 샘플 엔트리 타입 'gpeb' 또는 'gpcb'을 갖는 트랙 내에 존재하는, 방법.
  6. 제4항에 있어서,
    상기 싱크 샘플 박스는, 지오메트리 컴포넌트를 포함하지 않고 샘플 엔트리 타입 'gpcg'을 갖는 트랙 내에 존재하지 않도록 제한되는, 방법.
  7. 제4항에 있어서,
    지오메트리 컴포넌트를 포함하고 샘플 엔트리 타입 'gpcg'을 갖는 트랙 내의 샘플들이 싱크 샘플들로 지시됨에 기반하여, 연관된 트랙 내의 대응 샘플들은 싱크 샘플들로 취급되는, 방법.
  8. 제4항에 있어서,
    상기 포인트 클라우드 데이터가 상기 싱크 샘플 박스를 포함하지 않거나 또는 상기 제1 샘플이 상기 싱크 샘플로 지시되지 않음에 기반하여,
    상기 파라미터 세트들은, 상기 포인트 클라우드 데이터가 상기 파라미터 세트 샘플 그룹 박스들을 포함함에 기반하여, 상기 제1 샘플 또는 디코딩 순서상 상기 제1 샘플에 선행하는 샘플들로부터 획득되는, 방법.
  9. 제8항에 있어서,
    상기 포인트 클라우드 데이터가 상기 파라미터 세트 샘플 그룹 박스들을 포함하지 않음에 기반하여, 상기 파라미터 세트들의 획득 및 상기 디코딩은 수행되지 않는, 방법.
  10. 포인트 클라우드 데이터의 수신 장치로서,
    메모리; 및
    적어도 하나의 프로세서를 포함하고,
    상기 적어도 하나의 프로세서는,
    상기 포인트 클라우드 데이터에 포함된 샘플들 중 제1 샘플로부터의 랜덤 액세스 요청이 발생한 것에 기반하여, 상기 포인트 클라우드 데이터로부터 상기 랜덤 액세스에 필요한 파라미터 세트들을 획득하고,
    상기 파라미터 세트들에 기반하여, 상기 제1 샘플 및 디코딩 순서상 상기 제1 샘플에 후속하는 하나 이상의 샘플들을 디코딩하되,
    상기 파라미터 세트들은, 상기 제1 샘플을 포함하는 트랙의 샘플 엔트리 타입, 싱크 샘플 박스의 존재 여부, 또는 파라미터 세트 샘플 그룹 박스들의 존재 여부 중 적어도 하나에 기반하여, 상기 트랙의 샘플 엔트리 또는 소정 샘플로부터 획득되는, 수신 장치.
  11. 포인트 클라우드 데이터의 전송 장치에서 수행되는 방법으로서,
    상기 포인트 클라우드 데이터를 포함하는 비트스트림을 하나 이상의 트랙들에 저장하는 단계; 및
    상기 트랙들에 기반하여 G-PCC(geometry-based point cloud compression) 파일을 생성하는 단계를 포함하되,
    상기 포인트 클라우드 데이터에 포함된 제1 샘플로부터의 랜덤 액세스를 수행하는 데 필요한 파라미터 세트들은, 상기 제1 샘플을 포함하는 트랙의 샘플 엔트리 타입, 싱크 샘플 박스의 존재 여부, 또는 파라미터 세트 샘플 그룹 박스들의 존재 여부 중 적어도 하나에 기반하여, 상기 트랙의 샘플 엔트리 또는 소정 샘플에 포함되는, 방법.
  12. 제11항에 있어서,
    상기 제1 샘플을 포함하는 트랙의 샘플 엔트리 타입이 'gpe1' 또는 'gpc1'인 것에 기반하여, 상기 파라미터 세트들은 상기 트랙의 샘플 엔트리에 포함되는, 방법.
  13. 제11항에 있어서,
    상기 트랙의 샘플 엔트리 타입이 'gpe1' 또는 'gpc1'가 아닌 것에 기반하여,
    상기 파라미터 세트들은, 상기 포인트 클라우드 데이터가 상기 싱크 샘플 박스를 포함하고 상기 제1 샘플이 싱크 샘플로 지시됨에 기반하여, 상기 트랙의 샘플 엔트리 또는 상기 제1 샘플에 포함되는, 방법.
  14. 제12항에 있어서,
    상기 포인트 클라우드 데이터가 상기 싱크 샘플 박스를 포함하지 않거나 또는 상기 제1 샘플이 상기 싱크 샘플로 지시되지 않음에 기반하여,
    상기 파라미터 세트들은, 상기 포인트 클라우드 데이터가 상기 파라미터 세트 샘플 그룹 박스들을 포함함에 기반하여, 상기 제1 샘플 또는 디코딩 순서상 상기 제1 샘플에 선행하는 샘플들에 포함되는, 방법.
  15. 포인트 클라우드 데이터의 전송 장치로서,
    메모리; 및
    적어도 하나의 프로세서를 포함하고,
    상기 적어도 하나의 프로세서는,
    상기 포인트 클라우드 데이터를 포함하는 비트스트림을 하나 이상의 트랙들에 저장하고,
    상기 트랙들에 기반하여 G-PCC(geometry-based point cloud compression) 파일을 생성하되,
    상기 포인트 클라우드 데이터에 포함된 제1 샘플로부터의 랜덤 액세스를 수행하는 데 필요한 파라미터 세트들은, 상기 제1 샘플을 포함하는 트랙의 샘플 엔트리 타입, 싱크 샘플 박스의 존재 여부, 또는 파라미터 세트 샘플 그룹 박스들의 존재 여부 중 적어도 하나에 기반하여, 상기 트랙의 샘플 엔트리 또는 소정 샘플에 포함되는, 전송 장치.
PCT/KR2023/009825 2022-07-11 2023-07-11 포인트 클라우드 데이터의 전송 장치와 이 전송 장치에서 수행되는 방법 및, 포인트 클라우드 데이터의 수신 장치와 이 수신 장치에서 수행되는 방법 WO2024014826A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202263359892P 2022-07-11 2022-07-11
US63/359,892 2022-07-11

Publications (1)

Publication Number Publication Date
WO2024014826A1 true WO2024014826A1 (ko) 2024-01-18

Family

ID=89537031

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/009825 WO2024014826A1 (ko) 2022-07-11 2023-07-11 포인트 클라우드 데이터의 전송 장치와 이 전송 장치에서 수행되는 방법 및, 포인트 클라우드 데이터의 수신 장치와 이 수신 장치에서 수행되는 방법

Country Status (1)

Country Link
WO (1) WO2024014826A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180094870A (ko) * 2015-12-14 2018-08-24 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 삼차원 데이터 부호화 방법, 삼차원 데이터 복호 방법, 삼차원 데이터 부호화 장치 및 삼차원 데이터 복호 장치
KR20210004885A (ko) * 2019-07-03 2021-01-13 엘지전자 주식회사 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
KR20210135226A (ko) * 2019-03-11 2021-11-12 소니그룹주식회사 정보 처리 장치, 재생 처리 장치, 정보 처리 방법 및 재생 처리 방법
KR20210155386A (ko) * 2019-05-14 2021-12-22 인텔 코포레이션 3DoF+/MIV 및 V-PCC에 대한 몰입형 비디오 코딩 기술
US20220094980A1 (en) * 2020-09-18 2022-03-24 Samsung Electronics Co., Ltd. Partial decoding and reconstruction of a video-based point cloud compression bitstream

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180094870A (ko) * 2015-12-14 2018-08-24 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 삼차원 데이터 부호화 방법, 삼차원 데이터 복호 방법, 삼차원 데이터 부호화 장치 및 삼차원 데이터 복호 장치
KR20210135226A (ko) * 2019-03-11 2021-11-12 소니그룹주식회사 정보 처리 장치, 재생 처리 장치, 정보 처리 방법 및 재생 처리 방법
KR20210155386A (ko) * 2019-05-14 2021-12-22 인텔 코포레이션 3DoF+/MIV 및 V-PCC에 대한 몰입형 비디오 코딩 기술
KR20210004885A (ko) * 2019-07-03 2021-01-13 엘지전자 주식회사 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
US20220094980A1 (en) * 2020-09-18 2022-03-24 Samsung Electronics Co., Ltd. Partial decoding and reconstruction of a video-based point cloud compression bitstream

Similar Documents

Publication Publication Date Title
WO2020189982A1 (ko) 포인트 클라우드 데이터 처리 장치 및 방법
WO2020189895A1 (ko) 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
WO2020189903A1 (ko) 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
EP3721413A1 (en) Method and apparatus for handling duplicate points in point cloud compression
WO2020242077A1 (ko) 포인트 클라우드 데이터 처리 장치 및 방법
WO2020190090A1 (ko) 포인트 클라우드 데이터 전송 장치, 포인트 클라우드 데이터 전송 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
WO2021141258A1 (ko) 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
WO2020076058A1 (ko) 3차원 비디오 컨텐츠를 포함하는 미디어 파일을 생성하는 방법 및 장치 및 3차원 비디오 컨텐츠를 재생하는 방법 및 장치
WO2020189891A1 (ko) 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
WO2020185039A1 (ko) 레지듀얼 코딩 방법 및 장치
WO2024014826A1 (ko) 포인트 클라우드 데이터의 전송 장치와 이 전송 장치에서 수행되는 방법 및, 포인트 클라우드 데이터의 수신 장치와 이 수신 장치에서 수행되는 방법
WO2022060113A1 (ko) 미디어 파일 처리 방법 및 그 장치
WO2023200291A1 (ko) 포인트 클라우드 데이터의 전송 장치와 이 전송 장치에서 수행되는 방법 및, 포인트 클라우드 데이터의 수신 장치와 이 수신 장치에서 수행되는 방법
WO2023204676A1 (ko) 포인트 클라우드 데이터의 전송 장치와 이 전송 장치에서 수행되는 방법 및, 포인트 클라우드 데이터의 수신 장치와 이 수신 장치에서 수행되는 방법
WO2023113418A1 (ko) 포인트 클라우드 데이터의 전송 장치와 이 전송 장치에서 수행되는 방법 및, 포인트 클라우드 데이터의 수신 장치와 이 수신 장치에서 수행되는 방법
WO2023200304A1 (ko) 포인트 클라우드 데이터의 전송 장치와 이 전송 장치에서 수행되는 방법 및, 포인트 클라우드 데이터의 수신 장치와 이 수신 장치에서 수행되는 방법
WO2022139260A1 (ko) 미디어 파일을 생성하고 처리하는 방법 및 장치
WO2021194065A1 (ko) 포인트 클라우드 데이터 처리 장치 및 방법
WO2023132605A1 (ko) 포인트 클라우드 데이터의 전송 장치와 이 전송 장치에서 수행되는 방법 및, 포인트 클라우드 데이터의 수신 장치와 이 수신 장치에서 수행되는 방법
WO2023113417A1 (ko) 포인트 클라우드 데이터의 전송 장치와 이 전송 장치에서 수행되는 방법 및, 포인트 클라우드 데이터의 수신 장치와 이 수신 장치에서 수행되는 방법
WO2023200298A1 (ko) 포인트 클라우드 데이터의 전송 장치와 이 전송 장치에서 수행되는 방법 및, 포인트 클라우드 데이터의 수신 장치와 이 수신 장치에서 수행되는 방법
WO2021118076A1 (ko) 비디오 또는 영상 코딩 시스템에서의 일부 엔트리 포인트 관련 정보에 기반한 영상 코딩 방법
WO2021040488A1 (ko) 팔레트 모드에서의 이스케이프 이진화 기반 영상 또는 비디오 코딩
WO2023136597A1 (ko) 포인트 클라우드 데이터의 전송 장치와 이 전송 장치에서 수행되는 방법 및, 포인트 클라우드 데이터의 수신 장치와 이 수신 장치에서 수행되는 방법
WO2023113405A1 (ko) 포인트 클라우드 데이터의 전송 장치와 이 전송 장치에서 수행되는 방법 및, 포인트 클라우드 데이터의 수신 장치와 이 수신 장치에서 수행되는 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23839918

Country of ref document: EP

Kind code of ref document: A1