WO2020145117A1 - 画像処理装置および方法 - Google Patents

画像処理装置および方法 Download PDF

Info

Publication number
WO2020145117A1
WO2020145117A1 PCT/JP2019/050453 JP2019050453W WO2020145117A1 WO 2020145117 A1 WO2020145117 A1 WO 2020145117A1 JP 2019050453 W JP2019050453 W JP 2019050453W WO 2020145117 A1 WO2020145117 A1 WO 2020145117A1
Authority
WO
WIPO (PCT)
Prior art keywords
correction
information
data
unit
margin
Prior art date
Application number
PCT/JP2019/050453
Other languages
English (en)
French (fr)
Inventor
智 隈
央二 中神
幸司 矢野
加藤 毅
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to EP19909331.1A priority Critical patent/EP3905696A4/en
Priority to KR1020217019425A priority patent/KR20210109538A/ko
Priority to JP2020565683A priority patent/JP7396302B2/ja
Priority to CN201980087460.3A priority patent/CN113261297A/zh
Priority to US17/296,002 priority patent/US11915390B2/en
Publication of WO2020145117A1 publication Critical patent/WO2020145117A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/40Tree coding, e.g. quadtree, octree
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression

Definitions

  • the present disclosure relates to an image processing apparatus and method, and more particularly to an image processing apparatus and method capable of suppressing reduction in image quality.
  • Non-Patent Document 1 a voxel such as Octree
  • Non-Patent Documents 2 to 4 a method of coding the frame image by a coding method for a two-dimensional image (hereinafter, also referred to as a video-based approach) has been proposed (for example, Non-Patent Documents 2 to 4). reference).
  • Non-Patent Document 5 since the occupancy map is corrected, another patch is included in the area indicating the existence of a patch, and the constructed 3D data may be deteriorated. was there. Therefore, the subjective image quality of the display image obtained by projecting the 3D data on the two-dimensional plane may be reduced.
  • the present disclosure has been made in view of such a situation, and makes it possible to suppress reduction in image quality of a two-dimensional image for display of 3D data.
  • An image processing apparatus includes a correction information generation unit that generates correction information that is information regarding correction of 3D data that represents a 3D structure that is constructed using 2D data that represents a 2D image, and the correction information.
  • An image processing device comprising: a correction information encoding unit that encodes the correction information generated by the generation unit.
  • An image processing method generates correction information that is information regarding correction of 3D data that represents a three-dimensional structure that is constructed using 2D data that represents a two-dimensional image, and encodes the generated correction information.
  • Image processing method generates correction information that is information regarding correction of 3D data that represents a three-dimensional structure that is constructed using 2D data that represents a two-dimensional image, and encodes the generated correction information.
  • An image processing apparatus is a correction information decoding unit that decodes encoded data of correction information that is information related to correction of 3D data that represents a 3D structure that is constructed using 2D data that represents a 2D image.
  • An image processing apparatus including: the 2D data; and a construction unit that constructs the 3D data using the correction information generated by decoding the encoded data of the correction information by the correction information decoding unit. is there.
  • An image processing method is to decode encoded data of correction information, which is information related to correction of 3D data representing a three-dimensional structure constructed using 2D data representing a two-dimensional image, And an image processing method for constructing the 3D data by using the correction information generated by decoding the encoded data of the correction information.
  • correction information that is information regarding correction of 3D data that represents a three-dimensional structure that is constructed using 2D data that represents a two-dimensional image is generated, and the generated correction is performed.
  • Information is encoded.
  • encoded data of correction information which is information related to correction of 3D data representing a three-dimensional structure constructed using 2D data representing a two-dimensional image
  • the 2D data and the correction information generated by decoding the encoded data of the correction information are used to construct the 3D data.
  • Non-Patent Document 1 (described above)
  • Non-Patent Document 2 TELECOMMUNICATION STANDARDIZATION SECTOR OF ITU (International Telecommunication Union), "Advanced video coding for generic audiovisual services", H.264, 04/2017.
  • Non-Patent Document 3 TELECOMMUNICATION STANDARDIZATION SECTOR OF ITU (International Telecommunication Union), "High efficiency video coding", H.265, 12/2016
  • Non-Patent Document 4 Jianle Chen, Maria Alshina, Gary J.
  • the contents described in the above non-patent documents are also the basis for determining support requirements.
  • the Quad-Tree Block Structure described in Non-Patent Document 3 and the QTBT (Quad Tree Plus Binary Tree) Block Structure described in Non-Patent Document 4 are not directly described in the embodiment, It is within the disclosure range of the present technology and satisfies the support requirements of the claims.
  • the technical terms such as Parsing, Syntax, and Semantics are also within the disclosure range of the present technology even when there is no direct description in the embodiment. It shall meet the support requirements of the claims.
  • ⁇ Point cloud> Conventionally, there has been data such as a point cloud that represents a three-dimensional structure based on the position information and attribute information of the point cloud.
  • the point cloud has a relatively simple data structure, and by using a sufficient number of points, an arbitrary three-dimensional structure can be expressed with sufficient accuracy.
  • ⁇ Outline of video-based approach> The position information and the attribute information of such a point cloud are projected on a two-dimensional plane for each small area, the image (patch) projected on the two-dimensional plane is arranged in the frame image, and the frame image is two-dimensionally arranged.
  • a video-based approach has been proposed in which coding is performed using a coding method for images.
  • the input point cloud is divided into multiple small areas, and each point is projected onto a two-dimensional plane for each small area (patches are generated). Since the point cloud is composed of position information (Geometry) and attribute information (Texture) of each point, the projection onto the two-dimensional plane is performed for each of the position information and the attribute information.
  • position information Geometry
  • Texture attribute information
  • this patch is placed on the frame image (two-dimensional image).
  • a frame image also called a geometry video frame
  • a frame image also called a color video frame (Color video frame)
  • the attribute information patch is placed. Is generated.
  • the position information of points is expressed as position information in the depth direction (depth value (Depth)). That is, each pixel value of the frame image indicates this depth value.
  • Each of these frame images is coded by a coding method for a two-dimensional plane image, such as AVC (Advanced Video Coding) and HEVC (High Efficiency Video Coding).
  • AVC Advanced Video Coding
  • HEVC High Efficiency Video Coding
  • the encoded data generated in this way is transmitted to the decoding side and is decoded on the decoding side to generate a frame image. Then, each patch is extracted from the frame image, and 3D data (point cloud or the like) is reconstructed from each patch (position information and attribute information).
  • an occupancy map can also be used.
  • the occupancy map is map information indicating the presence or absence of a projected image (patch) of a geometry video frame with a predetermined pixel accuracy.
  • the occupancy map indicates the presence or absence of patches with NxN pixel accuracy, that is, for each NxN pixel region.
  • the occupancy map indicates an area of NxN pixels where a patch exists with a value of "1" and an area of NxN pixels where a patch does not exist with a value of "0".
  • Such an occupancy map is encoded as data separate from the geometry video frame and color video frame and transmitted to the decoding side.
  • the decoder can grasp whether or not it is the area where the patch exists, so that it is possible to suppress the influence of noise and the like caused by encoding/decoding, and more accurate 3D data can be restored. For example, even if the depth value changes due to encoding/decoding, the decoder refers to the occupancy map to ignore the depth value in the area where the patch does not exist (do not process as position information of 3D data). )be able to.
  • Non-Patent Document 5 a method of removing a margin portion generated by lowering the resolution (NxN accuracy) of the occupancy map was considered.
  • the blank portion can be removed, the blank portion cannot be increased (expanded), and a hole (defect) generated in the display image due to a gap between patches or the like. It was difficult to reduce (part). Rather, the reduction of the blank space suppresses the overlapping of the patches with each other, which may cause a gap between the patches to occur easily.
  • Non-Patent Document 6 a method of widening the boundaries of high-resolution occupancy maps (1x1 precision) was also considered.
  • the 1x1 precision occupancy map may increase the amount of information as described above.
  • the dotted circle 23 is cut out as an area in which the patch 21 exists, and therefore the information of the patch 22 may be included in the 3D data reconstructed from the patch 21. Therefore, the subjective image quality of an image (also referred to as a display image) obtained by projecting the reconstructed 3D data on a two-dimensional plane may be reduced.
  • Non-Patent Document 6 since the method described in Non-Patent Document 6 does not support smoothing, it was difficult to suppress the occurrence of a gap between patches due to the movement of the position of the point due to the smoothing. Therefore, the gap may reduce the subjective image quality of the display image.
  • correction is performed in the conversion from 2D data to 3D data (reconstruction of 3D data) to suppress the occurrence of holes due to gaps between patches and the like.
  • correction information that is information about correction of 3D data that represents a three-dimensional structure that is constructed using 2D data that represents a two-dimensional image is generated, and the generated correction information is encoded.
  • a correction information generation unit that generates correction information that is information regarding correction of 3D data that represents a 3D structure that is constructed using 2D data that represents a 2D image, and a correction information generation unit that generates the correction information.
  • a correction information coding unit that codes the correction information.
  • encoded data of correction information which is information related to correction of 3D data representing a three-dimensional structure constructed using 2D data representing a two-dimensional image
  • the 3D data is constructed using the correction information generated by decoding the data.
  • a correction information decoding unit that decodes encoded data of correction information that is information related to correction of 3D data that represents a 3D structure that is constructed using 2D data that represents a 2D image, and the 2D data thereof.
  • This correction information may be generated based on a 1x1 precision occupancy map and an NxN precision occupancy map.
  • the occupancy map is encoded by reducing the precision from 1x1 precision to NxN precision, and the correction information is the occupancy map of 1x1 precision before encoding and the encoded data of the occupancy map. Then, it is generated based on the NxN-precision occupancy map that is generated.
  • the correction information is generated using the occupancy maps before and after encoding, it is possible to reflect the smoothing performed at the time of encoding in the correction information. Therefore, it is possible to suppress the reduction of the subjective image quality of the display image due to the smoothing.
  • the correction information may be further generated based on a surplus amount which is a set value of a margin size which is a portion of the 3D data enlarged by the occupancy map.
  • the correction amount of the margin can also be controlled by the set value “remaining amount”.
  • the surplus amount depending on the 3D data, a defective portion that is difficult to deal with by simple comparison of the occupancy maps before and after encoding may occur in the display image. Therefore, by setting the surplus amount independently of the result of the occupancy map comparison, it is possible to suppress the occurrence of such a defective portion. That is, it is possible to further suppress the reduction in the subjective image quality of the display image.
  • the method of setting the surplus amount is arbitrary.
  • the remaining amount may be set based on an instruction from the outside such as the user, or may be set based on the analysis result of the 3D data to be encoded, or the like. You may make it set based on the information of.
  • the correction information may include information on correction of a blank space which is a portion of the 3D data enlarged by the occupancy map.
  • the blank space correction can be reflected in the 3D data correction based on this correction information. That is, the boundary of the patch can be corrected by correcting the 3D data. Therefore, it is possible to suppress the reduction in the subjective image quality of the display image.
  • the information regarding the correction of the margin may include information indicating how to trim the margin (information indicating how to trim the margin). That is, the correction method may be transmitted like the method 1-1 shown in the table of FIG. By including such information in the correction information, it is possible to control how to trim the margin.
  • the information indicating how to trim the margin may have any content, and may include, for example, information indicating a pattern of how to trim the margin selected from the candidates. For example, a plurality of “margin shaving patterns” are prepared in advance as candidates, and the “margin shaving pattern” is selected for each local area from among the candidates, and correction information (indicating how to trim the margins is shown.
  • the information may include information indicating the selected candidate for each local (for example, identification information of the selected candidate). By including such information in the correction information, it is possible to control how to trim the margin with simpler information. For example, it is possible to suppress an increase in the code amount as compared with the case where the all local shaving method is specifically designated in pixel units.
  • the information regarding the correction of the margin may include information indicating the correction amount of the margin (information indicating how much the margin is corrected). That is, the correction amount may be transmitted as in the method 1-2 shown in the table of FIG. By including such information in the correction information, it is possible to control how much the blank space is corrected.
  • the information indicating the margin correction amount may include information indicating the margin trimming amount. With such information, it is possible to control how much the margin is removed. Further, the information indicating the margin correction amount may include information indicating the margin increase amount. With such information, it is possible to control how much the margin is increased (thickened).
  • the accuracy of the occupancy map used for reconstruction of the 3D data corrected on the decoding side based on the correction information is arbitrary.
  • NxN precision may be used. That is, like the method 1-3 shown in the table of FIG. 2, the conversion (reconstruction of 3D data) using the NxN precision occupancy map may be corrected. It may also be 1x1 accurate. That is, as in the method 1-4 shown in the table of FIG. 2, the conversion (reconstruction of 3D data) using the 1 ⁇ 1 precision occupancy map may be corrected.
  • each square indicates a block (for example, a pixel) that is a data unit of the occupancy map, and a black block is a block that is deleted from the margin. That is, this black block is an empty block, that is, a block to which a value indicating that there is no patch is set.
  • FIG. 3A a pattern in which the lower right portion of the local portion to be processed is cut is shown.
  • FIG. 3B shows a pattern in which the upper right is cut
  • C in FIG. 3 shows a pattern in which the upper left is cut
  • D in FIG. 3 shows a pattern in which the lower left is cut.
  • E in FIG. 3 shows a pattern in which the right side of the local portion to be processed is cut
  • F in FIG. 3 shows a pattern in which the upper side is cut
  • G in FIG. A pattern is shown, and a pattern whose bottom is cut is shown in H of FIG.
  • the gray block is a completely occupied block or an empty block.
  • the amount of trimming of the margin may be any value.
  • the correction amount of the margin is “0” (that is, the initial value ( Default))
  • the right half pixel (right side 2 ⁇ 4 pixel area) is deleted as shown in FIG. 4B.
  • the margin correction amount is “ ⁇ 1”
  • the rightmost pixel row (rightmost 1 ⁇ 4 pixel area) of the current area is deleted as shown in C of FIG.
  • the margin correction amount is “ ⁇ 2”
  • the current region is not corrected (the 0x4 pixel region at the right end is deleted) as shown in D of FIG.
  • the margin correction amount is “ ⁇ 3”
  • a 1 ⁇ 4 pixel area is added to the right end of the current area as shown in E of FIG. That is, the margin is expanded.
  • the amount of blank space correction can indicate the amount of blank space trimmed or the amount of blank space increase.
  • ⁇ Syntax> An example of the syntax of the above correction information is shown in A of FIG.
  • the gray part is the syntax related to the correction information.
  • the omapFilterTypeFrameLevel / omapFilterTypePatchLevel signals how to trim the margins at the frame level and patch level (type) and the process for each type.
  • the frame level and the correction amount (amount of cut/increase) for each patch are signaled by omapFilterValueFrameLevel / patchList[i].omapFilterValue. This value may be an index indicating the difference from the initial value (Default), as in the conversion table shown in B of FIG.
  • FIG. 6 is a block diagram showing an example of the configuration of an encoding device that is an aspect of an image processing device to which the present technology is applied.
  • the coding apparatus 100 shown in FIG. 6 is an apparatus that projects 3D data such as a point cloud onto a two-dimensional plane and performs coding by a coding method for a two-dimensional image (coding apparatus to which a video-based approach is applied. ).
  • FIG. 6 shows main components such as a processing unit and a data flow, and the components shown in FIG. 6 are not necessarily all. That is, in the encoding device 100, a processing unit not shown as a block in FIG. 6 may exist, or a process or data flow not shown as an arrow or the like in FIG. 6 may exist. This also applies to other drawings that describe the processing unit and the like in the encoding device 100.
  • the encoding device 100 includes a patch decomposition unit 111, a packing unit 112, an auxiliary patch information compression unit 113, a video encoding unit 114, a video encoding unit 115, an OMap encoding unit 116, a multiplexer 117, It has a decoding unit 118 and a correction information generation unit 119.
  • the patch decomposition unit 111 performs processing related to decomposition of 3D data. For example, the patch decomposition unit 111 acquires 3D data (for example, point cloud) representing a three-dimensional structure input to the encoding device 100 (arrow 121). Also, the patch decomposition unit 111 decomposes the acquired 3D data into a plurality of small areas (connection components), projects the 3D data on a two-dimensional plane for each of the small areas, and patches the position information and the attribute information patches. To generate.
  • 3D data for example, point cloud
  • connection components projects the 3D data on a two-dimensional plane for each of the small areas
  • the patch decomposing unit 111 supplies information about each generated patch to the packing unit 112 (arrow 122).
  • the patch disassembling unit 111 supplies the auxiliary patch information, which is information related to the disassembly, to the auxiliary patch information compressing unit 113 (arrow 123).
  • the packing unit 112 performs processing related to data packing. For example, the packing unit 112 acquires information about the patch supplied from the patch decomposition unit 111 (arrow 122). Further, the packing unit 112 arranges each acquired patch in a two-dimensional image and packs it as a video frame. For example, the packing unit 112 packs a patch of position information (Geometry) indicating the position of the point as a video frame to generate a geometry video frame (Geometry video frame(s)). The packing unit 112 also packs a patch of attribute information (Texture) such as color information added to the position information as a video frame to generate a color video frame (Color video frame(s)). Further, the packing unit 112 generates a 1x1 precision occupancy map indicating the presence/absence of a patch.
  • position information indicating the position of the point as a video frame to generate a geometry video frame (Geometry video frame(s)
  • the packing unit 112 also packs a patch of attribute information (Texture) such as color information added to the
  • the packing unit 112 supplies them to the subsequent processing unit (arrow 124). For example, the packing unit 112 supplies the geometry video frame to the video encoding unit 114, the color video frame to the video encoding unit 115, and the 1x1 precision occupancy map (1x1 Omap) to the OMap encoding unit 116. Supply. Further, the packing unit 112 supplies control information regarding the packing to the multiplexer 117 (arrow 125). Further, the packing unit 112 supplies the 1 ⁇ 1 precision occupancy map to the correction information generation unit 119.
  • the auxiliary patch information compression unit 113 performs processing related to compression of auxiliary patch information. For example, the auxiliary patch information compression unit 113 acquires the auxiliary patch information supplied from the patch decomposition unit 111 (arrow 123). Also, the auxiliary patch information compression unit 113 acquires the correction information supplied from the correction information generation unit 119 (arrow 133). The auxiliary patch information compression unit 113 encodes (compresses) the acquired auxiliary patch information and generates encoded data of the auxiliary patch information. Further, the auxiliary patch information compression unit 113 encodes (compresses) the acquired correction information to generate encoded data of the correction information, and includes the encoded data of the correction information in the encoded data of the auxiliary patch information. .. The auxiliary patch information compression unit 113 supplies the encoded data of the auxiliary patch information generated in this way to the multiplexer 117 (arrow 126).
  • the video encoding unit 114 performs processing related to encoding a geometry video frame. For example, the video encoding unit 114 acquires the geometry video frame supplied from the packing unit 112 (arrow 124). Further, the video encoding unit 114 encodes the acquired geometry video frame by an encoding method for an arbitrary two-dimensional image such as AVC or HEVC to generate encoded data of the geometry video frame. The video encoding unit 114 supplies the generated encoded data of the geometry video frame to the multiplexer 117 (arrow 127). The video encoding unit 114 also supplies the encoded data of the geometry video frame to the decoding unit 118 (arrow 134).
  • the video encoding unit 115 performs processing relating to encoding of color video frames. For example, the video encoding unit 115 acquires the color video frame supplied from the packing unit 112 (arrow 124). In addition, the video encoding unit 115 acquires the decoded geometry video frame supplied from the decoding unit 118 (arrow 135). Then, the video encoding unit 115 recolors the acquired color video frame using the acquired geometry video frame, and associates the attribute information with the position information after decoding. That is, the video encoding unit 115 associates the attribute information with the position information updated by smoothing in encoding.
  • the video encoding unit 115 encodes the recolored color video frame by an encoding method for an arbitrary two-dimensional image such as AVC or HEVC to generate encoded data of the color video frame.
  • the video encoding unit 115 supplies the generated encoded data of the color video frame to the multiplexer 117 (arrow 128).
  • the OMap encoding unit 116 performs processing related to encoding video frames of the occupancy map. For example, the OMap encoding unit 116 acquires the 1x1 precision occupancy map supplied from the packing unit 112 (arrow 124). The OMap encoding unit 116 reduces the accuracy of the acquired 1x1 precision occupancy map to generate an NxN precision occupancy map. Then, the OMap encoding unit 116 encodes the generated NxN-precision occupancy map by an arbitrary encoding method such as arithmetic encoding to generate encoded data of the NxN-precision occupancy map. Further, the OMap encoding unit 116 supplies the generated encoded data of the NxN precision occupancy map to the multiplexer 117 (arrow 129). Furthermore, the OMap encoding unit 116 also supplies the encoded data to the decoding unit 118 (arrow 131).
  • the multiplexer 117 performs processing relating to multiplexing. For example, the multiplexer 117 acquires the encoded data of the auxiliary patch information supplied from the auxiliary patch information compression unit 113 (arrow 126). Further, for example, the multiplexer 117 acquires control information regarding packing supplied from the packing unit 112 (arrow 125). Further, for example, the multiplexer 117 acquires the encoded data of the geometry video frame supplied from the video encoding unit 114 (arrow 127). Further, for example, the multiplexer 117 acquires the encoded data of the color video frame supplied from the video encoding unit 115 (arrow 128). Further, for example, the multiplexer 117 acquires the encoded data of the occupancy map supplied from the OMap encoding unit 116 (arrow 129).
  • the multiplexer 117 multiplexes the acquired information to generate a bitstream.
  • the multiplexer 117 outputs the generated bitstream to the outside of the encoding device 100.
  • the decoding unit 118 performs processing related to decoding the encoded data generated as described above. For example, the decoding unit 118 acquires the encoded data of the NxN precision occupancy map supplied from the OMap encoding unit 116 (arrow 131). The decoding unit 118 also acquires the encoded data of the geometry video frame supplied from the video encoding unit 114 (arrow 134). Then, the decoding unit 118 has the same configuration as the decoding device 200 described later and performs the same processing. For example, the decoding unit 118 decodes the coded data of the NxN precision occupancy map to generate an NxN precision occupancy map. The decoding unit 118 supplies the NxN-precision occupancy map to the correction information generation unit 119 (arrow 132). The decoding unit 118 also decodes the encoded data of the geometry video frame to generate the geometry video frame. The decoding unit 118 supplies the geometry video frame to the video encoding unit 115 (arrow 135).
  • the correction information generation unit 119 performs processing related to generation of correction information that is information related to correction of 3D data that represents a three-dimensional structure to be reconstructed using 2D data that represents a two-dimensional image. For example, the correction information generation unit 119 acquires the 1 ⁇ 1 precision occupancy map supplied from the packing unit 112 (arrow 124). Further, the correction information generation unit 119 acquires the NxN-precision occupancy map supplied from the decoding unit 118 (arrow 132). Furthermore, the correction information generation unit 119 acquires the setting of the surplus amount input from the outside (for example, the user) (not shown). The correction information generation unit 119 generates correction information based on those pieces of information.
  • the correction information generation unit 119 generates correction information including information regarding correction of a blank space that is a portion of the 3D data enlarged by the occupancy map.
  • the correction information generation unit 119 supplies the generated correction information to the auxiliary patch information compression unit 113 (arrow 133).
  • the encoding device 100 can correct the 3D data on the decoding side based on the correction information. As a result, deterioration of 3D data can be suppressed, and reduction in subjective image quality of the display image can be suppressed.
  • each processing unit may be configured by a logic circuit that realizes the above processing.
  • each processing unit has, for example, a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), etc., and realizes the above processing by executing a program using them. You may do it.
  • each processing unit may have both configurations, and a part of the above-described processing may be realized by a logic circuit and the other may be realized by executing a program.
  • the configurations of the respective processing units may be independent of each other.
  • some of the processing units may implement part of the above-described processing by a logic circuit, and some of the other processing units may execute the program. May be realized, and another processing unit may realize the above-mentioned processing by both executing the logic circuit and executing the program.
  • FIG. 7 is a block diagram showing a main configuration example of the correction information generation unit 119.
  • the correction information generation unit 119 includes a type setting unit 151 and a scraping amount setting unit 152.
  • the type setting unit 151 sets how to trim the margin (the type of margin correction). For example, the type setting unit 151 selects an optimum pattern from the candidates of “patterns for cutting margins” prepared in advance. For example, the type setting unit 151 selects such a pattern (selects a type) based on the comparison result of the occupancy maps and the setting of the surplus amount as described above.
  • the shaving amount setting unit 152 sets a correction amount of the blank space (how much the blank space is corrected). For example, the scraping amount setting unit 152 sets the scraping amount of the margin (how much the margin is shaved). Further, for example, the shaving amount setting unit 152 sets the amount of increase in the margin (how much the margin is increased). The scraping amount setting unit 152 sets such a correction amount based on the above-mentioned comparison result of the occupancy map and the setting of the surplus amount.
  • the correction information generation unit 119 supplies information indicating the type and amount of correction of the margin set as described above to the auxiliary patch information compression unit 113 as correction information.
  • the patch decomposition unit 111 of the encoding device 100 executes the patch decomposition process in step S101 to decompose the 3D data into patches and project the data of each patch onto a two-dimensional plane. ..
  • step S102 the packing unit 112 packs the 3D data projected on the two-dimensional plane for each patch by the patch decomposition unit 111 to generate a geometry video frame or a color video frame.
  • the packing unit 112 generates an occupancy map with 1x1 accuracy.
  • step S103 the OMap encoding unit 116 reduces the precision of the 1x1 precision occupancy map generated in step S102 to generate an NxN precision occupancy map, and encodes the NxN precision occupancy map to NxN. Generates encoded data for a precision occupancy map.
  • step S104 the decoding unit 118 decodes the encoded data of the NxN precision occupancy map generated in step S103 to generate an NxN precision occupancy map.
  • step S105 the correction information generation unit 119 executes the correction information generation process, and the 1x1 precision occupancy map generated in step S102, the decoded NxN precision occupancy map generated in step S104, and the remainder The correction information is generated based on the amount. This correction information generation process will be described later.
  • step S106 the packing unit 112 performs the duration of the geometry video frame generated in step S102.
  • step S107 the video encoding unit 114 encodes the geometry video frame subjected to the dilation in step S106 to generate encoded data of the geometry video frame.
  • step S108 the video encoding unit 114 decodes the encoded data of the geometry video frame generated in step S107 to generate a decoded geometry video frame.
  • step S109 the packing unit 112 performs the dilation of the color video frame generated in step S102.
  • step S110 the video encoding unit 115 performs recolor processing on the color video frame subjected to the dilation in step S109 using the decoded geometry video frame generated in step S108 to decode the attribute information. Corresponds to later position information.
  • step S111 the video encoding unit 115 encodes the color video frame that has undergone the recolor processing in step S110 to generate encoded data of the color video frame.
  • step S112 the auxiliary patch information compression unit 113 encodes (compresses) the auxiliary patch information including the correction information generated by the process of step S105, and generates encoded data.
  • step S113 the multiplexer 117 multiplexes the various types of information generated as described above, and generates a bitstream containing these types of information.
  • step S114 the multiplexer 117 outputs the bitstream generated by the process of step S113 to the outside of the encoding device 100. When the process of step S113 ends, the encoding process ends.
  • step S105 of FIG. 8 An example of the flow of the correction information generation process executed in step S105 of FIG. 8 will be described with reference to the flowchart of FIG.
  • the type setting unit 151 of the correction information generation unit 119 sets the type of blank space correction in step S131.
  • the scraping amount setting unit 152 sets a correction amount (for example, scraping amount) of the blank.
  • the correction information generation unit 119 sets such information as correction information and supplies the correction information to the auxiliary patch information compression unit 113.
  • step S133 When the processing of step S133 ends, the correction information generation processing ends, and the processing returns to FIG.
  • the encoding device 100 can generate the correction information of the 3D data, and the decoding side can correct the 3D data based on the correction information. As a result, deterioration of 3D data can be suppressed, and reduction in subjective image quality of the display image can be suppressed.
  • FIG. 10 is a block diagram showing an example of the configuration of a decoding device that is an aspect of an image processing device to which the present technology is applied.
  • the decoding device 200 shown in FIG. 10 decodes coded data obtained by projecting and coding 3D data such as a point cloud on a two-dimensional plane by a decoding method for a two-dimensional image to reconstruct 3D data.
  • Device a decoding device to which the video-based approach is applied.
  • the decoding device 200 is a decoding device corresponding to the coding device 100 of FIG. 6, and can decode the bitstream generated by the coding device 100 to reconstruct 3D data.
  • FIG. 10 shows main components such as a processing unit and a data flow, and the components shown in FIG. 10 are not necessarily all. That is, in the decoding device 200, a processing unit not shown as a block in FIG. 10 may exist, or a process or data flow not shown as an arrow or the like in FIG. 10 may exist. This also applies to other drawings that explain the processing unit and the like in the decoding device 200.
  • the decoding device 200 includes a demultiplexer 211, an auxiliary patch information decoding unit 212, a video decoding unit 213, a video decoding unit 214, an OMap decoding unit 215, an unpacking unit 216, and a 3D reconstruction unit 217.
  • a demultiplexer 211 the demultiplexer 211
  • an auxiliary patch information decoding unit 212 the decoding device 200
  • a video decoding unit 213, a video decoding unit 214 includes a video decoding unit 214, an OMap decoding unit 215, an unpacking unit 216, and a 3D reconstruction unit 217.
  • the demultiplexer 211 performs processing related to data demultiplexing. For example, the demultiplexer 211 acquires the bitstream input to the decoding device 200. This bit stream is supplied from the encoding device 100, for example. The demultiplexer 211 demultiplexes this bit stream, extracts encoded data of auxiliary patch information, and supplies it to the auxiliary patch information decoding unit 212. Further, the demultiplexer 211 extracts the encoded data of the geometry video frame from the bitstream by demultiplexing and supplies it to the video decoding unit 213. Further, the demultiplexer 211 extracts the encoded data of the color video frame from the bitstream by demultiplexing and supplies it to the video decoding unit 214.
  • the demultiplexer 211 extracts the encoded data of the occupancy map from the bitstream by demultiplexing and supplies it to the OMap decoding unit 215. Also, the demultiplexer 211 extracts control information regarding packing from the bitstream by demultiplexing and supplies it to the unpacking unit 216.
  • the auxiliary patch information decoding unit 212 performs processing relating to decoding of encoded data of auxiliary patch information (including encoded data of correction information). For example, the auxiliary patch information decoding unit 212 acquires the encoded data of the auxiliary patch information supplied from the demultiplexer 211. The auxiliary patch information decoding unit 212 also decodes the encoded data and generates auxiliary patch information and correction information.
  • the correction information is information generated on the encoding side and transmitted from the encoding side, and includes, for example, information on correction of a blank space which is a portion of 3D data enlarged by the occupancy map.
  • the auxiliary patch information decoding unit 212 supplies the auxiliary patch information to the 3D reconstruction unit 217.
  • the video decoding unit 213 performs processing regarding decoding of encoded data of the geometry video frame. For example, the video decoding unit 213 acquires the encoded data of the geometry video frame supplied from the demultiplexer 211. Also, for example, the video decoding unit 213 decodes the encoded data and generates a geometry video frame. The video decoding unit 213 supplies the geometry video frame to the unpacking unit 216.
  • the video decoding unit 214 performs processing relating to decoding of coded data of color video frames. For example, the video decoding unit 214 acquires the encoded data of the color video frame supplied from the demultiplexer 211. Further, for example, the video decoding unit 214 decodes the encoded data and generates a color video frame. The video decoding unit 214 supplies the color video frame to the unpacking unit 216.
  • the OMap decoding unit 215 performs processing regarding decoding of encoded data of the occupancy map. For example, the OMap decoding unit 215 acquires the encoded data of the occupancy map supplied from the demultiplexer 211. Further, for example, the OMap decoding unit 215 decodes the encoded data and generates an occupancy map. The OMap decoding unit 215 supplies the occupancy map to the unpacking unit 216.
  • the unpacking unit 216 performs processing related to unpacking. For example, the unpacking unit 216 acquires control information regarding packing supplied from the demultiplexer 211. The unpacking unit 216 also acquires the geometry video frame supplied from the video decoding unit 213. Further, the unpacking unit 216 acquires the color video frame supplied from the video decoding unit 214. The unpacking unit 216 also acquires the occupancy map supplied from the OMap decoding unit 215. The unpacking unit 216 unpacks the geometry video frame and the color video frame based on the acquired control information and occupancy map, and extracts patches of position information and attribute information. The unpacking unit 216 supplies the position information and the patch of the attribute information to the 3D reconstruction unit 217.
  • the 3D reconstruction unit 217 performs processing related to reconstruction of 3D data. For example, the 3D reconstruction unit 217 acquires the auxiliary patch information and the correction information supplied from the auxiliary patch information decoding unit 212. Further, the 3D reconstruction unit 217 acquires a patch or the like of the position information and attribute information supplied from the unpacking unit 216. Further, the 3D reconstruction unit 217 reconstructs 3D data (for example, point cloud) based on the information. For example, the 3D reconstruction unit 217 reconstructs 3D data based on the patch of the auxiliary patch information, the position information, the attribute information, and the like, and further corrects the 3D data based on the correction information. The 3D reconstruction unit 217 outputs the 3D data obtained by such processing to the outside of the decoding device 200.
  • This 3D data is supplied to a display unit to display the image, recorded on a recording medium, or supplied to another device via communication, for example.
  • the decoding device 200 can correct the 3D data based on the correction information supplied from the encoding side. As a result, deterioration of 3D data can be suppressed, and reduction in subjective image quality of the display image can be suppressed.
  • each processing unit may be configured by a logic circuit that realizes the above processing.
  • each processing unit may have, for example, a CPU, a ROM, a RAM, etc., and the above-described processing may be realized by executing a program using these.
  • each processing unit may have both configurations, and a part of the above-described processing may be realized by a logic circuit and the other may be realized by executing a program.
  • the configurations of the respective processing units may be independent of each other.
  • some of the processing units may implement part of the above-described processing by a logic circuit, and some of the other processing units may execute the program. May be realized, and another processing unit may realize the above-mentioned processing by both executing the logic circuit and executing the program.
  • FIG. 11 is a block diagram showing a main configuration example of the 3D reconstruction unit 217 of FIG. As shown in FIG. 11, the 3D reconstruction unit 217 includes a correction setting unit 251 and a reconstruction unit 252.
  • the correction setting unit 251 performs processing relating to control of correction of 3D data. For example, the correction setting unit 251 acquires the decoded NxN-precision occupancy map supplied from the OMap decoding unit 215. Further, the correction setting unit 251 acquires the correction information supplied from the auxiliary patch information decoding unit 212.
  • the correction information may include, for example, information indicating the set margin trimming type (margin correction type).
  • the correction information may include information indicating an optimum pattern selected from the candidates of the “pattern for trimming the blank space” prepared in advance.
  • correction information may include, for example, information indicating a correction amount of the set margin (for example, an amount of shaving or an amount of increase, or both).
  • the correction setting unit 251 sets how to perform correction based on these pieces of information.
  • the correction setting unit 251 generates control information to realize the correction as set, and supplies the control information to the reconstruction unit 252.
  • the reconstructing unit 252 performs processing related to reconstructing 3D data.
  • the reconstruction unit 252 may generate the 3D data based on the position information extracted from the geometry video frame supplied from the unpacking unit 216 and the attribute information extracted from the color video frame supplied from the unpacking unit 216. Rebuild. Further, the reconstruction unit 252 corrects the 3D data according to the control of the correction setting unit 251 (according to the control information supplied from the correction setting unit 251). The reconstruction unit 252 outputs the generated (corrected) 3D data to the outside of the decoding device 200.
  • the demultiplexer 211 of the decoding device 200 demultiplexes the bitstream in step S201.
  • step S202 the auxiliary patch information decoding unit 212 decodes the encoded data of the auxiliary patch information extracted from the bitstream by the process of step S201, and generates auxiliary patch information and correction information.
  • step S203 the OMap decoding unit 215 decodes the encoded data of the occupancy map extracted from the bitstream by the process of step S201.
  • step S204 the video decoding unit 213 decodes the encoded data of the geometry video frame extracted from the bitstream by the process of step S201, and generates the geometry video frame.
  • step S205 the video decoding unit 214 decodes the encoded data of the color video frame extracted from the bitstream by the process of step S201 to generate a color video frame.
  • step S206 the unpacking unit 216 unpacks the geometry video frame and the color video frame based on the control information regarding packing and the occupancy map.
  • step S207 the 3D reconstruction unit 217 executes the 3D data reconstruction process, and based on the auxiliary patch information generated in step S202 and the various information generated in steps S203 to S205, for example, a point cloud. Etc. to reconstruct 3D data. In addition, the 3D reconstruction unit 217 corrects the reconstructed 3D data based on the correction information generated in step S202.
  • the decoding process ends.
  • step S221 the correction setting unit 251 sets a correction method for 3D data reconstruction based on the decoded NxN-precision occupancy map and the correction information, and controls it. Generate information.
  • the reconstruction unit 252 reconstructs 3D data such as a point cloud using the position information (geometry data) and the attribute information (picture data), and the correction method set in step S221. More specifically, the reconstructing unit 252 reconstructs 3D data based on position information (geometry data) and attribute information (picture data), auxiliary patch information, and the like. Then, the reconstruction unit 252 corrects the reconstructed 3D data according to the control information supplied from the correction setting unit 251.
  • the decoding device 200 can correct the 3D data based on the correction information supplied from the encoding side. As a result, deterioration of 3D data can be suppressed, and reduction in subjective image quality of the display image can be suppressed.
  • control information related to the present technology described in each of the above embodiments may be transmitted from the encoding side to the decoding side.
  • control information for example, enabled_flag
  • control for designating a range for example, an upper limit or a lower limit of a block size, or both, a slice, a picture, a sequence, a component, a view, a layer, etc.
  • a range for example, an upper limit or a lower limit of a block size, or both, a slice, a picture, a sequence, a component, a view, a layer, etc.
  • the series of processes described above can be executed by hardware or software.
  • the programs constituting the software are installed in the computer.
  • the computer includes a computer incorporated in dedicated hardware and a general-purpose personal computer capable of executing various functions by installing various programs.
  • FIG. 14 is a block diagram showing an example of the hardware configuration of a computer that executes the series of processes described above by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input/output interface 910 is also connected to the bus 904.
  • An input unit 911, an output unit 912, a storage unit 913, a communication unit 914, and a drive 915 are connected to the input/output interface 910.
  • the input unit 911 includes, for example, a keyboard, a mouse, a microphone, a touch panel, an input terminal and the like.
  • the output unit 912 includes, for example, a display, a speaker, an output terminal, and the like.
  • the storage unit 913 includes, for example, a hard disk, a RAM disk, a non-volatile memory, or the like.
  • the communication unit 914 includes, for example, a network interface.
  • the drive 915 drives a removable medium 921 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 901 loads the program stored in the storage unit 913 into the RAM 903 via the input/output interface 910 and the bus 904 and executes the program to execute the above-described series of operations. Is processed.
  • the RAM 903 also appropriately stores data necessary for the CPU 901 to execute various processes.
  • the program executed by the computer can be applied by being recorded in the removable medium 921 as a package medium or the like, for example.
  • the program can be installed in the storage unit 913 via the input/output interface 910 by mounting the removable medium 921 in the drive 915.
  • this program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be received by the communication unit 914 and installed in the storage unit 913.
  • this program can be installed in advance in the ROM 902 or the storage unit 913.
  • the encoding device 100 and the decoding device 200 have been described above as application examples of the present technology, the present technology can be applied to any configuration.
  • the present technology is applied to a transmitter or a receiver (for example, a television receiver or a mobile phone) in satellite broadcasting, cable broadcasting such as cable TV, distribution on the Internet, and distribution to a terminal by cellular communication, or It can be applied to various electronic devices such as an apparatus (for example, a hard disk recorder or a camera) that records an image on a medium such as an optical disk, a magnetic disk, and a flash memory, or reproduces an image from these storage media.
  • an apparatus for example, a hard disk recorder or a camera
  • the present technology includes a processor (for example, a video processor) as a system LSI (Large Scale Integration) or the like, a module (for example, a video module) using a plurality of processors or the like, or a unit (for example, a video unit) using a plurality of modules or the like Alternatively, it may be implemented as a part of the configuration of the device such as a set (for example, a video set) in which the unit is provided with other functions.
  • a processor for example, a video processor
  • LSI Large Scale Integration
  • module for example, a video module
  • a unit for example, a video unit
  • the present technology can be applied to a network system composed of multiple devices.
  • the present technology may be implemented as cloud computing in which a plurality of devices share and jointly process via a network.
  • this technology is implemented in a cloud service that provides services related to images (moving images) to arbitrary terminals such as computers, AV (Audio Visual) devices, portable information processing terminals, and IoT (Internet of Things) devices. You may do so.
  • the system means a set of a plurality of constituent elements (devices, modules (parts), etc.), and it does not matter whether or not all constituent elements are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and one device housing a plurality of modules in one housing are all systems. ..
  • the system, device, processing unit, and the like to which the present technology is applied can be used in any field such as transportation, medical care, crime prevention, agriculture, livestock industry, mining, beauty, factory, home appliance, weather, nature monitoring, etc. .. Further, its application is also arbitrary.
  • the “flag” is information for identifying a plurality of states, and is not only information used to identify two states of true (1) or false (0), but also three or more states. Information that can identify the state is also included. Therefore, the possible value of this "flag” may be, for example, a binary value of 1/0, or may be a ternary value or more. That is, the number of bits forming this "flag” is arbitrary and may be 1 bit or multiple bits. Further, since the identification information (including the flag) may include not only the identification information included in the bitstream but also the difference information of the identification information with respect to certain reference information, included in the bitstream. In the above, "flag” and “identification information” include not only that information but also difference information with respect to reference information.
  • various types of information (metadata, etc.) regarding the encoded data (bit stream) may be transmitted or recorded in any form as long as it is associated with the encoded data.
  • the term “associate” means, for example, that when processing one data, the other data can be used (linked). That is, the data associated with each other may be collected as one data or may be individual data.
  • the information associated with the encoded data (image) may be transmitted on a transmission path different from that of the encoded data (image). Further, for example, the information associated with the encoded data (image) may be recorded on a recording medium (or another recording area of the same recording medium) different from that of the encoded data (image). Good.
  • association may be a part of the data instead of the entire data.
  • the image and the information corresponding to the image may be associated with each other in an arbitrary unit such as a plurality of frames, one frame, or a part of the frame.
  • composite means to combine a plurality of objects into one, for example, to combine encoded data and metadata into one data, and means one method of “associating” described above.
  • the configuration described as one device (or processing unit) may be divided and configured as a plurality of devices (or processing units).
  • the configurations described above as a plurality of devices (or processing units) may be integrated into one device (or processing unit).
  • part of the configuration of a certain device (or processing unit) may be included in the configuration of another device (or other processing unit). ..
  • the above-mentioned program may be executed in any device.
  • the device may have a necessary function (function block or the like) so that necessary information can be obtained.
  • one device may execute each step of one flowchart, or a plurality of devices may share and execute each step. Further, when one step includes a plurality of processes, one device may execute the plurality of processes, or a plurality of devices may share the processes. In other words, a plurality of processes included in one step can be executed as a process of a plurality of steps. On the contrary, the processes described as a plurality of steps can be collectively executed as one step.
  • the processing of the steps for writing the program may be executed in time series according to the order described in this specification, or in parallel or by calling. It may be executed individually at a necessary timing such as when it is released. That is, as long as no contradiction occurs, the processing of each step may be executed in an order different from the order described above. Furthermore, the process of the step of writing this program may be executed in parallel with the process of another program, or may be executed in combination with the process of another program.
  • a correction information generation unit that generates correction information that is information related to correction of 3D data that represents a three-dimensional structure constructed using 2D data that represents a two-dimensional image
  • An image processing apparatus comprising: a correction information coding unit that codes the correction information generated by the correction information generation unit.
  • the image processing device comprising: a correction information coding unit that codes the correction information generated by the correction information generation unit.
  • the correction information generation unit generates the correction information based on an occupancy map with 1x1 accuracy and an occupancy map with NxN accuracy.
  • the correction information generation unit further generates the correction information based on a residual amount that is a set value of a margin size that is a portion enlarged by the occupancy map of the 3D data.
  • the correction information includes information regarding correction of a blank space that is a portion of the 3D data enlarged by an occupancy map.
  • the information regarding the correction of the margin includes information indicating how to trim the margin.
  • the information regarding the margin correction includes information indicating a pattern of how to trim the margin selected from candidates.
  • the information regarding the blank space correction includes information indicating the amount of blank space correction.
  • the information indicating the correction amount of the margin includes information indicating the shading amount of the margin.
  • the image processing device according to (7), wherein the information indicating the margin correction amount includes information indicating the margin increase amount.
  • Generate correction information that is information related to correction of 3D data that represents a three-dimensional structure constructed using 2D data that represents a two-dimensional image, An image processing method for encoding the generated correction information.
  • a correction information decoding unit that decodes encoded data of correction information that is information related to correction of 3D data that represents a three-dimensional structure that is constructed using 2D data that represents a two-dimensional image
  • An image processing apparatus comprising: a 2D data; and a construction unit that constructs the 3D data using the correction information generated by decoding the encoded data of the correction information by the correction information decoding unit.
  • the correction information includes information about correction of a margin, which is a portion of the 3D data enlarged by an occupancy map.
  • the information regarding the margin correction includes information indicating how to trim the margin.
  • the image processing device (14) The image processing device according to (13), wherein the information regarding the margin correction includes information indicating a pattern of how to trim the margin selected from candidates.
  • the information related to the margin correction includes information indicating a correction amount of the margin.
  • the information indicating the correction amount of the margin includes information indicating the shading amount of the margin.
  • the information indicating the correction amount of the margin includes information indicating the increase amount of the margin.
  • a video decoding unit that decodes the encoded data of the 2D data is further included, The construction unit uses the 2D data decoded and generated by the video decoding unit and the correction information generated by decoding the encoded data by the correction information decoding unit to generate the 3D data.
  • the image processing device according to (11) is constructed.
  • An OMap decoding unit that decodes the encoded data of the occupancy map is further provided, The construction unit uses the correction information decoding unit to correct the margin, which is a portion enlarged by the occupancy map generated by being decoded by the OMap decoding unit when the 3D data is constructed from the 2D data.
  • Decode encoded data of correction information which is information related to correction of 3D data representing a three-dimensional structure constructed using 2D data representing a two-dimensional image
  • 100 encoder 111 patch decomposing unit, 112 packing unit, 113 auxiliary patch information compressing unit, 114 video encoding unit, 115 video encoding unit, 116 OMap encoding unit, 117 multiplexer, 118 decoding unit, 119 correction information generation Part, 151 type setting part, 152 scraping amount setting part, 200 decoding device, 211 demultiplexer, 212 auxiliary patch information decoding part, 213 video decoding part, 214 video decoding part, 215 OMap decoding part, 216 unpacking part, 217 3D Reconstruction unit, 251 correction setting unit, 252 reconstruction unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本開示は、画質の低減を抑制することができるようにする画像処理装置および方法に関する。 2次元画像を表す2Dデータを用いて構築する3次元構造を表す3Dデータの補正に関する情報である補正情報を生成し、その生成された補正情報を符号化する。また、2次元画像を表す2Dデータを用いて構築する3次元構造を表す3Dデータの補正に関する情報である補正情報の符号化データを復号し、2Dデータと、その補正情報の符号化データが復号されて生成された補正情報とを用いて、3Dデータを構築する。本開示は、例えば、情報処理装置、画像処理装置、電子機器、情報処理方法、またはプログラム等に適用することができる。

Description

画像処理装置および方法
 本開示は、画像処理装置および方法に関し、特に、画質の低減を抑制することができるようにした画像処理装置および方法に関する。
 従来、例えばポイントクラウド(Point cloud)のような3次元構造を表す3Dデータの符号化方法として、例えばOctree等のような、ボクセル(Voxel)を用いた符号化があった(例えば非特許文献1参照)。
 近年、その他の符号化方法として、例えば、ポイントクラウドの位置情報と属性情報とを小領域毎に2次元平面に投影し、その2次元平面に投影された画像(パッチ)をフレーム画像内に配置し、そのフレーム画像を2次元画像用の符号化方法で符号化する方法(以下、ビデオベースドアプローチ(Video-based approach)とも称する)が提案された(例えば、非特許文献2乃至非特許文献4参照)。
 このビデオベースドアプローチにおいて、フレーム画像の各位置におけるパッチの有無を示すオキュパンシーマップを用いる場合、その解像度を落としてその情報量を低減させることにより、符号化効率を向上させることができる。
 しかしながら、オキュパンシーマップの解像度を低減させると、オキュパンシーマップが示すパッチの範囲と実際のパッチの範囲とが一致しなくなり、3Dデータを再構築する際に本来ない点が生成されてしまうおそれがあった。そこで、そのような点の位置をスムーシングにより補正する方法が考えられた。しかしながら、そのようにスムーシングを行っても、PSNR(Peak Signal-to-Noise Ratio)は劣化するおそれがあった。そこで、オキュパンシーマップを低解像度化(NxN精度)することにより生じる余白部分を削る方法が考えられた(例えば、非特許文献5参照)。
 また、高解像度のオキュパンシーマップ(1x1精度)の場合、パッチの重なりがないため、パッチ境界の点の位置が歪むと隣接するパッチとの間に隙間が生じ、3Dデータから生成した表示用の2次元画像においてその隙間が穴(欠損部分)となるおそれがあった。そこで、高解像度のオキュパンシーマップ(1x1精度)の境界を広げる方法も考えられた(例えば、非特許文献6参照)。
R. Mekuria, Student Member IEEE, K. Blom, P. Cesar., Member, IEEE, "Design, Implementation and Evaluation of a Point Cloud Codec for Tele-Immersive Video",tcsvt_paper_submitted_february.pdf Tim Golla and Reinhard Klein, "Real-time Point Cloud Compression ," IEEE, 2015 K. Mammou, "Video-based and Hierarchical Approaches Point Cloud Compression" , MPEG m41649, Oct. 2017 K. Mammou,"PCC Test Model Category 2 v0," N17248 MPEG output document, October 2017 Dejun Zhang, Zheng Liu, Vladyslav Zakharchenko, Jianle Chen, Kangying Cai, "[VPCC] New proposal of an adaptive outlier removing method", ISO/IEC JTC1/SC29/WG11 MPEG2018/m44766, October 2018, Macau, China Dejun Zhang, Zheng Liu, Vladyslav Zakharchenko, Jianle Chen, Kangying Cai, "[VPCC] New proposal of an adaptive hole filling method for reconstructed point cloud", ISO/IEC JTC1/SC29/WG11 MPEG2018/m44767, October 2018, Macau, China
 しかしながら、非特許文献5や非特許文献6に記載の方法では、オキュパンシーマップを補正するため、あるパッチの存在を示す領域に他のパッチが含まれてしまい、構築した3Dデータが劣化するおそれがあった。そのため、その3Dデータを2次元平面に投影した表示用画像の主観画質が低減するおそれがあった。
 本開示は、このような状況に鑑みてなされたものであり、3Dデータの表示用2次元画像の画質の低減を抑制することができるようにするものである。
 本技術の一側面の画像処理装置は、2次元画像を表す2Dデータを用いて構築する3次元構造を表す3Dデータの補正に関する情報である補正情報を生成する補正情報生成部と、前記補正情報生成部により生成された前記補正情報を符号化する補正情報符号化部とを備える画像処理装置である。
 本技術の一側面の画像処理方法は、2次元画像を表す2Dデータを用いて構築する3次元構造を表す3Dデータの補正に関する情報である補正情報を生成し、生成された前記補正情報を符号化する画像処理方法である。
 本技術の他の側面の画像処理装置は、2次元画像を表す2Dデータを用いて構築する3次元構造を表す3Dデータの補正に関する情報である補正情報の符号化データを復号する補正情報復号部と、前記2Dデータと、前記補正情報復号部により前記補正情報の符号化データが復号されて生成された前記補正情報とを用いて、前記3Dデータを構築する構築部とを備える画像処理装置である。
 本技術の他の側面の画像処理方法は、2次元画像を表す2Dデータを用いて構築する3次元構造を表す3Dデータの補正に関する情報である補正情報の符号化データを復号し、前記2Dデータと、前記補正情報の符号化データが復号されて生成された前記補正情報とを用いて、前記3Dデータを構築する画像処理方法である。
 本技術の一側面の画像処理装置および方法においては、2次元画像を表す2Dデータを用いて構築する3次元構造を表す3Dデータの補正に関する情報である補正情報が生成され、その生成された補正情報が符号化される。
 本技術の他の側面の画像処理装置および方法においては、2次元画像を表す2Dデータを用いて構築する3次元構造を表す3Dデータの補正に関する情報である補正情報の符号化データが復号され、その2Dデータと、補正情報の符号化データが復号されて生成された補正情報とが用いられて、その3Dデータが構築される。
オキュパンシーマップが示すパッチの範囲と実際のパッチの範囲との関係の例を説明する図である。 補正方法の例を説明する図である。 削り方の候補例を示す図である。 削り量の例を示す図である。 シンタックスの例を示す図である。 符号化装置の主な構成例を示すブロック図である。 補正情報生成部の主な構成例を示すブロック図である。 符号化処理の流れの例を説明するフローチャートである。 補正情報生成処理の流れの例を説明するフローチャートである。 復号装置の主な構成例を示すブロック図である。 3D再構築部の主な構成例を示すブロック図である。 復号処理の流れの例を説明するフローチャートである。 3Dデータ再構築処理の流れの例を説明するフローチャートである。 コンピュータの主な構成例を示すブロック図である。
 以下、本開示を実施するための形態(以下実施の形態とする)について説明する。なお、説明は以下の順序で行う。
 1.3Dデータ再構築の補正
 2.第1の実施の形態(符号化装置)
 3.第2の実施の形態(復号装置)
 4.付記
 <1.3Dデータ再構築の補正>
  <技術内容・技術用語をサポートする文献等>
 本技術で開示される範囲は、実施の形態に記載されている内容だけではなく、出願当時において公知となっている以下の非特許文献に記載されている内容も含まれる。
 非特許文献1:(上述)
 非特許文献2:TELECOMMUNICATION STANDARDIZATION SECTOR OF ITU(International Telecommunication Union), "Advanced video coding for generic audiovisual services", H.264, 04/2017
 非特許文献3:TELECOMMUNICATION STANDARDIZATION SECTOR OF ITU(International Telecommunication Union), "High efficiency video coding", H.265, 12/2016
 非特許文献4:Jianle Chen, Elena Alshina, Gary J. Sullivan, Jens-Rainer, Jill Boyce, "Algorithm Description of Joint Exploration Test Model 4", JVET-G1001_v1, Joint Video Exploration Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 7th Meeting: Torino, IT, 13-21 July 2017
 つまり、上述の非特許文献に記載されている内容もサポート要件を判断する際の根拠となる。例えば、非特許文献3に記載されているQuad-Tree Block Structure、非特許文献4に記載されているQTBT(Quad Tree Plus Binary Tree) Block Structureが実施の形態において直接的な記載がない場合でも、本技術の開示範囲内であり、請求の範囲のサポート要件を満たすものとする。また、例えば、パース(Parsing)、シンタックス(Syntax)、セマンティクス(Semantics)等の技術用語についても同様に、実施の形態において直接的な記載がない場合でも、本技術の開示範囲内であり、請求の範囲のサポート要件を満たすものとする。
  <ポイントクラウド>
 従来、点群の位置情報や属性情報等により3次元構造を表すポイントクラウド(Point cloud)等のデータが存在した。ポイントクラウドはデータ構造が比較的単純であるとともに、十分に多くの点を用いることにより任意の立体構造を十分な精度で表現することができる。
  <ビデオベースドアプローチの概要>
 このようなポイントクラウドの位置情報や属性情報を、小領域毎に2次元平面に投影し、その2次元平面に投影された画像(パッチ)をフレーム画像内に配置し、そのフレーム画像を2次元画像用の符号化方法で符号化するビデオベースドアプローチ(Video-based approach)が提案された。
 このビデオベースドアプローチでは、入力されたポイントクラウド(Point cloud)が複数の小領域に分割され、その小領域毎に各ポイントが2次元平面に投影される(パッチが生成される)。ポイントクラウドは各ポイントの位置情報(Geometry)と属性情報(Texture)とにより構成されるので、この2次元平面への投影は、その位置情報と属性情報のそれぞれについて行われる。
 そして、このパッチは、フレーム画像(2次元画像)に配置される。つまり、位置情報のパッチが配置されたフレーム画像(ジオメトリビデオフレーム(Geometry video frame)とも称する)と、属性情報のパッチが配置されたフレーム画像(カラービデオフレーム(Color video frame)とも称する)とが生成される。
 なお、ジオメトリビデオフレームでは、ポイントの位置情報は、奥行方向の位置情報(デプス値(Depth))として表現される。つまり、そのフレーム画像の各画素値は、このデプス値を示す。
 これらのフレーム画像は、それぞれ、例えばAVC(Advanced Video Coding)やHEVC(High Efficiency Video Coding)等といった、2次元平面画像用の符号化方式により符号化される。
 このように生成された符号化データは、復号側に伝送され、その復号側において復号されてフレーム画像が生成される。そして、そのフレーム画像から各パッチが抽出され、各パッチ(位置情報および属性情報)から3Dデータ(ポイントクラウド等)が再構築される。
  <オキュパンシーマップ>
 このようなビデオベースドアプローチの場合、さらに、オキュパンシーマップを用いることもできる。オキュパンシーマップは、所定の画素精度で、ジオメトリビデオフレームの投影画像(パッチ)の有無を示すマップ情報である。例えば、オキュパンシーマップは、NxN画素精度で、すなわち、NxN画素の領域毎に、パッチの有無を示す。例えば、オキュパンシーマップは、パッチが存在するNxN画素の領域を値「1」で示し、パッチが存在しないNxN画素の領域を値「0」で示す。
 このようなオキュパンシーマップが、ジオメトリビデオフレームやカラービデオフレームとは別のデータとして符号化され、復号側に伝送される。デコーダは、このオキュパンシーマップを参照することにより、パッチが存在する領域であるか否かを把握することができるので、符号化・復号により生じるノイズ等の影響を抑制することができ、より正確に3Dデータを復元することができる。例えば、符号化・復号によりデプス値が変化しても、デコーダは、オキュパンシーマップを参照することにより、パッチが存在しない領域のデプス値を無視する(3Dデータの位置情報として処理しないようにする)ことができる。
 このようなオキュパンシーマップを用いる場合、その解像度を落としてその情報量を低減させることにより、符号化効率を向上させることができる。
 しかしながら、オキュパンシーマップの解像度を低減させると、オキュパンシーマップが示すパッチの範囲と実際のパッチの範囲とが一致しなくなり、3Dデータを再構築する際に本来ない点が生成されてしまうおそれがあった。例えば、図1のAに示されるように、小さい四角で示される位置情報のパッチ境界近傍の画素11に対して、より低解像度のオキュパンシーマップ12が生成されると、パッチが拡がり、本来パッチが存在しない領域である余白(図1のAにおいてグレーで示される部分)が生じるおそれがあった。そこで、スムーシングを行うことによりそのような点の位置を移動させ、余白を低減させる方法が考えられた。しかしながら、スムーシングを行っても、PSNR(Peak Signal-to-Noise Ratio)は劣化するおそれがあった。
 そこで、非特許文献5に記載のように、オキュパンシーマップを低解像度化(NxN精度)することにより生じる余白部分を削る方法が考えられた。しかしながら、非特許文献5に記載の方法では、余白部分を削ることはできても、余白部分を増大させる(拡張する)ことはできず、パッチ間等の隙間により表示用画像に生じる穴(欠損部分)を低減させることは困難であった。むしろ、余白部分の低減により、パッチ同士の重なりが抑制されるため、パッチ間等の隙間の発生が生じやすくなるおそれがあった。
 そこで、非特許文献6に記載のように、高解像度のオキュパンシーマップ(1x1精度)の境界を広げる方法も考えられた。しかしながら、1x1精度のオキュパンシーマップは、上述のように、情報量が増大するおそれがあった。
 そこで、パッチの境界部分において、非特許文献5に記載の方法のように余白部分を低減させ、さらに、非特許文献6に記載の方法のように境界を広げることが考えられる。しかしながら、非特許文献5や非特許文献6に記載の方法では、オキュパンシーマップを補正するため、あるパッチの存在を示す領域に他のパッチが含まれてしまい、再構築した3Dデータが劣化するおそれがあった。例えば、図1のBに示されるようにパッチ21とパッチ22の位置が近い場合に、オキュパンシーマップのパッチ21が存在する領域を拡大させると、点線円23のように、その領域がパッチ22と重畳してしまう。このような場合、パッチ21が存在する領域として点線円23が切り出されてしまうため、パッチ21から再構築した3Dデータにパッチ22の情報が含まれてしまうおそれがあった。そのため、その再構築した3Dデータを2次元平面に投影した画像(表示用画像とも称する)の主観画質が低減するおそれがあった。
 付言するに、非特許文献6に記載の方法は、スムーシングに対応していないため、スムーシングにより点の位置が移動することによるパッチ間の隙間の発生を抑制することが困難であった。そのため、その隙間により、表示用画像の主観画質が低減するおそれがあった。
  <方法1>
 そこで、図2の表に示される方法1のように、2Dデータから3Dデータへの変換(3Dデータの再構築)において補正を行い、パッチ間の隙間等による穴の発生等を抑制するようにする。例えば、2次元画像を表す2Dデータを用いて構築する3次元構造を表す3Dデータの補正に関する情報である補正情報を生成し、その生成された補正情報を符号化するようにする。例えば、画像処理装置において、2次元画像を表す2Dデータを用いて構築する3次元構造を表す3Dデータの補正に関する情報である補正情報を生成する補正情報生成部と、補正情報生成部により生成された補正情報を符号化する補正情報符号化部とを備えるようにする。
 また、例えば、2次元画像を表す2Dデータを用いて構築する3次元構造を表す3Dデータの補正に関する情報である補正情報の符号化データを復号し、その2Dデータと、その補正情報の符号化データが復号されて生成された補正情報とを用いて、3Dデータを構築するようにする。例えば、画像処理装置において、2次元画像を表す2Dデータを用いて構築する3次元構造を表す3Dデータの補正に関する情報である補正情報の符号化データを復号する補正情報復号部と、その2Dデータと、補正情報復号部により補正情報の符号化データが復号されて生成された補正情報とを用いて、3Dデータを構築する構築部とを備えるようにする。
 このようにすることにより、パッチの境界の補正を、3Dデータの補正により実現することができる。したがって、オキュパンシーマップを補正する場合のように、処理対象のパッチから3Dデータを再構築する際に他のパッチの情報が追加される等の、3Dデータの劣化を抑制することができる。つまり、表示用画像の主観画質の低減を抑制することができる。
 この補正情報は、1x1精度のオキュパンシーマップと、NxN精度のオキュパンシーマップとに基づいて生成するようにしてもよい。例えば、オキュパンシーマップは、1x1精度からNxN精度に低精度化されて符号化されるようにし、補正情報が、符号化前の1x1精度のオキュパンシーマップと、オキュパンシーマップの符号化データを復号して生成したNxN精度のオキュパンシーマップとに基づいて生成されるようにする。このようにオキュパンシーマップを低精度化して符号化することにより、符号化効率の低減を抑制することができる。また、符号化前後のオキュパンシーマップを用いて補正情報を生成することにより、符号化の際に行われるスムーシングを補正情報に反映させることができる。したがって、スムーシングによる表示用画像の主観画質の低減を抑制することができる。
 また補正情報は、さらに、3Dデータの、オキュパンシーマップによって拡大された部分である余白の大きさの設定値である余り量に基づいて生成するようにしてもよい。このようにすることにより、余白の補正量を設定値「余り量」によっても制御することができる。例えば、3Dデータによっては、単純な符号化前後のオキュパンシーマップの比較では対応が困難な欠損部分が表示用画像に生じることもあり得る。そこで、オキュパンシーマップの比較結果とは独立に余り量を設定することにより、このような欠損部分の発生を抑制することができる。つまり、表示用画像の主観画質の低減をより抑制することができる。なお、この余り量の設定方法は任意である。例えば、この余り量は、ユーザ等の外部からの指示に基づいて設定されるようにしてもよいし、符号化対象の3Dデータの解析結果に基づいて設定されるようにしてもよいし、その他の情報に基づいて設定されるようにしてもよい。
 さらに補正情報は、3Dデータの、オキュパンシーマップによって拡大された部分である余白の補正に関する情報を含むようにしてもよい。このようにすることにより、この補正情報に基づいて、余白の補正を3Dデータの補正に反映させることができる。つまり、パッチの境界の補正を、3Dデータの補正により実現することができる。したがって、表示用画像の主観画質の低減を抑制することができる。
  <方法1-1>
 例えば、この余白の補正に関する情報は、その余白の削り方を示す情報(どのように余白を削るかを示す情報)を含むようにしてもよい。つまり、図2の表に示される方法1-1のように、補正方法を伝送するようにしてもよい。このような情報を補正情報に含めることにより、余白をどのように削るかを制御することができる。
 また、この余白の削り方を示す情報は、どのような内容であってもよく、例えば、候補の中から選択された余白の削り方のパタンを示す情報を含むようにしてもよい。例えば、複数の「余白の削り方のパタン」を候補として予め用意し、局所毎に「余白の削り方のパタン」をその候補の中から選択するようにし、補正情報(余白の削り方を示す情報)には、局所毎の、選択された候補を示す情報(例えば選択した候補の識別情報等)が含まれるようにしてもよい。このような情報を補正情報に含めることにより、より簡易な情報により、余白をどのように削るかを制御することができる。例えば全局所の削り方を1画素単位で具体的に指定する場合に比べて、符号量の増大を抑制することができる。
  <方法1-2>
 また、例えば、この余白の補正に関する情報は、その余白の補正量を示す情報(どの程度余白を補正するかを示す情報)を含むようにしてもよい。つまり、図2の表に示される方法1-2のように、補正量を伝送するようにしてもよい。このような情報を補正情報に含めることにより、余白をどの程度補正するかを制御することができる。
 なお、この余白の補正量を示す情報は、余白の削り量を示す情報を含むようにしてもよい。このような情報により、余白をどの程度削るかを制御することができる。また、この余白の補正量を示す情報は、余白の増加量を示す情報を含むようにしてもよい。このような情報により、余白をどの程度増大させるか(太らせるか)を制御することができる。
  <方法1-3・方法1-4>
 また、復号側において補正情報に基づいて補正する3Dデータの再構築に用いるオキュパンシーマップの精度は任意である。例えば、NxN精度であってもよい。つまり、図2の表に示される方法1-3のように、NxN精度のオキュパンシーマップを用いた変換(3Dデータの再構築)を補正するようにしてもよい。また、1x1精度であってもよい。つまり、図2の表に示される方法1-4のように、1x1精度のオキュパンシーマップを用いた変換(3Dデータの再構築)を補正するようにしてもよい。
  <余白の削り方のパタン>
 次に、<方法1-1>において説明した「余白の削り方のパタン」の候補について説明する。この候補とするパタン(削り方)は、どのようなパタンであってもよい。その数も任意である。例えば、図3のA乃至図3のHに示されるような8パタンを候補としてもよい。
 図3のA乃至図3のHは、それぞれ、余白の削り方のパタンの例を示す。図3のA乃至図3のHのそれぞれにおいて、各四角は、オキュパンシーマップのデータ単位となるブロック(例えば画素)を示しており、黒色のブロックは、余白から削られるブロックである。つまり、この黒色のブロックは、空のブロック、すなわち、パッチが存在しないことを示す値が設定されるブロックである。
 例えば、図3のAには、処理対象の局所部分の右下が削られるパタンが示されている。同様に、図3のBには右上が削られるパタンが示され、図3のCには左上が削られるパタンが示され、図3のDには左下が削られるパタンが示されている。
 また、例えば、図3のEには処理対象の局所部分の右が削られるパタンが示され、図3のFには上が削られるパタンが示され、図3のGには左が削られるパタンが示され、図3のHには下が削られるパタンが示されている。なお、図中、グレーのブロックは、完全に占有されているブロックであるか、または、空のブロックである。
 つまり、この例の場合、どの候補を選択するかによって、どちらの方向から削るかが選択される。
  <余白の補正量>
 次に、<方法1-2>において説明した「余白の削り量」について説明する。この余白の削り量は、どのような値であってもよい。例えば図4のAに示される、右から削るパタン(図3のEのパタン)の場合、4x4画素からなる処理対象領域(カレント領域)は、余白の補正量が「0」(すなわち初期値(Default))の場合、図4のBに示されるように、右半分の画素(右側の2x4画素領域)が削られる。同様に、余白の補正量が「-1」の場合、図4のCに示されるように、カレント領域の右端の画素列(右端の1x4画素領域)が削られる。同様に、余白の補正量が「-2」の場合、図4のDに示されるように、カレント領域は補正されない(右端の0x4画素領域が削られる)。また、余白の補正量が「-3」の場合、図4のEに示されるように、カレント領域の右端に1x4画素領域が追加される。つまり、余白が拡張される。
 このように、余白の補正量は、余白の削り量を示すこともできるし、余白の増加量を示すこともできる。
  <シンタックス>
 以上のような補正情報についてのシンタクスの例を図5のAに示す。グレーの部分が補正情報に関するシンタックスである。omapFilterTypeFrameLevel / omapFilterTypePatchLevelにより、フレームレベルとパッチレベルの余白の削り方(タイプ)とタイプ毎の処理をシグナリングする。また、omapFilterValueFrameLevel / patchList[i].omapFilterValueにより、フレームレベルとパッチ毎の補正量(削る量・増やす量)をシグナリングする。この値は、図5のBに示される変換表のように、初期値(Default)との差分を表すインデックスとしてもよい。
 <2.第1の実施の形態>
  <符号化装置>
 図6は、本技術を適用した画像処理装置の一態様である符号化装置の構成の一例を示すブロック図である。図6に示される符号化装置100は、ポイントクラウドのような3Dデータを2次元平面に投影して2次元画像用の符号化方法により符号化を行う装置(ビデオベースドアプローチを適用した符号化装置)である。
 なお、図6においては、処理部やデータの流れ等の主なものを示しており、図6に示されるものが全てとは限らない。つまり、符号化装置100において、図6においてブロックとして示されていない処理部が存在したり、図6において矢印等として示されていない処理やデータの流れが存在したりしてもよい。これは、符号化装置100内の処理部等を説明する他の図においても同様である。
 図6に示されるように符号化装置100は、パッチ分解部111、パッキング部112、補助パッチ情報圧縮部113、ビデオ符号化部114、ビデオ符号化部115、OMap符号化部116、マルチプレクサ117、復号部118、および補正情報生成部119を有する。
 パッチ分解部111は、3Dデータの分解に関する処理を行う。例えば、パッチ分解部111は、符号化装置100に入力される、3次元構造を表す3Dデータ(例えばポイントクラウド)を取得する(矢印121)。また、パッチ分解部111は、取得したその3Dデータを複数の小領域(コネクションコンポーネント)に分解し、その小領域毎に3Dデータを2次元平面に投影し、位置情報のパッチや属性情報のパッチを生成する。
 パッチ分解部111は、生成した各パッチに関する情報をパッキング部112に供給する(矢印122)。また、パッチ分解部111は、その分解に関する情報である補助パッチ情報を、補助パッチ情報圧縮部113に供給する(矢印123)。
 パッキング部112は、データのパッキングに関する処理を行う。例えば、パッキング部112は、パッチ分解部111から供給されるパッチに関する情報を取得する(矢印122)。また、パッキング部112は、取得した各パッチを2次元画像に配置してビデオフレームとしてパッキングする。例えば、パッキング部112は、ポイントの位置を示す位置情報(Geometry)のパッチをビデオフレームとしてパッキングし、ジオメトリビデオフレーム(Geometry video frame(s))を生成する。また、パッキング部112は、その位置情報に付加される色情報等の属性情報(Texture)のパッチを、ビデオフレームとしてパッキングし、カラービデオフレーム(Color video frame(s))を生成する。さらに、パッキング部112は、パッチの有無を示す1x1精度のオキュパンシーマップを生成する。
 パッキング部112は、それらを後段の処理部に供給する(矢印124)。例えば、パッキング部112は、ジオメトリビデオフレームをビデオ符号化部114に供給し、カラービデオフレームをビデオ符号化部115に供給し、1x1精度のオキュパンシーマップ(1x1 Omap)をOMap符号化部116に供給する。また、パッキング部112は、そのパッキングに関する制御情報をマルチプレクサ117に供給する(矢印125)。さらに、パッキング部112は、1x1精度のオキュパンシーマップを補正情報生成部119に供給する。
 補助パッチ情報圧縮部113は、補助パッチ情報の圧縮に関する処理を行う。例えば、補助パッチ情報圧縮部113は、パッチ分解部111から供給される補助パッチ情報を取得する(矢印123)。また、補助パッチ情報圧縮部113は、補正情報生成部119から供給される補正情報を取得する(矢印133)。補助パッチ情報圧縮部113は、取得した補助パッチ情報を符号化(圧縮)し、補助パッチ情報の符号化データを生成する。また、補助パッチ情報圧縮部113は、取得した補正情報を符号化(圧縮)して補正情報の符号化データを生成し、その補正情報の符号化データを、補助パッチ情報の符号化データに含める。補助パッチ情報圧縮部113は、このように生成した補助パッチ情報の符号化データをマルチプレクサ117に供給する(矢印126)。
 ビデオ符号化部114は、ジオメトリビデオフレームの符号化に関する処理を行う。例えば、ビデオ符号化部114は、パッキング部112から供給されるジオメトリビデオフレームを取得する(矢印124)。また、ビデオ符号化部114は、その取得したジオメトリビデオフレームを、例えばAVCやHEVC等の任意の2次元画像用の符号化方法により符号化し、ジオメトリビデオフレームの符号化データを生成する。ビデオ符号化部114は、生成したジオメトリビデオフレームの符号化データをマルチプレクサ117に供給する(矢印127)。また、ビデオ符号化部114は、そのジオメトリビデオフレームの符号化データを復号部118に供給する(矢印134)。
 ビデオ符号化部115は、カラービデオフレームの符号化に関する処理を行う。例えば、ビデオ符号化部115は、パッキング部112から供給されるカラービデオフレームを取得する(矢印124)。また、ビデオ符号化部115は、復号部118から供給される、復号されたジオメトリビデオフレームを取得する(矢印135)。そして、ビデオ符号化部115は、その取得したカラービデオフレームを、取得したジオメトリビデオフレームを用いてリカラーし、属性情報を復号後の位置情報に対応させる。つまり、ビデオ符号化部115は、符号化におけるスムーシングにより更新された位置情報に属性情報を対応させる。また、ビデオ符号化部115は、このようにリカラーしたカラービデオフレームを、例えばAVCやHEVC等の任意の2次元画像用の符号化方法により符号化し、カラービデオフレームの符号化データを生成する。ビデオ符号化部115は、生成したカラービデオフレームの符号化データをマルチプレクサ117に供給する(矢印128)。
 OMap符号化部116は、オキュパンシーマップのビデオフレームの符号化に関する処理を行う。例えば、OMap符号化部116は、パッキング部112から供給される1x1精度のオキュパンシーマップを取得する(矢印124)。OMap符号化部116は、その取得した1x1精度のオキュパンシーマップを低精度化し、NxN精度のオキュパンシーマップを生成する。そして、OMap符号化部116は、生成したNxN精度のオキュパンシーマップを、例えば算術符号化等の任意の符号化方法により符号化し、NxN精度のオキュパンシーマップの符号化データを生成する。また、OMap符号化部116は、生成したNxN精度のオキュパンシーマップの符号化データを、マルチプレクサ117に供給する(矢印129)。さらに、また、OMap符号化部116は、その符号化データを、復号部118にも供給する(矢印131)。
 マルチプレクサ117は、多重化に関する処理を行う。例えば、マルチプレクサ117は、補助パッチ情報圧縮部113から供給される補助パッチ情報の符号化データを取得する(矢印126)。また、例えば、マルチプレクサ117は、パッキング部112から供給されるパッキングに関する制御情報を取得する(矢印125)。また、例えば、マルチプレクサ117は、ビデオ符号化部114から供給されるジオメトリビデオフレームの符号化データを取得する(矢印127)。また、例えば、マルチプレクサ117は、ビデオ符号化部115から供給されるカラービデオフレームの符号化データを取得する(矢印128)。また、例えば、マルチプレクサ117は、OMap符号化部116から供給されるオキュパンシーマップの符号化データを取得する(矢印129)。
 マルチプレクサ117は、取得したそれらの情報を多重化して、ビットストリームを生成する。マルチプレクサ117は、その生成したビットストリームを符号化装置100の外部に出力する。
 復号部118は、以上のように生成される符号化データの復号に関する処理を行う。例えば、復号部118は、OMap符号化部116から供給されるNxN精度のオキュパンシーマップの符号化データを取得する(矢印131)。また、復号部118は、ビデオ符号化部114から供給されるジオメトリビデオフレームの符号化データを取得する(矢印134)。そして、復号部118は、後述する復号装置200と同様の構成を有し、同様の処理を行う。例えば、復号部118は、NxN精度のオキュパンシーマップの符号化データを復号し、NxN精度のオキュパンシーマップを生成する。復号部118は、そのNxN精度のオキュパンシーマップを、補正情報生成部119に供給する(矢印132)。また、復号部118は、ジオメトリビデオフレームの符号化データを復号し、ジオメトリビデオフレームを生成する。復号部118は、そのジオメトリビデオフレームをビデオ符号化部115に供給する(矢印135)。
 補正情報生成部119は、2次元画像を表す2Dデータを用いて再構築する3次元構造を表す3Dデータの補正に関する情報である補正情報の生成に関する処理を行う。例えば、補正情報生成部119は、パッキング部112から供給される1x1精度のオキュパンシーマップを取得する(矢印124)。また、補正情報生成部119は、復号部118から供給されるNxN精度のオキュパンシーマップを取得する(矢印132)。さらに、補正情報生成部119は、外部(例えばユーザ等)から入力される余り量の設定を取得する(図示せず)。補正情報生成部119は、それらの情報に基づいて、補正情報を生成する。例えば、補正情報生成部119は、3Dデータの、オキュパンシーマップによって拡大された部分である余白の補正に関する情報を含む補正情報を生成する。補正情報生成部119は、生成した補正情報を補助パッチ情報圧縮部113に供給する(矢印133)。
 このようにすることにより、符号化装置100は、復号側において、この補正情報に基づいて3Dデータを補正させるようにことができる。これにより、3Dデータの劣化を抑制することができ、表示用画像の主観画質の低減を抑制することができる。
 なお、これらの処理部(パッチ分解部111乃至補正情報生成部119)は、任意の構成を有する。例えば、各処理部が、上述の処理を実現する論理回路により構成されるようにしてもよい。また、各処理部が、例えばCPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等を有し、それらを用いてプログラムを実行することにより、上述の処理を実現するようにしてもよい。もちろん、各処理部が、その両方の構成を有し、上述の処理の一部を論理回路により実現し、他を、プログラムを実行することにより実現するようにしてもよい。各処理部の構成は互いに独立していてもよく、例えば、一部の処理部が上述の処理の一部を論理回路により実現し、他の一部の処理部がプログラムを実行することにより上述の処理を実現し、さらに他の処理部が論理回路とプログラムの実行の両方により上述の処理を実現するようにしてもよい。
  <補正情報生成部>
 図7は、補正情報生成部119の主な構成例を示すブロック図である。図7に示されるように、補正情報生成部119は、タイプ設定部151および削り量設定部152を有する。
 タイプ設定部151は、余白の削り方(余白の補正のタイプ)を設定する。例えば、タイプ設定部151は、予め用意された「余白の削り方のパタン」の候補の中から最適なパタンを選択する。例えば、タイプ設定部151は、上述したようなオキュパンシーマップの比較結果や余り量の設定に基づいて、このようなパタンの選択(タイプの選択)を行う。
 削り量設定部152は、余白の補正量(余白をどの程度補正するか)を設定する。例えば、削り量設定部152は、余白の削り量(余白をどの程度削るか)を設定する。また、例えば、削り量設定部152は、余白の増加量(余白をどの程度増やすか)を設定する。削り量設定部152は、上述したようなオキュパンシーマップの比較結果や余り量の設定に基づいて、このような補正量の設定を行う。
 補正情報生成部119は、以上のように設定された余白の補正のタイプや補正量を示す情報を、補正情報として補助パッチ情報圧縮部113に供給する。
  <符号化処理の流れ>
 このような符号化装置100により実行される処理について説明する。最初に、符号化処理の流れの例を、図8のフローチャートを参照して説明する。
 符号化処理が開始されると、符号化装置100のパッチ分解部111は、ステップS101において、パッチ分解処理を実行し、3Dデータをパッチに分解し、各パッチのデータを2次元平面に投影する。
 ステップS102において、パッキング部112は、パッチ分解部111によりパッチ毎に2次元平面に投影された3Dデータをパッキングし、ジオメトリビデオフレームやカラービデオフレームを生成する。また、パッキング部112は、1x1精度のオキュパンシーマップを生成する。
 ステップS103において、OMap符号化部116は、ステップS102において生成された1x1精度のオキュパンシーマップを低精度化してNxN精度のオキュパンシーマップを生成し、そのNxN精度のオキュパンシーマップを符号化してNxN精度のオキュパンシーマップの符号化データを生成する。
 ステップS104において、復号部118は、ステップS103において生成されたNxN精度のオキュパンシーマップの符号化データを復号し、NxN精度のオキュパンシーマップを生成する。
 ステップS105において、補正情報生成部119は、補正情報生成処理を実行し、ステップS102において生成された1x1精度のオキュパンシーマップ、ステップS104において生成された復号後のNxN精度のオキュパンシーマップ、および余り量に基づいて、補正情報を生成する。この補正情報生成処理については後述する。
 ステップS106において、パッキング部112は、ステップS102において生成されたジオメトリビデオフレームのディレーションを行う。
 ステップS107において、ビデオ符号化部114は、ステップS106においてディレーションが行われたジオメトリビデオフレームを符号化し、ジオメトリビデオフレームの符号化データを生成する。
 ステップS108において、ビデオ符号化部114は、ステップS107において生成されたジオメトリビデオフレームの符号化データを復号し、復号後のジオメトリビデオフレームを生成する。
 ステップS109において、パッキング部112は、ステップS102において生成されたカラービデオフレームのディレーションを行う。
 ステップS110において、ビデオ符号化部115は、ステップS109においてディレーションが行われたカラービデオフレームについて、ステップS108において生成された復号後のジオメトリビデオフレームを用いてリカラー処理を行い、属性情報を、復号後の位置情報に対応させる。
 ステップS111において、ビデオ符号化部115は、ステップS110においてリカラー処理が行われたカラービデオフレームを符号化し、カラービデオフレームの符号化データを生成する。
 ステップS112において、補助パッチ情報圧縮部113は、ステップS105の処理により生成された補正情報を含む補助パッチ情報を符号化(圧縮)し、符号化データを生成する。
 ステップS113において、マルチプレクサ117は、以上のように生成された各種情報を多重化し、これらの情報を含むビットストリームを生成する。ステップS114において、マルチプレクサ117は、ステップS113の処理により生成したビットストリームを符号化装置100の外部に出力する。ステップS113の処理が終了すると、符号化処理が終了する。
  <補正情報生成処理の流れ>
 図9のフローチャートを参照して、図8のステップS105において実行される補正情報生成処理の流れの例を説明する。補正情報生成処理が開始されると、補正情報生成部119のタイプ設定部151は、ステップS131において、余白の補正のタイプを設定する。ステップS132において、削り量設定部152は、その余白の補正量(例えば削り量)を設定する。ステップS133において、補正情報生成部119は、それらの情報を補正情報として設定し、補助パッチ情報圧縮部113に供給する。
 ステップS133の処理が終了すると補正情報生成処理が終了し、処理は図8に戻る。
 以上のように各処理を実行することにより、符号化装置100は、3Dデータの補正情報を生成し、復号側において、その補正情報に基づいて3Dデータを補正させるようにことができる。これにより、3Dデータの劣化を抑制することができ、表示用画像の主観画質の低減を抑制することができる。
 <3.第2の実施の形態>
  <復号装置>
 図10は、本技術を適用した画像処理装置の一態様である復号装置の構成の一例を示すブロック図である。図10に示される復号装置200は、ポイントクラウドのような3Dデータが2次元平面に投影されて符号化された符号化データを、2次元画像用の復号方法により復号し、3Dデータを再構築する装置(ビデオベースドアプローチを適用した復号装置)である。この復号装置200は、図6の符号化装置100に対応する復号装置であり、符号化装置100により生成されたビットストリームを復号して3Dデータを再構築することができる。
 なお、図10においては、処理部やデータの流れ等の主なものを示しており、図10に示されるものが全てとは限らない。つまり、復号装置200において、図10においてブロックとして示されていない処理部が存在したり、図10において矢印等として示されていない処理やデータの流れが存在したりしてもよい。これは、復号装置200内の処理部等を説明する他の図においても同様である。
 図10に示されるように復号装置200は、デマルチプレクサ211、補助パッチ情報復号部212、ビデオ復号部213、ビデオ復号部214、OMap復号部215、アンパッキング部216、および3D再構築部217を有する。
 デマルチプレクサ211は、データの逆多重化に関する処理を行う。例えば、デマルチプレクサ211は、復号装置200に入力されるビットストリームを取得する。このビットストリームは、例えば、符号化装置100より供給される。デマルチプレクサ211は、このビットストリームを逆多重化し、補助パッチ情報の符号化データを抽出し、それを補助パッチ情報復号部212に供給する。また、デマルチプレクサ211は、逆多重化により、ビットストリームから、ジオメトリビデオフレームの符号化データを抽出し、それをビデオ復号部213に供給する。さらに、デマルチプレクサ211は、逆多重化により、ビットストリームから、カラービデオフレームの符号化データを抽出し、それをビデオ復号部214に供給する。また、デマルチプレクサ211は、逆多重化により、ビットストリームから、オキュパンシーマップの符号化データを抽出し、それをOMap復号部215に供給する。また、デマルチプレクサ211は、逆多重化により、ビットストリームからパッキングに関する制御情報を抽出し、それをアンパッキング部216に供給する。
 補助パッチ情報復号部212は、補助パッチ情報の符号化データ(補正情報の符号化データを含む)の復号に関する処理を行う。例えば、補助パッチ情報復号部212は、デマルチプレクサ211から供給される補助パッチ情報の符号化データを取得する。また、補助パッチ情報復号部212は、その符号化データを復号し、補助パッチ情報や補正情報を生成する。この補正情報は、符号化側において生成され、符号化側から伝送された情報であり、例えば、3Dデータの、オキュパンシーマップによって拡大された部分である余白の補正に関する情報を含む。補助パッチ情報復号部212は、その補助パッチ情報を3D再構築部217に供給する。
 ビデオ復号部213は、ジオメトリビデオフレームの符号化データの復号に関する処理を行う。例えば、ビデオ復号部213は、デマルチプレクサ211から供給されるジオメトリビデオフレームの符号化データを取得する。また、例えば、ビデオ復号部213は、その符号化データを復号し、ジオメトリビデオフレームを生成する。ビデオ復号部213は、そのジオメトリビデオフレームを、アンパッキング部216に供給する。
 ビデオ復号部214は、カラービデオフレームの符号化データの復号に関する処理を行う。例えば、ビデオ復号部214は、デマルチプレクサ211から供給されるカラービデオフレームの符号化データを取得する。また、例えば、ビデオ復号部214は、その符号化データを復号し、カラービデオフレームを生成する。ビデオ復号部214は、そのカラービデオフレームを、アンパッキング部216に供給する。
 OMap復号部215は、オキュパンシーマップの符号化データの復号に関する処理を行う。例えば、OMap復号部215は、デマルチプレクサ211から供給されるオキュパンシーマップの符号化データを取得する。また、例えば、OMap復号部215は、その符号化データを復号し、オキュパンシーマップを生成する。OMap復号部215は、そのオキュパンシーマップを、アンパッキング部216に供給する。
 アンパッキング部216は、アンパッキングに関する処理を行う。例えば、アンパッキング部216は、デマルチプレクサ211から供給されるパッキングに関する制御情報を取得する。また、アンパッキング部216は、ビデオ復号部213から供給されるジオメトリビデオフレームを取得する。さらに、アンパッキング部216は、ビデオ復号部214から供給されるカラービデオフレームを取得する。また、アンパッキング部216は、OMap復号部215から供給されるオキュパンシーマップを取得する。アンパッキング部216は、取得した制御情報やオキュパンシーマップに基づいてジオメトリビデオフレームやカラービデオフレームをアンパッキングし、位置情報や属性情報のパッチ等を抽出する。アンパッキング部216は、その位置情報や属性情報のパッチ等を3D再構築部217に供給する。
 3D再構築部217は、3Dデータの再構築に関する処理を行う。例えば、3D再構築部217は、補助パッチ情報復号部212から供給される補助パッチ情報および補正情報を取得する。また、3D再構築部217は、アンパッキング部216から供給される位置情報や属性情報のパッチ等を取得する。さらに、3D再構築部217は、それらの情報に基づいて、3Dデータ(例えばポイントクラウド(Point Cloud))を再構築する。例えば、3D再構築部217は、補助パッチ情報や位置情報や属性情報のパッチ等に基づいて3Dデータを再構築し、さらに、補正情報に基づいてその3Dデータを補正する。3D再構築部217は、このような処理により得られた3Dデータを復号装置200の外部に出力する。
 この3Dデータは、例えば、表示部に供給されてその画像が表示されたり、記録媒体に記録されたり、通信を介して他の装置に供給されたりする。
 このようにすることにより、復号装置200は、符号化側から供給された補正情報に基づいて3Dデータを補正するようにことができる。これにより、3Dデータの劣化を抑制することができ、表示用画像の主観画質の低減を抑制することができる。
 なお、これらの処理部(デマルチプレクサ211乃至3D再構築部217)は、任意の構成を有する。例えば、各処理部が、上述の処理を実現する論理回路により構成されるようにしてもよい。また、各処理部が、例えばCPU、ROM、RAM等を有し、それらを用いてプログラムを実行することにより、上述の処理を実現するようにしてもよい。もちろん、各処理部が、その両方の構成を有し、上述の処理の一部を論理回路により実現し、他を、プログラムを実行することにより実現するようにしてもよい。各処理部の構成は互いに独立していてもよく、例えば、一部の処理部が上述の処理の一部を論理回路により実現し、他の一部の処理部がプログラムを実行することにより上述の処理を実現し、さらに他の処理部が論理回路とプログラムの実行の両方により上述の処理を実現するようにしてもよい。
  <3D再構築部>
 図11は、図10の3D再構築部217の主な構成例を示すブロック図である。図11に示されるように、3D再構築部217は、補正設定部251および再構築部252を有する。
 補正設定部251は、3Dデータの補正の制御に関する処理を行う。例えば、補正設定部251は、OMap復号部215から供給される復号後のNxN精度のオキュパンシーマップを取得する。また、補正設定部251は、補助パッチ情報復号部212から供給される補正情報を取得する。
 この補正情報が、例えば、設定された余白の削り方(余白の補正のタイプ)を示す情報を含むようにしてもよい。例えば、この補正情報が、予め用意された「余白の削り方のパタン」の候補の中から選択された最適なパタンを示す情報を含むようにしてもよい。
 また、この補正情報が、例えば、設定された余白の補正量(例えば、削り量若しくは増加量、またはその両方)を示す情報を含むようにしてもよい。
 補正設定部251は、これらの情報に基づいて、どのように補正を行うかを設定する。補正設定部251は、その設定通りの補正を実現するため制御情報を生成し、その制御情報を再構築部252に供給する。
 再構築部252は、3Dデータの再構築に関する処理を行う。例えば、再構築部252は、アンパッキング部216から供給されるジオメトリビデオフレームから抽出された位置情報や、アンパッキング部216から供給されるカラービデオフレームから抽出した属性情報に基づいて、3Dデータを再構築する。また、再構築部252は、補正設定部251の制御に従って(補正設定部251から供給された制御情報に従って)3Dデータを補正する。再構築部252は、生成(補正)した3Dデータを復号装置200の外部に出力する。
  <復号処理の流れ>
 このような復号装置200により実行される処理について説明する。最初に、復号処理の流れの例を、図12のフローチャートを参照して説明する。
 復号処理が開始されると、復号装置200のデマルチプレクサ211は、ステップS201において、ビットストリームを逆多重化する。
 ステップS202において、補助パッチ情報復号部212は、ステップS201の処理によりビットストリームから抽出された補助パッチ情報の符号化データを復号し、補助パッチ情報や補正情報を生成する。
 ステップS203において、OMap復号部215は、ステップS201の処理によりビットストリームから抽出されたオキュパンシーマップの符号化データを復号する。
 ステップS204において、ビデオ復号部213は、ステップS201の処理によりビットストリームから抽出されたジオメトリビデオフレームの符号化データを復号し、ジオメトリビデオフレームを生成する。
 ステップS205において、ビデオ復号部214は、ステップS201の処理によりビットストリームから抽出されたカラービデオフレームの符号化データを復号し、カラービデオフレームを生成する。
 ステップS206において、アンパッキング部216は、パッキングに関する制御情報やオキュパンシーマップに基づいて、ジオメトリビデオフレームやカラービデオフレームをそれぞれアンパッキングする。
 ステップS207において、3D再構築部217は、3Dデータ再構築処理を実行し、ステップS202において生成された補助パッチ情報と、ステップS203乃至ステップS205において生成された各種情報とに基づいて、例えばポイントクラウド等の3Dデータを再構築する。また、3D再構築部217は、ステップS202において生成された補正情報に基づいて、再構築した3Dデータを補正する。ステップS207の処理が終了すると復号処理が終了する。
  <3Dデータ再構築処理の流れ>
 次に、図12のステップS207において実行される3Dデータ再構築処理の流れの例を、図13のフローチャートを参照して説明する。
 3Dデータ再構築処理が開始されると、補正設定部251は、ステップS221において、復号後のNxN精度のオキュパンシーマップと補正情報とに基づいて、3Dデータ再構築に関する補正方法を設定し、制御情報を生成する。
 ステップS222において、再構築部252は、位置情報(ジオメトリデータ)および属性情報(ピクチャデータ)、並びに、ステップS221において設定した補正方法を用いてポイントクラウド等の3Dデータを再構築する。より具体的には、再構築部252は、位置情報(ジオメトリデータ)および属性情報(ピクチャデータ)、並びに、補助パッチ情報等に基づいて、3Dデータを再構築する。そして、再構築部252は、補正設定部251から供給される制御情報に従って、再構築した3Dデータを補正する。
 以上のように各処理を実行することにより、復号装置200は、符号化側から供給された補正情報に基づいて3Dデータを補正するようにことができる。これにより、3Dデータの劣化を抑制することができ、表示用画像の主観画質の低減を抑制することができる。
 <4.付記>
  <制御情報>
 以上の各実施の形態において説明した本技術に関する制御情報を符号化側から復号側に伝送するようにしてもよい。例えば、上述した本技術を適用することを許可(または禁止)するか否かを制御する制御情報(例えばenabled_flag)を伝送するようにしてもよい。また、例えば、上述した本技術を適用することを許可(または禁止)する範囲(例えばブロックサイズの上限若しくは下限、またはその両方、スライス、ピクチャ、シーケンス、コンポーネント、ビュー、レイヤ等)を指定する制御情報を伝送するようにしてもよい。
  <コンピュータ>
 上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここでコンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ等が含まれる。
 図14は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 図14に示されるコンピュータ900において、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、RAM(Random Access Memory)903は、バス904を介して相互に接続されている。
 バス904にはまた、入出力インタフェース910も接続されている。入出力インタフェース910には、入力部911、出力部912、記憶部913、通信部914、およびドライブ915が接続されている。
 入力部911は、例えば、キーボード、マウス、マイクロホン、タッチパネル、入力端子などよりなる。出力部912は、例えば、ディスプレイ、スピーカ、出力端子などよりなる。記憶部913は、例えば、ハードディスク、RAMディスク、不揮発性のメモリなどよりなる。通信部914は、例えば、ネットワークインタフェースよりなる。ドライブ915は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディア921を駆動する。
 以上のように構成されるコンピュータでは、CPU901が、例えば、記憶部913に記憶されているプログラムを、入出力インタフェース910およびバス904を介して、RAM903にロードして実行することにより、上述した一連の処理が行われる。RAM903にはまた、CPU901が各種の処理を実行する上において必要なデータなども適宜記憶される。
 コンピュータが実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア921に記録して適用することができる。その場合、プログラムは、リムーバブルメディア921をドライブ915に装着することにより、入出力インタフェース910を介して、記憶部913にインストールすることができる。
 また、このプログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することもできる。その場合、プログラムは、通信部914で受信し、記憶部913にインストールすることができる。
 その他、このプログラムは、ROM902や記憶部913に、あらかじめインストールしておくこともできる。
  <本技術の適用対象>
 以上においては、ポイントクラウドデータの符号化・復号に本技術を適用する場合について説明したが、本技術は、これらの例に限らず、任意の規格の3Dデータの符号化・復号に対して適用することができる。つまり、上述した本技術と矛盾しない限り、符号化・復号方式等の各種処理、並びに、3Dデータやメタデータ等の各種データの仕様は任意である。また、本技術と矛盾しない限り、上述した一部の処理や仕様を省略してもよい。
 また、以上においては、本技術の適用例として符号化装置100および復号装置200について説明したが、本技術は、任意の構成に適用することができる。
 例えば、本技術は、衛星放送、ケーブルTVなどの有線放送、インターネット上での配信、およびセルラー通信による端末への配信などにおける送信機や受信機(例えばテレビジョン受像機や携帯電話機)、または、光ディスク、磁気ディスクおよびフラッシュメモリなどの媒体に画像を記録したり、これら記憶媒体から画像を再生したりする装置(例えばハードディスクレコーダやカメラ)などの、様々な電子機器に適用され得る。
 また、例えば、本技術は、システムLSI(Large Scale Integration)等としてのプロセッサ(例えばビデオプロセッサ)、複数のプロセッサ等を用いるモジュール(例えばビデオモジュール)、複数のモジュール等を用いるユニット(例えばビデオユニット)、または、ユニットにさらにその他の機能を付加したセット(例えばビデオセット)等、装置の一部の構成として実施することもできる。
 また、例えば、本技術は、複数の装置により構成されるネットワークシステムにも適用することもできる。例えば、本技術を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングとして実施するようにしてもよい。例えば、コンピュータ、AV(Audio Visual)機器、携帯型情報処理端末、IoT(Internet of Things)デバイス等の任意の端末に対して、画像(動画像)に関するサービスを提供するクラウドサービスにおいて本技術を実施するようにしてもよい。
 なお、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、全ての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、および、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
  <本技術を適用可能な分野・用途>
 本技術を適用したシステム、装置、処理部等は、例えば、交通、医療、防犯、農業、畜産業、鉱業、美容、工場、家電、気象、自然監視等、任意の分野に利用することができる。また、その用途も任意である。
  <その他>
 なお、本明細書において「フラグ」とは、複数の状態を識別するための情報であり、真(1)または偽(0)の2状態を識別する際に用いる情報だけでなく、3以上の状態を識別することが可能な情報も含まれる。したがって、この「フラグ」が取り得る値は、例えば1/0の2値であってもよいし、3値以上であってもよい。すなわち、この「フラグ」を構成するbit数は任意であり、1bitでも複数bitでもよい。また、識別情報(フラグも含む)は、その識別情報をビットストリームに含める形だけでなく、ある基準となる情報に対する識別情報の差分情報をビットストリームに含める形も想定されるため、本明細書においては、「フラグ」や「識別情報」は、その情報だけではなく、基準となる情報に対する差分情報も包含する。
 また、符号化データ(ビットストリーム)に関する各種情報(メタデータ等)は、符号化データに関連づけられていれば、どのような形態で伝送または記録されるようにしてもよい。ここで、「関連付ける」という用語は、例えば、一方のデータを処理する際に他方のデータを利用し得る(リンクさせ得る)ようにすることを意味する。つまり、互いに関連付けられたデータは、1つのデータとしてまとめられてもよいし、それぞれ個別のデータとしてもよい。例えば、符号化データ(画像)に関連付けられた情報は、その符号化データ(画像)とは別の伝送路上で伝送されるようにしてもよい。また、例えば、符号化データ(画像)に関連付けられた情報は、その符号化データ(画像)とは別の記録媒体(または同一の記録媒体の別の記録エリア)に記録されるようにしてもよい。なお、この「関連付け」は、データ全体でなく、データの一部であってもよい。例えば、画像とその画像に対応する情報とが、複数フレーム、1フレーム、またはフレーム内の一部分などの任意の単位で互いに関連付けられるようにしてもよい。
 なお、本明細書において、「合成する」、「多重化する」、「付加する」、「一体化する」、「含める」、「格納する」、「入れ込む」、「差し込む」、「挿入する」等の用語は、例えば符号化データとメタデータとを1つのデータにまとめるといった、複数の物を1つにまとめることを意味し、上述の「関連付ける」の1つの方法を意味する。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、1つの装置(または処理部)として説明した構成を分割し、複数の装置(または処理部)として構成するようにしてもよい。逆に、以上において複数の装置(または処理部)として説明した構成をまとめて1つの装置(または処理部)として構成されるようにしてもよい。また、各装置(または各処理部)の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置(または処理部)の構成の一部を他の装置(または他の処理部)の構成に含めるようにしてもよい。
 また、例えば、上述したプログラムは、任意の装置において実行されるようにしてもよい。その場合、その装置が、必要な機能(機能ブロック等)を有し、必要な情報を得ることができるようにすればよい。
 また、例えば、1つのフローチャートの各ステップを、1つの装置が実行するようにしてもよいし、複数の装置が分担して実行するようにしてもよい。さらに、1つのステップに複数の処理が含まれる場合、その複数の処理を、1つの装置が実行するようにしてもよいし、複数の装置が分担して実行するようにしてもよい。換言するに、1つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を1つのステップとしてまとめて実行することもできる。
 また、例えば、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。
 また、例えば、本技術に関する複数の技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部または全部を、他の実施の形態において説明した本技術の一部または全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部または全部を、上述していない他の技術と併用して実施することもできる。
 なお、本技術は以下のような構成も取ることができる。
 (1) 2次元画像を表す2Dデータを用いて構築する3次元構造を表す3Dデータの補正に関する情報である補正情報を生成する補正情報生成部と、
 前記補正情報生成部により生成された前記補正情報を符号化する補正情報符号化部と
 を備える画像処理装置。
 (2) 前記補正情報生成部は、1x1精度のオキュパンシーマップと、NxN精度のオキュパンシーマップとに基づいて、前記補正情報を生成する
 (1)に記載の画像処理装置。
 (3) 前記補正情報生成部は、さらに、前記3Dデータの、オキュパンシーマップによって拡大された部分である余白の大きさの設定値である余り量に基づいて、前記補正情報を生成する
 (2)に記載の画像処理装置。
 (4) 前記補正情報は、前記3Dデータの、オキュパンシーマップによって拡大された部分である余白の補正に関する情報を含む
 (1)に記載の画像処理装置。
 (5) 前記余白の補正に関する情報は、前記余白の削り方を示す情報を含む
 (4)に記載の画像処理装置。
 (6) 前記余白の補正に関する情報は、候補の中から選択された前記余白の削り方のパタンを示す情報を含む
 (5)に記載の画像処理装置。
 (7) 前記余白の補正に関する情報は、前記余白の補正量を示す情報を含む
 (4)に記載の画像処理装置。
 (8) 前記余白の補正量を示す情報は、前記余白の削り量を示す情報を含む
 (7)に記載の画像処理装置。
 (9) 前記余白の補正量を示す情報は、前記余白の増加量を示す情報を含む
 (7)に記載の画像処理装置。
 (10) 2次元画像を表す2Dデータを用いて構築する3次元構造を表す3Dデータの補正に関する情報である補正情報を生成し、
 生成された前記補正情報を符号化する
 画像処理方法。
 (11) 2次元画像を表す2Dデータを用いて構築する3次元構造を表す3Dデータの補正に関する情報である補正情報の符号化データを復号する補正情報復号部と、
 前記2Dデータと、前記補正情報復号部により前記補正情報の符号化データが復号されて生成された前記補正情報とを用いて、前記3Dデータを構築する構築部と
 を備える画像処理装置。
 (12) 前記補正情報は、前記3Dデータの、オキュパンシーマップによって拡大された部分である余白の補正に関する情報を含む
 (11)に記載の画像処理装置。
 (13) 前記余白の補正に関する情報は、前記余白の削り方を示す情報を含む
 (12)に記載の画像処理装置。
 (14) 前記余白の補正に関する情報は、候補の中から選択された前記余白の削り方のパタンを示す情報を含む
 (13)に記載の画像処理装置。
 (15) 前記余白の補正に関する情報は、前記余白の補正量を示す情報を含む
 (12)に記載の画像処理装置。
 (16) 前記余白の補正量を示す情報は、前記余白の削り量を示す情報を含む
 (15)に記載の画像処理装置。
 (17) 前記余白の補正量を示す情報は、前記余白の増加量を示す情報を含む
 (15)に記載の画像処理装置。
 (18) 前記2Dデータの符号化データを復号するビデオ復号部をさらに備え、
 前記構築部は、前記ビデオ復号部により復号されて生成された前記2Dデータと、前記補正情報復号部により前記符号化データが復号されて生成された前記補正情報とを用いて、前記3Dデータを構築する
 (11)に記載の画像処理装置。
 (19) オキュパンシーマップの符号化データを復号するOMap復号部をさらに備え、
 前記構築部は、前記2Dデータから前記3Dデータを構築する際に前記OMap復号部により復号されて生成されたオキュパンシーマップにより拡大された部分である余白を、前記補正情報復号部により前記補正情報の符号化データが復号されて生成された前記補正情報を用いて補正する
 (11)に記載の画像処理装置。
 (20) 2次元画像を表す2Dデータを用いて構築する3次元構造を表す3Dデータの補正に関する情報である補正情報の符号化データを復号し、
 前記2Dデータと、前記補正情報の符号化データが復号されて生成された前記補正情報とを用いて、前記3Dデータを構築する
 画像処理方法。
 100 符号化装置, 111 パッチ分解部, 112 パッキング部, 113 補助パッチ情報圧縮部, 114 ビデオ符号化部, 115 ビデオ符号化部, 116 OMap符号化部, 117 マルチプレクサ, 118 復号部, 119 補正情報生成部, 151 タイプ設定部, 152 削り量設定部, 200 復号装置, 211 デマルチプレクサ, 212 補助パッチ情報復号部, 213 ビデオ復号部, 214 ビデオ復号部, 215 OMap復号部, 216 アンパッキング部, 217 3D再構築部, 251 補正設定部, 252 再構築部

Claims (20)

  1.  2次元画像を表す2Dデータを用いて構築する3次元構造を表す3Dデータの補正に関する情報である補正情報を生成する補正情報生成部と、
     前記補正情報生成部により生成された前記補正情報を符号化する補正情報符号化部と
     を備える画像処理装置。
  2.  前記補正情報生成部は、1x1精度のオキュパンシーマップと、NxN精度のオキュパンシーマップとに基づいて、前記補正情報を生成する
     請求項1に記載の画像処理装置。
  3.  前記補正情報生成部は、さらに、前記3Dデータの、オキュパンシーマップによって拡大された部分である余白の大きさの設定値である余り量に基づいて、前記補正情報を生成する
     請求項2に記載の画像処理装置。
  4.  前記補正情報は、前記3Dデータの、オキュパンシーマップによって拡大された部分である余白の補正に関する情報を含む
     請求項1に記載の画像処理装置。
  5.  前記余白の補正に関する情報は、前記余白の削り方を示す情報を含む
     請求項4に記載の画像処理装置。
  6.  前記余白の補正に関する情報は、候補の中から選択された前記余白の削り方のパタンを示す情報を含む
     請求項5に記載の画像処理装置。
  7.  前記余白の補正に関する情報は、前記余白の補正量を示す情報を含む
     請求項4に記載の画像処理装置。
  8.  前記余白の補正量を示す情報は、前記余白の削り量を示す情報を含む
     請求項7に記載の画像処理装置。
  9.  前記余白の補正量を示す情報は、前記余白の増加量を示す情報を含む
     請求項7に記載の画像処理装置。
  10.  2次元画像を表す2Dデータを用いて構築する3次元構造を表す3Dデータの補正に関する情報である補正情報を生成し、
     生成された前記補正情報を符号化する
     画像処理方法。
  11.  2次元画像を表す2Dデータを用いて構築する3次元構造を表す3Dデータの補正に関する情報である補正情報の符号化データを復号する補正情報復号部と、
     前記2Dデータと、前記補正情報復号部により前記補正情報の符号化データが復号されて生成された前記補正情報とを用いて、前記3Dデータを構築する構築部と
     を備える画像処理装置。
  12.  前記補正情報は、前記3Dデータの、オキュパンシーマップによって拡大された部分である余白の補正に関する情報を含む
     請求項11に記載の画像処理装置。
  13.  前記余白の補正に関する情報は、前記余白の削り方を示す情報を含む
     請求項12に記載の画像処理装置。
  14.  前記余白の補正に関する情報は、候補の中から選択された前記余白の削り方のパタンを示す情報を含む
     請求項13に記載の画像処理装置。
  15.  前記余白の補正に関する情報は、前記余白の補正量を示す情報を含む
     請求項12に記載の画像処理装置。
  16.  前記余白の補正量を示す情報は、前記余白の削り量を示す情報を含む
     請求項15に記載の画像処理装置。
  17.  前記余白の補正量を示す情報は、前記余白の増加量を示す情報を含む
     請求項15に記載の画像処理装置。
  18.  前記2Dデータの符号化データを復号するビデオ復号部をさらに備え、
     前記構築部は、前記ビデオ復号部により復号されて生成された前記2Dデータと、前記補正情報復号部により前記符号化データが復号されて生成された前記補正情報とを用いて、前記3Dデータを構築する
     請求項11に記載の画像処理装置。
  19.  オキュパンシーマップの符号化データを復号するOMap復号部をさらに備え、
     前記構築部は、前記2Dデータから前記3Dデータを構築する際に前記OMap復号部により復号されて生成されたオキュパンシーマップにより拡大された部分である余白を、前記補正情報復号部により前記補正情報の符号化データが復号されて生成された前記補正情報を用いて補正する
     請求項11に記載の画像処理装置。
  20.  2次元画像を表す2Dデータを用いて構築する3次元構造を表す3Dデータの補正に関する情報である補正情報の符号化データを復号し、
     前記2Dデータと、前記補正情報の符号化データが復号されて生成された前記補正情報とを用いて、前記3Dデータを構築する
     画像処理方法。
PCT/JP2019/050453 2019-01-07 2019-12-24 画像処理装置および方法 WO2020145117A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP19909331.1A EP3905696A4 (en) 2019-01-07 2019-12-24 IMAGE PROCESSING DEVICE AND METHOD
KR1020217019425A KR20210109538A (ko) 2019-01-07 2019-12-24 화상 처리 장치 및 방법
JP2020565683A JP7396302B2 (ja) 2019-01-07 2019-12-24 画像処理装置および方法
CN201980087460.3A CN113261297A (zh) 2019-01-07 2019-12-24 图像处理装置和方法
US17/296,002 US11915390B2 (en) 2019-01-07 2019-12-24 Image processing device and method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-000627 2019-01-07
JP2019000627 2019-01-07

Publications (1)

Publication Number Publication Date
WO2020145117A1 true WO2020145117A1 (ja) 2020-07-16

Family

ID=71520351

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/050453 WO2020145117A1 (ja) 2019-01-07 2019-12-24 画像処理装置および方法

Country Status (6)

Country Link
US (1) US11915390B2 (ja)
EP (1) EP3905696A4 (ja)
JP (1) JP7396302B2 (ja)
KR (1) KR20210109538A (ja)
CN (1) CN113261297A (ja)
WO (1) WO2020145117A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023095625A1 (ja) * 2021-11-24 2023-06-01 ソニーグループ株式会社 情報処理装置および方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020145117A1 (ja) * 2019-01-07 2020-07-16 ソニー株式会社 画像処理装置および方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018130491A1 (en) * 2017-01-13 2018-07-19 Thomson Licensing Method, apparatus and stream for immersive video format
US20180268570A1 (en) * 2017-03-16 2018-09-20 Samsung Electronics Co., Ltd. Point cloud and mesh compression using image/video codecs
WO2019055772A1 (en) * 2017-09-14 2019-03-21 Apple Inc. COMPRESSION OF CLOUD OF POINTS

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003018602A (ja) * 2001-04-24 2003-01-17 Monolith Co Ltd 画像データ符号化および復号のための方法および装置
CN103499585B (zh) * 2013-10-22 2015-07-29 常州工学院 基于机器视觉的非连续性锂电池薄膜缺陷检测方法及其装置
EP3376761B1 (en) * 2015-11-11 2021-10-13 Sony Group Corporation Image processing device and image processing method
US10909725B2 (en) * 2017-09-18 2021-02-02 Apple Inc. Point cloud compression
US10867414B2 (en) * 2018-04-10 2020-12-15 Apple Inc. Point cloud attribute transfer algorithm
US11412198B2 (en) * 2018-05-31 2022-08-09 Intel Corporation Bit depth coding mechanism
US11044478B2 (en) * 2018-07-02 2021-06-22 Apple Inc. Compression with multi-level encoding
BR112021000044A2 (pt) * 2018-07-11 2021-03-30 Sony Corporation Aparelho e método de processamento de imagem
US11138762B2 (en) * 2018-07-11 2021-10-05 Samsung Electronics Co., Ltd. Visual quality of video based point cloud compression using one or more additional patches
MX2020013705A (es) * 2018-07-11 2021-03-02 Sony Corp Aparato de procesamiento de imagen y metodo de procesamiento de imagen.
US10887574B2 (en) * 2018-07-31 2021-01-05 Intel Corporation Selective packing of patches for immersive video
US11178373B2 (en) * 2018-07-31 2021-11-16 Intel Corporation Adaptive resolution of point cloud and viewpoint prediction for video streaming in computing environments
US20200045288A1 (en) * 2018-07-31 2020-02-06 Intel Corporation Six degree of freedom video transcoding mechanism
US10922832B2 (en) * 2018-07-31 2021-02-16 Intel Corporation Removal of projection noise and point-based rendering
CN110944187B (zh) * 2018-09-19 2022-05-10 华为技术有限公司 点云编码方法和编码器
US11057631B2 (en) * 2018-10-10 2021-07-06 Intel Corporation Point cloud coding standard conformance definition in computing environments
US10735766B2 (en) * 2018-12-17 2020-08-04 Sony Corporation Point cloud auxiliary information coding
WO2020145117A1 (ja) * 2019-01-07 2020-07-16 ソニー株式会社 画像処理装置および方法
CN113615199A (zh) * 2019-03-20 2021-11-05 交互数字Vc控股公司 处理点云的缺失点

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018130491A1 (en) * 2017-01-13 2018-07-19 Thomson Licensing Method, apparatus and stream for immersive video format
US20180268570A1 (en) * 2017-03-16 2018-09-20 Samsung Electronics Co., Ltd. Point cloud and mesh compression using image/video codecs
WO2019055772A1 (en) * 2017-09-14 2019-03-21 Apple Inc. COMPRESSION OF CLOUD OF POINTS

Non-Patent Citations (12)

* Cited by examiner, † Cited by third party
Title
"Advanced video coding for generic audiovisual services", TELECOMMUNICATION STANDARDIZATION SECTOR OF ITU (INTERNATIONAL TELECOMMUNICATION UNION, April 2017 (2017-04-01)
"High efficiency video coding", TELECOMMUNICATION STANDARDIZATION SECTOR OF ITU (INTERNATIONAL TELECOMMUNICATION UNION, December 2016 (2016-12-01)
CAO, KERNING ET AL.: "PATCH-AWARE AVERAGING FILTER FOR 1-20 SCALING IN POINT CLOUD COMPRESSION", 2018 IEEE GLOBAL CONFERENCE ON SIGNAL AND INFORMATION PROCESSING (GLOBALSIP, November 2018 (2018-11-01), pages 390 - 394, XP033520649, DOI: 10.1109/GlobalSIP.2018.8646392 *
DEJUN ZHANGZHENG LIUVLADYSLAV ZAKHARCHENKOJIANLE CHENKANGYING CAI: "VPCC] New proposal of an adaptive hole filling method for reconstructed point cloud", ISO/IEC JTC1/SC29/WG11 MPEG2018/M44767, October 2018 (2018-10-01)
DEJUN ZHANGZHENG LIUVLADYSLAV ZAKHARCHENKOJIANLE CHENKANGYING CAI: "VPCC] New proposal of an adaptive outlier removing method", ISO/IEC JTC1/SC29/WG11 MPEG2018/M44766, October 2018 (2018-10-01)
JIANLE CHENELENA ALSHINAGARY J. SULLIVANJENS-RAINERJILL BOYCE: "Algorithm Description of Joint Exploration Test Model 4", JVET-G1001 V1, JOINT VIDEO EXPLORATION TEAM (JVET) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11 7TH MEETING, 13 July 2017 (2017-07-13)
K. MAMMOU: "PCC Test Model Category 2 vO", N17248 MPEG OUTPUT DOCUMENT, October 2017 (2017-10-01)
K. MAMMOU: "Video-based and Hierarchical Approaches Point Cloud Compression", MPEG M41649, October 2017 (2017-10-01)
R. MEKURIA, DESIGN, IMPLEMENTATION AND EVALUATION OF A POINT CLOUD CODEC FOR TELE-IMMERSIVE VIDEO
See also references of EP3905696A4
TIM GOLLAREINHARD KLEIN: "Real-time Point Cloud Compression", 2015, IEEE
VIDA FAKOUR SEVOM ET AL.: "Geometry-Guided 3D Data Interpolation for Projection-Based Dynamic Point Cloud Coding", 2018 7TH EUROPEAN WORKSHOP ON VISUAL INFORMATION PROCESSING (EUVIP, 26 November 2018 (2018-11-26), pages 1 - 6, XP033499752, DOI: 10.1109/EUVIP.2018.8611760 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023095625A1 (ja) * 2021-11-24 2023-06-01 ソニーグループ株式会社 情報処理装置および方法

Also Published As

Publication number Publication date
EP3905696A4 (en) 2022-06-08
US11915390B2 (en) 2024-02-27
JPWO2020145117A1 (ja) 2021-11-18
US20220012849A1 (en) 2022-01-13
KR20210109538A (ko) 2021-09-06
JP7396302B2 (ja) 2023-12-12
CN113261297A (zh) 2021-08-13
EP3905696A1 (en) 2021-11-03

Similar Documents

Publication Publication Date Title
JP7327166B2 (ja) 画像処理装置および方法
US11741575B2 (en) Image processing apparatus and image processing method
US11611774B2 (en) Image processing apparatus and image processing method for 3D data compression
US20210027505A1 (en) Image processing apparatus and method
KR20200140256A (ko) 화상 처리 장치 및 방법
WO2020026846A1 (ja) 画像処理装置および方法
US11399189B2 (en) Image processing apparatus and method
WO2020145117A1 (ja) 画像処理装置および方法
WO2020071101A1 (ja) 画像処理装置および方法
WO2021193088A1 (ja) 画像処理装置および方法
KR20210134041A (ko) 포인트 클라우드의 중간 포인트들의 프로세싱
WO2020137603A1 (ja) 画像処理装置および方法
US20230370636A1 (en) Image processing device and method
WO2022050088A1 (ja) 画像処理装置および方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19909331

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020565683

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019909331

Country of ref document: EP

Effective date: 20210726