WO2020137854A1 - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
WO2020137854A1
WO2020137854A1 PCT/JP2019/050028 JP2019050028W WO2020137854A1 WO 2020137854 A1 WO2020137854 A1 WO 2020137854A1 JP 2019050028 W JP2019050028 W JP 2019050028W WO 2020137854 A1 WO2020137854 A1 WO 2020137854A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
reproduction
item
pcc
data
Prior art date
Application number
PCT/JP2019/050028
Other languages
English (en)
French (fr)
Inventor
充 勝股
遼平 高橋
平林 光浩
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to CN202311133300.2A priority Critical patent/CN117061767A/zh
Priority to EP19905781.1A priority patent/EP3883250A4/en
Priority to CN201980085303.9A priority patent/CN113302944B/zh
Priority to JP2020563187A priority patent/JPWO2020137854A1/ja
Priority to US17/416,907 priority patent/US11902555B2/en
Publication of WO2020137854A1 publication Critical patent/WO2020137854A1/ja
Priority to US18/529,743 priority patent/US20240107049A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8146Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics
    • H04N21/8153Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics comprising still images, e.g. texture, background image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors

Definitions

  • the present disclosure relates to an information processing device and an information processing method, and particularly to an information processing device and an information processing method capable of supporting playback of Point Cloud that does not have time information.
  • Non-Patent Documents 1 and 2 a compression method of Point Cloud, which is a set of points having position information and attribute information (especially color information) at the same time in a three-dimensional space, is specified. ..
  • Point Cloud is divided into multiple areas (hereinafter referred to as segmentation), each area is projected onto a plane to generate a texture image and a geometry image, and then those are moved.
  • segmentation This is a method of encoding with a codec.
  • the geometry image is an image composed of the depth information of the point cloud forming the Point Cloud.
  • V-PCC Video-based Point Cloud Coding
  • G-PCC Geometry based Point Cloud Coding
  • V-PCC stream or G-PCC stream generated by these encodings is downloaded and played back, or distributed over the IP (Internet Protocol) network.
  • IP Internet Protocol
  • Non-Patent Document 3 in order to suppress the impact on the existing distribution platform and realize the early service, the existing framework of ISOBMFF/DASH in MPEG (Moving Picture Experts Group) is aimed at. Investigation of delivery technology using (ISO Base Media File Format/Dynamic Adaptive Streaming over HTTP) has started.
  • Non-Patent Document 4 discloses a method regarding a storage method for storing a V-PCC stream in a file having a file structure using the ISOBMFF technology.
  • V-PCC Video-based Point Cloud Coding
  • G-PCC m45183workingdraftforGeometry-basedPointCloudCoding
  • V-PCC stream or G-PCC stream generated by encoding a Point Cloud consisting of multiple frames at predetermined time intervals with V-PCC or G-PCC, It was used in a use case such as storing in a file with a file structure using the ISOBMFF technology.
  • a point cloud that is, a point cloud for one frame
  • time information such as map data
  • the present disclosure has been made in view of such a situation, and makes it possible to support playback of Point Cloud that does not have time information.
  • the device is used to determine reproduction information necessary for reproducing a bitstream generated from 3D data having no time information, and whether or not the bitstream can be reproduced.
  • a metadata generation unit that generates metadata including reproduction permission/inhibition determination information, and a file generation unit that generates a file in which the bitstream and the metadata are stored.
  • the information processing method determines reproduction information necessary for reproducing a bitstream generated from 3D data having no time information, and whether or not the bitstream can be reproduced.
  • the method includes generating metadata including reproduction permission/inhibition information to be used, and generating a file storing the bitstream and the metadata.
  • the present disclosure is used to determine reproduction information necessary for reproducing a bitstream generated from 3D data having no time information, and whether the bitstream can be reproduced. Metadata including the reproduction permission/inhibition determination information is generated, and a file in which the bitstream and the metadata are stored is generated.
  • An apparatus determines reproduction information necessary for reproducing a plurality of bitstreams generated from 3D data having no time information, and whether or not the bitstreams can be reproduced.
  • a metadata generation unit that generates metadata including reproduction permission/inhibition information to be used, and a file generation unit that generates a file in which the bitstream and the metadata are stored.
  • the information processing method determines reproduction information necessary for reproducing a plurality of bitstreams generated from 3D data having no time information, and whether or not the bitstreams can be reproduced. And generating metadata including the reproduction permission/inhibition determination information used for, and generating a file storing the bitstream and the metadata.
  • the metadata including the reproduction permission/inhibition determination information is generated, and the file storing the bitstream and the metadata is generated.
  • V-PCC It is a figure explaining the compression method of Point Cloud using V-PCC. It is a figure which shows an example of the structure of V-PCC stream. It is a figure which shows an example of the file structure of a V-PCC moving image format. It is a figure which shows an example of the structure of V-PCC still image stream. It is a figure which shows an example of the structure of G-PCC stream. It is a figure which shows an example of the file structure of V-PCC still image format (1 item version). It is a figure which shows an example of the structure of VPCCConfigurationBox('vpcC'). It is a flowchart explaining a reproduction process of a V-PCC still image stream.
  • FIG. 22 is a diagram showing an example of the structure of ItemProperty using the syntax of FIG. 21. It is a figure which shows an example of ItemProperty('vuhd') which signals vpcc_unit_header.
  • FIG. 19 is a block diagram illustrating a configuration example of an embodiment of a computer to which the present technology is applied.
  • map data As one of the data (hereinafter also referred to as 3D data) represented by Point Cloud representing a three-dimensional shape
  • the map data may be deformed differently from an object whose shape changes with time. It can be said that there is no time information. Therefore, there is a use case where V-PCC or G-PCC is used to encode Point Cloud (that is, 1PC sample corresponding to one frame in Point Cloud) that does not have time information like map data. is assumed.
  • Point Cloud that does not have time information is encoded by V-PCC as V-PCC still image data
  • Point Cloud that does not have time information is encoded by G-PCC.
  • the encoded data is called G-PCC still image data.
  • HEIF MPEG-H Image Image Format
  • AVC Advanced Video Coding
  • HEVC High Efficiency Video Coding
  • V-PCC still image data and G-PCC still image data in ISOBMFF by treating them as two-dimensional image data that does not have time information compressed using a moving image codec is equivalent to, for example, HEIF. It is likely to be realized by expansion.
  • V-PCC will be described with reference to FIGS. 1 to 4.
  • FIG. 1 is a diagram for briefly explaining a Point Cloud compression method using V-PCC disclosed in Non-Patent Document 1 described above.
  • a Point Cloud that represents a three-dimensional structure is input, and the Point Cloud is segmented.
  • Point Cloud that represents a three-dimensional structure that combines a hemispherical shape and a conical shape is input, and segmentation is performed in three areas obtained by dividing the hemispherical shape into one area and the conical shape into two areas. Be seen.
  • a plane projection is performed for each area, and a texture image that is composed of color information that represents the appearance of the surface of each area and a geometry image that is composed of position information that represents the depth to the surface of each area. Is generated. Then, the texture image and the geometry image are encoded by a moving image codec such as AVC or HEVC.
  • a moving image codec such as AVC or HEVC.
  • FIG. 2 shows a conventional stream structure encoded by V-PCC disclosed in Non-Patent Document 1 described above. Such a stream is called a V-PCC stream.
  • the V-PCC stream is composed of 1 stream, and is composed of multiple V-PCC units.
  • the V-PCC unit is composed of V-PCC Unit header and V-PCC Unit payload.
  • the V-PCC Unit header is a unit type that indicates the type of Data included in the V-PCC unit payload and additional information for each unit type (for example, attribute type and which Point Cloud frame information) And are indicated.
  • Point cloud frame (hereinafter, also referred to as PC frame) is Point cloud displayed at the same time.
  • V-PCC Unit payload is composed of Video unit, Auxiliary information unit, and Parameter Set as shown in the figure.
  • the encoded texture image is stored in the Attribute video data unit
  • the encoded geometry image is stored in the geometry video data unit.
  • the auxiliary information data unit and the occupancy video data unit store 3D information metadata used for 2D3D conversion.
  • metadata of each data unit, metadata common to Sequence, metadata common to Frame, etc. are stored.
  • the client decodes geometry video data in PC stream, attribute video data in texture, and occupancy data, and generates geometry patch and texture patch using the decoded occupancy data. After that, the client first uses the auxiliary information data to generate a point cloud with no color from the geometry patch, and then colors the point cloud with a texture patch.
  • Non-Patent Document 4 the geometry video data, the attribute video data (described as texture in Non-Patent Document 4) and the occupancy video data that use the existing moving image codec are treated as independent video tracks, and other parameters are used.
  • a method of storing set, auxiliary information data, etc. as a metadata track is disclosed.
  • EntityToGroupBox('vpcg') is used to indicate the tracks that make up the V-PCC stream. That is, PCC metadata, geometry, texture(attribute), and track_id of occupancy are signaled to EntityToGroupBox('vpcg'), which is information serving as a starting point of reproduction.
  • V-PCC stream is configured to include multiple PC frames that are continuously displayed within a specific time width.
  • V-PCC still image data since only one PC frame is sufficient and time information is not required, the V-PCC stream is configured to include only one PC frame.
  • V-PCC still image stream of V-PCC still image data as shown in FIG. 4 is called a V-PCC still image stream, and its format is called a V-PCC still image format.
  • Non-Patent Document 4 a storage method of storing a V-PCC stream, which is a moving image, in a file having a file structure using the ISOBMFF technology is proposed, and the storage method of the V-PCC still image stream is described. Neither suggested nor suggested. Therefore, as described below, a new method of storing a V-PCC still image stream using HEIF is proposed.
  • FIG. 5 shows a conventional stream structure encoded by G-PCC disclosed in Non-Patent Document 2 described above. Such a stream is called a G-PCC stream (or simply PC stream).
  • G-PCC stream is composed of 1 stream and is a series of point cloud frames arranged in decoding order.
  • the point cloud frame (hereinafter also referred to as the PC frame) is the Point cloud displayed at the same time.
  • the PC frame is one continuous bitstream composed of a geometry bitstream (Geom shown in FIG. 5) indicating three-dimensional information and an attribute bitstream (Attr shown in FIG. 5) indicating attribute information such as color and reflection.
  • one PC frame has one geometry bitstream and multiple attribute bitstreams (two attribute bitstreams in the example of Fig. 5).
  • SPS Sequence Parameter Set
  • the GPS stores the information necessary for decoding the geometry bitstream
  • the APS Attribute Parameter Set
  • the client decodes the geometry bitstream and attribute bitstream in the G-PCC stream with individual decoders.
  • the client decodes the geometry bitstream and creates a point cloud with no color.
  • the client refers to the information of the decoded geometry bitstream, decodes the attribute bitstream, and adds attributes such as color and reflection based on the information.
  • the G-PCC stream In the case of a moving image, the G-PCC stream is configured to include multiple PC frames that are continuously displayed with a specific time width. On the other hand, in the case of G-PCC still image data, since only one PC frame is sufficient and time information is not needed, the G-PCC stream has a configuration including only one PC frame.
  • the G-PCC stream of G-PCC still image data is referred to as a G-PCC still image stream, and its format is referred to as a G-PCC still image format.
  • V-PCC stream and G-PCC stream in addition to the general use case of playing colored Point Cloud, attribute information such as color and reflection is unnecessary, and 3D shape information of Point Cloud
  • attribute information such as color and reflection is unnecessary
  • 3D shape information of Point Cloud There is a use case that only uses. Specifically, it holds LiDAR (Light Detection and Ranging) and colored map information acquired by the camera as Point Cloud, and extracts only the terrain information (that is, three-dimensional shape information) in it and controls the operation of the car. Use cases that are used for such purposes are possible.
  • V-PCC still image format (1item version) and G-PCC still image format need to be handled as one Image data including geometry and multiple attributes, and there is no explicit boundary information. .. Therefore, in these use cases, the client needs to acquire all the geometry and attribute and then decode them all in order from the beginning of the stream. That is, of the plurality of attributes, not only the attributes that are used but also the attributes that are not used will be decoded, and the processing efficiency will be reduced.
  • V-PCC still image format the method of storing the V-PCC still image stream in HEIF is defined separately for the V-PCC still image format (1 item version) and the V-PCC still image format (multi item version).
  • V-PCC still image format (1 item version) will be described with reference to FIGS. 6 to 14.
  • the V-PCC still image stream is composed of V-PCC units.
  • the V-PCC unit is composed of Parameter Set, which is metadata used for playability determination, decoding and rendering, and Data unit, which is encoded data.
  • HEIF stores HEVC stream as an item when storing an image encoded using HEVC, which is a moving image codec, into a file structure file that uses ISOBMFF technology. Then, in order to store it as an item, item_type that indicates HEVC stream is defined.
  • item_type that indicates HEVC stream is defined.
  • the metadata used for determining playability and decoding or rendering in the HEVC stream is stored as Item Property
  • the encoded data in the HEVC stream is stored as Image data.
  • Fig. 6 shows the specific file structure of the V-PCC still image format (1 item version).
  • the Item type is specified in ItemInfoEntry('infe').
  • ItemInfoEntry ('infe')
  • item_type 'vpc1'
  • Parameter Set is signaled as'vpcC' in Item Property, and has a structure as shown in FIG. 7, for example.
  • Image data is stored in various Data units.
  • FIGS. 8 and 9 show flowcharts for explaining a reproduction process for reproducing a file of the V-PCC still image format (1 item version) shown in FIG.
  • the reproduction process shown in FIGS. 8 and 9 is executed by the data analysis/decryption unit 53 in FIG. 41, which will be described later. 57.
  • step S11 the file analysis unit 55 executes image file processing to acquire reproduction data, and supplies the reproduction data to the decoding unit 56.
  • the file analysis unit 55 executes metaBox processing as illustrated as image file processing, and acquires metaBox('meta') in step S21. Then, the file analysis unit 55, as described later with reference to FIG. 9, the first reproduction permission/inhibition determination processing in step S22, the reproduction Item determination processing in step S23, and the second reproduction permission/inhibition determination processing in step S24. A third reproduction permission/inhibition determination process is performed in S25, and a reproduction data acquisition process is performed in step S26.
  • step S12 the decoding unit 56 executes a decoding process to decode the reproduction data supplied from the file analysis unit 55 in step S11.
  • the decryption unit 56 obtains the “vpcC” Property necessary for decoding in the Property acquired in the third reproduction permission/inhibition determination processing in Step S25 (see Step S40 described below) and the reproduction data acquisition processing in Step S26.
  • the decoding process can be executed using the data (see step S43 described later).
  • the decoding unit 56 supplies the PointCloud reconstructed by the decoding process to the display information generation unit 57.
  • Property of'vpcC' is used.
  • step S13 the display information generation unit 57 executes the rendering process to render the display screen from the Point Cloud supplied from the decryption unit 56 in step S12.
  • step S13 the display screen rendered by the display information generation unit 57 is displayed on the display unit 54 of FIG.
  • FIG. 9 is a flowchart illustrating the metaBox process executed as the image file process in step S11 of FIG.
  • step S22 In the first reproduction permission/inhibition determination processing (processing of HandlerBox(‘hdlr’)) of step S22, processing of steps S31 to S33 is performed.
  • step S31 the file analysis unit 55 acquires HandlerBox('hdlr').
  • step S32 the file analysis unit 55 determines whether the handler_type of HandlerBox('hdlr') acquired in step S31 is'pict'.
  • step S32 if the file analysis unit 55 determines that the handler_type is not'pict', the process proceeds to step S33, and the process ends as a file that cannot be reproduced. On the other hand, when the file analysis unit 55 determines that the handler_type is'pict' in step S32, the process proceeds to step S34.
  • step S34 processing in step S34 is performed.
  • step S24 the processes in steps S35 to S37 are performed.
  • step S36 the file analysis unit 55 determines whether the item_type included in the Entry acquired in step S35 can be processed. For example, in the example of the file shown in FIG. 6, it is determined whether or not it corresponds to vpc1.
  • step S36 when the file analysis unit 55 determines that the item_type cannot be processed, the process proceeds to step S37, and the process ends as a file that cannot be reproduced.
  • step S36 when the file analysis unit 55 determines that the item_type can be processed, the process proceeds to step S38.
  • step S38 the file analysis unit 55 acquires ItemPropertiesBox('iprp').
  • step S39 the file analysis unit 55 acquires ItemPropertyAssociationBox('ipma'), and acquires Property link information (property_index and essential flag) of item_id that matches the item_id acquired in step S34.
  • step S40 the file analysis unit 55 acquires ItemPropertyContainerBox('ipco'), and acquires the Property of Property_index acquired in step S39.
  • step S41 the file analysis unit 55 determines whether it is possible to perform processing corresponding to all the properties whose property acquired in step S40 is essential. For example, in the example of the file shown in FIG. 6, it is determined whether processing can be performed corresponding to vpcC.
  • step S41 if the file analysis unit 55 determines that the process cannot be performed, the process proceeds to step S42, and the process ends as a file that cannot be played. On the other hand, in step S41, when the file analysis unit 55 determines that the process can be performed, the process proceeds to step S43.
  • step S43 In the reproduction data acquisition process (the process of ItemLocationBox('iloc')) of step S26, the process of step S43 is performed.
  • step S43 the file analysis unit 55 acquires ItemLocationBox('iloc'), and acquires data from the offset/length of the data of item_id indicated by item_id acquired in step S34.
  • the playback process for playing the V-PCC still image stream is basically the same as the process for playing files such as HEVC and AVC that are stored in HEIF.
  • the reproduction permission/inhibition determination is performed using vpc1 in ItemInfoBox('iinf'), and in the third reproduction permission/inhibition determination process in step S25
  • the point of determining whether or not reproduction is possible is a characteristic process when reproducing the V-PCC still image stream.
  • the decoding process of step S12 and the rendering process of step S13 are unique processes in V-PCC.
  • V-PCC since V-PCC is used, it is possible to determine whether or not playback is possible by using'vpc1' of ItemInfoBox('iinf') and ItemProperty. You can recognize V-PCC profile and level from'vpcC'.
  • each video data unit (geometry image, texture image, etc.) is decoded by the existing moving image codec.
  • the client uses ‘vpcC’ to determine whether or not reproduction is possible, but at present, only the type of codec is signaled with the codec_id included in each of the occupancy parameter set, the geometory parameter set, and the attribute parameter set.
  • the reproducibility determination is made based on information such as HEVC Profile and Level included in HEVCConfigurationBox('hvcC').
  • HEVC Profile and Level included in HEVCConfigurationBox('hvcC').
  • HEVCConfigurationBox('hvcC') included in HEVCConfigurationBox('hvcC').
  • HEVCConfigurationBox('hvcC') there is no information for determining playability such as profile and level for each video data unit included, so it is expected that decoding processing will actually be required and processing efficiency will decrease. .. Therefore, it is necessary to signal the playability determination information of the video data unit so that the playability determination of the video data unit can be performed.
  • the playback propriety determination information of each Video data unit is signaled using ItemProperty using SampleEntry of Video.
  • ItemProperty('sube') can be defined to signal the codec of each video data unit and the decoder configuration information.
  • FIG. 10 shows an example in which ItemProperty('sube') is added to the file of FIG. 6 described above.
  • essentail flag is set to 1 indicating that it is a Property that must be processed.
  • the essential flag is set to 1, but if the essential flag is set to 0, it is possible to allow the reproduction process even in a device that cannot handle this ItemProperty. Also, it is associated with ItemProperty('sube') in property_index[2].
  • FIG. 11 shows an example of the structure of ItemProperty('sube'). Further, FIG. 12 shows an example of the definition of data_type, and FIG. 13 shows an example of the definition of attribute_type.
  • SubSampleEntryProperty includes componentSampleEntryBox for the number of video data units included in V-PCC.
  • type information for identifying the component type of the video data unit (see FIG. 12) is stored in the type field.
  • the type information of the attribute that identifies the attribute type (see FIG. 13) and the SampleEntry of the video data unit are stored in the attribute_type field.
  • SampleEntry() changes depending on the coding codec of component, and becomes HEVCSampleEntry if HEVC is coded, for example.
  • the reproduction permission/inhibition determination can be performed using the SubSampleEntryProperty in step S25 (see FIG. 8 described above) in the reproduction processing of the client. ..
  • the SampleEntry information signaled by SubSampleEntryProperty during playback it is possible to determine whether or not playback is possible using Profile, Level information, and Parameter Set information in addition to the codec of each video data unit. ..
  • the reproduction permission/inhibition information of each Video data unit is signaled using the existing ItemPropertyEntry. That is, in the above-described first method, the reproduction permission/inhibition information of each Video data unit is signaled by using the structure of SampleEntry, whereas in the second method, the structure of ItemProperty can be used for signaling.
  • FIG. 14 shows an example of the syntax.
  • the item property specified by HEIF is used as the ItemProperty of the playability determination information.
  • the video codec of Video data unit is HEVC
  • ItemProperty ('hvcC') and ItemProperty ('ispe') are included in SubItemProperty.
  • playability judgment information of each Video data unit is signaled by V-PCC Profile/Level.
  • signaling can be performed with Profile/Level of VPCCConfigurationBox('vpcC') shown in FIG.
  • ⁇ Profile 1 main (hevc) profile
  • the whole V-PCC is the main profile
  • Video data unit uses HEVC codec (main profile) only
  • Profile 2 main (avc) profile
  • the whole V-PCC is the main profile
  • Video data unit uses only AVC codec (high profile) ⁇ Level 1
  • the level of V-PCC is 1. Up to Level 4 of HEVC when using HEVC Up to Level 4 of AVC when using AVC Level 2
  • the level of V-PCC is 2. Up to Level 5 of HEVC when using HEVC Up to Level 5 of AVC when using AVC
  • V-PCC still image format (multi-item version) will be described with reference to FIGS. 15 and 16.
  • each Track As an item, it is possible to map to the V-PCC still image format.
  • each track of PCC metadata, geometry, texture(attribute), and occupancy in FIG. 3 is an image item.
  • the EntityToGroupBox indicating the entry point of content reproduction is a Box already included in the Metabox, it is used as it is.
  • Fig. 15 shows an example of actual mapping to the V-PCC still image format.
  • each Video data is encoded with HEVC.
  • item_type As the item_type,'vpcm' indicating that it is a track containing only PCC metadata is signaled.
  • Various types of ParameteSets are entered in'vpcC', and have the same structure as shown in FIG. 7, for example. Only Auxiliary Information Data unit is stored as ItemData.
  • EntityToGroupBox('vpcg') indicating the entry point is used as it is, as in FIG. EntityToGroupBox stores the item included in the V-PCC content and the data_type of that item.
  • FIG. 16 shows a flowchart for explaining a reproduction process for reproducing a file of the V-PCC still image format (multi item version) shown in FIG.
  • steps S21 to S23 in FIG. 8 are performed in steps S61 to S63, and the same processes as steps S24 to 26 in FIG. 8 are performed in steps S65 to S67. Further, in steps S52 and S53, the same processing as steps S12 and 13 in FIG. 8 is performed.
  • the reproduction process shown in FIG. 16 differs from the reproduction process of FIG. 8 in that a reproduction Item list acquisition process (process of GroupListBox('grpl')) is added in step S64. Also, ItemInfoBox('iinf'), ItemPropertiesBox('iprp'), and ItemLocationBox('iloc') are different from the reproduction process of FIG. 8 in that processing is required for the number of items.
  • the starting point of reproduction is signaled by the PrimaryItemBox.
  • the PrimaryItemBox can only point to the item that should be played first. Therefore, in the structure shown in FIG. 15, the group indicated by EntityToGroupBox('vpcg') should be the starting point for playback, but signaling cannot be done in the current format.
  • each Image data cannot be linked with the V-PCC parameter set after Decoding in the Decoding process, so the client can reconfigure Point Cloud. Can not.
  • the client can play each Image item by itself.
  • V-PCC still image format (multi-item version)
  • the image in the expanded state as shown in FIG. 2 is displayed as it is, so it is necessary to prevent such display.
  • the starting point of playback is signaled by extending the Primary item Box.
  • the reproduction starting point when the reproduction starting point is indicated by the group of EntityToGroupBox('vpcg'), the reproduction starting point can be signaled using the Primary item box.
  • the syntax of the original PrimaryItemBox is not changed, but the semantics is changed so that the group_id can be indicated by the 32-bit item_ID.
  • the semantics is changed so that the group_id can be indicated by the 32-bit item_ID.
  • flags&1 may be set to 1 in order to clearly indicate that gorup_id is used ('pitm', version, flags).
  • a new box is used to signal the starting point of playback.
  • the playback start point is indicated by the group of EntityToGroupBox('vpcg')
  • the playback start point is signaled by the new Box indicating the start point.
  • a PrimaryGroupBox('pgrp') is defined, and that Box indicates a group which is a starting point to be reproduced first.
  • the client can play from the starting point by acquiring the group_id from this box and searching the EntityToGroup Box that matches the group_id, if this box exists.
  • the PrimaryGroupBox process in FIG. 18 can be performed and played back.
  • the existing PrimaryItemBox by expanding the existing PrimaryItemBox by starting from the item_id of the item that is the reference source, by using the ItemReference instead of the EntityToGroupBox as the playback start point and using the metadata item as the reference source and indicating the other items as the reference destination. Be able to show without. That is, the item_id of metadata item is signaled from the PrimaryItemBox.
  • ItemReference is used as shown in FIGS. 19 and 20.
  • ItemReference('vpcg') is newly defined, and one V-PCC content is shown by linking metadata item to Geometry, Attribute, and Occupancy item.
  • the information signaled by EntityToGroupBox is signaled by VPCCMultiItemProperty.
  • type and attribute_type are defined in the same manner as in FIGS. 12 and 13, respectively.
  • the metadata item at the starting point of playback is acquired first, and then ItemReference('vpcg') is acquired.
  • the ItemReference of FIG. 20 is processed to obtain the required Item list.
  • a new ItemProperty is added to Geometry item, Attibute item, and Occupancy item in order to reconfigure Point Cloud.
  • FIG. 21 shows the syntax of a newly added ItemProperty('vrps'), and FIG. 22 shows the structure of ItemProperty when the syntax is used.
  • ItemProperty('vpcC') has the structure shown in FIG.
  • index numbers are assigned from 0 in the order of being stored in vpccUnit stored in ItemProperty('vpcC'). This is called vpcC_vpccUnit_index.
  • ItemProperty('vrps') stores a list of ParameterSets that need to be associated with Geometry item, Attibute item, and Occupancy item when rebuilding Point Cloud. At that time, linking is performed with vpcC_vpccUnit_index.
  • the Parameter Set required when reconstructing the Point Cloud can be uniquely specified, and the Point Cloud can be reconstructed.
  • ItemProperty('vrps') extended by the first method and ItemProperty('vpcC') of metadata item According to the procedure, specify Parameter Set and use it to reconfigure Point Cloud.
  • vpccReferenceParameterBox('vrps') having the same field as ItemProperty('vprs') and store it in geomotry, attribute, and occpancy track. Can be implemented in.
  • V-PCC unit header is signaled to reconfigure Point Cloud.
  • ItemProperty('vuhd') signaling vpcc_unit_header is signaled in the same way as ItemProperty('vrps') in the first method described above.
  • the point of the second method was signaled in the bitstream of the V-PCC still image format (1item version), but not signaled in the bitstream of the V-PCC still image format (multiitem version) vpcc_unit_header Signal. Therefore, the V-PCC still image format (multi-item version) can be easily returned to the V-PCC still image format (1 item version) bitstream, and the Point Cloud can be rebuilt.
  • vpcc_unit_header is signaled, but part of vpcc_unit_payload may be included.
  • vpccUnitHeaderBox('vuhd') that has the same field as ItemProperty('vuhd') and store it in geomotry, attribute, and occpancy track. Can be implemented in.
  • Parameter Set is signaled by each Item in order to reconfigure Point Cloud.
  • the ParameterSet referred to by the Geometry item, Attibute item, and Occupancy item is linked with the ParameterSet required for rebuilding the Point Cloud by signaling the ItemProperty of each item.
  • FIG. 24 shows the syntax of ItemProperty('vpss'), and FIG. 25 shows the structure of ItemProperty when that syntax is used.
  • the newly defined vpccParameterSetProperty has a syntax in which the part for signaling parameter set is extracted from ItemProperty ('vpcC').
  • ItemProperty ('vpss') [3] includes Geometrie Parameter Set (GPS) and Geometary Patch Parameter Set (GPPS).
  • GPS Geometrie Parameter Set
  • GPPS Geometary Patch Parameter Set
  • ItemProperty('vpcC')[1] does not signal ParameterSet signaled in ItemProperty('vpss'), but it may be included. Even in that case, when rebuilding Point Cloud, use Parameter Set associated with Item.
  • vpccParameterSetBox('vpss') having the same field as ItemProperty('vpss') and storing it in geomotry, attribute, occpancy track. Is.
  • a client that can play HEVC Image signals the ItemProperty indicating that it is a Restricted scheme, in order not to play Geometory item, Attilbute item, and Occupancy item by itself.
  • item_type of IntemInfoEntry is set to'resi'.
  • OriginalFormatPeoperty is specified.
  • SchemeTypeProperty is specified to show what kind of restrictions are imposed.
  • FIG. 26 shows an example of the structure of OriginalFormatPeoperty
  • FIG. 27 shows an example of the structure of SchemeTypeProperty.
  • the data_format of ItemProerty('frma') is'hvc1' in the case of HEVC Image.
  • scheme_type of ItemProperty('schm') signals for example, "pvcc” to indicate that it is an item to be used in vpcc.
  • shcme_version For other fields, set shcme_version to 1 and do not use scheme_uri.
  • the first method uses the existing Codec, but it is signaling that can be generally used for still image items that require special processing for rendering.
  • the client that can play HEVC Image signals the ItemProperty that indicates V-PCC so that the Geometory item, Attilbute item, and Occupancy item cannot be played alone.
  • ImageItem is added with ItemProperty that indicates that it is a part of V-PCC data, and clients that cannot process this ItemProperty cannot play it.
  • the VPCCMultiItemProperty shown in FIG. 19 described above may be signaled.
  • the essential flag of ItemPropertyAssociationBox('ipma') shown in FIG. 20 is always set to 1.
  • VPCCMultiItemProperty indicates whether the Imageitem is Geometry, Attribute, or Occupancy when one V-PCC content is composed of MultiItem.
  • ItemProperty metadata used for playability judgment and decoding or rendering is defined as ItemProperty, similar to V-PCC still image stream. Then, signal with ItemPropertyBox('iprp'). Data other than metadata is Item data. For example, store all ParameterSet in ItemProperty and store all Geom and Attr as Itemdata.
  • Fig. 30 shows the file structure of the G-PCC still image format.
  • gpcC has a structure as shown in FIG.
  • V-PCC/G-PCC regeneration method efficiently>
  • reproduction is performed using only a three-dimensional shape without using attribute information, or reproduction is performed using only a three-dimensional shape and a part of attribute information.
  • the first method is to signal SubSampleItemProperty in order to efficiently play back V-PCC/G-PCC.
  • the first method can be used in both V-PCC still image format (1item version) and G-PCC still image format, so that the Video data unit used for playback can be easily identified and acquired. Signal the partial access information of ItemData by SubSampleEntryProperty.
  • Fig. 32 shows SubSampleItemProperty of the existing standard.
  • codec_specific_parameters as shown in FIGS. 33 to 35.
  • codec_specific_parameters as shown in FIGS. 33 to 35, data can be efficiently accessed in both the V-PCC still image format (1 item version) and the G-PCC still image format.
  • codec_specific_parameters are common, but for example, V-PCC and G-PCC may be specified separately in consideration of future expandability.
  • a G-PCC stream has one geometry bitstream and multiple attribute bitstreams. Therefore, each bitstream is stored as an item so that necessary data can be efficiently accessed.
  • the item of geometory is used as the base item and all Parameter Sets are also included. And all items have GPCCMultiItemProperty which indicates the information of multiitem.
  • FIG. 36 shows an example of the structure of GPCCMultiItemProperty.
  • Fig. 37 shows the file structure using GPCCMultiItemProperty.
  • the item_type of ItemInfoEntry is set to'gpc2' indicating that it is a multiitem.
  • ItemProperty('gpcC') has the same structure as in FIG.
  • the starting point of reproduction is indicated by EntityToGroupBox('gpcg').
  • the above-described first and second methods of signaling the reproduction starting point can be used.
  • ItemReference('gpcg') may be used based on geometory item. it can.
  • ItemReference is used instead of EntityToGroupBox in FIG. 37, but other Boxes are the same.
  • Attribute information For example, if the Attribute information is not used, only the three-dimensional shape can be displayed, and it becomes possible to indicate coloring and transparency with texture information or Transparency information.
  • the client can select any Attribute and play it back.
  • the content author wants to render using the Attribute that must be used at least for each content, but currently there is no way to signal it.
  • a list of Attribute to be combined is signaled by ItemProperty.
  • V-PCC/G-PCC geomeotry and V-PCC occupancy and auxiliary information are indispensable for displaying a three-dimensional shape, and thus only select information of Attribute is shown.
  • selection_entry_count indicates the number of Attribute combinations
  • attribute_num indicates the number of attributes included in the combinations. For example, if attribute_num is 0, it indicates that playback not using attribute is permitted. If attribute_num is greater than 0, the attribute included in the combination is indicated by attribute_type.
  • codec_specific_parameters of the first method that efficiently reproduces V-PCC/G-PCC or GPCCMultiItemProperty of the second method.
  • it may be signaled by EntityToGroupBox('gpcg') or the like.
  • AttributeSelectionBox('atsl') having the same field as ItemProperty('atsl') and storing it in metadata track or the like.
  • FIG. 40 shows a block diagram showing a configuration example of the data generation device.
  • the data generation device 11 includes a control unit 21, a memory 22, and a file generation unit 23.
  • the memory 22 stores various data necessary for the control unit 21 to control the file generation unit 23, and the control unit 21 refers to the data and stores the data of the file in the file generation unit 23. Control generation.
  • the file generation unit 23 includes a data input unit 31, a data encoding/generation unit 32, a recording unit 33, and an output unit 34.
  • the data input to the data input unit 31 is supplied to the data encoding/generating unit 32.
  • the file generated by the data encoding/generating unit 32 is output from the output unit 34 via the recording unit 33, and is recorded on, for example, a recording medium.
  • the data encoding/generating unit 32 has a preprocessing unit 35, an encoding unit 36, and a file generating unit 37.
  • the preprocessing unit 35 executes a process of generating a geometry image, a texture image, various kinds of metadata, etc. from the Point Cloud input from the data input unit 31.
  • the encoding unit 36 executes processing for encoding the Point Cloud using V-PCC or G-PCC.
  • the file generator 37 stores the V-PCC still image data or the G-PCC still image data as well as the metadata generated in the preprocessor 35 in a file having a file structure using the ISOBMFF technology, and stores the file. Execute the process to generate.
  • FIG. 41 shows a block diagram showing a configuration example of the data reproducing device.
  • the data reproduction device 12 is configured to include a control unit 41, a memory 42, and a reproduction processing unit 43.
  • the memory 42 stores various data necessary for the control unit 41 to control the reproduction processing unit 43
  • the control unit 41 refers to the data and refers to the Point Cloud in the reproduction processing unit 43. Control the playback of.
  • the reproduction processing unit 43 includes an acquisition unit 51, a display control unit 52, a data analysis/decoding unit 53, and a display unit 54.
  • the file acquired by the acquisition unit 51 and read from the recording medium or the like is supplied to the data analysis/decoding unit 53.
  • the display screen generated by the data analysis/decryption unit 53 according to the display control by the display control unit 52 is displayed on the display unit 54.
  • the data analysis/decryption unit 53 has a file analysis unit 55, a decryption unit 56, and a display information generation unit 57, and executes the reproduction process described with reference to FIGS. 8 and 9 above.
  • the file analysis unit 55 extracts V-PCC still image data or G-PCC still image data from a file having a file structure using ISOBMFF technology, and executes a process of analyzing metadata.
  • the decoding unit 56 executes a process of decoding the V-PCC still image data or the G-PCC still image data using the V-PCC or the G-PCC according to the metadata acquired by the file analysis unit 55. ..
  • the display information generation unit 57 also builds a Point Cloud and renders the Point Cloud to generate a display screen.
  • FIG. 42 is a flowchart illustrating a file generation process in which the data encoding/generation unit 32 of the data generation device 11 generates a file in which the V-PCC still image stream is stored.
  • step S101 the preprocessing unit 35 generates a geometry image, a texture image, and metadata from the Point Cloud data and supplies the geometry image and the metadata to the encoding unit 36.
  • step S102 the encoding unit 36 encodes the geometry image, texture image, and metadata supplied from the preprocessing unit 35 in step S101. As a result, the encoding unit 36 generates geometry video data, texture video data, occupancy video data, auxiliary information data, and each parameter set, and supplies them to the file generation unit 37.
  • step S103 the file generation unit 37 stores various data encoded by the encoding unit 36 in step S102 in the V-PCC unit and generates a V-PCC still image stream.
  • step S104 the file generation unit 37 stores the V-PCC still image stream generated in step S104 in a file structure file using the ISOBMFF technique including metadata, supplies the file to the recording unit 33, and then performs processing. Is ended.
  • FIG. 43 is a flowchart illustrating a file generation process in which the data encoding/generating unit 32 of the data generation device 11 generates a file in which the G-PCC still image stream is stored.
  • step S111 the preprocessing unit 35 separates the position information and the attribute information of the Point Cloud data and supplies it to the encoding unit 36.
  • step S112 the encoding unit 36 encodes the position information and the attribute information supplied from the preprocessing unit 35 in step S111. As a result, the encoding unit 36 generates the geometry bitstream, the attribute bitstream, and each parameter set and supplies them to the file generation unit 37.
  • step S113 the file generation unit 37 generates a G-PCC still image stream from the geometry bitstream, attribute bitstream, and each parameter set supplied from the encoding unit 36 in step S112.
  • step S114 the file generation unit 37 stores the G-PCC still image stream generated in step S113 in a file structure file using the ISOBMFF technology including metadata, supplies the file to the recording unit 33, and then performs processing. Is ended.
  • this technology can store V-PCC still image data or G-PCC still image data that does not have time information in a file with a file structure that uses the ISO BMFF technology.
  • the client when storing a V-PCC still image stream as 1 item, the client can easily determine whether or not playback is possible without decoding the Video data unit.
  • the first method makes it possible for the client to easily access the item configuring the V-PCC by clearly indicating the starting point of reproduction.
  • the second method by linking the decoded data with the metadata for reconstructing the Point Cloud using the second method, for example, even if V-PCC still image data with multiple attributes is reconstructed in the Point Cloud.
  • the third method it is possible to prohibit the data of Geometry, Occupancy, and Attribute stored as Image Items from being played back alone.
  • V-PCC V-PCC only Auxiliary information, occupancy
  • client processing can be facilitated in a use case that uses only the 3D shape information of Point Cloud.
  • client processing can be facilitated in a use case in which only a color attribute is used together with geometry for previewing.
  • the content owner can specify the reproduction of only a specific combination by the combination of the attribute information used for the reproduction.
  • FIG. 44 is a block diagram showing a configuration example of an embodiment of a computer in which a program for executing the series of processes described above is installed.
  • the program can be recorded in advance in the hard disk 105 or the ROM 103 as a recording medium built in the computer.
  • the program can be stored (recorded) in the removable recording medium 111 driven by the drive 109.
  • a removable recording medium 111 can be provided as so-called package software.
  • examples of the removable recording medium 111 include a flexible disk, a CD-ROM (Compact Disc Read Only Memory), an MO (Magneto Optical) disc, a DVD (Digital Versatile Disc), a magnetic disc, and a semiconductor memory.
  • the program can be installed in the computer from the removable recording medium 111 as described above, or downloaded to the computer via a communication network or a broadcast network and installed in the built-in hard disk 105. That is, for example, the program is wirelessly transferred from a download site to a computer via a satellite for digital satellite broadcasting, or wired to a computer via a network such as a LAN (Local Area Network) or the Internet. be able to.
  • LAN Local Area Network
  • the computer includes a CPU (Central Processing Unit) 102, and an input/output interface 110 is connected to the CPU 102 via a bus 101.
  • CPU Central Processing Unit
  • the CPU 102 executes a program stored in a ROM (Read Only Memory) 103 in response to a command input by the user operating the input unit 107 via the input/output interface 110. .. Alternatively, the CPU 102 loads a program stored in the hard disk 105 into a RAM (Random Access Memory) 104 and executes the program.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the CPU 102 performs the processing according to the above-described flowchart or the processing performed by the configuration of the above-described block diagram. Then, the CPU 102 outputs the processing result as needed, for example, via the input/output interface 110, from the output unit 106, from the communication unit 108, and further recorded on the hard disk 105.
  • the input unit 107 is composed of a keyboard, a mouse, a microphone, and the like.
  • the output unit 106 includes an LCD (Liquid Crystal Display), a speaker, and the like.
  • the processing performed by the computer according to the program does not necessarily have to be performed in time series in the order described as the flowchart. That is, the processing performed by the computer according to the program also includes processing that is executed in parallel or individually (for example, parallel processing or object processing).
  • the program may be processed by one computer (processor) or may be processed by a plurality of computers in a distributed manner. Further, the program may be transferred to a remote computer and executed.
  • the system means a set of a plurality of constituent elements (devices, modules (parts), etc.), and it does not matter whether or not all constituent elements are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and one device housing a plurality of modules in one housing are all systems. ..
  • the configuration described as one device (or processing unit) may be divided and configured as a plurality of devices (or processing units).
  • the configurations described above as a plurality of devices (or processing units) may be integrated into one device (or processing unit).
  • part of the configuration of a certain device (or processing unit) may be included in the configuration of another device (or other processing unit). ..
  • the present technology can have a configuration of cloud computing in which one device is shared by a plurality of devices via a network and jointly processes.
  • the program described above can be executed in any device.
  • the device may have a necessary function (function block or the like) so that necessary information can be obtained.
  • each step described in the above-mentioned flowchart can be executed by one device or shared by a plurality of devices.
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • a plurality of processes included in one step can be executed as a process of a plurality of steps.
  • the processes described as a plurality of steps can be collectively executed as one step.
  • the program executed by the computer may be configured such that the processes of the steps for writing the program are executed in time series in the order described in this specification, or in parallel, or when the call is made. It may be executed individually at a necessary timing such as time. That is, as long as no contradiction occurs, the processing of each step may be executed in an order different from the order described above. Furthermore, the process of the step of writing this program may be executed in parallel with the process of another program, or may be executed in combination with the process of another program.
  • the present technology may also be configured as below.
  • (1) Generates reproduction information required to reproduce a bitstream generated from 3D data having no time information, and metadata including reproduction permission/inhibition determination information used to determine whether or not the bitstream can be reproduced.
  • a metadata generator An information processing apparatus comprising: a file generation unit that generates a file storing the bitstream and the metadata.
  • (2) The information processing device according to (1), wherein the reproduction information includes combination information indicating a combination of the Video data units used for reproduction with respect to a Video data unit forming the bitstream.
  • (3) The information processing apparatus according to (2), wherein the reproduction permission/inhibition determination information includes a parameter set of the bitstream.
  • the reproduction permission/inhibition determination information further includes a Sub-Sample parameter set corresponding to each of the Video data units.
  • the file generation unit stores the reproduction permission/inhibition determination information in Item Property.
  • the file generation unit stores Profile information for each Video data unit in the parameter set included in the reproduction permission/inhibition determination information in Item Property.
  • the metadata generation unit generates the metadata for selecting and reproducing Attribute data.
  • the metadata is SubSampleItemProperty, and selective reproduction is enabled by making it a multi item.
  • the information processing device according to (7).
  • the information processing device wherein the metadata generation unit generates the metadata indicating a combination of reproductions.
  • the information processing device Generates reproduction information required to reproduce a bitstream generated from 3D data having no time information, and metadata including reproduction permission/inhibition determination information used to determine whether or not the bitstream can be reproduced. That Generating a file storing the bitstream and the metadata.
  • (11) Playback information necessary to play back a plurality of bitstreams generated from 3D data having no time information, and metadata containing playbackability determination information used to determine whether the bitstreams can be played back.
  • a metadata generation unit to generate, An information processing apparatus comprising: a file generation unit that generates a file in which the bitstream and the metadata are stored.
  • the reproduction information includes bitstream combination information indicating a combination of the bitstreams used at the time of reproduction, and reproduction start point information indicating a reproduction start point.
  • the reproduction start point information is an item_id indicating a bitstream to be reproduced first.
  • the reproduction information further includes a V-PCC Unit Header which is information for identifying the Type of each bitstream as information for reconstructing the 3D data from the bitstream.
  • the reproduction permission/inhibition determination information includes information indicating that each bit stream is a part of data forming the 3D data, The information processing apparatus according to (14), wherein the file generation unit stores the reproduction permission/inhibition determination information in Item Property.
  • the reproduction permission/inhibition determination information further includes information indicating that it is a hidden image, as determination information that enables the determination that the item alone cannot be displayed.
  • the information processing device according to (15), wherein the file generation unit stores information indicating the hidden_image in ItemInfoEntry.
  • the information processing device Playback information necessary to play back a plurality of bitstreams generated from 3D data having no time information, and metadata containing playbackability determination information used to determine whether the bitstreams can be played back. To generate, Generating a file storing the bitstream and the metadata.

Abstract

本開示は、時間情報を持たないPoint Cloudの再生に対応することができるようにする情報処理装置および情報処理方法に関する。 Point Cloudの1フレーム分がV-PCCまたはG-PCCで符号化された符号化データを再生するのに必要な再生情報、および、符号化データの再生の可否を判断するのに用いられる再生可否情報を含むメタデータを生成し、符号化データおよびメタデータを、所定のISOBMFFの技術を利用したファイル構造のファイルに格納する。本技術は、例えば、時間情報を持たないPoint Cloudの符号化データを格納するファイルを生成するデータ生成装置に適用できる。

Description

情報処理装置および情報処理方法
 本開示は、情報処理装置および情報処理方法に関し、特に、時間情報を持たないPoint Cloudの再生に対応することができるようにした情報処理装置および情報処理方法に関する。
 従来、非特許文献1および2で開示されているように、3次元空間上に位置情報および属性情報(特に色情報)を同時に持った点の集合であるPoint Cloudの圧縮方法が規定されている。
 例えば、Point Cloudの圧縮方法の一つとして、Point Cloudを複数の領域に分割(以下、セグメンテーションと称する)し、領域毎に平面投影してtexture画像およびgeometry画像を生成した後、それらを動画像コーデックにより符号化する方法である。ここで、geometry画像は、Point Cloudを構成する点群のdepth情報から構成される画像である。この方法は、V-PCC(Video-based Point Cloud Coding)と称されており、その詳細は非特許文献1に記載されている。
 また、もう一つの圧縮方法として、Point Cloudを、3次元形状を示すgeometryと、属性情報として色や反射情報などを示すattributeとに分離して、それらを符号化する方法がある。この方法は、G-PCC(Geometry based Point Cloud Coding)と称されている。
 そして、これらの符号化によって生成されたV-PCC streamまたはG-PCC streamを、ダウンロード再生したり、over IP(Internet Protocol) networkで配信したりするユースケースが期待されている。
 そこで、非特許文献3で開示されているように、既存の配信プラットフォームへのインパクトを抑制し、早期のサービス実現を目指すべく、MPEG(Moving Picture Experts Group)において、既存の枠組みであるISOBMFF/DASH(ISO Base Media File Format / Dynamic Adaptive Streaming over HTTP)による配信技術についての検討が開始された。
 また、非特許文献4には、ISOBMFFの技術を利用したファイル構造のファイルにV-PCC streamを格納する格納方法に関する手法が開示されている。
m45183 second working draft for Video-based Point Cloud Coding (V-PCC). m45183 working draft for Geometry-based Point Cloud Coding (G-PCC). w17675, First idea on Systems technologies for Point Cloud Coding, April 2018, San Diego, US w18059, Working Draft of Storage of V-PCC in ISOBMFF Files
 ところで、従来、動画像のように、所定の時間間隔の複数のフレームからなるPoint CloudをV-PCCまたはG-PCCで符号化することによって生成されたV-PCC streamまたはG-PCC streamを、ISOBMFFの技術を利用したファイル構造のファイルに格納するようなユースケースで用いられていた。これに対し、例えば、地図データのように、時間情報を持たないPoint Cloud(即ち、1フレーム分のPoint Cloud)をV-PCCまたはG-PCCで符号化したものを、ISOBMFFの技術を利用したファイル構造のファイルに格納するようなユースケースが必要になることが想定され、そのユースケースに対応することが求められている。
 本開示は、このような状況に鑑みてなされたものであり、時間情報を持たないPoint Cloudの再生に対応することができるようにするものである。
 本開示の第1の側面の装置は、時間情報を持たない3Dデータから生成されたビットストリームを再生するのに必要な再生情報、および、前記ビットストリームの再生の可否を判断するのに用いられる再生可否判断情報を含むメタデータを生成するメタデータ生成部と、前記ビットストリームおよび前記メタデータを格納したファイルを生成するファイル生成部とを備える。
 本開示の第1の側面の情報処理方法は、時間情報を持たない3Dデータから生成されたビットストリームを再生するのに必要な再生情報、および、前記ビットストリームの再生の可否を判断するのに用いられる再生可否判断情報を含むメタデータを生成することと、前記ビットストリームおよび前記メタデータを格納したファイルを生成することとを含む。
 本開示の第1の側面においては、時間情報を持たない3Dデータのから生成されたビットストリームを再生するのに必要な再生情報、および、そのビットストリームの再生の可否を判断するのに用いられる再生可否判断情報を含むメタデータが生成され、ビットストリームおよびメタデータが格納されたファイルが生成される。
 本開示の第2の側面の装置は、時間情報を持たない3Dデータから生成された複数のビットストリームを再生するのに必要な再生情報、および、前記ビットストリームの再生の可否を判断するのに用いられる再生可否判断情報を含むメタデータを生成するメタデータ生成部と、前記ビットストリームおよび前記メタデータを、格納したファイルを生成するファイル生成部とを備える。
 本開示の第2の側面の情報処理方法は時間情報を持たない3Dデータから生成された複数のビットストリームを再生するのに必要な再生情報、および、前記ビットストリームの再生の可否を判断するのに用いられる再生可否判断情報を含むメタデータを生成することと、前記ビットストリームおよび前記メタデータを格納したファイルを生成することとを含む。
 本開示の第2の側面においては、時間情報を持たない3Dデータから生成された複数のビットストリームを再生するのに必要な再生情報、および、そのビットストリームの再生の可否を判断するのに用いられる再生可否判断情報を含むメタデータが生成され、ビットストリームおよびメタデータを格納したファイルが生成される。
V-PCCを用いたPoint Cloudの圧縮方法を説明する図である。 V-PCC streamの構造の一例を示す図である。 V-PCC動画像フォーマットのファイル構造の一例を示す図である。 V-PCC静止画streamの構造の一例を示す図である。 G-PCC streamの構造の一例を示す図である。 V-PCC静止画フォーマット(1item版)のファイル構成の一例を示す図である。 VPCCConfigurationBox(‘vpcC’)の構造の一例を示す図である。 V-PCC静止画streamの再生処理を説明するフローチャートである。 図8のステップS11におけるmeta Box処理を説明するフローチャートである。 V-PCC静止画フォーマット(1item版)のItemProperty(‘sube’)のファイル構成の一例を示す図である。 ItemProperty(‘sube’)の構造の一例を示す図である。 data_typeの定義の一例を示す図である。 attribute_typeの定義の一例を示す図である。 ItemPropertyの構造を用いたシグナリングの一例を示す図である。 V-PCC静止画streamのファイル構成(multi item版)の一例を示す図である。 V-PCC静止画stream(multi item)の再生処理を説明するフローチャートである。 拡張されたPrimaryItemBoxの一例を示す図である。 PrimaryGroupBoxの一例を示す図である。 ItemPropertyのシンタックスの一例を示す図である。 図19のシンタックスを利用したファイル構成の一例を示す図である。 ItemProperty(‘vrps’)のシンタックスの一例を示す図である。 図21のシンタックスを利用したItemPropertyの構造の一例を示す図である。 vpcc_unit_headerをシグナリングするItemProperty(‘vuhd’)の一例を示す図である。 vpccParameterSetProperty(‘vpss’)のシンタックスの一例を示す図である。 図24のシンタックスを利用したファイル構成の一例を示す図である。 ItemProerty(‘frma’)の一例を示す図である。 ItemProperty(‘schm’)の一例を示す図である。 Restricted schemeを用いたファイル構成の一例を示す図である。 Restricted schemeを用いたシグナリングの一例を示す図である。 G-PCC静止画streamのファイル構成の一例を示す図である。 GPCCConfigurationBox(‘gpcC’)の構造の一例を示す図である。 既存規格のSubSampleItemProperty (‘subs’)の一例を示す図である。 codec_specific_parametersの定義の一例を示す図である。 data_typeの定義の一例を示す図である。 attribute_typeの定義の一例を示す図である。 GPCCMultiItemPropertyの構造の一例を示す図である。 EntityToGroupBoxを起点としたG-PCC multi itemの一例を示す図である。 Item_idを起点としたG-PCC multi itemの一例を示す図である。 Attributeの組合せシグナリングの一例を示す図である。 データ生成装置の一例を示すブロック図である。 データ再生装置の一例を示すブロック図である。 V-PCC静止画streamが格納されたファイルを生成するファイル生成処理を説明するフローチャートである。 G-PCC静止画streamが格納されたファイルを生成するファイル生成処理を説明するフローチャートである。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
 以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
 <従来のV-PCCおよびG-PCC>
 まず、従来のV-PCCおよびG-PCCについて説明する。
 例えば、3次元形状を表すPoint Cloudで表現されるデータ(以下、3Dデータとも称する)の1つとして地図データがあり、地図データは、時間によって形状が変わるようなオブジェクトと異なって変形することがなく、時間情報を持たないということができる。そこで、地図データのように時間情報を持たないPoint Cloud(即ち、Point Cloudでの1フレーム分に該当する1PCサンプル)を、V-PCCまたはG-PCCを用いて符号化するようなユースケースが想定される。なお、以下の説明では、時間情報を持たないPoint CloudをV-PCCで符号化した符号化データをV-PCC静止画データと称し、時間情報を持たないPoint CloudをG-PCCで符号化した符号化データをG-PCC静止画データと称する。
 例えば、従来、時間情報を持たないデータをISOBMFFの技術を利用したファイル構造のファイルに格納する規格として、ISO/IEC 23008-12 MPEG-H Image File Format(以下、HEIFと称する)がある。一方、2次元画像を、例えば、AVC(Advanced Video Coding)やHEVC(High Efficiency Video Coding)などの動画像コーデックで符号化し、時間情報を持たない2次元画像データとしてISOBMFFを利用したファイル構造のファイルに格納することも可能である。
 従って、V-PCC静止画データおよびG-PCC静止画データを、動画像コーデックを用いて圧縮した時間情報を持たない2次元画像データと同様に見なしてISOBMFFに格納することは、例えば、HEIFを拡張することにより実現する可能性が高い。
 図1乃至図4を参照して、V-PCCについて説明する。
 図1は、上述した非特許文献1で開示されているV-PCCを用いたPoint Cloudの圧縮方法を、簡略的に説明するための図である。
 図1に示すように、まず、3次元構造を表すPoint Cloudが入力され、そのPoint Cloudがセグメンテーションされる。図1に示す例では、半球形状と円錐形状とが組み合わされた3次元構造を表すPoint Cloudが入力され、半球形状を1領域に、円錐形状を2領域に分割した3つの領域にセグメンテーションが行われる。
 次に、領域ごとに平面投影が行われ、それぞれの領域の表面の見た目を表す色情報からなるtexture画像、および、それぞれの領域の表面までの奥行(depth)を表す位置情報からなるgeometry画像が生成される。そして、texture画像およびgeometry画像が、例えば、AVCやHEVCなどの動画像コーデックで符号化される。
 図2には、上述した非特許文献1で開示されているV-PCCで符号化された従来のstream構造が示されている。このようなstreamは、V-PCC streamと称される。
 図2に示すように、V-PCC streamは1 streamで構成されており、複数のV-PCC unitから構成される。また、V-PCC unitは、V-PCC Unit headerおよびV-PCC Unit payloadで構成される。
 例えば、V-PCC Unit headerは、V-PCC unit payloadに含まれるDataの種類を示すunit typeと、unit typeごとの追加情報(例えば、attributeのtypeや、どのPoint Cloud frameの情報であるか)とが示される。ここで、Point Cloud frame(以下、PC frameとも称する)は、同時刻に表示されるPoint Cloudのことである。
 また、V-PCC Unit payloadには、図示するように、Video unit,Auxiliary information unit、およびParameter Setにより構成される。Attribute video data unitには、符号化されたtexture画像が格納され、geometry video data unitには、符号化されたgeometry画像が格納される。auxiliary information data unitおよびoccupancy video data unitには、2D3D変換に用いる3次元情報メタデータが格納される。各Parameter Setには、各data unit のメタデータや、Sequenceで共通のメタデータ、Frameで共通のメタデータなどが格納される。
 例えば、クライアントは、PC stream内のgeometry video data、textureのattribute video data、および、occupancy dataデコードし、デコードしたoccupancy dataを用いてgeometryパッチとtextureパッチとを生成する。その後、クライアントは、auxiliary information dataを用いて、まずはgeometryパッチから色のないPoint Cloudを生成し、続いて、そのPoint Cloudに対してtextureパッチにより色を付ける。
 また、上述の非特許文献4において、既存の動画像コーデックを用いるgeometry video data,attribute video data(非特許文献4ではtextureと記載)、およびoccupancy video dataを独立したvideo trackとして取り扱い、その他のparameter setやauxiliary information dataなどを、metadata trackとして格納する手法が開示されている。
 そして、この手法では、例えば、図3のV-PCC動画像フォーマットのファイル構造に示すように、V-PCC streamを構成するtrackを示すためにEntityToGroupBox(‘vpcg’)を利用している。即ち、EntityToGroupBox(‘vpcg’)には、PCC metadata,geometry,texture(attribute)、およびoccupancyのtrack_idがシグナリングされており、再生の起点となる情報である。
 ここで、V-PCC静止画データのV-PCC stream構成について検討する。
 一般的に、動画像の場合、V-PCC streamは、特定の時間幅で連続的に表示される複数のPC frameが含まれる構成となる。これに対し、V-PCC静止画データの場合、1つのPC frameのみで十分であって時間情報が必要とならないため、V-PCC streamは、1つのPC Frameのみが含まれる構成となる。
 例えば、図4に示すようなV-PCC静止画データのV-PCC streamを、V-PCC静止画streamと称し、そのフォーマットをV-PCC静止画フォーマットと称する。
 上述した非特許文献4では、動画像であるV-PCC streamをISOBMFFの技術を利用したファイル構造のファイルに格納する格納方法が提案されており、V-PCC静止画streamの格納方法に関しては記載も示唆もされていない。そこで、以下で説明するように、V-PCC静止画streamを、HEIFを用いて格納する方法を新たに提案する。
 図5を参照して、G-PCCについて説明する。
 図5には、上述した非特許文献2で開示されているG-PCCで符号化された従来のstream構造が示されている。このようなstreamは、G-PCC stream(または、単にPC stream)と称される。
 例えば、G-PCC streamは、1 streamで構成されており、デコード順に並んだpoint cloud frameの連続である。ここで、point cloud frame(以下、PC frameとも記載する)とは、同時刻に表示されるPoint Cloudのことである。PC frameは、3次元情報を示すgeometry bitstream(図5に示すGeom)と、色や反射といった属性情報を示すattribute bitstream(図5に示すAttr)から構成される連続する1つのbitstreamである。
 なお、1つのPC frameは、1つのgeometry bitstreamと複数のattribute bitstream(図5の例では、2つのattribute bitstream)とを有する。また、SPS(Sequence Parameter Set)には、geometry bitstreamおよびattribute bitstreamのデコードに必要な共通情報として、G-PCC streamのシーケンスごとのメタ情報が格納されている。そして、GPS(Geometry Parameter Set)には、geometry bitstreamのデコードに必要な情報が格納されており、APS(Attribute Parameter Set)には、attribute bitstreamのデコードに必要な情報が格納されている。
 そして、クライアントは、G-PCC stream内のgeometry bitstreamおよびattribute bitstreamを、それぞれ個別のデコーダでデコードする。まず、クライアントは、geometry bitstreamをデコードし、色のないPoint Cloudを生成する。その後、クライアントは、デコードされたgeometry bitstreamの情報を参照した上でattribute bitstreamをデコードし、その情報に基づいて色や反射といった属性を付加する。
 ここで、G-PCC静止画データのG-PCC stream構成について検討する。動画像の場合、G-PCC streamは、特定の時間幅で連続的に表示される複数のPC frameが含まれる構成になる。これに対し、G-PCC静止画データの場合、1つのPC frameのみで十分であって時間情報は必要とならないため、G-PCC streamは、1つのPC Frameのみが含まれる構成になる。以下、G-PCC静止画データのG-PCC streamを、G-PCC静止画streamと称し、そのフォーマットをG-PCC静止画フォーマットと称する。
 そして、以下で説明するように、G-PCC静止画streamを、HEIFを用いて格納する方法を新たに提案する。
 ところで、V-PCC streamおよびG-PCC streamのユースケースとして、色付きのPoint Cloudを再生するという一般的なユースケースの他に、色や反射といった属性情報が不要で、Point Cloudの3次元形状情報だけを利用するユースケースがある。具体的には、LiDAR(Light Detection and Ranging)およびカメラで取得した色付きの地図情報をPoint Cloudとして保持し、その中の地形情報(即ち、3次元形状情報)のみを抽出して自動車の運転制御などに利用するユースケースが考えられる。
 また、色や反射といった属性情報が複数ついている場合には、例えば、プレビュー用にはgeometryとともに、反射の属性を利用せずに、色の属性だけ利用したいユースケースがある。また、複数の属性がある場合には、それらのうちの1つの属性だけ利用するなど、1つのattributeのみ抽出して利用したいユースケースもある。
 しかしながら、例えば、V-PCC静止画フォーマット(1item版)およびG-PCC静止画フォーマットは、geometryと複数のattributeとを含めて1つのImage dataとして扱う必要があり、明示的な境界情報が存在しない。このため、これらのユースケースにおいて、クライアントは、geometryおよびattributeを全て取得した上で、ストリームの先頭から順に全てをデコードする必要がある。即ち、複数のattributeのうち、利用するattributeだけでなく、利用しないattributeもデコードすることになってしまい、処理効率が低下することになる。
 従って、これらのユースケースにおいて、例えば、利用しないattributeをデコードすることを回避して、処理効率の低下を抑制することが求められる。
 <V-PCC静止画フォーマット>
 ここで、V-PCC静止画streamをHEIFに格納する方法を、V-PCC静止画フォーマット(1item版)と、V-PCC静止画フォーマット(multi item版)とに分けて定義する。
 まず、図6乃至14を参照して、V-PCC静止画フォーマット(1item版)について説明する。
 上述した図2に示したように、V-PCC静止画streamは、V-PCC unitで構成される。さらに、V-PCC unitは、再生可否判断およびデコードおよびレンダリングに利用するメタデータであるParameter Setや、符号化データであるData unitなどから構成される。
 従来、HEIFでは、動画像コーデックであるHEVCを用いてエンコードした画像をISOBMFFの技術を利用したファイル構造のファイルへ格納する際には、HEVC streamをitemとして格納する。そして、itemとして格納するために、HEVC streamであることを示すitem_typeを定義している。さらに、HEVC stream中で再生可否判断およびデコードまたはレンダリングに利用するメタデータをItem Propertyとして格納し、HEVC stream中の符号化データをImage dataとして格納している。
 そこで、V-PCC静止画stremをHEIFに格納する場合も、このような基本的な考え方に基づいて格納することを提案する。具体的には、V-PCC静止画streamであることを示すitem_typeを定義し、Parameter SetをItem Propertyとして格納し、Data unitをImage dataとして格納することができる。
 図6には、V-PCC静止画フォーマット(1item版)の具体的なファイル構成が示されている。
 まず、ItemInfoEntry(‘infe’)で、Itemのtypeを指定している。図6に示す例では、item_type=’vpc1’とすることで、V-PCCを示すcodingnameを指定している。また、Parameter Setは、Item Propertyで’vpcC’としてシグナリングし、例えば、図7で示すような構造である。また、Image dataは、各種のData unitに格納されている。
 図8および図9には、図6に示したV-PCC静止画フォーマット(1item版)のファイルを再生する再生処理を説明するフローチャートが示されている。なお、図8および図9に示す再生処理は、後述する図41のデータ解析・復号部53において実行され、データ解析・復号部53は、ファイル解析部55、復号部56、および表示情報生成部57を有している。
 ステップS11において、ファイル解析部55は、Imageファイル処理を実行して再生データを取得して、復号部56に供給する。
 ここで、ファイル解析部55は、Imageファイル処理として図示するようなmeta Box処理を実行し、ステップS21においてmeta Box(‘meta’)を取得する。そして、ファイル解析部55は、図9を参照して後述するように、ステップS22で第1の再生可否判断処理、ステップS23で再生Item決定処理、ステップS24で第2の再生可否判断処理、ステップS25で第3の再生可否判断処理、ステップS26で再生データ取得処理を行う。
 ステップS12において、復号部56は、デコード処理を実行して、ステップS11でファイル解析部55から供給された再生データをデコードする。例えば、復号部56は、ステップS25の第3の再生可否判断処理で取得されるProperty(後述するステップS40参照)でデコードに必要な’vpcC’のPropertyと、ステップS26の再生データ取得処理で取得されるデータ(後述するステップS43参照)とを用いて、デコード処理を実行することができる。そして、復号部56は、デコード処理によって再構成したPointCloudを、表示情報生成部57に供給する。例えば、図6に示したファイルの例では、’vpcC’のPropertyが用いられる。
 ステップS13において、表示情報生成部57は、レンダリング処理を実行して、ステップS12で復号部56から供給されたPoint Cloudから、表示画面をレンダリングする。
 そして、ステップS13の処理後、表示情報生成部57によりレンダリングされた表示画面が、図41の表示部54に表示される。
 図9は、図8のステップS11においてImageファイル処理として実行されるmeta Box処理を説明するフローチャートである。
 ステップS22の第1の再生可否判断処理(HandlerBox(‘hdlr’)の処理)では、ステップS31乃至S33の処理が行われる。
 ステップS31において、ファイル解析部55は、HandlerBox(‘hdlr’)を取得する。
 ステップS32において、ファイル解析部55は、ステップS31で取得したHandlerBox(‘hdlr’)のhandler_typeが’pict’であるか否かを判定する。
 ステップS32において、ファイル解析部55が、handler_typeが’pict’でないと判定した場合、処理はステップS33に進み、再生できないファイルとして処理が終了される。一方、ステップS32において、ファイル解析部55が、handler_typeが’pict’であると判定した場合、処理はステップS34に進む。
 ステップS23の再生Item決定処理(PrimaryItemBox(‘pitm’)の処理)では、ステップS34の処理が行われる。
 ステップS34において、ファイル解析部55は、PrimaryItemBox(‘pitm’)を取得し、item_idを取得する。例えば、図6に示したファイルの例では、item_id=1が取得される。
 ステップS24の第2の再生可否判断処理(ItemInfoBox(‘iinf’)の処理)では、ステップS35乃至S37の処理が行われる。
 ステップS35において、ファイル解析部55は、ItemInfoBox(‘iinf’)を取得し、含まれるItemInfoEntry(‘infe’)から、ステップS34で取得したitem_idと一致するitem_idのEntryを取得する。例えば、図6に示したファイルの例では、item_id=1のEntryが取得される。
 ステップS36において、ファイル解析部55は、ステップS35で取得したEntryに含まれるitem_typeを処理することができるか否かを判定する。例えば、図6に示したファイルの例では、vpc1に対応しているか否かが判定される。
 ステップS36において、ファイル解析部55が、item_typeを処理することができないと判定した場合、処理はステップS37に進み、再生できないファイルとして処理が終了される。一方、ステップS36において、ファイル解析部55が、item_typeを処理することができると判定した場合、処理はステップS38に進む。
 ステップS25の第3の再生可否判断処理(ItemPropertiesBox(‘iprp’)の処理)では、ステップS38乃至S42の処理が行われる。
 ステップS38において、ファイル解析部55は、ItemPropertiesBox(‘iprp’)を取得する。
 ステップS39において、ファイル解析部55は、ItemPropertyAssociationBox(‘ipma’)を取得し、ステップS34で取得したitem_idと一致するitem_idのPropertyリンク情報(property_indexおよびessential flag)を取得する。
 ステップS40において、ファイル解析部55は、ItemPropertyContainerBox(‘ipco’)を取得し、ステップS39で取得したProperty_indexのPropertyを取得する。
 ステップS41において、ファイル解析部55は、ステップS40で取得したpropertyがessentialである全てのPropertyに対応して処理を行う事が可能であるか否かを判定する。例えば、図6に示したファイルの例では、vpcCに対応して処理を行うことが可能であるか否かが判定される。
 ステップS41において、ファイル解析部55が、処理を行う事が可能でないと判定した場合、処理はステップS42に進み、再生できないファイルとして処理が終了される。一方、ステップS41において、ファイル解析部55が、処理を行う事が可能であると判定した場合、処理はステップS43に進む。
 ステップS26の再生データ取得処理(ItemLocationBox(‘iloc’)の処理)では、ステップS43の処理が行われる。
 ステップS43において、ファイル解析部55は、ItemLocationBox(‘iloc’)を取得し、ステップS34で取得したitem_idで示されるitem_idのデータのoffset/lengthからデータを取得する。
 その後、meta Box処理は終了して、処理は図8のステップS12に進む。
 以上のように、V-PCC静止画streamを再生する再生処理は、基本的には、HEVCやAVCなどがHEIFに格納されたファイルを再生する処理と同様である。ただし、ステップS24の第2の再生可否判断処理において、ItemInfoBox(‘iinf’)でvpc1を用いて再生可否判断を行う点、および、ステップS25の第3の再生可否判断処理において、vpcCを用いて再生可否判断をする点が、V-PCC静止画streamを再生する際に特徴となる処理である。また、ステップS12のデコード処理、および、ステップS13のレンダリング処理は、V-PCCにおける独自の処理となる。
 ところで、図8および図9を参照して説明した再生処理では、V-PCCを用いていることがItemInfoBox(‘iinf’)の’vpc1’を用いて再生可否判断を行うことができるとともに、ItemPropertyの’vpcC’からV-PCCのprofileやlevelを認識することができる。
 ここで、ステップS12のデコード処理に注目する。デコード処理おいては、各video data unit(geometry画像やtexture画像など)を、既存の動画像コーデックでデコードする。また、クライアントは’vpcC’を用いて再生可否判断を行うが、現状、occupancy parameter set,geometory parameter set,attribute parameter setそれぞれに含まれるcodec_idでcodecの種類程度がシグナリングされているだけである。
 例えば、HEVCの場合、HEVCConfigurationBox(‘hvcC’)に含まれるHEVCのProfileやLevelなどの情報に基づいて、再生可否判断が行われる。一方、’vpcC’のみでは、含まれるvideo data unitごとのprofileやlevelなどの再生可否判断を行うための情報がないため、実際にデコード処理を必要があり処理効率が低下することが想定される。そこで、video data unitの再生可否判断を行うことができるように、Video data unitの再生可否判断情報をシグナリングすることが必要となる。
 <Video data unitの再生可否判断情報のシグナリング>
 図10乃至図14を参照して、Video data unitの再生可否判断情報をシグナリングする第1乃至3の手法について説明する。
 第1の手法では、ItemPropertyで各Video data unitの再生可否判断情報を、VideoのSampleEntryを用いてシグナリングする。例えば、ItemProperty(‘sube’)を定義し、各video data unitのコーデックや、decoder configuration情報をシグナルすることができる。
 図10には、上述した図6のファイルに、ItemProperty(‘sube’)を付加した例が示されている。
 例えば、図10において太字で示すように、ItemPropertyContainerBox(‘ipco’)で、ItemProperty(‘sube’)をシグナリングし、ItepPropertyAssociationBox(‘ipma’)で、item_id=1に、ItemProperty(‘sube’)を紐づける。
 図10では、essentail flagは、必ず処理が必要であるPropertyであることを示す1としている。なお、図10に示す例では、essential flagを1に設定しているが、essential flagを0に設定すれば、このItemPropertyを扱えない機器においても、再生処理を許すことが可能である。また、property_index[2]で、ItemProperty(‘sube’)と紐づけている。
 図11には、ItemProperty(‘sube’)の構造例が示されている。また、図12には、data_typeの定義の一例が示されており、図13には、attribute_typeの定義の一例が示されている。
 例えば、SubSampleEntryPropertyには、V-PCCに含まれるvideo data unitの数だけcomponentSampleEntryBoxが含まれる。それぞれのcomponentSampleEntryBoxには、typeフィールドでvideo data unitのcomponent type(図12参照)を識別するtype情報が格納される。さらに、video data unitのcomponent typeがattributeである場合には、attribute_typeフィールドで、attribute typeを識別するattributeのtype情報(図13参照)と、video data unitのSampleEntryとが格納される。また、SampleEntry()は、componentの符号化コーデックに応じて変化し、例えば、HEVC符号化されているならHEVCSampleEntryとなる。
 このような第1の手法でVideo data unitの再生可否判断情報をシグナリングすることで、クライアントの再生処理におけるステップS25(上述の図8参照)において、SubSampleEntryPropertyを用いて再生可否判断を行うことができる。また、再生時において、SubSampleEntryPropertyでシグナリングされているSampleEntry情報を処理することで、各video data unitのコーデックの他に、ProfileやLevel情報、さらにParameter Set情報などを用いた再生可否判断が可能となる。
 なお、図11に示す例では、typeおよびattribute typeのみをシグナリングしているが、例えば、layerの識別情報、同じattribute_typeの場合における識別情報などをシグナリングしてもよい。
 第2の手法では、各Video data unitの再生可否判断情報を、既存のItemPropertyEntryを利用してシグナリングする。即ち、上述した第1の手法では、各Video data unitの再生可否判断情報にSampleEntryの構造を用いてシグナリングするのに対し、第2の手法では、ItemPropertyの構造を用いてシグナリングすることができる。
 図14には、シンタックスの一例が示されている。
 図14において太字で示すように、再生可否判断情報のItemPropertyとして、HEIFで規定済みのものを利用する。例えば、Video data unitの動画像コーデックがHEVCの場合は、ItemProperty (‘hvcC’)およびItemProperty (‘ispe’)がSubItemPropertyに含まれる。
 第3の手法では、各Video data unitの再生可否判断情報を、V-PCCのProfile/Levelでシグナリングする。例えば、図7に示したVPCCConfigurationBox(‘vpcC’)のProfile/Levelでシグナリングすることができる。
 例えば、以下に記載するようにProfileおよびLevelを決めることで、VPCCConfigurationBox(‘vpcC’)のみで、利用しているVideo data unitの再生判断ができるようになる。
・Profile 1: main (hevc) profile
   V-PCC全体はmain profile
   Video data unitはHEVC codec(main profile)のみ利用
・Profile 2: main (avc) profile
   V-PCC全体はmain profile
   Video data unitはAVC codec(high profile)のみ利用
・Level 1
   V-PCCのlevelは1.
   HEVCを利用している場合はHEVCのLevel4まで
   AVCを利用している場合はAVCのLevel4まで
・Level 2
   V-PCCのlevelは2.
   HEVCを利用している場合はHEVCのLevel5まで
   AVCを利用している場合はAVCのLevel5まで
 なお、第3の手法では、video data unitのcodecのprofileやlevelの組合せが規定されることより、規定以外のものが利用できなくなるため、video data unitのcodecやprofile、levelの自由度が低下すると考えられる。
 次に、図15および図16を参照して、V-PCC静止画フォーマット(multi item版)について説明する。
 例えば、上述の図3に示したようなファイル構造のV-PCC動画像フォーマットを参考にして、各Trackをitemとすることで、V-PCC静止画フォーマットにマッピングすることが可能である。具体的には、図3のPCC metadata,geometry,texture(attribute)、およびoccupancyの各trackを、image itemとする。また、コンテンツ再生のエントリーポイントを示すEntityToGroupBoxは、既にMetaboxに含まれるBoxであるので、そのまま利用する。
 図15には、実際にV-PCC静止画フォーマットにマッピングした例が示されており、この例では、各Video dataはHEVCでエンコードされている。
 例えば、図15に示すItemInfoEntryのitem_id=1に、図3のPCC Metadata Trackがマッピングされている。item_typeとして、PCCのMetadataのみを含むtrackであることを示す’vpcm’をシグナリングしている。item_id=1のItemPropertyは、’vpcC’を紐づけている。’vpcC’には、各種Paramete Setが入り、例えば、図7に示したのと同じ構造である。Item Dataとしては、Auxiliary Information Data unitのみを格納するようにしている。
 また、図15に示すItemInfoEntryのitem_id=2のImage itemに、図3のGeometry trackがマッピングされている。例えば、HEIFで規定されているHEVCコーデックのImage dataを格納する既存の方法を、そのまま利用することが可能である。
 また、図15に示すItemInfoEntryのitem_id=3のImage itemに、図3のTexture trackがマッピングされている。例えば、HEIFで規定されているHEVCコーデックのImage dataを格納する既存の方法をそのまま利用することが可能である。
 また、図15に示すItemInfoEntryのitem_id=4のImage itemに、図3のOccupancy trackがマッピングされている。例えば、HEIFで規定されているHEVCコーデックのImage dataを格納する既存の方法をそのまま利用することが可能である。
 ここで、図15に示すように、エントリーポイントを示す、EntityToGroup Box(‘vpcg’)は、図3と同様に、そのまま利用される。EntityToGroup Boxは、V-PCCコンテンツに含まれるitemと、そのitemのdata_typeとが格納される。例えば、図15では、item_id=1,2,3,4を1つのV-PCCコンテンツとして、item_id=1はmetadataであること、item_id=2はgeometryあること、item_id=3はtextureあること、item_id=4はoccupancyであることを、それぞれ示している。
 図16には、図15に示したV-PCC静止画フォーマット(multi item版)のファイルを再生する再生処理を説明するフローチャートが示されている。
 図16に示す再生処理では、ステップS61乃至S63において、図8のステップS21乃至23と同様の処理が行われ、ステップS65乃至S67において、図8のステップS24乃至26と同様の処理が行われる。また、ステップS52およびS53において、図8のステップS12および13と同様の処理が行われる。
 即ち、図16に示す再生処理では、ステップS64において再生Item一覧取得処理(GroupListBox(‘grpl’)の処理)が追加される点で、図8の再生処理と異なる。また、ItemInfoBox(‘iinf’),ItemPropertiesBox(‘iprp’)、およびItemLocationBox(‘iloc’)は、itemの数だけの処理が必要になる点で、図8の再生処理と異なる。
 ところで、V-PCC静止画フォーマット(multi item版)では、クライアントは、再生の起点を認識することができない。
 即ち、図16を参照して説明した再生処理において、再生の起点は、PrimaryItemBoxでシグナリングすることが想定されている。ただし、PrimaryItemBoxは、最初に再生すべきitemを指し示すことしかできない。従って、図15に示した構造では、EntityToGroup Box(‘vpcg’)で示されるgroupが再生の起点となるべきであるが、現状のフォーマットでは、シグナリングすることができない。
 そこで、後述するように再生の起点のシグナリングを行い、クライアントが、再生の起点を認識できるようにすることが必要となる。
 また、V-PCC静止画フォーマット(multi item版)では、Decode処理において、各Image dataをDecode後、V-PCCのパラメータセットと紐づけができないため、クライアントは、Point Cloudを再構成することができない。
 即ち、図15に示したように、Geometry item,Attibute item、およびOccupancy itemが、それぞれ1つしか存在しない場合は、metadata itemのItemProperty(‘vpcC’)に含まれるParameter Setとの紐づけは可能である。しかしながら、例えば、Geometry画像を複数のLayer持つことが可能である。この場合は、それぞれのLayerでGeometry itemがあり、Metadata itemにはそれぞれのLayerのGeometry Parameter Setが存在する。ところが、各Geometory itemと、Metadata itemのGeometory Paramaeter Setとが紐づけされていないため、Point Cloudを再構成することができない。なお、Videoの場合も同様である。
 そこで、後述するように、Point Cloudを再構成するためのシグナリングを行い、クライアントは、Point Cloudを再構成できるようにすることが必要となる。
 また、V-PCC静止画フォーマット(multi item版)では、クライアントは、各Image itemが単体で再生できてしまう。
 即ち、V-PCC静止画フォーマット(multi item版)では、V-PCCを処理できないが、HEVC Imageを再生できるクライアントが、図15のデータを処理すると、item_id=2、item_id=3、item_id=4はHEVC Imageのitemであると認識できてしまうため、再生することができてしまう。このように、各Image itemが単体で再生された場合、図2に示したような展開された状態の画像がそのまま表示されるため、その様な表示が行われないようにする必要がある。
 そこで、後述するように、Item単体での再生をさせないためのシグナリングを行って、クライアントが、各Image itemが単体で再生できないようにすることが必要となる。
 <再生の起点のシグナリング>
 図17乃至図20を参照して、再生の起点をシグナリングする第1乃至第3の手法について説明する。
 第1の手法では、Primary item Boxを拡張することにより、再生の起点をシグナリングする。
 例えば、上述の図15に示したように、再生の起点がEntityToGroup Box(‘vpcg’)のgroupで示されている場合に、Primary item boxを用いて、再生の起点をシグナリングできるようにする。
 具体的には、図17において太字で示すように、PrimaryItemBoxのversion=2を追加して、そこで、EntityToGroup Boxで示されるgroup_idをシグナリングできるようにする。
 また、PrimaryItemBoxを拡張する変形例として、元々のPrimaryItemBoxのシンタックスは変更せず、32bitのitem_IDで、group_idを示せるように、semanticsを変更する。具体的には、PrimaryItemBoxのitem_IDをentity_IDと名前を変え、item_idおよびgroup_idのどちらでも利用できるようにする。ここで、gorup_idが使われることを明示するために(‘pitm’,version,flags)として、flags&1を1に設定してもよい。
 第2の手法では、新しいboxで、再生の起点をシグナリングする。
 例えば、上述の図15に示したように、再生の起点がEntityToGroup Box(‘vpcg’)のgroupで示されている場合に、起点を示す新しいBoxで、再生の起点をシグナリングする。
 具体的には、図18に示すように、PrimaryGroupBox(‘pgrp’)を定義し、そのBoxは、最初に再生すべき起点であるgroupを示す。これにより、クライアントは、このboxがある場合は、このboxからgroup_idを取得し、そのgroup_idと一致するEntityToGroup Boxを検索することで、起点から再生することができる。
 例えば、上述の図16を参照して説明した再生処理におけるPrimaryItemBoxの処理(ステップS63)に替えて、図18のPrimaryGroupBoxの処理が行われて再生されるようにすることができる。
 第3の手法として、再生の起点をitemにするように、V-PCC静止画streamのファイル構成(multi item版)の構造を変更する。
 例えば、再生の起点をEntityToGroupBoxではなく、ItemReferenceを用いmetadata itemを参照元とし、参照先としてそれ以外のitemを示すことで、参照元のitemのitem_idを起点とすることで、既存のPrimaryItemBoxを拡張なしに示すことができるようにする。つまり、PrimaryItemBoxからは、metadata itemのitem_idをシグナリングする。
 具体的には、図19および図20に示すように、ItemReferenceを用いる。ItemReference(‘vpcg’)を新しく定義し、metadata itemからGeometry,Attribute、およびOccupancy itemへの紐づけを行うことで1つのV-PCCコンテンツを示す。さらに、EntityToGroupBoxでシグナリングされていた情報をVPCCMultiItemPropertyでシグナリングする。なお、typeおよびattribute_typeは、それぞれ図12および図13と同様に定義される。
 このように、V-PCC静止画streamのファイル構成(multi item版)の構造を変更することで、再生の起点のmetadata itemを最初に取得し、次にItemReference(‘vpcg’)を取得することができる。
 例えば、上述の図16を参照して説明した再生処理におけるGroupListBoxの処理(ステップS64)に替えて、図20のItemReferenceを処理し、必要なItemのリストを得る。
 <Point Cloudを再構成するためのシグナリング>
 図21乃至図25を参照して、Point Cloudを再構成するためにシグナリングする第1乃至第3の手法について説明する。
 上述したように、V-PCC静止画フォーマット(multi item版)では、Geometry item,Attibute item、およびOccupancy itemがmetadata itemのItemProperty(‘vpcC’)に含まれるParameter Setとの紐づけができず、Point Cloudを再構成することができない。なお、図3に示したV-PCC動画像フォーマットでも同様に、Point Cloudを再構成することができない。そこで、本実施の形態で説明するような拡張されるImageProperty情報と同等の内容を、図3の各TrackのSampleEntryや、schemeInfomationBox以下に配置すること、または、Track GroupやSample Group、EntityToGroupの仕組みでシグナリングすることで、Point Cloudを再構成することを可能とする。
 第1の手法では、Point Cloudを再構成するために、Geometry item,Attibute item、およびOccupancy itemに、新しいItemPropertyを追加する。
 図21には、新しく追加するItemProperty(‘vrps’)のシンタックスが示されており、図22には、そのシンタックスを利用した際のItemPropertyの構造が示されている。
 まず、Point Cloudの再構築でGeometry item,Attibute item、およびOccupancy itemと紐づけが必要となるParameter Setは、metadata item(図22のitem_id=1)で利用するItemProperty(‘vpcC’)に格納されている。ItemProperty(‘vpcC’)は、図7で示されている構造である。ここで、ItemProperty(‘vpcC’)に格納されているvpccUnitに格納されている順に0からindex番号を付ける。これを、vpcC_vpccUnit_indexと称する。ItemProperty(‘vrps’)は、Point Cloudの再構築でGeometry item,Attibute item、およびOccupancy itemと紐づけが必要となるParameter Setの一覧を格納する。その際に、vpcC_vpccUnit_indexで紐づけを行う。
 このように、第1の手法により、Point Cloudの再構築時に必要なParameter Setが一意に特定でき、Point Cloudの再構築が可能になる。
 例えば、上述の図16を参照して説明した再生処理におけるDecode処理(ステップS12)の際に、第1の手法で拡張したItemProperty(‘vrps’)、および、metadata itemのItemProperty(‘vpcC’)に従って、Parameter Setを特定し、Point Cloudを再構成するのに利用する。
 また、第1の手法を動画フォーマットで利用する場合、例えば、ItemProperty('vprs')と同様のfieldを持つvpccReferenceParameterBox('vrps')を定義して、geomotry,attribute、およびoccpancy trackに格納することで実施可能である。
 第2の手法では、Point Cloudを再構成するために、V-PCC unit headerをシグナリングする。
 例えば、第2の手法では、vpcc_unit_headerをシグナリングするItemProperty(‘vuhd’)を、上述した第1の手法のItemProperty(‘vrps’)と同様にシグナリングする。
 図23には、ItemProperty(‘vuhd’)のシンタックスが示されている。
 このように、第2の手法のポイントは、V-PCC静止画フォーマット(1item版)のbitstreamではシグナリングされていたが、V-PCC静止画フォーマット(multi item版)のbitstreamではシグナリングされていないvpcc_unit_headerをシグナリングする。従って、V-PCC静止画フォーマット(multi item版)を、V-PCC静止画フォーマット(1item版)のbitstreamに容易に戻すことが可能になり、Point Cloudの再構築も可能になる。
 なお、第2の手法では、vpcc_unit_headerをシグナリングするようにしたが、vpcc_unit_payloadの一部も含むようにしてもよい。
 また、第2の手法を動画フォーマットで利用する場合、例えば、ItemProperty('vuhd')と同様のfieldを持つvpccUnitHeaderBox('vuhd')を定義して、geomotry,attribute、およびoccpancy trackに格納することで実施可能である。
 第3の手法では、Point Cloudを再構成するために、Parameter Setを各Itemでシグナリングする。
 例えば、第3の手法では、Geometry item,Attibute item、およびOccupancy itemで参照するParameter Setを、それぞれのitemのItemPropertyでシグナリングすることで、Point Cloudの再構築に必要なParameter Setと紐づける。
 図24には、ItemProperty(‘vpss’)のシンタックスが示されており、図25には、そのシンタックスを利用した際のItemPropertyの構造が示されている。
 図25に示すように、新しく定義したvpccParameterSetPropertyは、ItemProperty (‘vpcC’)で、parameter setをシグナリングする部分を抜き出したシンタックスになっている。例えば、item_id=2のgeometry itemではItemProperty (‘vpss’)[3]が紐づけられている。また、ItemProperty (‘vpss’)[3]は、Geometory Parameter Set(GPS)およびGeometory Patch Parameter Set(GPPS)を含んでいる。Point Cloudの再構築の際は、このItemProperty (‘vpss’)[3]と組み合わせることで、再構築が可能になる。
 なお、第3の手法では、ItemProperty (‘vpcC’)[1]では、ItemProperty (‘vpss’)でシグナリングされているParameter Setはシグナリングしないようにしているが、含むようにしてもよい。その場合においても、Point Cloudの再構築の際はItemに紐づけられているParameter Setを利用する。
 また、第3の手法を動画フォーマットで利用する場合、例えば、ItemProperty('vpss')と同様のfieldを持つvpccParameterSetBox('vpss')を定義しgeomotry、attribute、occpancy trackに格納することで実施可能である。
 <Item単体での再生をさせないためのシグナリング>
 図26乃至29を参照して、Item単体での再生をさせないためにシグナリングする第1および第2の手法について説明する。
 第1の手法では、HEVC Image を再生できるクライアントが、Geometory item,Attirbute item、およびOccupancy itemを単体で再生をさせないために、Restricted schemeであることを示すItemPropertyをシグナリングする。
 例えば、Itemが既存のCodecを利用しているが、制限がかかっていることを、ItemInfoEntryおよびItemPropertyを用いてシグナリングをする。
 まず、Item自体が表示するにあたり制限がかかっていることを示す。そのために、IntemInfoEntryのitem_typeを’resi’とする。このとき、元々のitem_typeが認識できなくなるため、OriginalFormatPeopertyを規定する。また、どのような方式の制限がかかっているかを示すために、SchemeTypePropertyを規定する。
 図26には、OriginalFormatPeopertyの構造例が示されており、図27には、SchemeTypePropertyの構造例が示されている。
 例えば、図26に示すように、ItemProerty(‘frma’)のdata_formatは、例えば、HEVC Imageである場合は’hvc1’となる。
 また、図27に示すように、ItemProperty(‘schm’)のscheme_typeは、vpccで利用するためのitemであることを示すために、例えば、”pvcc”をシグナリングする。その他のfieldは、shcme_versionは1を設定しておき、scheme_uriは利用しない。
 図28には、item_type=’resi’,ItemProerty(‘frma’)、およびItemProperty(‘schm’)を用いた例が示されている。
 図28に示すように、Geometory item(item_id=2),Attirbute item(item_id=3)、およびOccupancy item(item_id=4)それぞれで、ItemProerty(‘frma’)およびItemProperty(‘schm’)を紐づける。
 なお、変形例として、item_type=resiおよびItemProerty(‘frma’)を利用せずに、ItemProperty(‘schm’)のみを利用するようにしてもよい。その場合は、ItemProperty(‘schm’)のみで、Restricted schemeであることを判別することになる。
 また、これと同時にItemInfoEntryにおいて、flag&1=1を設定してhidden imageであるとシグナリングしてもよい。
 例えば、第1の手法は、既存のCodecを用いているが、レンダリングで特別な処理が必要である静止画itemに対して一般的に利用が可能なシグナリングである。
 第2の手法では、HEVC Image を再生できるクライアントが、Geometory item,Attirbute item、およびOccupancy itemを単体で再生をさせないために、V-PCCであることを示すItemPropertyをシグナリングする。
 例えば、第2の手法では、Image itemが、V-PCCの一部のデータであることを示すItemPropertyを追加し、このItemPropertyを処理できないクライアントは再生ができないようにする。
 ここでは、上述した図19に示したVPCCMultiItemPropertyをシグナリングすればよい。その際に、図20に示したItemPropertyAssociationBox(‘ipma’)のessential flagを必ず1に設定する。
 そして、図29に示すように、VPCCMultiItemPropertyを定義する。このItemPropertyは、Multi Itemで1つのV-PCCコンテンツを構成している場合に、Image itemがGeometry,Attribute、およびOccupancyのどれであるかを示している。
 なお、Image itemがGeometry,Attribute、およびOccupancyであることの識別はEntityToGroupBoxで可能なため、何もシグナリングされなく(空のItemProperty)てもよい。
 また、これと同時にItemInfoEntryにおいて、flag&1=1を設定してhidden imageであるとシグナリングしてもよい。
 <G-PCC静止画フォーマット>
 図30および図31を参照して、G-PCC静止画 streamのHEIFへの格納方法の定義について説明する。
 まず、動画像の場合は、特定の時間幅で連続的に表示される複数のPC frameから構成される。これに対し、G-PCC静止画 streamの場合は、1つのPC frameのみで十分であり、時間情報は必要ない。
 このG-PCC静止画streamをISOBMFFの技術を利用したファイル構造のファイルに格納する際は、V-PCC静止画 streamと同様に、再生可否判断およびデコードまたはレンダリングに利用するメタデータをItemPropertyとして定義し、ItemPropertyBox(‘iprp’)でシグナリングする。また、メタデータ以外のデータはItem dataとする。例えば、全てのParameter SetをItemPropertyに格納し、全てのGeomおよびAttrをItem dataとして格納する。
 図30には、G-PCC静止画フォーマットのファイル構成が示されている。
 まず、ItemInfoEntry(‘infe’)で、Itemのtypeを指定する。図30に示す例では、item_type=’gpc1’としている。再生可否判断およびデコード・レンダリングに利用するデータは、Item Propertyで、’gpcC’としてシグナリングする。
 例えば、gpcCは、図31で示すような構造である。
 <V-PCC/G-PCCの再生を効率よく行う手法>
 図32乃至図39を参照して、V-PCC/G-PCCにおいて、属性情報を利用せず3次元形状のみで再生する、もしくは3次元形状と一部の属性情報のみを利用して再生するユースケースを効率よく行う第1および第2の手法について説明する。
 第1の手法は、V-PCC/G-PCCの再生を効率よく行うために、SubSampleItemPropertyをシグナリングする。
 例えば、第1の手法は、V-PCC静止画フォーマット(1item版)およびG-PCC静止画フォーマットの両方で利用可能であり、再生で利用するVideo data unitを容易に判別し取得できるように、ItemDataの部分アクセス情報をSubSampleEntryPropertyでシグナリングする。
 図32には、既存規格のSubSampleItemPropertyが示されている。
 例えば、図32に示す既存規格のSubSampleItemPropertyで、ItemDataの一部分をSubSampleとして示すことができる。しかしながら、そのSubSampleがどのようなデータであるか認識できない。
 そこで、図33乃至図35に示すように、codec_specific_parametersを定義することで、部分アクセスを可能にする。
 即ち、図33乃至図35に示すようにcodec_specific_parametersを設定することで、V-PCC静止画フォーマット(1item版)およびG-PCC静止画フォーマットのどちらにおいても、効率よくデータにアクセスできるようになる。
 なお、図33乃至図35に示す例では、codec_specific_parametersで共通としているのに対し、例えば、将来の拡張性を踏まえて、V-PCCおよびG-PCCを別に規定してもよい。そのように規定する場合は、data_type=0(Auxiliary information data)およびdata_type=2(occupancy data)は、G-PCCではreservedとなる。
 第2の手法では、G-PCC静止画フォーマットにおいて、再生で利用するVideo data unitを容易に判別し取得できるように、multi itemでシグナリングする。
 例えば、G-PCC streamは、1つのgeometry bitstreamと複数のattribute bitstreamとを有する。そこで、それぞれのbitstreamをitemとして格納し、必要なデータに効率よくアクセスを可能にする。
 即ち、第2の手法では、geometoryのitemをベースのitemとし、Parameter Setも全て持つ。そして、全てのitemには、multi itemの情報を示すGPCCMultiItemPropertyを持つ。
 図36には、GPCCMultiItemPropertyが持つ構造の一例が示されている。
 例えば、図36に示すように、GPCCMultiItemPropertyで、Itemがgeometory itemである場合、isGeometoryStream=1となる。また、G-PCC streamに含まれるattribute bitstreamの数をnum_attribute_bitstreamで示す。Itemがattiribute itemである場合は、attributeの種類(色、反射)を示すattribute_typeを示す。なお、attribute_typeは、図13と同様に定義される。
 図37には、GPCCMultiItemPropertyを用いたファイル構造が示されている。
 図37に示すように、まず、ItemInfoEntryのitem_typeを、multi itemであることを示す’gpc2’とする。そして、item_id=1は、GeometoryのItemで、ItemProperty(‘gpcC’)とItemProperty(‘gpcM’)のItemPropertyを持つ。また、ItemProperty(‘gpcC’)は、図31と同じ構造である。また、ItemProperty(‘gpcM’)は、isGeometoryStream=1,num_attribute_bistream=1となる。
 さらに、item_id=2はテクスチャ(attribute)のitemで、ItemProperty(‘gpcM’)のItemPropertyを持つ。また、ItemProperty(‘gpcM’)は、isGeometoryStream=0,attribute_type=0(texture)となる。
 そして、再生の起点をEntityToGroupBox(’gpcg’)で示す。この場合の、再生の起点を示す手法は、上述した再生の起点のシグナリングの第1および第2の手法を用いることができる。
 なお、変形例として、上述した再生の起点のシグナリングの第3の手法を用いてもよく、例えば、図38に示すように、geometory itemをベースにして、ItemReference(‘gpcg’)を用いることもできる。ここで、図37のEntityToGroupBoxではなくItemReferenceを用いる点が異なるが、その他のBoxは同様である。
 また、V-PCC/G-PCCの再生を効率よく行う手法の変形例として、再生に利用するAttributeの組合せをシグナリングすることができる。
 例えば、Attribute情報は、利用しなければ3次元形状のみの表示ができ、テクスチャ情報やTransparency情報などで色付けや透過度を示すことが可能になる。クライアントは、Attributeを自由に選択して再生が可能になる。ところが、コンテンツオーサはコンテンツごとで、最低限利用しなければいけないAttributeを利用してレンダリングを行って欲しいが、現状では、それをシグナリングする方法がない。
 そこで、ItemPropertyでコンテンツオーサの意図する再生時の組合せ情報をシグナリングする。
 例えば、図39に示すように、組み合わせるAttributeの一覧をItemPropertyでシグナリングする。
 図39に示すように、V-PCC/G-PCCのgeomeotry、並びに、V-PCCのoccupancyおよびauxiliary informationは、3次元形状を表示するために必須のため、Attributeのみの選択情報を示す。
 例えば、selection_entry_countはAttributeの組合せの数を示し、attribute_numは組み合わせに含まれるattributeの数を示す。例えば、attribute_numが0である場合は、attributeは利用しない再生が許可されていることを示す。また、attribute_numが0より大きい場合は、その組合せに含まれるattributeをattribute_typeで示す。
 この変形例では、組み合わせを示すようにしたが、個々のAttributeが再生必須およびoptionalのいずれであるかを示すだけでもよい。例えば、個々のAttributeが再生必須およびopitonalのいずれであるかを示す情報の場合は、V-PCC/G-PCCの再生を効率よく行う第1の手法のcodec_specific_parametersや、同じく第2の手法のGPCCMultiItemPropertyまたはEntityToGroupBox(’gpcg’)などでシグナリングされてもよい。
 また、V-PCC静止画streamのファイル構成(multi item版)の場合は、EntityToGroup Box(‘vpcg’)でシグナリングされたり、上述した再生の起点のシグナリングの第3の手法のVPCCMultiItemPropertyでシグナリングされてもよい。
 なお、このようなシグナリングを動画フォーマットで利用してもよい。その場合は、例えば、ItemProperty('atsl')と同様のfieldを持つAttributeSelectionBox('atsl')を定義して、metadata trackなどに格納することで実施可能である。
 <システム構成>
 図40および図41を参照して、本技術を適用したデータ生成装置およびデータ再生装置のシステム構成について説明する。
 図40には、データ生成装置の構成例を示すブロック図が示されている。
 図40に示すように、データ生成装置11は、制御部21、メモリ22、およびファイル生成部23を備えて構成される。例えば、メモリ22には、制御部21がファイル生成部23を制御するのに必要な各種のデータが記憶されており、制御部21は、そのデータを参照して、ファイル生成部23におけるファイルの生成を制御する。
 ファイル生成部23は、データ入力部31、データ符号化・生成部32、記録部33、および出力部34を備えて構成される。例えば、データ入力部31に入力されたデータは、データ符号化・生成部32に供給される。そして、データ符号化・生成部32で生成されたファイルが、記録部33を介して出力部34から出力され、例えば、記録メディアなどに記録される。
 データ符号化・生成部32は、前処理部35、符号化部36、およびファイル生成部37を有している。
 前処理部35は、データ入力部31から入力されるPoint Cloudから、geometry画像やtexture画像、各種のメタデータなどを生成する処理を実行する。
 符号化部36は、V-PCCまたはG-PCCを用いてPoint Cloudを符号化する処理を実行する。
 ファイル生成部37は、V-PCC静止画データまたはG-PCC静止画データとともに、前処理部35において生成されたメタデータを、ISOBMFFの技術を利用したファイル構造のファイルに格納し、そのファイルを生成する処理を実行する。
 図41には、データ再生装置の構成例を示すブロック図が示されている。
 図41に示すように、データ再生装置12は、制御部41、メモリ42、および再生処理部43を備えて構成される。例えば、メモリ42には、制御部41が再生処理部43を制御するのに必要な各種のデータが記憶されており、制御部41は、そのデータを参照して、再生処理部43におけるPoint Cloudの再生を制御する。
 再生処理部43は、取得部51、表示制御部52、データ解析・復号部53、および表示部54を備えて構成される。例えば、取得部51により取得された、例えば、記録メディアなどから読み出されたファイルは、データ解析・復号部53に供給される。そして、表示制御部52による表示制御に従ってデータ解析・復号部53において生成された表示画面が、表示部54において表示される。
 データ解析・復号部53は、ファイル解析部55、復号部56、および表示情報生成部57を有しており、上述の図8および図9を参照して説明した再生処理を実行する。
 ファイル解析部55は、ISOBMFFの技術を利用したファイル構造のファイルからV-PCC静止画データまたはG-PCC静止画データを抽出するとともに、メタデータを解析する処理を実行する。
 また、復号部56は、ファイル解析部55において取得されたメタデータに従い、V-PCC静止画データまたはG-PCC静止画データを、V-PCCまたはG-PCCを用いて復号する処理を実行する。
 また、表示情報生成部57は、Point Cloudを構築しPoint Cloudをレンダリングして表示画面を生成する。
 <ファイル生成処理>
 図42は、データ生成装置11のデータ符号化・生成部32が、V-PCC静止画streamが格納されたファイルを生成するファイル生成処理を説明するフローチャートである。
 ステップS101において、前処理部35は、Point Cloudデータから、geometry画像、texture画像、およびメタデータを生成して、符号化部36に供給する。
 ステップS102において、符号化部36は、ステップS101で前処理部35から供給されたgeometry画像、texture画像、およびメタデータをそれぞれ符号化する。これにより、符号化部36は、geometry video data,texture video data,occupancy video data,auxiliary information data、および各parameter setを生成して、ファイル生成部37に供給する。
 ステップS103において、ファイル生成部37は、ステップS102において符号化部36により符号化された各種のデータをV-PCC unitに格納し、V-PCC 静止画streamを生成する。
 ステップS104において、ファイル生成部37は、ステップS104で生成したV-PCC静止画streamを、メタデータを含むISOBMFFの技術を利用したファイル構造のファイルに格納し、記録部33に供給した後、処理は終了される。
 図43は、データ生成装置11のデータ符号化・生成部32が、G-PCC静止画streamが格納されたファイルを生成するファイル生成処理を説明するフローチャートである。
 ステップS111において、前処理部35は、Point Cloudデータの位置情報および属性情報を分離して、符号化部36に供給する。
 ステップS112において、符号化部36は、ステップS111で前処理部35から供給された位置情報および属性情報をそれぞれ符号化する。これにより、符号化部36は、geometry bitstream,attribute bitstream、および各parameter setを生成して、ファイル生成部37に供給する。
 ステップS113において、ファイル生成部37は、ステップS112で符号化部36から供給されたgeometry bitstream、attribute bitstream、および各parameter setから、G-PCC静止画streamを生成する。
 ステップS114において、ファイル生成部37は、ステップS113で生成したG-PCC静止画streamを、メタデータを含むISOBMFFの技術を利用したファイル構造のファイルに格納し、記録部33に供給した後、処理は終了される。
 以上のように、本技術は、時間情報を持たないV-PCC静止画データまたはG-PCC静止画データを、ISOBMFFの技術を利用したファイル構造のファイルに格納することができる。
 例えば、V-PCC静止画streamを1itemとして格納する場合には、クライアントは、Video data unitをデコードすることなく、容易に再生可否の判断ができるようになる。
 また、V-PCC静止画streamをmulti itemで格納する場合には、上述した第1乃至3の手法を用いることにより、下記の点を可能とした。即ち、第1の手法により、再生の起点を明示することで、クライアントが、容易にV-PCCを構成するitemにアクセスすることを可能とした。また、第2の手法により、デコードしたデータと、Point Cloudを再構成するためのメタデータとを紐づけることで、例えば、複数のattributeを持つV-PCC静止画データでもPoint Cloudの再構成を可能とした。また、第3の手法により、Image Itemとして格納されるGeometry,Occupancy、およびAttributeのデータが単体で再生されるのを禁止することを可能とした。
 そして、V-PCCまたはG-PCCにおいて、geometory,attribute、およびデータ(metadata (V-PCCのみ Auxiliary information、occupancy))へのアクセスが可能になり、クライアントは、属性情報の選択再生処理を容易に行うことができる。これにより、色や反射といった属性情報が不要で、Point Cloudの3次元形状情報だけを利用するユースケースにおけるクライアント処理を容易にすることができる。同様に、色や反射といった属性情報が複数ついている場合、例えば、プレビュー用にはgeometryとともに色の属性だけ利用するようなユースケースにおけるクライアント処理を容易にすることができる。また、再生に利用する属性情報の組合せにより、特定の組合せのみの再生を、コンテンツオーナが指定することが可能となる。
 <コンピュータの構成例>
 次に、上述した一連の処理(情報処理方法)は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
 図44は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示すブロック図である。
 プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク105やROM103に予め記録しておくことができる。
 あるいはまた、プログラムは、ドライブ109によって駆動されるリムーバブル記録媒体111に格納(記録)しておくことができる。このようなリムーバブル記録媒体111は、いわゆるパッケージソフトウェアとして提供することができる。ここで、リムーバブル記録媒体111としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
 なお、プログラムは、上述したようなリムーバブル記録媒体111からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク105にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。
 コンピュータは、CPU(Central Processing Unit)102を内蔵しており、CPU102には、バス101を介して、入出力インタフェース110が接続されている。
 CPU102は、入出力インタフェース110を介して、ユーザによって、入力部107が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)103に格納されているプログラムを実行する。あるいは、CPU102は、ハードディスク105に格納されたプログラムを、RAM(Random Access Memory)104にロードして実行する。
 これにより、CPU102は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU102は、その処理結果を、必要に応じて、例えば、入出力インタフェース110を介して、出力部106から出力、あるいは、通信部108から送信、さらには、ハードディスク105に記録等させる。
 なお、入力部107は、キーボードや、マウス、マイク等で構成される。また、出力部106は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
 ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
 また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
 さらに、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 また、例えば、1つの装置(または処理部)として説明した構成を分割し、複数の装置(または処理部)として構成するようにしてもよい。逆に、以上において複数の装置(または処理部)として説明した構成をまとめて1つの装置(または処理部)として構成されるようにしてもよい。また、各装置(または各処理部)の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置(または処理部)の構成の一部を他の装置(または他の処理部)の構成に含めるようにしてもよい。
 また、例えば、本技術は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、例えば、上述したプログラムは、任意の装置において実行することができる。その場合、その装置が、必要な機能(機能ブロック等)を有し、必要な情報を得ることができるようにすればよい。
 また、例えば、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。換言するに、1つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を1つのステップとしてまとめて実行することもできる。
 なお、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。
 なお、本明細書において複数説明した本技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部または全部を、他の実施の形態において説明した本技術の一部または全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部または全部を、上述していない他の技術と併用して実施することもできる。
 <構成の組み合わせ例>
 なお、本技術は以下のような構成も取ることができる。
(1)
 時間情報を持たない3Dデータから生成されたビットストリームを再生するのに必要な再生情報、および、前記ビットストリームの再生の可否を判断するのに用いられる再生可否判断情報を含むメタデータを生成するメタデータ生成部と、
 前記ビットストリームおよび前記メタデータを格納したファイルを生成するファイル生成部と
 を備える情報処理装置。
(2)
 前記再生情報には、前記ビットストリームを構成するVideo data unitに対し、再生時に用いる前記Video data unitの組み合わせを示す組み合わせ情報が含まれる
 上記(1)に記載の情報処理装置。
(3)
 前記再生可否判断情報には、前記ビットストリームのパラメータセットが含まれる
 上記(2)に記載の情報処理装置。
(4)
 前記再生可否判断情報には、さらに、前記Video data unitごとに対応するSub-Sampleのパラメータセットが含まれる
 上記(3)に記載の情報処理装置。
(5)
 前記ファイル生成部は、前記再生可否判断情報を、Item Propertyに格納する
 上記(3)に記載の情報処理装置。
(6)
 前記ファイル生成部は、前記再生可否判断情報に含まれるパラメータセットのうち、前記Video data unitごとのProfile情報を、Item Propertyに格納する
 上記(4)に記載の情報処理装置。
(7)
 前記メタデータ生成部は、Attributeデータを選択して再生をするための前記メタデータを生成する
 上記(1)から(6)までのいずれかに記載の情報処理装置。
(8)
 1itemである場合において前記メタデータはSubSampleItemPropertyであり、multi itemにすることで選択再生を可能にする
 上記(7)に記載の情報処理装置。
(9)
 前記メタデータ生成部は、再生の組合せを示す前記メタデータを生成する
 上記(7)に記載の情報処理装置。
(10)
 情報処理装置が、
 時間情報を持たない3Dデータから生成されたビットストリームを再生するのに必要な再生情報、および、前記ビットストリームの再生の可否を判断するのに用いられる再生可否判断情報を含むメタデータを生成することと、
 前記ビットストリームおよび前記メタデータを格納したファイルを生成することと
 を含む情報処理方法。
(11)
 時間情報を持たない3Dデータから生成された複数のビットストリームを再生するのに必要な再生情報、および、前記ビットストリームの再生の可否を判断するのに用いられる再生可否判断情報を含むメタデータを生成するメタデータ生成部と、
 前記ビットストリームおよび前記メタデータを、格納したファイルを生成するファイル生成部と
 を備える情報処理装置。
(12)
 前記再生情報には、再生時に用いる前記ビットストリームの組み合わせを示すビットストリーム組み合わせ情報と、再生の起点を示す再生起点情報とを含む
 上記(11)に記載の情報処理装置。
(13)
 前記再生起点情報は、最初に再生すべきビットストリームを示すitem_idである
 上記(12)に記載の情報処理装置。
(14)
 前記再生情報は、更に、前記ビットストリームから前記3Dデータを再構成するための情報として、各前記ビットストリームのTypeを識別する情報であるV-PCC Unit Headerを含む
 上記(12)に記載の情報処理装置。
(15)
 前記再生可否判断情報は、各前記ビットストリームが前記3Dデータを構成するデータの一部であることを示す情報を含み、
 前記ファイル生成部は、前記再生可否判断情報をItem Propertyに格納する
 上記(14)に記載の情報処理装置。
(16)
 前記再生可否判断情報には、更に、各前記ビットストリームが前記3Dデータの構成であるとして処理できるか否かの処理を行うことを示す処理判断情報を含む
 上記(15)に記載の情報処理装置。
(17)
 前記再生可否判断情報には、item単体で表示不可である判断を可能にする判断情報として、さらに、hidden imageであることを示す情報を含み、
 前記ファイル生成部は、前記hidden_imageを示す情報を、ItemInfoEntryに格納する
 上記(15)に記載の情報処理装置。
(18)
 情報処理装置が、
 時間情報を持たない3Dデータから生成された複数のビットストリームを再生するのに必要な再生情報、および、前記ビットストリームの再生の可否を判断するのに用いられる再生可否判断情報を含むメタデータを生成することと、
 前記ビットストリームおよび前記メタデータを格納したファイルを生成することと
 を含む情報処理方法。
 なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
 11 データ生成装置, 12 データ再生装置, 21 制御部, 22 メモリ, 23 ファイル生成部, 31 データ入力部, 32 データ符号化・生成部, 33 記録部, 34 出力部, 35 前処理部, 36 符号化部, 37 ファイル生成部, 41 制御部, 42 メモリ, 43 再生処理部, 51 取得部, 52 表示制御部, 53 データ解析・復号部, 54 表示部, 55 ファイル解析部, 56 復号部, 57 表示情報生成部

Claims (18)

  1.  時間情報を持たない3Dデータから生成されたビットストリームを再生するのに必要な再生情報、および、前記ビットストリームの再生の可否を判断するのに用いられる再生可否判断情報を含むメタデータを生成するメタデータ生成部と、
     前記ビットストリームおよび前記メタデータを格納したファイルを生成するファイル生成部と
     を備える情報処理装置。
  2.  前記再生情報には、前記ビットストリームを構成するVideo data unitに対し、再生時に用いる前記Video data unitの組み合わせを示す組み合わせ情報が含まれる
     請求項1に記載の情報処理装置。
  3.  前記再生可否判断情報には、前記ビットストリームのパラメータセットが含まれる
     請求項2に記載の情報処理装置。
  4.  前記再生可否判断情報には、さらに、前記Video data unitごとに対応するSub-Sampleのパラメータセットが含まれる
     請求項3に記載の情報処理装置。
  5.  前記ファイル生成部は、前記再生可否判断情報を、Item Propertyに格納する
     請求項4に記載の情報処理装置。
  6.  前記ファイル生成部は、前記再生可否判断情報に含まれるパラメータセットのうち、前記Video data unitごとのProfile情報を、Item Propertyに格納する
     請求項4に記載の情報処理装置。
  7.  前記メタデータ生成部は、Attributeデータを選択して再生をするための前記メタデータを生成する
     請求項1に記載の情報処理装置。
  8.  1itemである場合において前記メタデータはSubSampleItemPropertyであり、multi itemにすることで選択再生を可能にする
     請求項7に記載の情報処理装置。
  9.  前記メタデータ生成部は、再生の組合せを示す前記メタデータを生成する
     請求項7に記載の情報処理装置。
  10.  情報処理装置が、
     時間情報を持たない3Dデータから生成されたビットストリームを再生するのに必要な再生情報、および、前記ビットストリームの再生の可否を判断するのに用いられる再生可否判断情報を含むメタデータを生成することと、
     前記ビットストリームおよび前記メタデータを格納したファイルを生成することと
     を含む情報処理方法。
  11.  時間情報を持たない3Dデータから生成された複数のビットストリームを再生するのに必要な再生情報、および、前記ビットストリームの再生の可否を判断するのに用いられる再生可否判断情報を含むメタデータを生成するメタデータ生成部と、
     前記ビットストリームおよび前記メタデータを、格納したファイルを生成するファイル生成部と
     を備える情報処理装置。
  12.  前記再生情報には、再生時に用いる前記ビットストリームの組み合わせを示すビットストリーム組み合わせ情報と、再生の起点を示す再生起点情報とを含む
     請求項11に記載の情報処理装置。
  13.  前記再生起点情報は、最初に再生すべきビットストリームを示すitem_idである
     請求項12に記載の情報処理装置。
  14.  前記再生情報は、更に、前記ビットストリームから前記3Dデータを再構成するための情報として、各前記ビットストリームのTypeを識別する情報であるV-PCC Unit Headerを含む
     請求項12に記載の情報処理装置。
  15.  前記再生可否判断情報は、各前記ビットストリームが前記3Dデータを構成するデータの一部であることを示す情報を含み、
     前記ファイル生成部は、前記再生可否判断情報をItem Propertyに格納する
     請求項14に記載の情報処理装置。
  16.  前記再生可否判断情報には、更に、各前記ビットストリームが前記3Dデータの構成であるとして処理できるか否かの処理を行うことを示す処理判断情報を含む
     請求項15に記載の情報処理装置。
  17.  前記再生可否判断情報には、item単体で表示不可である判断を可能にする判断情報として、さらに、hidden imageであることを示す情報を含み、
     前記ファイル生成部は、前記hidden imageを示す情報を、ItemInfoEntryに格納する
     請求項15に記載の情報処理装置。
  18.  情報処理装置が、
     時間情報を持たない3Dデータから生成された複数のビットストリームを再生するのに必要な再生情報、および、前記ビットストリームの再生の可否を判断するのに用いられる再生可否判断情報を含むメタデータを生成することと、
     前記ビットストリームおよび前記メタデータを格納したファイルを生成することと
     を含む情報処理方法。
PCT/JP2019/050028 2018-12-28 2019-12-20 情報処理装置および情報処理方法 WO2020137854A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN202311133300.2A CN117061767A (zh) 2018-12-28 2019-12-20 信息处理装置和信息处理方法
EP19905781.1A EP3883250A4 (en) 2018-12-28 2019-12-20 INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING PROCESS
CN201980085303.9A CN113302944B (zh) 2018-12-28 2019-12-20 信息处理装置和信息处理方法
JP2020563187A JPWO2020137854A1 (ja) 2018-12-28 2019-12-20 情報処理装置および情報処理方法
US17/416,907 US11902555B2 (en) 2018-12-28 2019-12-20 Information processing device and information processing method
US18/529,743 US20240107049A1 (en) 2018-12-28 2023-12-05 Information processing device and information processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-248321 2018-12-28
JP2018248321 2018-12-28

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US17/416,907 A-371-Of-International US11902555B2 (en) 2018-12-28 2019-12-20 Information processing device and information processing method
US18/529,743 Continuation US20240107049A1 (en) 2018-12-28 2023-12-05 Information processing device and information processing method

Publications (1)

Publication Number Publication Date
WO2020137854A1 true WO2020137854A1 (ja) 2020-07-02

Family

ID=71126220

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/050028 WO2020137854A1 (ja) 2018-12-28 2019-12-20 情報処理装置および情報処理方法

Country Status (5)

Country Link
US (2) US11902555B2 (ja)
EP (1) EP3883250A4 (ja)
JP (1) JPWO2020137854A1 (ja)
CN (2) CN113302944B (ja)
WO (1) WO2020137854A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7460611B2 (ja) 2018-09-18 2024-04-02 ヴィド スケール インコーポレイテッド ポイントクラウド圧縮ビットストリームフォーマットに対する方法および装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7303625B2 (ja) * 2018-12-18 2023-07-05 キヤノン株式会社 画像ファイル生成装置、画像ファイル生成方法、及びプログラム
CN114072847A (zh) * 2019-07-01 2022-02-18 佳能株式会社 图像文件创建设备、图像文件创建方法和程序

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099263A (ja) 2001-09-21 2003-04-04 Ricoh Co Ltd 文書のデータ構造、記憶媒体、情報処理装置及び情報処理システム
US8400497B2 (en) * 2007-09-07 2013-03-19 Samsung Electronics Co., Ltd Method and apparatus for generating stereoscopic file
KR20120055462A (ko) * 2010-11-21 2012-05-31 휴먼 모니터링 리미티드 미디어 컨텐츠를 인코딩 및 디코딩하는 방법 및 시스템
WO2015194082A1 (ja) 2014-06-20 2015-12-23 パナソニックIpマネジメント株式会社 画像処理方法および画像処理システム
CN104537709B (zh) * 2014-12-15 2017-09-29 西北工业大学 一种基于位姿变化的实时三维重建关键帧确定方法
GB2539461B (en) * 2015-06-16 2020-01-08 Canon Kk Image data encapsulation
US10694210B2 (en) 2016-05-28 2020-06-23 Microsoft Technology Licensing, Llc Scalable point cloud compression with transform, and corresponding decompression
US10341568B2 (en) 2016-10-10 2019-07-02 Qualcomm Incorporated User interface to assist three dimensional scanning of objects
PL3346709T3 (pl) * 2017-01-05 2022-01-03 Nokia Technologies Oy Urządzenie, sposób i program komputerowy do kodowania oraz dekodowania wideo
US11568573B2 (en) * 2018-09-18 2023-01-31 Vid Scale, Inc. Methods and apparatus for point cloud compression bitstream format
JP7303625B2 (ja) * 2018-12-18 2023-07-05 キヤノン株式会社 画像ファイル生成装置、画像ファイル生成方法、及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"White paper on Overview of the ISO Base Media File Format", 124. MPEG MEETING; 20181008 - 20181012; MACAO; (MOTION PICTURE EXPERT GROUP OR ISO/IEC JTC1/SC29/WG11), 21 October 2018 (2018-10-21), XP030193428 *
ANONYMOUS: "Work plan for development of DASH Conformance and reference software and sample clients", 114. MPEG MEETING; 20160222 - 20160226; SAN DIEGO; (MOTION PICTURE EXPERT GROUP OR ISO/IEC JTC1/SC29/WG11), 2 March 2016 (2016-03-02), pages 1 - 8, XP030268940 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7460611B2 (ja) 2018-09-18 2024-04-02 ヴィド スケール インコーポレイテッド ポイントクラウド圧縮ビットストリームフォーマットに対する方法および装置

Also Published As

Publication number Publication date
CN113302944B (zh) 2023-10-27
EP3883250A1 (en) 2021-09-22
US20240107049A1 (en) 2024-03-28
US11902555B2 (en) 2024-02-13
CN113302944A (zh) 2021-08-24
US20220053205A1 (en) 2022-02-17
CN117061767A (zh) 2023-11-14
EP3883250A4 (en) 2022-01-05
JPWO2020137854A1 (ja) 2021-11-18

Similar Documents

Publication Publication Date Title
US11532103B2 (en) Information processing apparatus and information processing method
WO2021049333A1 (ja) 情報処理装置、情報処理方法、再生処理装置及び再生処理方法
CN110463210A (zh) 用于生成媒体数据的方法
WO2020137854A1 (ja) 情報処理装置および情報処理方法
KR102027410B1 (ko) 계층화된 신호 품질 계층에서의 재구성 데이터의 송신
JP7439762B2 (ja) 情報処理装置および情報処理方法、並びにプログラム
GB2509953A (en) Displaying a Region of Interest in a Video Stream by Providing Links Between Encapsulated Video Streams
JP7415936B2 (ja) 情報処理装置および情報処理方法
WO2013118505A1 (ja) マルチメディアコンテンツ編集サーバ、マルチメディアコンテンツ編集方法、プログラム及び集積回路
US11825135B2 (en) Information processing apparatus, information processing method, reproduction processing apparatus, and reproduction processing method
JP7287454B2 (ja) 情報処理装置、再生処理装置、情報処理方法及び再生処理方法
KR20050055007A (ko) 저장 장치
JP6632550B2 (ja) タイムピリオドにまたがってオブジェクトを識別する方法および対応デバイス
WO2022054744A1 (ja) 情報処理装置および方法
WO2022075342A1 (ja) 情報処理装置および方法
WO2020261689A1 (ja) 情報処理装置、情報処理方法、再生処理装置及び再生処理方法
JP2022063882A (ja) 情報処理装置および方法、並びに、再生装置および方法
WO2020145139A1 (ja) 情報処理装置および情報処理方法
WO2021251141A1 (ja) 情報処理装置および方法
WO2021002142A1 (ja) 情報処理装置、情報処理方法、再生処理装置及び再生処理方法
Polfreman et al. DIGITAL MOVING IMAGES AND SOUND ARCHIVING STUDY

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19905781

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020563187

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2019905781

Country of ref document: EP

Effective date: 20210618

NENP Non-entry into the national phase

Ref country code: DE