WO2020071112A1 - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法

Info

Publication number
WO2020071112A1
WO2020071112A1 PCT/JP2019/036466 JP2019036466W WO2020071112A1 WO 2020071112 A1 WO2020071112 A1 WO 2020071112A1 JP 2019036466 W JP2019036466 W JP 2019036466W WO 2020071112 A1 WO2020071112 A1 WO 2020071112A1
Authority
WO
WIPO (PCT)
Prior art keywords
projection
data
information
file
projection direction
Prior art date
Application number
PCT/JP2019/036466
Other languages
English (en)
French (fr)
Inventor
遼平 高橋
平林 光浩
央二 中神
智 隈
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to JP2020550266A priority Critical patent/JP7415936B2/ja
Priority to EP19869554.6A priority patent/EP3863290A4/en
Priority to CN201980063702.5A priority patent/CN112789865A/zh
Priority to US17/280,609 priority patent/US11481961B2/en
Publication of WO2020071112A1 publication Critical patent/WO2020071112A1/ja
Priority to US17/885,024 priority patent/US11676331B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/23439Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26258Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists for generating a list of items to be played back in a given order, e.g. playlist, or scheduling item distribution according to such list
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Definitions

  • the present disclosure relates to an information processing apparatus and an information processing method, and more particularly, to an information processing apparatus and an information processing method capable of achieving higher image quality while suppressing an increase in a processing amount in a client.
  • Non-Patent Document 1 a compression method of Point @ Cloud, which is a set of points simultaneously having position information and attribute information (particularly, color information) in a three-dimensional space, is defined.
  • Non-Patent Document 2 discloses, as one of Point Cloud compression methods, Point Cloud data is divided into a plurality of regions (hereinafter, referred to as segmentation), and a texture image, a geometry image, A method is disclosed in which after generating an occupancy @ map image and auxiliary @ information, these three types of images are encoded by a moving image codec.
  • the geometry image is an image composed of depth information of a point cloud forming Point @ Cloud. This method is called Video-based Point Cloud Coding (V-PCC).
  • the number of projection planes at the time of generating a texture image, a geometry image, and an occupancy @ map image by plane projection for each area is six (four in the horizontal direction and vertical). Direction).
  • the number of the projection planes is six, many points disappear when converting from 3D to 2D, and a hole may be formed on the surface of the reconstructed Point @ Cloud object.
  • Non-Patent Document 3 a technique has been developed in which four new projection planes are added to increase the number of projection planes to ten (eight in the horizontal direction and two in the vertical direction). (Moving ⁇ Picture ⁇ Experts ⁇ Group).
  • Non-Patent Document 4 ⁇ discloses a technique capable of partially accessing individual blocks that divide an object @ box.
  • adding a new projection plane to improve the image quality as described above may increase the amount of processing at the client.
  • the present disclosure has been made in view of such a situation, and is intended to achieve higher image quality while suppressing an increase in a processing amount in a client.
  • An information processing apparatus projects 3D data in a plurality of projection directions and generates image data in a plurality of the projection directions by converting the projection data into a two-dimensional image.
  • a preprocessing unit that generates the projection direction information shown as projection metadata.
  • An information processing method is configured to generate image data in a plurality of the projection directions by projecting 3D data in a plurality of projection directions and converting the image data into a two-dimensional image. Is generated as projection metadata.
  • image data in a plurality of projection directions is generated by projecting 3D data in a plurality of projection directions and converting the data into two-dimensional data, and projection direction information indicating a projection direction of each image data. Is generated as projection metadata.
  • FIG. 3 is a diagram illustrating a compression method of Point @ Cloud.
  • FIG. 9 is a diagram illustrating an image generated when the number of projection surfaces is six. It is a figure showing an example which sets up eight projection planes in the horizontal direction.
  • FIG. 9 is a diagram for describing improvement in image quality by increasing the number of projection planes.
  • FIG. 9 is a diagram illustrating an image generated when the number of projection surfaces is ten.
  • FIG. 11 is a diagram illustrating generation of a file when the number of projection surfaces is ten.
  • FIG. 9 is a diagram illustrating an example of acquiring a file according to a viewing direction.
  • FIG. 4 is a diagram illustrating a sample of an MPD in a first signaling method in a first extension method.
  • FIG. 4 is a diagram illustrating an example of acquiring a stream.
  • FIG. 9 is a diagram illustrating a sample of an MPD in a second signaling method in the first extension method. It is a figure showing a sample of MPD which signaled additional projection direction identification information. It is a figure explaining object @ box and block.
  • FIG. 11 is a diagram illustrating a sample of an MPD that signals additional projection direction identification information set for each block.
  • FIG. 4 is a diagram illustrating each attribute of a gpcc: blockInfo element.
  • FIG. 2 is a block diagram illustrating a configuration example of a data generation device.
  • FIG. 3 is a block diagram illustrating a configuration example of a data reproduction device. It is a flowchart explaining a file generation process.
  • FIG. 3 is a diagram illustrating a sample of an MPD to which image quality metadata is added. It is a figure explaining the modification using extractor @ track. It is a figure which shows the sample of MPD using extractor @ track. It is a figure showing an example of a newly defined VPCCCGroupBox.
  • FIG. 4 is a diagram for describing definitions of projection_direction, present_alone, and point_cloud_resolution. It is a figure showing the sample of VPCCGroupBox which signaled additional projection direction identification information. It is a figure explaining the definition of 45degree_projection, projection_direction, present_alone, and point_cloud_resolution.
  • FIG. 4 is a diagram for describing definitions of projection_direction, present_alone, and point_cloud_resolution. It is a figure showing a part of auxiliary @ information to which 45degree_projection was added. It is a figure explaining the definition of 45degree_projection, projection_direction, present_alone, and point_cloud_resolution.
  • FIG. 21 is a block diagram illustrating a configuration example of an embodiment of a computer to which the present technology is applied.
  • FIG. 1 is a diagram for simply explaining the V-PCC disclosed in Non-Patent Document 2 described above.
  • Point @ Cloud data (3D data) representing a three-dimensional structure
  • Point @ Cloud content is segmented into a plurality of areas.
  • Point @ Cloud data representing a three-dimensional structure in which a hemispherical shape and a conical shape are combined is input, and the hemispherical shape is divided into one region and the conical shape is divided into two regions for the Point @ Cloud content.
  • the segmentation is performed on the three areas.
  • plane projection is performed for each region, a texture image composed of color information representing the appearance of the surface of each region, a geometry image composed of positional information representing the depth (depth) to the surface of each region, and An occupancy map image including patch position information in the component picture is generated.
  • the texture image, geometry image, and occupancy map image are encoded by a moving image codec such as, for example, AVC (Advanced Video Coding) or HEVC (High Efficiency Video Coding).
  • patches projected on six projection surfaces (X + projection surface, X-projection surface, Y + projection surface, Y-projection surface, Z + projection surface, and Z-projection surface) It is possible to generate a texture image arranged and arranged for each projection direction. Similarly, for the geometry image and the occupancy @ map image, the patches projected on the six projection planes can be generated by being arranged collectively for each projection direction.
  • Non-Patent Document 3 a technology has been developed that generates a texture image, a geometry image, and an occupancy map image on ten projection planes. That is, as shown in FIG. 3, conventionally, four projection planes (solid lines) at every 90 ° in the horizontal direction are used, and four projection planes whose projection directions are shifted by 45 ° with respect to those projection planes are used. A plane (broken line) is added, and ten projection planes including two vertical planes are used.
  • ten projection planes (X + projection plane, X-projection plane, Y + projection plane, Y-projection plane, Z + projection plane, Z-projection plane, X + Y + projection plane, XY- It is possible to generate a texture image in which patches projected on the projection plane, the X-Y + projection plane, and the X + Y-projection plane) are arranged collectively for each projection direction.
  • patches projected on ten projection planes can be generated by being arranged collectively for each projection direction.
  • the projection is performed on four projection planes in the horizontal direction (X + projection plane, X-projection plane, Y + projection plane, and Y-projection plane) conventionally used.
  • Point Cloud points are also projected on four additional horizontal projection planes (X + Y + projection plane, XY-projection plane, X-Y + projection plane, and X + Y-projection plane) Will be done.
  • the patches projected on the X + Y + projection plane include the patches of the X + projection plane and the Y + projection plane. There is a patch including only the lost difference information.
  • the divided streams for each projection direction can be displayed independently.
  • the overlapping information is encoded by deleting from the added patches of the four projection planes, the divided streams for each projection direction cannot be displayed alone.
  • the subjective image quality can be improved by using ten projection planes
  • the number of patches in the image increases along with that, so the information of the texture image, geometry image, and occupancycupmap image The amount will increase.
  • this may cause interruption during playback, for example, in an environment with a limited network bandwidth.
  • encoding with the bit rate reduction is performed despite the increase in the number of projection planes for improving the image quality. There is a concern that the image quality may be degraded due to this.
  • V-PCC streams texture stream, geometry stream, and occupancy map stream
  • V-PCC streams are divided and delivered for each projection plane, and only the required V-PCC stream of the projection plane is selected according to the viewing direction of the user. It is considered that the method of acquiring the information is effective in reducing the distribution bit rate.
  • the patches of the four additional projection planes are It is not possible to identify whether or not it has all the information. For this reason, it cannot be determined whether the image is an image that can be displayed independently, and the stream is always obtained on the assumption that the image does not have all information on the projection direction.
  • the divided stream has all information on the projection direction, and the stream alone can constitute Point ⁇ ⁇ ⁇ ⁇ ⁇ Cloud content in the projection direction.
  • a divided stream in the projection direction X + and the projection direction Y + around the projection direction X + Y + is obtained.
  • This disclosure proposes a means for generating a file including information on the additional plane as described above and providing the file to the client.
  • a method of extending (DASH MPD extension, ISOBMFF extension, or Elementary Stream extension) will be described below.
  • ten projection planes (X + projection plane, X-projection plane, Y + projection plane, Y-projection plane, Z + projection plane, Z-projection plane, X + Y + projection plane,
  • the patches projected on the XY-projection plane, the X-Y + projection plane, and the X + Y-projection plane) are all arranged in the same arrangement and for each projection direction, and the texture image, geometry image, and occupancy map An image is generated, and auxiliary information including projection metadata including projection direction information and single display availability information is generated.
  • the generated image is divided for each projection direction and encoded, so that a texture stream, a geometry stream, and an occupancy map stream for each projection direction are generated.
  • a projection direction file ISO ⁇ Base ⁇ Media ⁇ File ⁇ Format
  • those streams and auxiliary information are stored is generated.
  • the projection direction file can be composed of one track that generates a single stream by combining auxiliary information with a texture stream, geometry stream, and occupancy map stream for each projection direction, and stores the single stream.
  • the projection direction file can be composed of four tracks in which a texture stream, a geometry stream, and an occupancy @ map stream for each projection direction and auxiliary @ information are individually stored.
  • the projection direction file is configured to have the auxiliary information
  • the auxiliary information includes the projection direction information indicating the projection direction of the one file and the single display indicating whether the single file can be displayed independently.
  • Availability information is added. Therefore, the client can select and acquire a file necessary for reproduction in accordance with the viewing direction based on the information, and can configure and display Point @ Cloud.
  • the arrow view shown in FIG. 7A indicates the viewing direction, and an example of acquiring a file when the user's viewing direction is near the projection direction X + Y + will be described.
  • the client sets six projection directions (two projection directions in the Z direction to four projection directions illustrated in FIG. 7B). Acquire the projection direction files of the projection direction X + Y +, the projection direction XY-, the projection direction X-Y +, the projection direction X + Y-, the projection direction Z +, and the projection direction Z-).
  • the client performs seven projections by adding two projection directions of the Z direction to five projection directions shown in C of FIG. 7.
  • the number of files acquired by the client is smaller than the number of files obtained when there is no projection metadata, even when the single display availability information indicates that the single display is possible or the single display is impossible, and the viewing / listening is not performed.
  • the subjective image quality in the directions is equivalent. In other words, it is possible to distribute a V-PCC stream of high image quality by adding a projection plane to a client while effectively utilizing the network bandwidth and suppressing processing overhead on the client side.
  • ⁇ First extension method> Referring to FIGS. 8 to 21, a first method in which projection direction information, single display availability information, and image quality metadata are signaled by DASH MPD (Dynamic Adaptive Streaming over HTTP Media Presentation Description) extension for each referenced file.
  • DASH MPD Dynamic Adaptive Streaming over HTTP Media Presentation Description
  • the projection metadata includes projection direction information and single display availability information.
  • the single display availability information is information indicating whether a texture stream, a geometry stream, and an occupancy @ map stream included in the file can be independently displayed.
  • the signaling method of the information includes a first method described below. And a second signaling method.
  • First signal method in first expansion method In the first signaling method, the texture stream, the geometry stream, and the occupancy map stream included in the file are signaled by a flag indicating whether the stream can be displayed alone.
  • @value signals the projection direction information of the patch in the stream.
  • one divided V-PCC stream may include patches in a plurality of projection directions.
  • a plurality of projection directions are signaled in @value, separated by commas.
  • the split stream including the patches projected in the projection direction X + and the projection direction Y + can be displayed alone, and the split stream including the patches projected in the projection direction X + Y + cannot be displayed alone. Is shown.
  • a patch that can be displayed alone and a patch that cannot be displayed may be mixed in one divided V-PCC stream.
  • @ value 0 for present ⁇ alone ⁇ descriptor.
  • ⁇ Grouping of divided V-PCC streams constituting one Point Cloud is defined by newly defining a point cloud component group descriptor (SupplementalProperty of "urn: mpeg: mpegI: pc_group: 2018").
  • @value signals a grouping identifier, and divided V-PCC streams having the same value constitute one Point @ Cloud.
  • Point Cloud display covering the viewing direction can be performed.
  • a divided V-PCC stream constituting a back-point Point Cloud that is not visible from the viewing direction may be further obtained.
  • the distribution bit rate can be reduced by obtaining the minimum number of divided streams. For example, when the viewing direction of the user is near the projection direction X + Y + and the stream in the projection direction X + Y + cannot be displayed alone, as shown in FIG. What is necessary is just to acquire the stream of a direction (projection direction X + Y +, projection direction X +, projection direction Y +, projection direction X, and projection direction Y-).
  • the distribution according to the viewing direction of the V-PCC stream can be effectively performed.
  • the newly defined descriptor may be signaled using EssentialProperty.
  • DASH clients that do not support the schemeIdUri of the EssentialProperty must ignore the Preselection, Adaptation Set (or sometimes Representation, etc.) in which this Property is written.
  • a DASH client that does not support the schemeIdUri of the SupplementalProperty may ignore this Property value and use its Preselection, ionAdaptationSet (or in some cases, such as Representation).
  • the Representation @ dependencyId is used to link the Representation of the divided stream that cannot be displayed alone to the Representation of the divided stream that has information necessary for displaying the divided stream. That is, Representation @ dependencyId is used as single display availability information of the divided V-PCC stream. For example, when there is a Representation @ dependencyId, it indicates that the divided stream cannot be displayed alone, and when there is no Representation @ dependencyId, it indicates that the divided stream can be displayed alone.
  • FIG. 10 shows a sample of the MPD in the second signal method, and the same effect as in the first signal method described above can be obtained in the second signal method.
  • a new descriptor may be defined to signal a single displayable group. For example, a projection direction X + Y + that cannot be displayed alone and a projection direction X + and a projection direction Y + necessary for the display are grouped to indicate that single display is possible in group units.
  • the first extension method is an extension method for extending the conventional DASH @ MPD so as to have projection direction information and the like.
  • four additional projection planes (X + Y + projection plane, XY-projection plane, X-Y + projection plane, and X + Y-projection plane) are added from the four additional projection direction patches.
  • DASH @ MPD can be further extended to have additional projection direction identification information indicating that it is a generated image.
  • no 45 degree projection descriptor is signaled, it may indicate that the stream is generated from patches in six projection directions. On the other hand, when a signal of 45 degrees projection projection is signaled, it may indicate that the stream is generated from patches in four projection directions.
  • the object @ box has a rectangular parallelepiped shape including the entire Point @ Cloud object, and can be divided into a plurality of blocks by a block that is a rectangular parallelepiped smaller than the object @ box.
  • FIG. 12 shows an example in which the object box is divided by four blocks.
  • an X-axis, a Y-axis, and a Z-axis as shown in FIG. 12A are set in the object @ box, and the X-axis and the Y-axis are viewed from the Z-axis direction as shown in FIG.
  • the object @ box can be divided by four blocks so as to have a 2 ⁇ 2 arrangement in the direction.
  • four projection planes dashex lines
  • solid lines solid lines
  • a 45 degree projection descriptor that is signaled for each block can be used together with Block position information for identifying three-dimensional spatial information of each block.
  • the three-dimensional space information of a block can be indicated by attributes of block_offset_x, block_offset_y, block_offset_z, block_size_x, block_size_y, and block_size_z of the gpcc: blockInfo element.
  • blocks having the same object_id attribute indicate that the same one object @ box is configured.
  • each attribute of the gpcc: blockInfo element is signaled by a relative value obtained by setting each side of the X-axis, Y-axis, and Z-axis of object @ box as 1, as shown in FIG.
  • the MPD can be extended so that additional projection direction identification information is signaled separately from the projection direction information.
  • FIG. 15 shows a configuration of a data generation device that is an information processing device that performs a file generation process of generating a PC stream from Point Cloud data on a server providing content and generating a file in which the PC stream is stored in ISOBMFF. It is a block diagram showing an example.
  • the data generation device 51 shown in FIG. 15 has a control unit 61 and a file generation unit 62.
  • the data generation device 51 generates a segment file and an MPD file of a V-PCC stream distributed by MPEG-DASH or the like, and uploads the generated file to a server.
  • the control unit 61 controls the operation of the entire data generation device 51.
  • the control unit 61 controls the file generation unit 62 to generate a segment file in which a V-PCC stream is stored, an MPD file including metadata, and upload the segment file and the MPD file. Or let it.
  • the file generation unit 62 generates a segment file and an MPD file under the control of the control unit 61, and uploads (transmits) the segment file and the MPD file to a server via a network.
  • the file generation unit 62 includes a data input unit 71, a data encoding / generation unit 72, an MPD file generation unit 73, a recording unit 74, and an upload unit 75.
  • the data input unit 71 acquires Point Cloud data and supplies it to the data encoding / generation unit 72, and acquires metadata required for generating an MPD file and supplies it to the MPD file generation unit 73.
  • the data encoding / generation unit 72 generates a texture image, a geometry image, and an occupancy @ map image based on the Point @ Cloud data supplied from the data input unit 71, and stores the V-PCC streams.
  • a segment file is generated and supplied to the recording unit 74.
  • the data encoding / generation unit 72 includes a pre-processing unit 76, an encoding unit 77, and a file generation unit 78.
  • the preprocessing unit 76 generates a texture image, a geometry image, and an occupancy @ map image based on the Point @ Cloud data supplied from the data input unit 71, and generates projection metadata (projection direction information and single display availability information). Image quality metadata is also generated and supplied to the encoding unit 77. Further, as described with reference to FIG. 6, the pre-processing unit 76 divides the texture image, the geometry image, and the occupancy @ map image for each projection direction.
  • the encoding unit 77 encodes the texture image, the geometry image, and the occupancy @ map image supplied from the preprocessing unit 76, and divides the V-PCC stream (that is, the texture stream, the geometry stream, and the occupancy divided for each projection direction).
  • a map stream and auxiliary metadata including projection metadata are generated and supplied to the file generation unit 78.
  • the file generation unit 78 converts the divided V-PCC stream supplied from the encoding unit 77 into a file in units of segments based on the metadata and the like supplied from the data input unit 71, and records the resulting segment file. To the unit 74. Note that the file generation unit 78 may obtain metadata or the like necessary for generating a segment file from the encoding unit 77, or may extract the metadata or the like from the divided V-PCC stream.
  • the MPD file generation unit 73 generates an MPD file including Point @ Cloud data and information on a V-PCC stream composed of the Point @ Cloud data based on the metadata and the like supplied from the data input unit 71. To the recording unit 74. That is, the MPD file generation unit 73 generates an MPD file to which projection metadata (projection direction information and single display availability information) is signaled. Note that the MPD file generation unit 73 may obtain metadata or the like necessary for generating an MPD file from the file generation unit 78, or may extract the metadata or the like from a segment file.
  • the recording unit 74 records the MPD file supplied from the MPD file generation unit 73 and the segment file supplied from the file generation unit 78.
  • the upload unit 75 reads out the MPD file and the segment file of the Point Cloud data from the recording unit 74 and uploads them to the server. That is, the upload unit 75 functions as a communication unit that transmits the MPD file and the segment file to the server.
  • the data generation device 51 functions as a device that uploads an MPD file and a segment file to a server, but the data generation device 51 may function as a server.
  • the upload unit 75 of the data generation device 51 transmits the MPD file and the segment file to the client device via the network.
  • FIG. 16 is a block diagram illustrating a configuration example of a data playback device that is an information processing device that executes a Point @ Cloud playback process of generating a display image from a file and playing back Point @ Cloud data on the client side that plays back the content. .
  • the data reproducing device 52 shown in FIG. 16 is a DASH client, and has a control unit 81 and a reproduction processing unit 82.
  • the control unit 81 controls the operation of the entire data reproducing device 52.
  • the control unit 81 controls the reproduction processing unit 82 to acquire an MPD file and a segment file from the server, and reproduce Point Cloud data based on the segment file.
  • the reproduction processing unit 82 reproduces Point Cloud data according to the control of the control unit 81.
  • the reproduction processing unit 82 has a file acquisition unit 91, a file processing unit 92, a display control unit 94, a data analysis / decoding unit 95, and a display unit 96.
  • the file processing unit 92 selects a V-PCC stream to be obtained based on the MPD file supplied from the file obtaining unit 91, and feeds back the selection result to the file obtaining unit 91.
  • the user's view direction (view point position, view direction, view angle, etc.) supplied from the display control unit 94 is also used as appropriate.
  • the file acquisition unit 91 acquires, from the server, a segment file storing a V-PCC stream required for reproducing Point @ Cloud data, based on the selection result supplied from the file processing unit 92. 95 to a file processing unit 97.
  • the display control unit 94 controls reproduction (display) of Point Cloud data. For example, the display control unit 94 acquires the detection result of the viewing direction of the user who views Point @ Cloud, and supplies the result to the file processing unit 92 and the data analysis / decoding unit 95.
  • the data analysis / decoding unit 95 generates a 3D model image, which is Point Cloud data, based on the segment file supplied from the file acquisition unit 91, and supplies this to the display unit 96.
  • the data analyzer / decoder 95 has a file processor 97, a decoder 98, and a display information generator 99.
  • the file processing unit 97 extracts the encoded data of the V-PCC stream from the segment file supplied from the file acquisition unit 91 and supplies the encoded data to the decoding unit 98.
  • the decoding unit 98 decodes the encoded data supplied from the file processing unit 97, and supplies the resulting V-PCC stream to the display information generation unit 99.
  • the display information generation unit 99 reconstructs Point @ Cloud data from the V-PCC stream supplied from the decoding unit 98, and based on the detection result of the user's viewing direction supplied from the display control unit 94, The data of the image of Point @ Cloud corresponding to the direction is generated and supplied to the display unit 96.
  • the display unit 96 includes, for example, a liquid crystal display panel, and displays (reproduces) an image of Point @ Cloud based on the data supplied from the display information generation unit 99.
  • FIG. 17 is a flowchart illustrating a file generation process in which the data generation device 51 of FIG. 15 generates a file from Point Cloud data.
  • step S11 the preprocessing unit 76 arranges patches for each Point @ Cloud projection direction, and executes a texture image, a geometry image, and an occupancy. Generate map image and auxiliary information. At this time, the pre-processing unit 76 generates projection metadata (projection direction information and single display availability information) for each projection direction.
  • projection metadata projection direction information and single display availability information
  • step S ⁇ b> 12 the preprocessing unit 76 divides the texture image, the geometry image, and the occupancy map image for each projection direction, and supplies the divided images to the encoding unit 77.
  • step S13 the encoding unit 77 encodes the texture image, the geometry image, and the occupancy map image, generates a stream by adding auxiliary information, and supplies the stream to the file generation unit 78.
  • step S14 the file generation unit 78 stores the divided streams for each projection direction in an individual file, and supplies the resulting segment file to the recording unit 74.
  • step S15 the MPD file generation unit 73 generates an MPD to which projection metadata (projection direction information and single display enable / disable information) associated with each file generated by the file generation unit 78 is added, and supplies the generated MPD to the recording unit 74. Then, the file generation processing ends. After that, the MPD file and the segment file are read from the recording unit 74 at an arbitrary timing by the upload unit 75 and uploaded to the server.
  • projection metadata projection direction information and single display enable / disable information
  • FIG. 18 is a flowchart illustrating a Point @ Cloud playback process in which the data playback device 52 of FIG. 16 generates and plays back a display image from a file.
  • step S21 the file acquisition unit 91 sets the projection signaled by the projection metadata (projection direction information and single display availability information) of the MPD. Based on the direction information, an AdaptationSet closest to the user's viewing direction is selected.
  • step S22 the file processing unit 92 identifies the single-display permission / inhibition information of the AdaptationSet selected by the file acquisition unit 91 in step S21.
  • step S23 the file processing unit 92 determines whether the AdaptationSet can be displayed alone according to the identification result in step S23.
  • step S24 the file acquisition unit 91 additionally selects an AdaptationSet required to display the viewing direction of the user, and then the process proceeds to step S25.
  • step S23 if the file processing unit 92 determines that the AdaptationSet can be displayed alone, the process proceeds to step S25.
  • step S25 the file acquisition unit 91 additionally selects an AdaptationSet for a projection direction other than the user's viewing direction.
  • step S26 the file obtaining unit 91 obtains files referenced by all the selected AdaptationSets, and the data analyzing / decoding unit 95 reproduces Point @ Cloud.
  • step S27 the display control unit 94 determines whether the viewing direction of the user has been changed.
  • step S27 when the display control unit 94 determines that the viewing direction of the user has been changed, the process returns to step S21, and thereafter, the same process is repeated.
  • step S27 determines in step S27 that the viewing direction of the user has not been changed.
  • step S28 the data analysis / decoding unit 95 determines whether or not the end of the PC @ stream. If not, the process returns to step S26. If the end of the PC @ stream, the process returns to step S26. Will be terminated.
  • the data reproduction device 52 determines that the AdaptationSet closest to the user's viewing direction is the only one. It is possible to identify whether or not display is possible. Thereby, the data reproducing device 52 can appropriately acquire the AdaptationSet necessary for displaying the viewing direction of the user, and while suppressing an increase in the processing amount required for the process of reproducing Point @ Cloud, High quality Point ⁇ Cloud can be played.
  • a different color may be assigned to one point of Point Cloud for each projection direction.
  • the color of the point projected overlapping may be different in each projection direction.
  • image quality metadata for improving the image quality of the divided stream corresponding to the viewing direction may be defined.
  • the image quality of Point Cloud depends on the density of the points that make up Point Cloud. If the points that make up Point Cloud are sparse, the image quality will be low, and if the points that make up Point Cloud are dense, the image quality will be high. . Then, in the V-PCC, the density of the reconstructed Point Cloud points depends on the resolution of the texture image and the geometry image.
  • the resolution is not the entire texture image or geometry image, but the number of pixels in an area effective as a patch.
  • the larger the number of effective pixels the higher the quality of the reconstructed Point Cloud. Therefore, the effective pixel information of the V-PCC stream provided as the image quality metadata is an effective index for improving the image quality of the Point @ Cloud region corresponding to the viewing direction of the user.
  • Point Cloud can be configured and displayed.
  • @value indicates a frame average of the total number of patches of each frame in the V-PCC stream, and for example, a patch area that can be calculated from the occupancy @ map stream (for example, white pixels of the occupancy @ map image shown in FIG. 1) The frame average of the total number of pixels is set.
  • an average frame size of an approximate patch size calculated from delta_size_u0 and delta_size_v0 of auxiliary information, which is one of the components of the V-PCC stream, may be set.
  • FIG. 19 shows an MPD sample to which image quality metadata has been added.
  • point cloud resolution descriptor can also be applied to undivided V-PCC streams. It is also effective for V-PCC stream selection according to the processing capacity of the client. For example, a client with a low processing capacity can select a V-PCC stream with a small number of configured Point @ Cloud.
  • the divided V-PCC stream may be selected using only the image quality metadata.
  • the client has a degree of freedom by individually selecting and acquiring the divided streams.
  • a decoder instance required by the client is required. The number increases. Therefore, as shown in FIG. 20, using the extractor @ track which is a tool of ISOBMFF, decoding can be performed by the same number of decoder instances as the stream before division.
  • extractor track is a track that uses the function of Extractor defined in ISO / IEC 14496-15, and extracts bitstream components with reference to other tracks to reconstruct one bitstream. be able to.
  • the component of the bitstream is one or a plurality of NAL @ units that can be decoded independently in the case of AVC or HEVC.
  • a signal is newly defined as the projection direction information.
  • @value signals the projection direction information of high image quality in the V-PCC stream composed by extractor @ track.
  • the signals may be signaled in a plurality of directions in @value by commas or the like. Also, a relative Point Cloud image quality ranking between the projection directions may be signaled.
  • the client selects and obtains an appropriate extractor track according to the viewing direction, and further obtains a file referred to by the extractor track, thereby re-creating the V-PCC stream having a high image quality in the viewing direction.
  • This V-PCC stream can be decoded by the same number of decoders as the decoding of the V-PCC stream before division.
  • the projection plane is kept at 6 planes, and the Point Cloud object to be projected is rotated by 45 ° around the Z-axis, and the projected stream is additionally delivered, thereby changing the projection plane.
  • a subjective effect of improving the image quality can be obtained.
  • rotation information of the Point @ Cloud object at the time of projection may be signaled to the DASH @ MPD. This modification can be applied to ISOBMFF described later.
  • ISOBMFF can be extended to add projection metadata (projection direction information, single display availability information) and image quality metadata for each track.
  • the divided V-PCC streams are stored for each 1 track, and stored in a multi-track file defined by ISOBMFF. Then, as shown in FIG. 22, a VPCCGroupBox is defined as a new track @ group for grouping the divided V-PCC stream tracks constituting one Point @ Cloud content.
  • the VPCCCGroupBox extends the TrackGroupTypeBox and signals projection metadata (projection direction information, single display availability information) and image quality metadata.
  • TrackGroupTypeBox is a tool for grouping a plurality of tracks having the same characteristics, and is specified by ISOBMFF.
  • Pointpoint_cloud_resolution indicates the frame average of the total number of pixels of the patches of each frame in the V-PCC stream, and indicates the average frame score of Point Cloud.
  • one divided V-PCC stream may include patches in a plurality of projection directions.
  • the projection_direction has a 10-bit length, and the projection directions X +,..., And the projection directions X + Y- are assigned in order from most @ significant @ bit.
  • projection_direction 110000000 indicates that the projection direction includes the projection direction X + and the projection direction Y +.
  • the projection metadata and image quality metadata may be signaled to other than VPCCGroupBox such as Sample Entry.
  • TrackGroupTypeBox may be extended as a new track group to define a single displayable group. For example, a projection direction X + Y + that cannot be displayed alone and a projection direction X + and a projection direction Y + necessary for the display are grouped to indicate that single display is possible in group units.
  • the second extension method is an extension method for extending the conventional ISOBMFF so as to have projection direction information and the like.
  • four additional projection planes (X + Y + projection plane, XY-projection plane, X-Y + projection plane, and X + Y-projection plane) are added from the four additional projection direction patches.
  • ISOBMFF can be further extended to have additional projection direction identification information to indicate that it is a generated image.
  • a VPCCGroupBox is defined, and 45degree_projection is signaled as additional projection direction identification information.
  • the projection_direction indicates projection direction information (0: X +, 1: Y +, 2: X-, 3: Y-, 4: Z +, 5: Z-).
  • the projection direction is indicated by projection_direction.
  • the direction indicated is a direction rotated 45 ° counterclockwise around the Z axis.
  • the 45degree_projection signaled for each block is used to identify the three-dimensional spatial information of each block. It can be used together with the Block position information.
  • a VPCCGroupBox is defined, and block position information is signaled.
  • the block position information can be indicated by fields of block_offset_x, block_offset_y, block_offset_z, block_size_x, block_size_y, and block_size_z.
  • all of these fields are signaled by relative values obtained by setting each side of the X-axis, Y-axis, and Z-axis of object @ box to 1.
  • blocks constituting the same one object @ box can be signaled by using the function of the TrackGroupTypeBox that is the extension source of the VPCCGroupBox.
  • 45degree_projection 0
  • the ISOBMFF can be extended so that additional projection direction identification information is signaled separately from the projection direction information.
  • the High level synth of Elementary Stream can be extended to add projection metadata and image quality metadata for each patch. That is, the High-level-syntax of the V-PCC stream is extended, and the projection metadata and the image quality metadata are signaled.
  • FIG. 27 shows an example of extending auxiliary information, which is one of the components of the V-PCC stream.
  • Presentpresent_alone indicates whether Point Cloud can be configured and displayed with the patch alone. For example, if present_alone is 0, it indicates that the patch cannot be displayed alone, and if present_alone is 1, it indicates that the patch can be displayed alone.
  • Pointpoint_cloud_resolution indicates the number of pixels of the patch.
  • an identifier of an additional patch required for display may be signaled.
  • the divided V-PCC stream includes patches in a plurality of projection directions, and the patches are grouped into regions for each projection direction, and each region is encoded by an encoding method that can be independently decoded
  • Elementary Stream Refer to the level projection metadata and image quality metadata, select and decode only the necessary area in the divided V-PCC stream according to the viewing direction, reconstruct Point Cloud, and display preferentially Will be possible.
  • HEVC is used as an encoding codec, and in that case, an area encoded by HEVC tile can be independently decoded.
  • the VPCCGroupBox of the ISOBMFF track that stores the V-PCC stream may be extended and a duplicated_patch field may be added.
  • 1 is signaled if the V-PCC stream stored in the track includes a patch including duplicate information, and 0 is signaled otherwise.
  • duplicated_patch 1, it becomes possible to prepare for post-processing when there is duplicate information, prior to decoding processing.
  • the third extension method is an extension method for extending a conventional Elementary @ Stream so as to have projection direction information and the like.
  • four additional projection planes (X + Y + projection plane, XY-projection plane, X-Y + projection plane, and X + Y-projection plane) are added from the four additional projection direction patches.
  • Elementary @ Stream can be further extended to have additional projection direction identification information indicating that it is a generated image.
  • 45degree_projection is signaled as additional projection direction identification information.
  • the auxiliary information shown in FIG. 29 is obtained by extracting a part of the auxiliary information shown in FIG.
  • the projection direction is the direction indicated by projection_direction. Is a direction rotated by 45 ° counterclockwise around the Z axis.
  • the Elementary @ Stream can be extended so that additional projection direction identification information is signaled separately from the projection direction information.
  • the metadata of the DASH MPD that signals the projection direction information and the single display availability information of the patch in the divided stream is defined. You. Further, DASH @ MPD metadata that signals additional projection direction identification information is defined. This makes it possible to distribute a V-PCC stream of high image quality by adding a projection plane, while effectively utilizing network bandwidth and suppressing processing overhead on the client side.
  • the V-PCC stream (texture stream, geometry stream, and occupancy map stream) is divided for each projection plane, and the necessary division V is determined according to the viewing direction of the client.
  • the client cannot identify whether or not the added patch of the projection plane has all the information of the projection direction, and is an image that can be displayed independently. could not be determined.
  • the divided V-PCC stream includes patches in a plurality of projection directions. In this case, it is possible to select and decode only a necessary area in accordance with the viewing direction, reconstruct Point @ Cloud, and display preferentially.
  • FIG. 31 is a block diagram illustrating a configuration example of an embodiment of a computer on which a program for executing the above-described series of processes is installed.
  • the program can be recorded in advance on the hard disk 105 or the ROM 103 as a recording medium built in the computer.
  • the program can be stored (recorded) in the removable recording medium 111 driven by the drive 109.
  • a removable recording medium 111 can be provided as so-called package software.
  • examples of the removable recording medium 111 include a flexible disk, a CD-ROM (Compact Disc Only Memory), an MO (Magneto Optical) disc, a DVD (Digital Versatile Disc), a magnetic disc, and a semiconductor memory.
  • the program may be installed in the computer from the removable recording medium 111 as described above, or may be downloaded to the computer via a communication network or a broadcast network and installed in the built-in hard disk 105. That is, for example, the program is wirelessly transferred from a download site to a computer via an artificial satellite for digital satellite broadcasting, or is transmitted to a computer via a network such as a LAN (Local Area Network) or the Internet by wire. be able to.
  • LAN Local Area Network
  • the computer has a built-in CPU (Central Processing Unit) 102, and an input / output interface 110 is connected to the CPU 102 via a bus 101.
  • CPU Central Processing Unit
  • the CPU 102 executes a program stored in a ROM (Read Only Memory) 103 when a command is input by a user operating the input unit 107 or the like via the input / output interface 110. .
  • the CPU 102 loads a program stored in the hard disk 105 into a random access memory (RAM) 104 and executes the program.
  • RAM random access memory
  • the CPU 102 performs the processing according to the above-described flowchart or the processing performed by the configuration of the above-described block diagram. Then, the CPU 102 causes the processing result to be output from the output unit 106 or transmitted from the communication unit 108 via the input / output interface 110 as needed, and further recorded on the hard disk 105, for example.
  • the input unit 107 includes a keyboard, a mouse, a microphone, and the like.
  • the output unit 106 includes an LCD (Liquid Crystal Display), a speaker, and the like.
  • the processing performed by the computer according to the program does not necessarily need to be performed in chronological order in the order described in the flowchart. That is, the processing performed by the computer in accordance with the program includes processing executed in parallel or individually (for example, parallel processing or processing by an object).
  • the program may be processed by a single computer (processor) or may be processed in a distributed manner by a plurality of computers. Further, the program may be transferred to a remote computer and executed.
  • a system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and one device housing a plurality of modules in one housing are all systems. .
  • the configuration described as one device (or processing unit) may be divided and configured as a plurality of devices (or processing units).
  • the configuration described above as a plurality of devices (or processing units) may be combined and configured as one device (or processing unit).
  • a configuration other than those described above may be added to the configuration of each device (or each processing unit).
  • a part of the configuration of a certain device (or processing unit) may be included in the configuration of another device (or other processing unit).
  • the present technology can adopt a configuration of cloud computing in which one function is shared by a plurality of devices via a network and processed jointly.
  • the above-described program can be executed in any device.
  • the device only has to have necessary functions (functional blocks and the like) and can obtain necessary information.
  • each step described in the above-described flowchart can be executed by a single device, or can be shared and executed by a plurality of devices.
  • the plurality of processes included in the one step can be executed by one device or can be shared and executed by a plurality of devices.
  • a plurality of processes included in one step can be executed as a plurality of steps.
  • the processing described as a plurality of steps can be collectively executed as one step.
  • the program executed by the computer may be configured so that the processing of the steps for describing the program is executed in chronological order according to the order described in this specification, or may be executed in parallel or by calling. It may be executed individually at a necessary timing such as time. That is, as long as no contradiction occurs, the processing of each step may be performed in an order different from the order described above. Further, the processing of the steps for describing the program may be executed in parallel with the processing of another program, or may be executed in combination with the processing of another program.
  • the present technology can also have the following configurations.
  • An information processing apparatus comprising: a preprocessing unit that generates projection direction information indicating the projection direction of the image data as projection metadata.
  • the projection metadata includes additional projection direction identification information indicating that the image data is generated by projection in an additional projection direction.
  • the information processing device according to any one of the above.
  • the MPD file generating unit when one of the files cannot display the 3D data alone, signals an association with the other file necessary for displaying the 3D data.
  • An information processing apparatus according to 6).
  • the MPD file generation unit groups the file and another file necessary for displaying the 3D data when one of the files cannot display the 3D data alone.
  • the information processing device according to the above (6).
  • the above (1) to (5) further including a file generation unit that generates an ISOBMFF (ISO Base Media File Format) file that signals the projection metadata for each track as the data unit in the plurality of projection directions.
  • ISOBMFF ISO Base Media File Format
  • the file generation unit may group the track and the other tracks necessary for displaying the 3D data.
  • Signal processing The information processing apparatus according to (9).
  • (11) The information according to any one of (1) to (5), further comprising: an encoding unit that encodes an Elementary Stream that signals the projection metadata for each patch that is the data unit in the plurality of projection directions. Processing equipment.
  • (12) The encoding unit, when one of the patches cannot display the 3D data alone, signals the patch and an identifier of an additional patch necessary for displaying the 3D data.
  • the information processing apparatus In a case where the image data in the projection direction is generated based on a block that is a part of an object box that is a rectangular parallelepiped including the 3D data, The information processing apparatus according to (4), wherein the preprocessing unit further generates Block position information for identifying a position of each of the blocks in a three-dimensional space based on the object box as the projection metadata. (14) The information processing device is Projecting the 3D data in a plurality of projection directions and converting the data into two dimensions to generate image data in the plurality of projection directions; Generating projection direction information indicating the projection direction of the image data as projection metadata.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Human Computer Interaction (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Processing Or Creating Images (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本開示は、クライアントにおける処理量の増加を抑制しつつ、より高画質化を図ることができるようにする情報処理装置および情報処理方法に関する。 3Dデータを複数の投影方向に投影して、2次元に変換することによって複数の投影方向の画像データが生成され、それぞれの画像データの投影方向を示す投影方向情報が投影メタデータとして生成される。さらに、投影方向情報には、追加投影方向への投影によって生成された画像データであることを示す追加投影方向識別情報が含まれる。本技術は、例えば、Point Cloudを配信するためのデータを生成するデータ生成装置に適用できる。

Description

情報処理装置および情報処理方法
 本開示は、情報処理装置および情報処理方法に関し、特に、クライアントにおける処理量の増加を抑制しつつ、より高画質化を図ることができるようにした情報処理装置および情報処理方法に関する。
 従来、非特許文献1で開示されているように、3次元空間上に位置情報および属性情報(特に色情報)を同時に持った点の集合であるPoint Cloudの圧縮方法が規定されている。
 また、非特許文献2には、Point Cloudの圧縮方法の一つとして、Point Cloudデータを複数の領域に分割(以下、セグメンテーションと称する)し、領域毎に平面投影してtexture画像、geometry画像、occupancy map画像、auxiliary informationを生成した後、それらの3種類の画像を動画コーデックにより符号化する方法が開示されている。ここで、geometry画像は、Point Cloudを構成する点群のdepth情報から構成される画像である。また、この方法は、Video-based Point Cloud Coding(V-PCC)と称されている。
 ところで、従来、Point Cloudデータをセグメンテーションした後、領域ごとに平面投影してtexture画像、geometry画像、およびoccupancy map画像を生成する際の投影面の数は、6面(水平方向に4面および垂直方向に2面)であった。このように投影面が6面である場合、3Dから2Dへ変換する際に消失する点が多く、再構築されたPoint Cloudオブジェクトの表面に穴が開くことがあった。
 そこで、非特許文献3に開示されているように、投影面を新たに4面追加して、10面(水平方向に8面および垂直方向に2面)に増やす技術が開発されており、MPEG(Moving Picture Experts Group)においても議論されている。
 また、非特許文献4には、object boxを分割する個々のblockに部分的にアクセスすることができる技術が開示されている。
MPEG-I Part5 Point Cloud Compression (ISO/IEC 23090-5) w17534, Working draft of Point Cloud Coding for Category 2 (Draft 1), April 2018, San Diego, USA w17871, PCC Core Experiment on Patch packing, July 2018, Ljubljana, Slovenia ISO/IEC JTC 1/SC 29/WG 11 Coding of moving pictures and audio Convenorship: UNI (Italy) "Technologies Under Consideration for Carriage of Point Cloud Data"
 ところで、上記のように高画質化のために投影面を新たに追加することは、クライアントにおける処理量が増加することが想定される。また、従来のクライアントは、配信されるストリームが通常の6面の投影面による画像で生成されているものであるのか、新たに追加された4面の投影面による画像で生成されているものであるのかを事前に識別することができなかった。このため、全ストリーム取得しなければならず、限られたネットワーク帯域幅の環境下においては、再生途切れや画質の悪化、および、クライアント側における処理のオーバーヘッド増大につながることが懸念される。
 本開示は、このような状況に鑑みてなされたものであり、クライアントにおける処理量の増加を抑制しつつ、より高画質化を図ることができるようにするものである。
 本開示の一側面の情報処理装置は、3Dデータを複数の投影方向に投影して、2次元に変換することによって複数の前記投影方向の画像データを生成し、前記画像データの前記投影方向を示す投影方向情報を投影メタデータとして生成する前処理部を備える。
 本開示の一側面の情報処理方法は、3Dデータを複数の投影方向に投影して、2次元に変換することによって複数の前記投影方向の画像データを生成すること、前記画像データの前記投影方向を示す投影方向情報を投影メタデータとして生成することとを含む。
 本開示の一側面においては、3Dデータを複数の投影方向に投影して、2次元に変換することによって複数の投影方向の画像データが生成され、それぞれの画像データの投影方向を示す投影方向情報が投影メタデータとして生成される。
Point Cloudの圧縮方法を説明する図である。 投影面が6面である場合に生成される画像について説明する図である。 水平方向に8面の投影面を設定する一例を示す図である。 投影面を増やすことによる画質の改善について説明する図である。 投影面が10面である場合に生成される画像について説明する図である。 投影面が10面であるときのファイルの生成について説明する図である。 視聴方向に応じたファイルの取得例について説明する図である。 第1の拡張方法における第1のシグナル方法でのMPDのサンプルを示す図である。 ストリームの取得例について説明する図である。 第1の拡張方法における第2のシグナル方法でのMPDのサンプルを示す図である。 追加投影方向識別情報をシグナルしたMPDのサンプルを示す図である。 object boxおよびblockについて説明する図である。 blockごとに設定される追加投影方向識別情報をシグナルしたMPDのサンプルを示す図である。 gpcc:blockInfo要素の各属性について説明する図である。 データ生成装置の構成例を示すブロック図である。 データ再生装置の構成例を示すブロック図である。 ファイル生成処理を説明するフローチャートである。 Point Cloud再生処理を説明するフローチャートである。 画質メタデータを付加したMPDのサンプルを示す図である。 extractor trackを利用する変形例について説明する図である。 extractor trackを利用したMPDのサンプルを示す図である。 新たに定義するVPCCGroupBoxの一例を示す図である。 projection_direction,present_alone、およびpoint_cloud_resolutionの定義を説明する図である。 追加投影方向識別情報をシグナルしたVPCCGroupBoxのサンプルを示す図である。 45degree_projection,projection_direction,present_alone、およびpoint_cloud_resolutionの定義を説明する図である。 blockごとに設定される追加投影方向識別情報をシグナルしたVPCCGroupBoxのサンプルを示す図である。 auxiliary informationの拡張について説明する図である。 projection_direction,present_alone、およびpoint_cloud_resolutionの定義を説明する図である。 45degree_projectionを追加したauxiliary informationの一部を示す図である。 45degree_projection,projection_direction,present_alone、およびpoint_cloud_resolutionの定義を説明する図である。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
 以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
 <従来のシグナリング>
 本技術を適用したシグナリングについて説明する前に、図1乃至図4を参照して、従来のシグナリングについて説明する。
 図1は、上述した非特許文献2で開示されているV-PCCを、簡略的に説明するための図である。
 図1に示すように、まず、3次元構造を表すPoint Cloudデータ(3Dデータ)が入力され、そのPoint Cloudコンテンツが複数の領域にセグメンテーションされる。図1に示す例では、半球形状と円錐形状とが組み合わされた3次元構造を表すPoint Cloudデータが入力され、そのPoint Cloudコンテンツに対し、半球形状を1領域に、円錐形状を2領域に分割した3つの領域にセグメンテーションが行われる。
 次に、領域ごとに平面投影が行われ、それぞれの領域の表面の見た目を表す色情報からなるtexture画像、それぞれの領域の表面までの奥行(depth)を表す位置情報からなるgeometry画像、および、コンポーネントのピクチャ内のパッチ位置情報からなるoccupancy map画像が生成される。そして、texture画像、geometry画像、およびoccupancy map画像が、例えば、AVC(Advanced Video Coding)やHEVC(High Efficiency Video Coding)などの動画像コーデックで符号化される。
 従来、図2に示すように、6面の投影面(X+投影面、X-投影面、Y+投影面、Y-投影面、Z+投影面、およびZ-投影面)に投影されたパッチが、それぞれの投影方向ごとにまとめられて配置されたtexture画像を生成することができる。また、geometry画像、およびoccupancy map画像についても同様に、6面の投影面に投影されたパッチが、それぞれの投影方向ごとにまとめられて配置されて生成することができる。
 これに対し、上述した非特許文献3で開示されているように、10面の投影面で、texture画像、geometry画像、およびoccupancy map画像を生成する技術が開発されている。即ち、図3に示すように、従来、水平方向に90°ごとの4面の投影面(実線)が用いられており、それらの投影面に対して投影方向を45°ずらした4面の投影面(破線)を追加して、垂直方向の2面を含めた10面の投影面が用いられる。
 例えば、投影面が6面の場合には、図4の上側に示すように、再構築されたPoint Cloudオブジェクトの表面に穴が開いてしまうことがあった。これに対し、投影面を10面に増やすことで、図4の下側に示すように、投影面が6面の場合には開いていた穴を埋め、そのような穴が表面に開かないようにPoint Cloudオブジェクトを再構築することができ、主観的に、画質の向上を図ることができる。
 そして、図5に示すように、10面の投影面(X+投影面、X-投影面、Y+投影面、Y-投影面、Z+投影面、Z-投影面、X+Y+投影面、X-Y-投影面、X-Y+投影面、およびX+Y-投影面)に投影されたパッチが、それぞれの投影方向ごとにまとめられて配置されたtexture画像を生成することができる。また、geometry画像、およびoccupancy map画像についても同様に、10面の投影面に投影されたパッチが、それぞれの投影方向ごとにまとめられて配置されて生成することができる。
 ここで、Point Cloudを投影面に投影する際、従来から用いられていた水平方向の4面の投影面(X+投影面、X-投影面、Y+投影面、およびY-投影面)に投影されるPoint Cloudの点は、追加された水平方向の4面の投影面(X+Y+投影面、X-Y-投影面、X-Y+投影面、およびX+Y-投影面)にも重複して投影されることになる。
 そして、この追加された4面の投影面への投影で、既存の水平方向の4面との間で生じる全ての重複する部分について、追加された4面の投影面のパッチに含めて重複情報として符号化するか、追加された4面の投影面のパッチから重複する部分を削除し、既存の水平方向の4面との間の差分のみを重複情報として符号化するかは、エンコーダの実装に依存することになる。例えば、追加された4面の投影面のパッチに含めて重複情報を符号化する場合には、X+Y+投影面に投影された全てのパッチは、X+Y+投影面の投影方向の全情報を有している。一方、追加された4面の投影面のパッチから削除して重複情報を符号化する場合には、X+Y+投影面に投影されたパッチの中に、X+投影面およびY+投影面のパッチで消失した差分情報のみを含むパッチが存在する。
 従って、追加された4面の投影面のパッチに含めて重複情報を符号化する場合、投影方向ごとの分割ストリームは単独で表示可能である。一方、追加された4面の投影面のパッチから削除して重複情報を符号化する場合、投影方向ごとの分割ストリームは単独での表示が不可能である。
 即ち、投影面を10面にすることにより、主観的な画質の向上を図ることができる一方で、それに伴い画像内のパッチの数も増えるので、texture画像、geometry画像、およびoccupancy map画像の情報量が増加することになる。
 また、従来、texture画像、geometry画像、およびoccupancy map画像それぞれの全体ストリームを取得することを前提としている。このため、V-PCCのストリームを配信する際、投影面が6面であるストリームと比較して、投影面が10面に増えたのに応じて必然的にビットレートが増加することになる。
 従って、これに伴い、例えば限られたネットワーク帯域幅の環境下において、再生時の途切れを招いてしまうことが起こると想定される。それに対し、限られたネットワーク帯域幅の中で途切れない再生を行うためにビットレートを削減しようとすると、画質向上のために投影面を増加させたのにもかかわらず、ビットレート削減の符号化による画質悪化を招くことが懸念される。
 このため、V-PCCストリーム(textureストリーム、geometryストリーム、およびoccupancy mapストリーム)を投影面ごとに分割して配信し、ユーザの視聴方向に応じて必要な投影面の分割V-PCCストリームのみを選択して取得する方法が、配信ビットレートを削減する上で有効であると考えられる。
 しかしながら、この場合においても、追加された4面の投影面(X+Y+投影面、X-Y-投影面、X-Y+投影面、およびX+Y-投影面)のパッチが、それぞれの投影方向の全情報を有しているか否かを識別することができない。このため、独立して表示可能な画像であるか判断することができず、常に、投影方向の全情報を有していない前提でストリームを取得することになってしまう。
 例えば、ユーザの視聴方向が投影方向X+Y+の分割ストリームに対応する場合において、その分割ストリームが投影方向の全情報を有しており、そのストリームだけで投影方向のPoint Cloudコンテンツを構成できる場合においても、投影方向X+Y+の周囲の投影方向X+および投影方向Y+の分割ストリームを取得することになってしまう。このように、表示するにあたって本来は不要な分割ストリームを取得することになるため、再生途切れや画質の悪化、および、クライアント側における処理のオーバーヘッド増大が懸念される。
 そこで、V-PCCストリームを分割して、表示にあたって必要なストリームのみを配信することによって、ネットワーク帯域幅を有効活用し、クライアントにおける処理量の増加を抑制しつつ、投影面の追加によって高画質化されたV-PCCストリームを配信することが求められている。このためには、追加平面に関する情報、つまり、分割V-PCCストリーム内のパッチの投影方向情報と、単独での表示が可能か否かを示す単独表示可否情報をクライアントに提供するための手段が必要となる。
 本開示では、上述したような追加平面に関する情報を含めたファイルを生成し、クライアントに提供する手段を提案する。その具体的な実施例として、以下で拡張(DASH MPD拡張、ISOBMFF拡張、またはElementary Stream拡張)する方法について説明する。また、V-PCCストリームの視聴方向の高画質化を図るため、高画質化に有効なV-PCCストリームの有効ピクセル情報を、画質メタデータとしてクライアントに提供する手段を提案する。
 ここで、拡張方法について説明する前に、図6および図7を参照して、投影方向情報および単独表示可否情報をクライアントに提供することによる効果について説明する。
 例えば、図6の中央に示すように、10面の投影面(X+投影面、X-投影面、Y+投影面、Y-投影面、Z+投影面、Z-投影面、X+Y+投影面、X-Y-投影面、X-Y+投影面、およびX+Y-投影面)に投影されたパッチが、全て同じ配置で、それぞれの投影方向ごとにまとめられて、texture画像、geometry画像、およびoccupancy map画像が生成されるとともに、投影方向情報および単独表示可否情報からなる投影メタデータを含むauxiliary informationが生成される。
 その後、図6の右側に示すように、生成された各画像を投影方向ごとに分割し、符号化することにより、投影方向ごとのtextureストリーム、geometryストリーム、およびoccupancy mapストリームが生成される。そして、それらのストリームとauxiliary informationとが格納される投影方向ファイル(ISOBMFF:ISO Base Media File Format)が生成される。
 例えば、投影方向ファイルは、投影方向ごとのtextureストリーム、geometryストリーム、およびoccupancy mapストリームとともに、auxiliary informationをまとめてシングルストリームを生成し、そのシングルストリームを格納した1つのトラックから構成することができる。また、投影方向ファイルは、投影方向ごとのtextureストリーム、geometryストリーム、およびoccupancy mapストリームそれぞれと、auxiliary informationとを個別に格納した4つのトラックから構成することができる。このように、投影方向ごとに投影方向ファイルを生成することにより、各投影方向に対応する10個の投影方向ファイルが生成される。
 このように、投影方向ファイルはauxiliary informationを有して構成され、auxiliary informationには、その1ファイルの投影方向を示す投影方向情報と、その1ファイルで単独表示が可能か否かを示す単独表示可否情報が付加される。従って、クライアントは、これらの情報に基づいて、視聴方向に応じて再生に必要なファイルを選択して取得することができ、Point Cloudを構成して、表示することができる。
 一方、図7のAに示す矢印viewは視聴方向を表しており、ユーザの視聴方向が、投影方向X+Y+の付近であるときのファイルの取得例について説明する。
 例えば、単独表示可否情報が、単独表示が可能であることを示している場合、クライアントは、図7のBに示す4つの投影方向にZ方向の2つの投影方向を加えた6つの投影方向(投影方向X+Y+、投影方向X-Y-、投影方向X-Y+、投影方向X+Y-、投影方向Z+、および投影方向Z-)の投影方向ファイルを取得する。これに対し、単独表示可否情報が、単独表示が不可であることを示している場合、クライアントは、図7のCに示す5つの投影方向にZ方向の2つの投影方向を加えた7つの投影方向(投影方向X+Y+、投影方向Y+、投影方向X-、投影方向Y-、投影方向X+、投影方向Z+、および投影方向Z-)の投影方向ファイルを取得する。
 このように、単独表示可否情報が、単独表示が可能である場合も、単独表示が不可である場合も、クライアントが取得するファイル数は投影メタデータなしの場合の10ファイルより少なくなり、かつ視聴方向の主観的画質は同等である。つまり、ネットワーク帯域幅を有効活用し、クライアント側における処理のオーバーヘッド抑制しつつ、投影面追加によって高画質化されたV-PCCストリームをクライアントに配信することが可能となる。
 <第1の拡張方法>
 図8乃至図21を参照して、投影方向情報、単独表示可否情報、および画質メタデータを、参照するファイルごとに、DASH MPD(Dynamic Adaptive Streaming over HTTP Media Presentation Description)拡張によってシグナルする第1の拡張方法について説明する。
 例えば、投影メタデータは、投影方向情報および単独表示可否情報からなる。単独表示可否情報は、ファイルに含まれるtextureストリーム、geometryストリーム、およびoccupancy mapストリームが単独で表示可能であるか否かを示す情報であり、その情報のシグナル方法には、以下で説明する第1および第2のシグナル方法がある。
 <第1の拡張方法における第1のシグナル方法>
 第1のシグナル方法では、ファイルに含まれるtextureストリーム、geometryストリーム、およびoccupancy mapストリームが単体で表示可能であるか否かを示すフラグによりシグナルする。
 図8に示すMPDのサンプルのように、projection direction descriptor(schemeIdUri=“urn:mpeg:mpegI:pc_proj_direction:2018”のSupplementalProperty)を、分割V-PCCストリームの投影方向情報として、新たに定義してシグナルする。ここで、@valueは、ストリーム内パッチの投影方向情報をシグナルする。
 例えば、Point Cloudのローカル座標系を基準にして、@value(0~9)により投影方向をシグナルする。即ち、@value=0の場合には投影方向X+、@value=1の場合には投影方向Y+、@value=2の場合には投影方向X-、@value=3の場合には投影方向Y-、@value=4の場合には投影方向Z+、@value=5の場合には投影方向Z-、@value=6の場合には投影方向X+Y+、@value=7の場合には投影方向X-Y+、@value=8の場合には投影方向X-Y-、@value=9の場合には投影方向X+Y-とシグナルする。
 なお、1つの分割V-PCCストリーム内に複数の投影方向のパッチが含まれていてもよい。この場合、@valueにコンマ区切り等で、複数の投影方向がシグナルされる。
 また、図8に示すMPDのサンプルのように、present alone descriptor(schemeIdUri=“urn:mpeg:mpegI:pc_present_alone:2018”のSupplementalProperty)を、分割V-PCCストリームの単独表示可否情報として、新たに定義してシグナルする。ここで、@valueには0または1が設定され、@value=0の場合には、その分割ストリームを単独で表示不可能であることを示し、@value=1の場合には、その分割ストリームを単独で表示可能であることを示す。
 例えば、図8に示す例は、投影方向X+および投影方向Y+に投影されたパッチを含む分割ストリームは単独表示可能で、投影方向X+Y+に投影されたパッチを含む分割ストリームは単独表示不可能であることを示している。
 なお、1つの分割V-PCCストリーム内に、単独で表示可能なパッチと表示不可能なパッチとが混在していてもよい。この場合、present alone descriptorの@value=0となる。
 また、1つのPoint Cloudを構成する分割V-PCCストリームのグルーピングは、point cloud group descriptor(schemeIdUri=“urn:mpeg:mpegI:pc_group:2018”のSupplementalProperty)を新たに定義してシグナルする。ここで、@valueはグルーピング識別子をシグナルし、同じ値の分割V-PCCストリームが1つのPoint Cloudを構成する。
 例えば、ユーザの視聴方向が投影方向X+Y+の付近であり、その方向から見たPoint Cloudのみを再構築しようとする場合、クライアントはprojection direction descriptorを参照してAdaptationSet@id=vpcc45を選択する。そして、クライアントは、present alone descriptorから単独表示不可であることを識別することができ、周辺の投影方向であるAdaptationSet@id=vpcc0およびAdaptationSet@id=vpcc90を選択する。このように、クライアントが、3つのAdaptationSetsを取得することで、視聴方向をカバーするPoint Cloud表示が可能となる。
 また、例えば、ユーザの視聴方向が投影方向X+の付近である場合、クライアントは、AdaptationSet@id=vpcc0のみを選択して取得すればよいことを識別できるので、視聴方向をカバーする上で、その他の余分な分割ストリームを取得することが不要となる。
 なお、視聴方向からは見えない背面のPoint Cloudを構成する分割V-PCCストリームをさらに取得してもよい。その際、背面についてはPoint Cloudに穴が空いていてもよいので、最低限の分割ストリーム取得にとどめることで、配信ビットレートを削減できる。例えば、ユーザの視聴方向が投影方向X+Y+の付近であるときに、投影方向X+Y+のストリームが単独表示不可能であった場合、図9に示すように、水平方向においては5つの投影方向(投影方向X+Y+、投影方向X+、投影方向Y+、投影方向X、および投影方向Y-)のストリームを取得すればよい。
 このように、projection direction descriptorおよびpresent alone descriptorを用いることで、V-PCCストリームの視聴方向に応じた配信を効果的に行うことができる。
 なお、新たに定義したdescriptorは、EssentialPropertyを用いてシグナルしてもよい。
 このとき、EssentialPropertyのschemeIdUriに対応していないDASHクライアントは、このPropertyの書かれているPreselection, Adaptation Set(もしくはRepresentationなどの場合もあり)は無視しなければならない。また、SupplementalPropertyのschemeIdUriに対応していないDASHクライアントは、このProperty値を無視して、そのPreselection, AdaptationSet(もしくはRepresentationなどの場合もあり)を利用してもよい。
 <第1の拡張方法における第2のシグナル方法>
 第2のシグナル方法では、ファイルに含まれるtextureストリーム、geometryストリーム、およびoccupancy mapストリームが単体で表示不可能である場合には、表示する上で必要なファイルへの関連付けをシグナルする。
 まず、単独表示できない分割ストリームのRepresentationから、その表示をする上で必要な情報を持っている分割ストリームのRepresentationへの紐づけをRepresentation@dependencyIdで行う。つまり、分割V-PCCストリームの単独表示可否情報として、Representation@dependencyIdを利用する。例えば、Representation@dependencyIdがある場合、単独で表示不可能な分割ストリームであることを示し、Representation@dependencyIdがない場合は単独で表示可能な分割ストリームであることを示す。
 図10には、第2のシグナル方法におけるMPDのサンプルが示されており、第2のシグナル方法においても、上述したような第1のシグナル方法と同様の効果を得ることができる。
 また、新たにdescriptorを定義し、単独表示可能グループをシグナルしてもよい。例えば、単独で表示不可能な投影方向X+Y+と、その表示に必要な投影方向X+および投影方向Y+をグルーピングし、グループ単位で単独表示が可能であることを示す。
 <第1の拡張方法の更なる拡張>
 ここで、第1の拡張方法の更なる拡張について説明する。
 上述したように、第1の拡張方法は、投影方向情報などを有するように従来のDASH MPDを拡張する拡張方法である。これに加え、追加された4面の投影面(X+Y+投影面、X-Y-投影面、X-Y+投影面、およびX+Y-投影面)が、追加された4つの投影方向のパッチから生成された画像であることを示す追加投影方向識別情報を有するようにDASH MPDを更に拡張することができる。
 例えば、図11に示すMPDのサンプルのように、45degree projection descriptor(schemeIdUri=“urn:mpeg:mpegI:pc_45degree_projection:2018”のSupplementalProperty)を、投影方向ファイルの追加投影方向識別情報として、新たに定義してシグナルする。ここで、45degree projection descriptorにおいて、@value=0は、6つの投影方向のパッチから生成されたストリームであることを示し、@value=1は、追加された4つの投影方向のパッチから生成されたストリームであることを示す。
 また、projection direction descriptorは、Point Cloudのローカル座標系を基準にして、@value(0~5)により投影方向をシグナルする。即ち、@value=0の場合には投影方向X+、@value=1の場合には投影方向Y+、@value=2の場合には投影方向X-、@value=3の場合には投影方向Y-、@value=4の場合には投影方向Z+、@value=5の場合には投影方向Z-とシグナルする。
 なお、図11に示すMPDのサンプルのように、各Adaptation Setにおいて、45degree projection descriptorおよびprojection direction descriptorをシグナルすることで、図8に示したMPDのサンプルと等価となる。
 即ち、45degree projection descriptorの@value=1により、追加された4つの投影方向のパッチから生成された画像であることが示された場合、投影方向はprojection direction descriptorの@valueで示された方向をZ軸まわりに反時計回りに45°回転した方向であることを示す。例えば、@id=”vpcc45”のAdaptation Setに示すように、@value=1の45degree projection descriptorともにシグナルされるprojection direction descriptorの@value=0は、投影方向がX+Y+であることを示している。
 また、45degree projection descriptorがシグナルされない場合には、6つの投影方向のパッチから生成されたストリームであることを示すようにしてもよい。一方、45degree projection descriptorがシグナルされた場合には、4つの投影方向のパッチから生成されたストリームであることを示すようにしてもよい。
 さらに、projection direction descriptorをシグナルせずに、45degree projection descriptorのみをシグナルしてもよい。この場合、45degree projection descriptorにおいて、@value=0であれば、6つすべての投影方向のパッチから生成されたストリームであることを示し、@value=1であれば、追加された4つすべての投影方向のパッチから生成されたストリームであることを示すようにする。
 ここで、上述の非特許文献4で開示されているように、object boxを分割する個々のblockに部分的にアクセスすることができる場合には、それぞれのblockに基づいて投影方向ファイルを生成してもよい。例えば、object boxは、Point Cloudオブジェクトの全体を含むような直方体の形状をしており、object boxよりも小さな直方体であるblockによって複数に分割することができる。
 図12には、object boxが4つのblockによって分割される一例が示されている。例えば、object boxには、図12のAに示すようなX軸、Y軸、およびZ軸が設定されており、図12のBに示すようにZ軸方向から見て、X軸およびY軸方向に2×2の配置となるように4つのblockによってobject boxを分割することができる。そして、図12のBの右下に示すように、blockの4面の投影面(実線)に対して投影方向を45°ずらした4面の投影面(破線)を追加することができる。
 また、投影方向ファイルをblockごとに生成する場合、blockごとにシグナルされる45degree projection descriptorは、それぞれのblockの3次元空間情報を識別するためのBlock位置情報とともに利用することができる。
 即ち、図13に示すMPDのサンプルのように、各Adaptation Setにおいて、projection direction descriptor,45degree projection descriptor、およびblock information descriptorをシグナルする。ここで、block information descriptor (schemeIdUri=”urn:mpeg:mepgI:gpcc:block_information:2018”のSupplementalProperty)は、blockの3次元空間情報をシグナルする。例えば、blockの3次元空間情報は、gpcc:blockInfo要素のblock_offset_x,block_offset_y,block_offset_z,block_size_x,block_size_y、およびblock_size_zの各属性で示すことができる。また、object_id属性が等しいblockは、同じ一つのobject boxを構成することを示す。
 ここで、gpcc:blockInfo要素の各属性は、図14に示すように、object boxのX軸、Y軸、およびZ軸の各辺を1として求められる相対値によってシグナルされる。
 なお、projection direction descriptorをシグナルせず、45degree projection descriptorおよびblock information descriptorのみをシグナルしてもよい。この場合、45degree projection descriptorにおいて、@value=0であれば、各blockの投影方向ファイルが6つすべての投影方向のパッチから生成されたストリームであることを示し、@value=1であれば、追加された4つすべての投影方向のパッチから生成されたストリームであることを示すようにする。
 このように、第1の拡張方法において、投影方向情報とは別に、追加投影方向識別情報がシグナルされるようにMPDを拡張することができる。
 <情報処理装置の構成例>
 図15は、コンテンツを提供するサーバ側で、Point CloudデータからPC streamを生成し、そのPC streamをISOBMFFに格納したファイルを生成するファイル生成処理を実行する情報処理装置であるデータ生成装置の構成例を示すブロック図である。
 図15に示すデータ生成装置51は、制御部61およびファイル生成部62を有している。このデータ生成装置51は、MPEG-DASHなどにより配信されるV-PCCのストリームのセグメントファイルとMPDファイルを生成してサーバにアップロードする。
 制御部61は、データ生成装置51全体の動作を制御する。例えば、制御部61は、ファイル生成部62を制御して、V-PCCのストリームが格納されたセグメントファイルや、メタデータが含まれるMPDファイルを生成させたり、それらのセグメントファイルやMPDファイルをアップロードさせたりする。
 ファイル生成部62は、制御部61の制御に従ってセグメントファイルやMPDファイルを生成するとともに、それらのセグメントファイルやMPDファイルを、ネットワークを介してサーバにアップロード(送信)する。
 ファイル生成部62は、データ入力部71、データ符号化・生成部72、MPDファイル生成部73、記録部74、およびアップロード部75を有している。
 データ入力部71は、Point Cloudデータを取得してデータ符号化・生成部72に供給するとともに、MPDファイルの生成に必要なメタデータを取得してMPDファイル生成部73に供給する。
 データ符号化・生成部72は、データ入力部71から供給されたPoint Cloudデータに基づいて、texture画像、geometry画像、およびoccupancy map画像を生成するとともに、それらのV-PCCのストリームが格納されたセグメントファイルを生成し、記録部74に供給する。
 データ符号化・生成部72は、前処理部76、符号化部77、およびファイル生成部78を有している。
 前処理部76は、データ入力部71から供給されたPoint Cloudデータに基づいて、texture画像、geometry画像、およびoccupancy map画像を生成するとともに、投影メタデータ(投影方向情報および単独表示可否情報)と画質メタデータも生成し、符号化部77に供給する。さらに、前処理部76は、図6を参照して説明したように、投影方向ごとに、texture画像、geometry画像、およびoccupancy map画像を分割する。
 符号化部77は、前処理部76から供給されたtexture画像、geometry画像、およびoccupancy map画像を符号化し、分割V-PCCストリーム(即ち、投影方向ごとに分割されたtextureストリーム、geometryストリーム、occupancy mapストリームと、投影メタデータ(投影方向情報および単独表示可否情報)を含むauxiliary information)を生成し、ファイル生成部78に供給する。
 ファイル生成部78は、データ入力部71から供給されたメタデータ等に基づいて、符号化部77から供給された分割V-PCCストリームをセグメント単位でファイル化し、その結果得られたセグメントファイルを記録部74に供給する。なお、ファイル生成部78は、セグメントファイルの生成に必要なメタデータ等を符号化部77から取得するようにしてもよいし、分割V-PCCストリームから抽出してもよい。
 MPDファイル生成部73は、データ入力部71から供給されたメタデータ等に基づいて、Point Cloudデータや、そのPoint Cloudデータから構成されるV-PCCのストリームに関する情報が含まれるMPDファイルを生成し、記録部74に供給する。即ち、MPDファイル生成部73は、投影メタデータ(投影方向情報および単独表示可否情報)がシグナリングされたMPDファイルを生成する。なお、MPDファイル生成部73は、MPDファイルの生成に必要なメタデータ等をファイル生成部78から取得するようにしてもよいし、セグメントファイルから抽出してもよい。
 記録部74は、MPDファイル生成部73から供給されたMPDファイル、およびファイル生成部78から供給されたセグメントファイルを記録する。
 アップロード部75は、記録部74からPoint CloudデータのMPDファイルおよびセグメントファイルを読み出してサーバにアップロードする。すなわち、アップロード部75はMPDファイルおよびセグメントファイルをサーバに送信する通信部として機能する。
 なお、ここではデータ生成装置51が、MPDファイルおよびセグメントファイルをサーバにアップロードする装置として機能する例について説明するが、データ生成装置51がサーバとして機能してもよい。そのような場合、データ生成装置51のアップロード部75は、ネットワークを介してMPDファイルおよびセグメントファイルをクライアント装置に送信する。
 図16は、コンテンツを再生するクライアント側で、ファイルから表示画像を生成してPoint Cloudデータを再生するPoint Cloud再生処理を実行する情報処理装置であるデータ再生装置の構成例を示すブロック図である。
 図16に示すデータ再生装置52は、DASHクライアントであり、制御部81および再生処理部82を有している。
 制御部81は、データ再生装置52全体の動作を制御する。例えば、制御部81は、再生処理部82を制御して、サーバからMPDファイルやセグメントファイルを取得させるとともに、セグメントファイルに基づいてPoint Cloudデータを再生させる。
 再生処理部82は、制御部81の制御に従ってPoint Cloudデータを再生する。再生処理部82は、ファイル取得部91、ファイル処理部92、表示制御部94、データ解析・復号部95、および表示部96を有している。
 ファイル処理部92は、ファイル取得部91から供給されたMPDファイルに基づいて、取得するV-PCCのストリームを選択し、その選択結果をファイル取得部91にフィードバックする。なお、取得するV-PCCのストリームの選択にあたっては、表示制御部94から供給されたユーザの視野方向(視点位置や、視線方向、視野角度など)なども適宜利用される。
 ファイル取得部91は、ファイル処理部92から供給された選択結果に基づいて、Point Cloudデータの再生に必要なV-PCCのストリームが格納されたセグメントファイルをサーバから取得し、データ解析・復号部95のファイル処理部97に供給する。
 表示制御部94は、Point Cloudデータの再生(表示)を制御する。例えば、表示制御部94は、Point Cloudを視聴するユーザの視野方向の検出結果を取得し、ファイル処理部92およびデータ解析・復号部95に供給する。
 データ解析・復号部95は、ファイル取得部91から供給されたセグメントファイルに基づいて、Point Cloudデータである3Dモデルの画像を生成し、表示部96に供給する。データ解析・復号部95はファイル処理部97、復号部98、および表示情報生成部99を有している。
 ファイル処理部97は、ファイル取得部91から供給されたセグメントファイルからV-PCCのストリームの符号化データを抽出し、復号部98に供給する。
 復号部98は、ファイル処理部97から供給された符号化データを復号し、その結果得られたV-PCCのストリームを表示情報生成部99に供給する。
 表示情報生成部99は、復号部98から供給されたV-PCCのストリームからPoint Cloudデータを再構成し、表示制御部94から供給されたユーザの視野方向の検出結果に基づいて、ユーザの視野方向に応じたPoint Cloudの画像のデータを生成し、表示部96に供給する。
 表示部96は、例えば液晶表示パネルなどからなり、表示情報生成部99から供給されたデータに基づいてPoint Cloudの画像を表示(再生)する。
 <ファイル生成処理およびPoint Cloud再生処理の処理例>
 図17は、図15のデータ生成装置51が、Point Cloudデータからファイルを生成するファイル生成処理を説明するフローチャートである。
 例えば、データ生成装置51にPoint Cloudデータの入力が行われると処理が開始され、ステップS11において、前処理部76は、Point Cloudの投影方向ごとにパッチを配置し、texture画像、geometry画像、occupancy map画像、およびauxiliary informationを生成する。また、このとき、前処理部76は、それぞれの投影方向ごとに、投影メタデータ(投影方向情報および単独表示可否情報)を生成する。
 ステップS12において、前処理部76は、投影方向ごとに、texture画像、geometry画像、およびoccupancy map画像を分割して、符号化部77に供給する。
 ステップS13において、符号化部77は、texture画像、geometry画像、およびoccupancy map画像をエンコードし、auxiliary informationを加えてストリームを生成して、ファイル生成部78に供給する。
 ステップS14において、ファイル生成部78は、投影方向ごとの分割ストリームを、個別のファイルに格納し、その結果得られたセグメントファイルを記録部74に供給する。
 ステップS15において、MPDファイル生成部73は、ファイル生成部78により生成された各ファイルに紐づく投影メタデータ(投影方向情報および単独表示可否情報)を付加したMPDを生成し、記録部74に供給して、ファイル生成処理は終了される。その後、アップロード部75により、任意のタイミングで記録部74からMPDファイルおよびセグメントファイルが読み出されてサーバにアップロードされる。
 図18は、図16のデータ再生装置52が、ファイルから表示画像を生成して再生するPoint Cloud再生処理を説明するフローチャートである。
 例えば、データ再生装置52へファイルの先端から供給が始まると処理が開始され、ステップS21において、ファイル取得部91は、MPDの投影メタデータ(投影方向情報および単独表示可否情報)でシグナルされる投影方向情報をもとに、ユーザの視聴方向に最も近いAdaptationSetを選択する。
 ステップS22において、ファイル処理部92は、ステップS21でファイル取得部91が選択したAdaptationSetの単独表示可否情報を識別する。
 ステップS23において、ファイル処理部92は、ステップS23における識別の結果に従って、AdaptationSetは、単独で表示可能であるか否かを判定する。
 ステップS23において、ファイル処理部92が、AdaptationSetは単独で表示可能でないと判定した場合、処理はステップS24に進む。ステップS24において、ファイル取得部91は、ユーザの視聴方向を表示するために必要なAdaptationSetを追加で選択した後、処理はステップS25に進む。
 一方、ステップS23において、ファイル処理部92が、AdaptationSetは単独で表示可能であると判定した場合、処理はステップS25に進む。
 ステップS25において、ファイル取得部91は、ユーザの視聴方向以外に対応する投影方向のAdaptationSetを追加で選択する。
 ステップS26において、ファイル取得部91は、選択した全てのAdaptationSetが参照するファイルを取得し、データ解析・復号部95においてPoint Cloudを再生する。
 ステップS27において、表示制御部94は、ユーザの視聴方向が変更されたか否かを判定する。
 ステップS27において、表示制御部94が、ユーザの視聴方向が変更されたと判定した場合、処理はステップS21に戻り、以下、同様の処理が繰り返して行われる。
 一方、ステップS27において、表示制御部94が、ユーザの視聴方向が変更されていないと判定した場合、処理はステップS28に進む。
 ステップS28において、データ解析・復号部95は、PC streamの終端か否かを判定し、PC streamの終端でない場合には処理はステップS26に戻り、PC streamの終端である場合には、処理は終了される。
 以上のように、データ生成装置51が、投影メタデータ(投影方向情報および単独表示可否情報)を付加したMPDを送信することで、データ再生装置52は、ユーザの視聴方向に最も近いAdaptationSetが単独で表示可能であるか否かを識別することができる。これにより、データ再生装置52は、ユーザの視聴方向を表示するために必要なAdaptationSetを適切に取得することができ、Point Cloudを再生する処理に必要となる処理量の増加を抑制しつつ、より高画質なPoint Cloudを再生することができる。
 なお、Point Cloudの1つの点に対し、投影方向ごとに異なる色を割り当ててもよい。例えば、投影方向X+Y+が投影方向X+との重複情報を持つ場合において、重複して投影された点の色がそれぞれの投影方向で異なってもよい。これにより、例えば、視聴方向によって色が変わることによって、キラメキなどを表現することができ、よりリアリティのあるPoint Cloudの構成が可能となる。
 <画質メタデータ>
 さらに、視聴方向に対応する分割ストリームの高画質化のための画質メタデータを定義してもよい。
 例えば、Point Cloudの画質はPoint Cloudを構成する点の疎密に依存し、Point Cloudを構成する点が疎であれば低画質になり、Point Cloudを構成する点が密であれば高画質になる。そして、V-PCCにおいて、再構成されるPoint Cloudの点の疎密はtexture画像およびgeometry画像の解像度に依存する。
 ここで、解像度とは、texture画像またはgeometry画像の全体ではなく、パッチとして有効な領域のピクセル数である。つまり、この有効ピクセル数が大きいほど、再構成されるPoint Cloudは高画質となる。そこで、画質メタデータとして提供されるV-PCCストリームの有効ピクセル情報は、ユーザの視聴方向に対応するPoint Cloudの領域を高画質化する上で、有効な指標となる。
 従って、それぞれの投影方向ファイルに、画質メタデータを付加することで、クライアントは、この情報に基づいて、視聴方向に応じて再生に必要なファイルを選択して取得し、視聴方向が高画質なPoint Cloudを構成して、表示することができる。
 以降、DASH MPDを拡張し、参照するファイルごとに画質メタデータを付加する手法について説明する。
 V-PCCストリームの有効ピクセル情報は、point cloud resolution descriptor(schemeIdUri=“urn:mpeg:mpegI:pc_resolution:2018”のSupplementalProperty)を新たに定義してシグナルする。ここで、@valueは、V-PCCストリームにおける各フレームのパッチ総ピクセル数のフレーム平均を示し、例えば、occupancy mapストリームから算出できるパッチ領域(例えば、図1に示したoccupancy map画像の白色ピクセル)の総ピクセル数のフレーム平均が設定される。
 また、V-PCCストリームの構成要素の1つであるauxiliary informationのdelta_size_u0およびdelta_size_v0から算出されるおおよそのパッチサイズのフレーム平均値を設定してもよい。
 図19には、画質メタデータを付加したMPDのサンプルが示されている。
 このMPDサンプルをもとに、ユーザの視聴方向が投影方向X+の投影面に相当する場合のストリーム取得方法例を示す。例えば、上述した第1のシグナル方法に従って、AdaptationSet@id=vpcc0の分割ストリームを視聴方向のPoint Cloudを構築するために取得し、さらにその他のAdaptationSet(図19のMPDのサンプルでは省略)を、それ以外の方向から見たPoint Cloudを構築するために取得する。
 その際、point cloud resolution descriptorをもとに、視聴方向に相当するAdaptationSet@id=vpcc0については高画質なPoint Cloudを構築するRepresentationを、それ以外のAdaptationSetについては低画質なPoint Cloudを構築するRepresentationを選択する。このように、画質メタデータを利用することにより、ネットワーク帯域幅を有効活用した、視聴方向のPoint Cloudのさらなる高画質化を実現することができる。
 なお、point cloud resolution descriptorは、分割されていないV-PCCストリームにも適用可能である。また、クライアントの処理能力に応じたV-PCCストリーム選択にも有効である。例えば、処理能力が低いクライアントは、構成されるPoint Cloudの点数が少ないV-PCCストリームを選択することができる。
 さらに、画質メタデータのみを使用して分割V-PCCストリーム選択を行ってもよい。
 <extractorの利用>
 図20および図21を参照して、extractorの利用について説明する。
 上述したように、分割ストリームを個別に選択して取得することにより、クライアントに自由度がある構成であるが、その反面、分割ストリームを個別にデコードする必要があるため、クライアントに必要なデコーダインスタンス数が増えてしまう。そこで、図20に示すように、ISOBMFFのツールであるextractor trackを利用して、分割前のストリームと同じ数のデコーダインスタンスによるデコードを可能にする。
 なお、extractor trackとは、ISO/IEC 14496-15で規定されるExtractorという機能を利用したtrackのことであり、他のtrackを参照してbitstreamの構成要素を抜出し、1つのbitstreamを再構成することができる。ここでbitstreamの構成要素とは、AVCやHEVCの場合は独立してデコードが可能な、1つもしくは複数のNAL unitである。
 例えば、図21に示すMPDのサンプルのように、high quality direction descriptor (schemeIdUri=“urn:mpeg:mpegI:pc_hq_direction:2018”のSupplementalProperty)を、extractor trackが構成するV-PCCストリームで高画質化されている投影方向情報として、新たに定義してシグナルする。ここで、@valueは、extractor trackが構成するV-PCCストリームで高画質化されている投影方向情報をシグナルする。
 例えば、Point Cloudのローカル座標系を基準にして、@value(0~9)により投影方向をシグナルする。即ち、@value=0の場合には投影方向X+、@value=1の場合には投影方向Y+、@value=2の場合には投影方向X-、@value=3の場合には投影方向Y-、@value=4の場合には投影方向Z+、@value=5の場合には投影方向Z-、@value=6の場合には投影方向X+Y+、@value=7の場合には投影方向X-Y+、@value=8の場合には投影方向X-Y-、@value=9の場合には投影方向X+Y-とシグナルする。
 また、複数方向が高画質化されている場合は、@valueにコンマ区切り等で複数方向シグナルしてよい。また、投影方向間の相対的なPoint Cloud画質ランキングをシグナルしてもよい。
 この場合、クライアントは、視聴方向に応じて適切なextractor trackを選択して取得した上で、さらにextractor trackが参照するファイルを取得することで、視聴方向が高画質となるV-PCCストリームを再構成することができる。このV-PCCストリームは、分割前のV-PCCストリームのデコードと同数のデコーダでデコード可能である。
 その他、第1のシグナル方法の変形例として、投影面は6面のままで、投影するPoint CloudオブジェクトをZ軸周りに45°回転させて投影したストリームを追加で配信することで、投影面を追加した場合と同様に主観的な画質向上の効果を得ることができる。このとき、DASH MPDには前述のメタデータに加え、投影時のPoint Cloudオブジェクトの回転情報がシグナルされてもよい。なお、この変形例は、後述するISOBMFFにも適用することができる。
 <第2の拡張方法>
 図22および図26を参照して、投影方向情報、単独表示可否情報、および画質メタデータを、トラックごとに、ISOBMFF拡張によってシグナルする第2の拡張方法について説明する。
 例えば、ISOBMFFを拡張し、トラックごとに、投影メタデータ(投影方向情報、単独表示可否情報)および画質メタデータを付加することができる。
 即ち、分割したV-PCCストリームをそれぞれ1 trackごとに格納し、ISOBMFFで定義されるマルチトラックのファイルに格納する。そして、1つのPoint Cloudコンテンツを構成する分割V-PCCストリームトラックをグルーピングする新たなtrack groupとして、図22に示すように、VPCCGroupBoxを定義する。
 例えば、VPCCGroupBoxはTrackGroupTypeBoxを拡張しており、投影メタデータ(投影方向情報、単独表示可否情報)および画質メタデータをシグナルする。ここで、TrackGroupTypeBoxは、同じ特性を持った複数trackをグルーピングするためのツールであり、ISOBMFFで規定されている。
 また、図23に示すように、projection_directionは、パッチごとの投影方向を示す。即ち、projection_direction=0の場合には投影方向X+、projection_direction=1の場合には投影方向Y+、projection_direction=2の場合には投影方向X-、projection_direction=3の場合には投影方向Y-、projection_direction=4の場合には投影方向Z+、projection_direction=5の場合には投影方向Z-、projection_direction=6の場合には投影方向X+Y+、projection_direction=7の場合には投影方向X-Y+、projection_direction=8の場合には投影方向X-Y-、projection_direction=9の場合には投影方向X+Y-とシグナルする。
 また、present_aloneは、トラック単独でPoint Cloudを構成し表示可能かを示す。例えば、present_alone=0の場合には、トラック単独で表示不可であることを示し、present_alone=1の場合には、トラック単独で表示可能であることを示す。
 また、point_cloud_resolutionは、V-PCCストリームにおける各フレームのパッチ総ピクセル数のフレーム平均を示し、構成されるPoint Cloudのフレーム平均点数を示す。
 このようなISOBMFF拡張により、全ての分割V-PCCストリームトラックをデコードするのでなく、視聴方向に応じてトラックを選択し、表示に必要な分割V-PCCストリームのみデコードしてPoint Cloud再構築を行い、優先的に表示することが可能になる。
 ここで、1つの分割V-PCCストリーム内に複数投影方向のパッチが含まれていてもよい。この場合、例えば、projection_directionを10bit長とし、most significant bitから順に投影方向X+、・・・、投影方向X+Y-を割り当て、各bit fieldに1が立てばその投影方向を含むものとする。例えば、projection_direction=1100000000は、投影方向X+および投影方向Y+を含むことを示す。
 また、1つの分割V-PCCストリーム内に、単独で表示可能なパッチと表示不可能なパッチとが混在していてもよい。この場合、present_alone=0となる。
 なお、投影メタデータ、画質メタデータは、Sample EntryなどVPCCGroupBox以外にシグナルしてもよい。また、単独表示可否情報はpresent_aloneというフィールドとしてではなく、単独表示不可であるトラックに対し、その表示に必要なV-PCCストリームトラックへのtrack reference(reference_type=vpcc)という方法で示してもよい。
 さらに、新たなtrack groupとしてTrackGroupTypeBoxを拡張し、単独表示可能グループを定義してもよい。例えば、単独で表示不可能な投影方向X+Y+と、その表示に必要な投影方向X+および投影方向Y+をグルーピングし、グループ単位で単独表示が可能であることを示す。
 <第2の拡張方法の更なる拡張>
 ここで、第2の拡張方法の更なる拡張について説明する。
 上述したように、第2の拡張方法は、投影方向情報などを有するように従来のISOBMFFを拡張する拡張方法である。これに加え、追加された4面の投影面(X+Y+投影面、X-Y-投影面、X-Y+投影面、およびX+Y-投影面)が、追加された4つの投影方向のパッチから生成された画像であることを示す追加投影方向識別情報を有するようにISOBMFFを更に拡張することができる。
 例えば、図24に示すようにVPCCGroupBoxを定義し、追加投影方向識別情報として、45degree_projectionをシグナルする。そして、図25に示すように、45degree_projection=0の場合は、6つの投影方向のパッチから生成されたストリームであることを示し、45degree_projection=1の場合は、追加された4つの投影方向のパッチから生成されたストリームであることを示す。また、projection_directionは、投影方向情報(0: X+, 1: Y+, 2: X-, 3: Y-, 4: Z+, 5: Z-)を示す。
 例えば、図24に示すように45degree_projectionおよびprojection_directionをシグナルし、45degree_projection =1により、追加された4つの投影方向のパッチから生成された画像であることが示された場合、投影方向は、projection_directionで示された方向をZ軸まわりに反時計回りに45°回転した方向であることを示す。また、45degree_projection=1とともにシグナルされるprojection_direction =0は、投影方向がX+Y+であることを示している。
 なお、projection_directionをシグナルせずに、45degree_projectionのみをシグナルしてもよい。この場合、45degree_projection=0であれば、6つすべての投影方向のパッチから生成されたストリームであることを示し、45degree_projection=1であれば、追加された4つすべての投影方向のパッチから生成されたストリームであることを示すようにする。
 ここで、上述した第1の拡張方法の更なる拡張と同様に、投影方向ファイルをblockごとに生成する場合、blockごとにシグナルされる45degree_projectionは、それぞれのblockの3次元空間情報を識別するためのBlock位置情報とともに利用することができる。
 例えば、図26に示すようにVPCCGroupBoxを定義し、block位置情報をシグナルする。例えば、block位置情報は、block_offset_x,block_offset_y,block_offset_z,block_size_x,block_size_y、およびblock_size_zの各フィールドで示すことができる。これらの各フィールドは全て、上述の図14に示したように、object boxのX軸、Y軸、およびZ軸の各辺を1として求められる相対値によってシグナルされる。また、同じ一つのobject boxを構成するblockは、VPCCGroupBoxの拡張元であるTrackGroupTypeBoxの機能を利用してシグナルすることができる。
 なお、projection_directionをシグナルせず、45degree_projectionおよびblock位置情報のみをシグナルしてもよい。この場合、45degree_projection=0であれば、各blockの投影方向ファイルが6つすべての投影方向のパッチから生成されたストリームであることを示し、45degree_projection=1であれば、追加された4つすべての投影方向のパッチから生成されたストリームであることを示すようにする。
 このように、第2の拡張方法において、投影方向情報とは別に、追加投影方向識別情報がシグナルされるようにISOBMFFを拡張することができる。
 <第3の拡張方法>
 図27乃至図30を参照して、投影方向情報、単独表示可否情報、および画質メタデータを、パッチごとに、Elementary Stream拡張によってシグナルする第3の拡張方法について説明する。
 例えば、Elementary StreamのHigh level syntaxを拡張し、パッチごとに、投影メタデータおよび画質メタデータを付加することができる。即ち、V-PCCストリームのHigh level syntaxを拡張し、投影メタデータおよび画質メタデータがシグナルされる。
 図27には、V-PCCストリームの構成要素の1つであるauxiliary informationを拡張する一例が示されている。
 例えば、図28に示すように、projection_directionは、パッチごとの投影方向を示す。即ち、projection_direction=0の場合には投影方向X+、projection_direction=1の場合には投影方向Y+、projection_direction=2の場合には投影方向X-、projection_direction=3の場合には投影方向Y-、projection_direction=4の場合には投影方向Z+、projection_direction=5の場合には投影方向Z-、projection_direction=6の場合には投影方向X+Y+、projection_direction=7の場合には投影方向X-Y+、projection_direction=8の場合には投影方向X-Y-、projection_direction=9の場合には投影方向X+Y-とシグナルする。
 また、present_aloneは、パッチ単独でPoint Cloudを構成し表示可能かを示す。例えば、present_aloneが0である場合には、パッチ単独で表示不可であることを示し、present_aloneが1である場合には、パッチ単独で表示可能であることを示す。
 また、point_cloud_resolutionは、パッチのピクセル数を示す。
 なお、1つのV-PCCストリームに含まれる全パッチが、同じprojection_directionの値を持っている場合、または、present_aloneの値を持っている場合、それぞれ1つのフィールド(default_projection_direction , default_present_alone)でシグナルしてもよい。また、各パッチのpoint_cloud_resolutionの値の合計を示すフィールドをシグナルしてもよい。そして、いずれのフィールドも、occupancy_aux_stream_sizeフィールドの直後にシグナルされる。
 さらに、パッチが単独で表示可能でない場合に、表示に必要な追加パッチの識別子をシグナルしてもよい。
 例えば、分割V-PCCストリームに複数の投影方向のパッチが含まれていて、投影方向ごとに領域にまとめ、それぞれの領域が独立してデコードできる符号化方法で符号化されている場合、Elementary Streamレベルの投影メタデータおよび画質メタデータを参照し、分割V-PCCストリームの中で視聴方向に応じて必要な領域のみ選択してデコードし、Point Cloud再構築を行い、優先的に表示することが可能になる。例えば、符号化コーデックとしてHEVCを用い、その場合、HEVC tileで符号化された領域を独立してデコード可能である。
 このとき、V-PCCストリームを格納するISOBMFFトラックのVPCCGroupBoxを拡張し、duplicated_patchフィールドを追加してもよい。このフィールドには、トラックに格納されるV-PCCストリームに重複情報を含むパッチが含まれていれば1がシグナルされ、そうでなければ0がシグナルされる。また、duplicated_patch=1である場合、デコード処理に先駆け、重複情報がある場合のポストプロセスの準備が可能となる。
 <第3の拡張方法の更なる拡張>
 ここで、第3の拡張方法の更なる拡張について説明する。
 上述したように、第3の拡張方法は、投影方向情報などを有するように従来のElementary Streamを拡張する拡張方法である。これに加え、追加された4面の投影面(X+Y+投影面、X-Y-投影面、X-Y+投影面、およびX+Y-投影面)が、追加された4つの投影方向のパッチから生成された画像であることを示す追加投影方向識別情報を有するようにElementary Streamを更に拡張することができる。
 例えば、図29に示すように、追加投影方向識別情報として、45degree_projectionをシグナルする。なお、図29に示すauxiliary informationは、図27に示したauxiliary informationの一部を抜き出したものである。
 例えば、図30に示すように、45degree_projection=0の場合は、6つの投影方向のパッチであることを示し、45degree_projection=1の場合は、追加された4つの投影方向のパッチであることを示す。また、projection_directionは、投影方向情報(0: X+, 1: Y+, 2: X-, 3: Y-, 4: Z+, 5: Z-)を示す。
 図29に示すように45degree_projectionおよびprojection_directionをシグナルし、45degree_projection =1により、追加された4つの投影方向のパッチから生成された画像であることが示された場合、投影方向はprojection_directionで示された方向をZ軸まわりに反時計回りに45°回転した方向であることを示す。また、45degree_projection=1とともにシグナルされるprojection_direction =0は、投影方向がX+Y+であることを示している。
 このように、第3の拡張方法において、投影方向情報とは別に、追加投影方向識別情報がシグナルされるようにElementary Streamを拡張することができる。
 以上のように、本技術によれば、V-PCC streamを分割し、DASH配信する際に、分割ストリーム内のパッチの投影方向情報および単独表示可否情報をシグナルするDASH MPDのメタデータが定義される。さらに、追加投影方向識別情報をシグナルするDASH MPDのメタデータが定義される。これにより、ネットワーク帯域幅を有効活用し、クライアント側における処理のオーバーヘッド抑制しつつ、投影面を追加することによって高画質化されたV-PCCストリームを配信することが可能になる。
 例えば、従来技術では、texture画像、geometry画像、およびoccupancy map画像それぞれの全体ストリームを取得することを前提としていることから、V-PCCのストリームを配信する際、投影面が6面であるストリームに比較して、投影面が増えた分、必然的にビットレートが増加することになる。それに対し、限られたネットワーク帯域幅の環境下において、V-PCCストリーム(textureストリーム、geometryストリーム、およびoccupancy mapストリーム)を投影面ごとに分割して、クライアントの視聴方向に応じて必要な分割V-PCCストリームのみを選択して配信するといった方法が考えられる。しかしながら、この場合においては、クライアント側は、追加された投影面のパッチがその投影方向の全情報を有しているか否かを識別することができず、独立して十分表示可能な画像であるか判断することができなかった。
 このような従来技術に対し、本技術によれば、投影方向情報および単独表示可否情報をシグナルすることで、限られたネットワーク帯域幅の環境下において、クライアントの視聴方向に応じて必要な分割V-PCCストリームのみを選択して配信することができる。即ち、常に投影方向の全情報を有していない前提でV-PCCの全ストリームを取得する必要はなく、不要な分割ストリームを取得することが回避される。
 さらに、DASH MPDを拡張し、画質メタデータをシグナルすることで、V-PCCストリームの視聴方向の高画質化を図ることができる。
 また、本技術によれば、V-PCC streamを分割してISOBMFFに格納するためのISOBMFF拡張により、全ての分割V-PCCストリームトラックをデコードするのでなく、視聴方向に応じてトラックを選択し、表示に必要な分割V-PCCストリームのみデコードしてPoint Cloudの再構築を行い、優先的に表示することが可能になる。
 また、本技術によれば、V-PCCストリームのHigh level syntaxを拡張し、投影メタデータ、画質メタデータをシグナルすることで、分割V-PCCストリームに複数の投影方向のパッチが含まれている場合において、視聴方向に応じて必要な領域のみ選択してデコードし、Point Cloudの再構築を行い、優先的に表示することが可能になる。
 <コンピュータの構成例>
 次に、上述した一連の処理(情報処理方法)は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
 図31は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示すブロック図である。
 プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク105やROM103に予め記録しておくことができる。
 あるいはまた、プログラムは、ドライブ109によって駆動されるリムーバブル記録媒体111に格納(記録)しておくことができる。このようなリムーバブル記録媒体111は、いわゆるパッケージソフトウェアとして提供することができる。ここで、リムーバブル記録媒体111としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
 なお、プログラムは、上述したようなリムーバブル記録媒体111からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク105にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。
 コンピュータは、CPU(Central Processing Unit)102を内蔵しており、CPU102には、バス101を介して、入出力インタフェース110が接続されている。
 CPU102は、入出力インタフェース110を介して、ユーザによって、入力部107が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)103に格納されているプログラムを実行する。あるいは、CPU102は、ハードディスク105に格納されたプログラムを、RAM(Random Access Memory)104にロードして実行する。
 これにより、CPU102は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU102は、その処理結果を、必要に応じて、例えば、入出力インタフェース110を介して、出力部106から出力、あるいは、通信部108から送信、さらには、ハードディスク105に記録等させる。
 なお、入力部107は、キーボードや、マウス、マイク等で構成される。また、出力部106は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
 ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
 また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
 さらに、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 また、例えば、1つの装置(または処理部)として説明した構成を分割し、複数の装置(または処理部)として構成するようにしてもよい。逆に、以上において複数の装置(または処理部)として説明した構成をまとめて1つの装置(または処理部)として構成されるようにしてもよい。また、各装置(または各処理部)の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置(または処理部)の構成の一部を他の装置(または他の処理部)の構成に含めるようにしてもよい。
 また、例えば、本技術は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、例えば、上述したプログラムは、任意の装置において実行することができる。その場合、その装置が、必要な機能(機能ブロック等)を有し、必要な情報を得ることができるようにすればよい。
 また、例えば、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。換言するに、1つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を1つのステップとしてまとめて実行することもできる。
 なお、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。
 なお、本明細書において複数説明した本技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部または全部を、他の実施の形態において説明した本技術の一部または全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部または全部を、上述していない他の技術と併用して実施することもできる。
 <構成の組み合わせ例>
 なお、本技術は以下のような構成も取ることができる。
(1)
 3Dデータを複数の投影方向に投影して、2次元に変換することによって複数の前記投影方向の画像データを生成し、
 前記画像データの前記投影方向を示す投影方向情報を投影メタデータとして生成する前処理部
 を備える情報処理装置。
(2)
 前記投影メタデータには、追加投影方向への投影によって生成された前記画像データであることを示す追加投影方向識別情報が含まれる
 上記(1)に記載の情報処理装置。
(3)
 前記画像データは、前記投影方向ごとのtexture画像、geometry画像、およびoccupancy map画像を有する
 上記(2)に記載の情報処理装置。
(4)
 前記前処理部は、前記投影方向情報または前記追加投影方向識別情報により示される前記投影方向の前記画像データが、単独での表示可能であるか否かを示す単独表示可否情報を、前記投影メタデータとして更に生成する
 上記(3)に記載の情報処理装置。
(5)
 前記前処理部は、前記画像データの有効ピクセル数を画質メタデータとしてさらに生成する
 上記(1)から(4)までのいずれかに記載の情報処理装置。
(6)
 生成された前記投影メタデータを、前記3Dデータの表示時に参照されるデータ単位であるファイルごとにシグナルするMPD(Media Presentation Description)を生成するMPDファイル生成部
 をさらに備える上記(1)から(5)までのいずれかに記載の情報処理装置。
(7)
 前記MPDファイル生成部は、前記ファイルの1つで前記3Dデータの単独表示が不可能である場合に、前記3Dデータを表示する上で必要となる他の前記ファイルへの関連付けをシグナルする
 上記(6)に記載の情報処理装置。
(8)
 前記MPDファイル生成部は、前記ファイルの1つで前記3Dデータの単独表示が不可能である場合に、そのファイルと、前記3Dデータを表示する上で必要となる他の前記ファイルとをグルーピングしてシグナルする
 上記(6)に記載の情報処理装置。
(9)
 前記投影メタデータを、複数の前記投影方向の前記データ単位であるトラックごとにシグナルするISOBMFF(ISO Base Media File Format)のファイルを生成するファイル生成部
 をさらに備える上記(1)から(5)までのいずれかに記載の情報処理装置。
(10)
 前記ファイル生成部は、前記トラックの1つで前記3Dデータの単独表示が不可能である場合に、そのトラックと、前記3Dデータを表示する上で必要となる他の前記トラックとをグルーピングしてシグナルする
 上記(9)に記載の情報処理装置。
(11)
 前記投影メタデータを、複数の前記投影方向の前記データ単位であるパッチごとにシグナルするElementary Streamを符号化する符号化部
 をさらに備える上記(1)から(5)までのいずれかに記載の情報処理装置。
(12)
 前記符号化部は、前記パッチの1つで前記3Dデータの単独表示が不可能である場合に、そのパッチと、前記3Dデータの表示に必要な追加パッチの識別子をシグナルする
 上記(11)に記載の情報処理装置。
(13)
 前記投影方向の前記画像データが、前記3Dデータを含む直方体であるobject boxの一部分であるblockに基づいて生成された場合において、
 前記前処理部は、前記object boxを基準にして個々の前記blockの3次元空間の位置を識別するBlock位置情報を、前記投影メタデータとして更に生成する
 上記(4)に記載の情報処理装置。
(14)
 情報処理装置が、
 3Dデータを複数の投影方向に投影して、2次元に変換することによって複数の前記投影方向の画像データを生成すること、
 前記画像データの前記投影方向を示す投影方向情報を投影メタデータとして生成することと
 を含む情報処理方法。
 なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
 51 データ生成装置, 52 データ再生装置, 61 制御部, 62 ファイル生成部, 71 データ入力部, 72 データ符号化・生成部, 73 MPDファイル生成部, 74 記録部, 75 アップロード部, 76 前処理部, 77 符号化部, 78 ファイル生成部, 81 制御部, 82 再生処理部, 91 ファイル取得部, 92 ファイル処理部, 94 表示制御部, 95 データ解析・復号部, 96 表示部, 97 ファイル処理部, 98 復号部, 99 表示情報生成部

Claims (14)

  1.  3Dデータを複数の投影方向に投影して、2次元に変換することによって複数の前記投影方向の画像データを生成し、
     前記画像データの前記投影方向を示す投影方向情報を投影メタデータとして生成する前処理部
     を備える情報処理装置。
  2.  前記投影メタデータには、追加投影方向への投影によって生成された前記画像データであることを示す追加投影方向識別情報が含まれる
     請求項1に記載の情報処理装置。
  3.  前記画像データは、前記投影方向ごとのtexture画像、geometry画像、およびoccupancy map画像を有する
     請求項2に記載の情報処理装置。
  4.  前記前処理部は、前記投影方向情報または前記追加投影方向識別情報により示される前記投影方向の前記画像データが、単独での表示可能であるか否かを示す単独表示可否情報を、前記投影メタデータとして更に生成する
     請求項3に記載の情報処理装置。
  5.  前記前処理部は、前記画像データの有効ピクセル数を画質メタデータとしてさらに生成する
     請求項1に記載の情報処理装置。
  6.  生成された前記投影メタデータを、前記3Dデータの表示時に参照されるデータ単位であるファイルごとにシグナルするMPD(Media Presentation Description)を生成するMPDファイル生成部
     をさらに備える請求項1に記載の情報処理装置。
  7.  前記MPDファイル生成部は、前記ファイルの1つで前記3Dデータの単独表示が不可能である場合に、前記3Dデータを表示する上で必要となる他の前記ファイルへの関連付けをシグナルする
     請求項6に記載の情報処理装置。
  8.  前記MPDファイル生成部は、前記ファイルの1つで前記3Dデータの単独表示が不可能である場合に、そのファイルと、前記3Dデータを表示する上で必要となる他の前記ファイルとをグルーピングしてシグナルする
     請求項6に記載の情報処理装置。
  9.  前記投影メタデータを、複数の前記投影方向のデータ単位であるトラックごとにシグナルするISOBMFF(ISO Base Media File Format)のファイルを生成するファイル生成部
     をさらに備える請求項1に記載の情報処理装置。
  10.  前記ファイル生成部は、前記トラックの1つで前記3Dデータの単独表示が不可能である場合に、そのトラックと、前記3Dデータを表示する上で必要となる他の前記トラックとをグルーピングしてシグナルする
     請求項9に記載の情報処理装置。
  11.  前記投影メタデータを、複数の前記投影方向のデータ単位であるパッチごとにシグナルするElementary Streamを符号化する符号化部
     をさらに備える請求項1に記載の情報処理装置。
  12.  前記符号化部は、前記パッチの1つで前記3Dデータの単独表示が不可能である場合に、そのパッチと、前記3Dデータの表示に必要な追加パッチの識別子をシグナルする
     請求項11に記載の情報処理装置。
  13.  前記投影方向の前記画像データが、前記3Dデータを含む直方体であるobject boxの一部分であるblockに基づいて生成された場合において、
     前記前処理部は、前記object boxを基準にして個々の前記blockの3次元空間の位置を識別するBlock位置情報を、前記投影メタデータとして更に生成する
     請求項4に記載の情報処理装置。
  14.  情報処理装置が、
     3Dデータを複数の投影方向に投影して、2次元に変換することによって複数の前記投影方向の画像データを生成すること、
     前記画像データの前記投影方向を示す投影方向情報を投影メタデータとして生成することと
     を含む情報処理方法。
PCT/JP2019/036466 2018-10-02 2019-09-18 情報処理装置および情報処理方法 WO2020071112A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2020550266A JP7415936B2 (ja) 2018-10-02 2019-09-18 情報処理装置および情報処理方法
EP19869554.6A EP3863290A4 (en) 2018-10-02 2019-09-18 INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
CN201980063702.5A CN112789865A (zh) 2018-10-02 2019-09-18 信息处理装置和信息处理方法
US17/280,609 US11481961B2 (en) 2018-10-02 2019-09-18 Information processing apparatus and information processing method
US17/885,024 US11676331B2 (en) 2018-10-02 2022-08-10 Information processing apparatus and information processing method

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2018187817 2018-10-02
JP2018-187817 2018-10-02
JP2019-117700 2019-06-25
JP2019117700 2019-06-25

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US17/280,609 A-371-Of-International US11481961B2 (en) 2018-10-02 2019-09-18 Information processing apparatus and information processing method
US17/885,024 Continuation US11676331B2 (en) 2018-10-02 2022-08-10 Information processing apparatus and information processing method

Publications (1)

Publication Number Publication Date
WO2020071112A1 true WO2020071112A1 (ja) 2020-04-09

Family

ID=70054767

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/036466 WO2020071112A1 (ja) 2018-10-02 2019-09-18 情報処理装置および情報処理方法

Country Status (5)

Country Link
US (2) US11481961B2 (ja)
EP (1) EP3863290A4 (ja)
JP (1) JP7415936B2 (ja)
CN (1) CN112789865A (ja)
WO (1) WO2020071112A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020071112A1 (ja) 2018-10-02 2020-04-09 ソニー株式会社 情報処理装置および情報処理方法
EP3734970B1 (en) * 2019-01-08 2023-07-05 Samsung Electronics Co., Ltd. Method for processing and transmitting three-dimensional content
CN114930813B (zh) * 2020-01-08 2024-03-26 Lg电子株式会社 点云数据发送装置、点云数据发送方法、点云数据接收装置和点云数据接收方法
US11706450B2 (en) * 2020-09-18 2023-07-18 Samsung Electronics Co., Ltd. Partial decoding and reconstruction of a video-based point cloud compression bitstream

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4694404A (en) * 1984-01-12 1987-09-15 Key Bank N.A. High-speed image generation of complex solid objects using octree encoding
JP3537965B2 (ja) * 1996-08-28 2004-06-14 日本電気株式会社 多段式フロントエンド・プロセッサ装置
US20060291506A1 (en) * 2005-06-23 2006-12-28 Cain David C Process of providing content component displays with a digital video recorder
US8726325B2 (en) * 2005-08-08 2014-05-13 Telvue Corporation Method and apparatus for scheduling delivery of video and graphics
US20090240716A1 (en) * 2008-03-20 2009-09-24 Mediatek Inc. Data processing method, system, and device for multimedia data recording and data patching method thereof
US8926094B2 (en) * 2010-09-24 2015-01-06 Tufts University Imaging adaptor for camera
US20140002598A1 (en) * 2012-06-29 2014-01-02 Electronics And Telecommunications Research Institute Transport system and client system for hybrid 3d content service
US20140056499A1 (en) * 2012-08-24 2014-02-27 Samsung Electronics Co., Ltd. Apparatus and method for generating image using correction model
CN103900503B (zh) * 2012-12-27 2016-12-28 清华大学 提取形状特征的方法、安全检查方法以及设备
CN103903303B (zh) * 2012-12-27 2018-01-30 清华大学 三维模型创建方法和设备
JP6860485B2 (ja) * 2015-08-05 2021-04-14 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム
US9754405B1 (en) * 2015-08-10 2017-09-05 Ngrain (Canada) Corporation System, method and computer-readable medium for organizing and rendering 3D voxel models in a tree structure
KR102523997B1 (ko) * 2016-02-12 2023-04-21 삼성전자주식회사 360도 영상 처리 방법 및 장치
US20170289533A1 (en) * 2016-03-30 2017-10-05 Seiko Epson Corporation Head mounted display, control method thereof, and computer program
US11172005B2 (en) * 2016-09-09 2021-11-09 Nokia Technologies Oy Method and apparatus for controlled observation point and orientation selection audiovisual content
US20180240276A1 (en) * 2017-02-23 2018-08-23 Vid Scale, Inc. Methods and apparatus for personalized virtual reality media interface design
DE102017203702A1 (de) * 2017-03-07 2018-09-13 Siemens Healthcare Gmbh Verfahren und Vorrichtung zum Erzeugen eines Ausgabebildes aus einem Volumendatensatz
US10375375B2 (en) * 2017-05-15 2019-08-06 Lg Electronics Inc. Method of providing fixed region information or offset region information for subtitle in virtual reality system and device for controlling the same
US10992961B2 (en) * 2017-05-25 2021-04-27 Qualcomm Incorporated High-level signaling for fisheye video data
US10659760B2 (en) * 2017-07-10 2020-05-19 Qualcomm Incorporated Enhanced high-level signaling for fisheye virtual reality video
CN107464283B (zh) * 2017-07-13 2020-11-10 广西我的科技有限公司 一种三维空间信息采集分析处理的方法及装置
US11065761B2 (en) * 2017-07-25 2021-07-20 Dematic Corp. Robotic picking training technique
US10853975B2 (en) * 2018-01-26 2020-12-01 Sony Corporation Hybrid projection-based point cloud texture coding
US20190251744A1 (en) * 2018-02-12 2019-08-15 Express Search, Inc. System and method for searching 3d models using 2d images
CN110662087B (zh) * 2018-06-30 2021-05-11 华为技术有限公司 点云编解码方法和编解码器
WO2020071112A1 (ja) * 2018-10-02 2020-04-09 ソニー株式会社 情報処理装置および情報処理方法
US11216984B2 (en) * 2019-01-09 2022-01-04 Samsung Electronics Co., Ltd. Patch splitting for improving video-based point cloud compression performance

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"Technologies Under Consideration for Carriage of Point Cloud Data", ISO/IEC JTC 1/SC 29/WG 11 CODING OF MOVING PICTURES AND AUDIO CONVENORSHIP: UNI (ITALY
PCC CORE EXPERIMENT ON PATCH PACKING, July 2018 (2018-07-01)
QUALCOMM INCORPORATED: "VRStream: Status OMAF and VR-IF", 3GPP TSG SA WG4 #96 S4-171168, 7 November 2017 (2017-11-07), XP051361765, Retrieved from the Internet <URL:http://www.3gpp.org/ftp/tsg_sa/WG4_CODEC/TSGS4_96/Docs/> *
See also references of EP3863290A4
WORKING DRAFT OF POINT CLOUD CODING FOR CATEGORY, vol. 2, April 2018 (2018-04-01)

Also Published As

Publication number Publication date
EP3863290A1 (en) 2021-08-11
US20210343069A1 (en) 2021-11-04
EP3863290A4 (en) 2021-12-08
CN112789865A (zh) 2021-05-11
US20220383587A1 (en) 2022-12-01
JPWO2020071112A1 (ja) 2021-09-02
US11481961B2 (en) 2022-10-25
JP7415936B2 (ja) 2024-01-17
US11676331B2 (en) 2023-06-13

Similar Documents

Publication Publication Date Title
US11532103B2 (en) Information processing apparatus and information processing method
WO2020071112A1 (ja) 情報処理装置および情報処理方法
CA2953242C (en) Information processing apparatus and information processing method
JP7439762B2 (ja) 情報処理装置および情報処理方法、並びにプログラム
JP7310816B2 (ja) 情報処理装置および情報処理方法、並びにプログラム
WO2021065277A1 (ja) 情報処理装置、再生処理装置及び情報処理方法
JP7287454B2 (ja) 情報処理装置、再生処理装置、情報処理方法及び再生処理方法
WO2020137854A1 (ja) 情報処理装置および情報処理方法
JPWO2018142946A1 (ja) 情報処理装置および方法
JP2009301605A (ja) 再生装置、再生方法、プログラム、及び、データ構造
WO2021065605A1 (ja) 情報処理装置および情報処理方法
WO2020261689A1 (ja) 情報処理装置、情報処理方法、再生処理装置及び再生処理方法
WO2021002142A1 (ja) 情報処理装置、情報処理方法、再生処理装置及び再生処理方法
JP2022063882A (ja) 情報処理装置および方法、並びに、再生装置および方法
WO2020145139A1 (ja) 情報処理装置および情報処理方法
WO2021140956A1 (ja) 情報処理装置および方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19869554

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020550266

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019869554

Country of ref document: EP

Effective date: 20210503