WO2020189038A1 - 情報処理装置、情報処理方法、再生処理装置及び再生処理方法 - Google Patents

情報処理装置、情報処理方法、再生処理装置及び再生処理方法 Download PDF

Info

Publication number
WO2020189038A1
WO2020189038A1 PCT/JP2020/003174 JP2020003174W WO2020189038A1 WO 2020189038 A1 WO2020189038 A1 WO 2020189038A1 JP 2020003174 W JP2020003174 W JP 2020003174W WO 2020189038 A1 WO2020189038 A1 WO 2020189038A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
file
dimensional object
definition
dimensional
Prior art date
Application number
PCT/JP2020/003174
Other languages
English (en)
French (fr)
Inventor
充 勝股
遼平 高橋
平林 光浩
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/431,720 priority Critical patent/US11825135B2/en
Priority to JP2021506217A priority patent/JP7480773B2/ja
Priority to CN202080020931.1A priority patent/CN113574902A/zh
Priority to EP20774519.1A priority patent/EP3944629A4/en
Publication of WO2020189038A1 publication Critical patent/WO2020189038A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/005Tree description, e.g. octree, quadtree
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23412Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs for generating or manipulating the scene composition of objects, e.g. MPEG-4 objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23614Multiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4348Demultiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44012Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving rendering scenes according to scene graphs, e.g. MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8543Content authoring using a description language, e.g. Multimedia and Hypermedia information coding Expert Group [MHEG], eXtensible Markup Language [XML]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/61Scene description
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed

Definitions

  • the present disclosure relates to an information processing device, an information processing method, a reproduction processing device, and a reproduction processing method.
  • 2D content In the current video distribution, the distribution of 2D content called 2D video used for distribution of movies etc. is the mainstream. Furthermore, distribution of 360-degree video that can be viewed in all directions is also provided on various sites on the Internet. 360-degree video is also called 3DoF (Degree of Freedom) video. In both 2D video and 3DoF video, basically 2D encoded content is distributed and displayed on the client device.
  • 2D video and 3DoF video basically 2D encoded content is distributed and displayed on the client device.
  • the 6DoF content can be looked around in all directions by freely selecting the line-of-sight direction in the three-dimensional space, and further, the free position in the space can be selected by freely selecting the viewpoint position.
  • the 6DoF content is a three-dimensional content that expresses a three-dimensional object in a three-dimensional space and can freely set the viewpoint direction and the viewpoint position during reproduction. 6DoF content represents a three-dimensional space with one or more three-dimensional objects.
  • the three-dimensional object is referred to as a 3D object.
  • the 6DoF content is a representation of a three-dimensional space using a three-dimensional object for each time by the following method.
  • One method is an object-based expression method in which a three-dimensional space is expressed by a three-dimensional object for each object such as a person or an object.
  • another method is a space-based expression method in which the entire target space is expressed as one three-dimensional object without generating a three-dimensional object for each object such as a person or an object.
  • a method of distributing 6DoF content for example, there is a method in which a three-dimensional space is composed of a plurality of three-dimensional objects and propagated as a plurality of object streams.
  • a scene description there is a technique of using a description method called a scene description.
  • a scene description there is a technique of expressing a scene with a graph having a tree hierarchical structure called a scene graph and expressing the scene graph in a binary format or a text format.
  • the present disclosure provides an information processing device, an information processing method, a reproduction processing device, and a reproduction processing method that can provide a user with a highly flexible viewing experience.
  • the preprocessing unit specifies an object for identifying a specific object included in the three-dimensional space. Generate information.
  • the file generation unit generates a file including the data of the spatial three-dimensional object and the object specific information.
  • Non-Patent Document 1 (above)
  • Non-Patent Document 2 “ISO / IEC 14496-11: 2015”, Information technology. Coding of audio-visual objects. Part11: Sene description and application engine, 2015-11
  • Non-Patent Document 3 "ISO / IEC 23009-1: 2014", Information technology. Dynamic adaptive streaming over HTTP (DASH), Part1: Media presentation description and segment formats, 2014-15
  • Non-Patent Document 4 “ISO / IEC 23009-1: 2014", Information technology.
  • Dynamic adaptive streaming over HTTP Part1: AMENDMENT 2: Spatial relationship description generalized URL parameters and other extensions, 2014-05
  • Non-Patent Document 5 "ISO / IEC 21000-22: 2016", Information technology-Multimedia framework (MPEG-21)-Part22: User Description, 2016-11
  • the contents described in the above-mentioned non-patent documents are also incorporated in the present specification by reference.
  • the contents described in the above-mentioned non-patent documents are also the basis for determining the support requirements.
  • it is used in the File Structure described in Non-Patent Document 1, the structure / term used in the Scene Description described in Non-Patent Document 2, and the MPEG-DASH standard described in Non-Patent Document 3.
  • the term is not directly described in the detailed description of the invention, it is within the scope of disclosure of the present technology and satisfies the support requirements of the claims.
  • a space-based expression method is effective for 6DoF content based on live-action sports and music.
  • the space-based expression method it is difficult to identify each object included in the 6DoF content, and the user has less freedom in determining the viewing experience.
  • the object-based expression method has the following restrictions as compared with the object-based expression method. In viewing in which the viewpoint is freely selected, it is difficult for the client device to automatically track and view the object specified by the user. In addition, it is difficult to display the position of the object on the client device and assist the user in viewing. Furthermore, it is difficult to display high quality only on the objects specified by the user.
  • ROI region of interest
  • FIG. 1 is a system configuration diagram of an example of a distribution system.
  • the distribution system 100 includes a file generation device 1 which is an information processing device, a client device 2 which is a reproduction processing device, and a Web server 3.
  • the file generation device 1, the client device 2, and the Web server 3 are connected to the network 4. Then, the file generation device 1, the client device 2, and the Web server 3 can communicate with each other via the network 4.
  • the distribution system 100 may include a plurality of file generation devices 1 and a plurality of client devices 2, respectively.
  • the file generation device 1 generates 6DoF content.
  • the file generation device 1 uploads the generated 6DoF content to the Web server 3.
  • the configuration in which the Web server 3 provides the 6DoF content to the client device 2 will be described, but the distribution system 100 can adopt another configuration.
  • the file generation device 1 may include the functions of the Web server 3, store the generated 6DoF content in its own device, and provide it to the client device 2.
  • the Web server 3 holds the 6DoF content uploaded from the file generation device 1. Then, the Web server 3 provides the designated 6DoF content according to the request from the client device 2.
  • the client device 2 transmits a 6DoF content transmission request to the Web server 3. Then, the client device 2 acquires the 6DoF content specified in the transmission request from the Web server 3. Then, the client device 2 decodes the 6DoF content to generate an image, and displays the image on a display device such as a monitor.
  • 6DoF content represents a three-dimensional space with one or more three-dimensional objects.
  • the 3D object is represented using the coordinate system in the normalized Bounding Box, which is the local coordinate system of the 6DoF content, and is compressed and encoded to become a bitstream.
  • a scene description is used to place this bitstream in a three-dimensional space.
  • a scene displaying each 3D object at each time is represented by a graph having a tree hierarchical structure called a scene graph, and the scene graph is represented in a binary format or a text format.
  • the scene graph is spatial display control information, and is configured by defining a node as a configuration unit and hierarchically combining a plurality of nodes with information related to the display of a 3D object.
  • the node includes a node for coordinate conversion information that converts from one coordinate system to another, a node for position information and size information of a 3D object, and a node for access information to a 3D object and audio data.
  • the 6DoF content is composed of scene description data which is spatial display control information and media data of a plurality of 3D objects (for example, a combination of mesh data and texture data of 3D objects). It shall be done. Further, the 6DoF content may include audio data. Other formats such as Point Cloud can be applied to the media data of 3D objects.
  • the scene description data shall conform to MPEG-4 Scene Description (ISO / IEC 14496-11).
  • the MPEG-4 Scene Description data is a binary version of the scene graph in the format of BIFS (Binary Format for Scenes).
  • BIFS Binary Format for Scenes
  • the conversion of this scene graph to BIFS is possible by using a predetermined algorithm.
  • ISOBMFF ISOBase Media File Format
  • the scene can be defined for each time, and it is possible to express a 3D object whose position and size change.
  • FIG. 2 is a block diagram of the file generator.
  • the file generation device 1 which is an information processing device has a generation processing unit 10 and a control unit 11.
  • the control unit 11 executes a process related to the control of the generation processing unit 10.
  • the control unit 11 performs integrated control such as the operation timing of each unit of the generation processing unit 10.
  • the generation processing unit 10 includes a data input unit 101, a preprocessing unit 102, an encoding unit 103, a file generation unit 104, and a transmission unit 105.
  • the data input unit 101 accepts the input of the original information for generating the three-dimensional object and the meta information.
  • the data input unit 101 outputs the acquired original information to the preprocessing unit 102.
  • the data input unit 101 accepts data input.
  • the data received by the data input unit 101 includes metadata such as a 3D object and arrangement information of the 3D object.
  • the data input unit 101 outputs the acquired data to the preprocessing unit 102.
  • the preprocessing unit 102 receives input of data including metadata such as 3D objects and arrangement information of 3D objects from the data input unit 101. Then, the preprocessing unit 102 determines the bitstream configuration based on the acquired data, and generates a scene graph using the metadata of each 3D object and the access information to the bitstream.
  • the metadata includes control information such as what kind of codec is used for compression.
  • the preprocessing unit 102 generates 3D object identification information for specifying a 3D object in the 3D space.
  • the three-dimensional object specific information includes identification information for discriminating the same three-dimensional object even when the time changes, spatial position information of the three-dimensional object, detailed information of the three-dimensional object, and the like. This three-dimensional object specific information corresponds to an example of "object specific information".
  • the preprocessing unit 102 stores the three-dimensional object specific information in the form of a scene description.
  • FIG. 3 is a diagram showing a storage state of the three-dimensional object specific information according to the first embodiment.
  • the preprocessing unit 102 defines a new object metadata node 31 for showing identification information, position information of a three-dimensional object, and detailed information of a three-dimensional object.
  • the preprocessing unit 102 generates a scene graph 30 having the object metadata node 31 for each three-dimensional object as a child node with the Group node as the root for the three-dimensional object identification information at a certain time.
  • the preprocessing unit 102 sets each of the object metadata nodes 31 representing the 3D object specific information of each 3D object as child nodes of the Group node.
  • FIG. 4 is a diagram showing an example of the syntax of the object metadata node.
  • the preprocessing unit 102 generates the object metadata node 31 using the syntax shown in FIG.
  • the centerPoint in the syntax shown in FIG. 4 is a value indicating the coordinates (x, y, z) indicating the center of the three-dimensional object.
  • bboxSize is a value indicating a circumscribed box of a three-dimensional object, and is represented by a length parallel to each axis centered on centerPoint. When centerPoint is used and bboxSize is not used, that is, when bboxSize is omitted, bboxSize is set to (-1, -1, -1).
  • the id is the identification information of the three-dimensional object, and is represented by a numerical value in this embodiment. description is a character string indicating detailed information of the three-dimensional object.
  • FIG. 5 is a diagram showing an example of syntax when the existing node is expanded to store the three-dimensional object specific information.
  • the preprocessing unit 102 indicates the position of the three-dimensional object using the existing bboxCenter field and bboxSize field in the Transform node represented as the exposedField in FIG.
  • the preprocessing unit 102 realizes the storage of the identification information and the detailed information of the three-dimensional object by expanding the field in the Transform node.
  • the id in the syntax shown in FIG. 4 is identification information of a three-dimensional object and is represented by a numerical value.
  • noShapeFlag indicates that there is no data indicating the shape of the three-dimensional object in the child node, that is, only the position information.
  • the description is a character string indicating detailed information of the three-dimensional object.
  • the preprocessing unit 102 may indicate the position of the 3D object by a solid such as an circumscribed sphere or a circumscribed cylinder. ..
  • the preprocessing unit 102 may store the shape information itself of the three-dimensional object.
  • the preprocessing unit 102 outputs the three-dimensional object and the generated scene graph to the coding unit 103. Further, the preprocessing unit 102 outputs the metadata to the file generation unit 104.
  • the coding unit 103 receives the input of the three-dimensional object and the scene graph from the preprocessing unit 102. Then, the coding unit 103 encodes the three-dimensional object to generate a bit stream. In addition, the coding unit 103 encodes the acquired scene graph and generates a scene description. After that, the encoding unit 103 outputs the generated bit stream and scene description to the file generation unit 104.
  • the file generation unit 104 receives the input of the bit stream and the scene description from the encoding unit 103. Further, the file generation unit 104 receives the input of metadata from the preprocessing unit 102. Then, the file generation unit 104 creates a file by storing the acquired bit stream in the ISOBMFF file for each segment, and generates a segment file of the bit stream. In addition, the file generation unit 104 creates a segment file of the scene description by storing the scene description data in the ISOBMFF file for each segment.
  • the file generation unit 104 generates an MPD (Media Presentation Description) file based on the data acquired from the preprocessing unit 102.
  • the MPD file stores meta information of 6DoF content such as media type, video and audio segment file information.
  • the transmission unit 105 acquires the bitstream, static scene description, and dynamic scene description segment files from the file generation unit 104, transmits them to the Web server 3, and uploads them.
  • FIG. 6 is a block diagram of the client device.
  • the client device 2 has a reproduction processing unit 20 and a control unit 21.
  • the control unit 21 controls the operation of each unit of the reproduction processing unit 20.
  • the control unit 21 comprehensively controls the operation timing of each unit of the reproduction processing unit 20.
  • the reproduction processing unit 20 includes a file acquisition unit 201, a measurement unit 202, a file processing unit 203, a decoding processing unit 204, a display control unit 205, a display information generation unit 206, and a display unit 207.
  • the file acquisition unit 201 acquires the MPD file corresponding to the 6DoF content to be played back from the Web server 3. Then, the file acquisition unit 201 acquires the information of the scene description of the 6DoF content to be reproduced based on the MPD file.
  • the file acquisition unit 201 acquires an ISOBMFF file in which a scene description of 6DoF content to be displayed by accessing the Web server 3 is stored. Then, the file acquisition unit 201 outputs the ISOBMFF file in which the scene description is stored to the file processing unit 203.
  • the file acquisition unit 201 acquires the bit stream information selected by the file processing unit 203 from the file processing unit 203. Then, the file acquisition unit 201 accesses the Web server 3 and acquires the segment file of the selected bit stream. After that, the file acquisition unit 201 outputs the acquired bitstream segment file to the file processing unit 203.
  • the measurement unit 202 measures the transmission band of the transmission line between the client device 2 and the WEB server. Then, the measurement unit 202 outputs the measurement result of the transmission band to the file processing unit 203.
  • the file processing unit 203 receives the input of the MPD file corresponding to the 6DoF content to be reproduced from the file acquisition unit 201. Then, the file processing unit 203 acquires a scene description of 6DoF content that parses and reproduces the acquired MPD file. The file processing unit 203 also recognizes a plurality of data used for adaptive distribution. For example, in the case of adaptive distribution in which the bit rate is switched, the information of the bit stream segment file corresponding to each bit rate is acquired. In this case, the file processing unit 203 outputs the information of the scene description of the 6DoF content to be reproduced to the file acquisition unit 201.
  • the file processing unit 203 receives the input of the ISOBMFF file in which the scene description is stored from the file acquisition unit 201.
  • the file processing unit 203 parses the acquired ISOBMFF file. Then, the file processing unit 203 acquires the coordinate conversion information, the arrangement information and access information of the three-dimensional object, and the three-dimensional object specific information.
  • the file processing unit 203 receives the input of the measurement result of the transmission band from the measurement unit 202. Then, the file processing unit 203 selects a bitstream segment file to be reproduced based on the parsing result of the scene description and the information indicating the transmission band acquired from the measurement unit 202. Then, the file processing unit 203 outputs the information of the segment file of the selected bit stream to the file acquisition unit 201. At this time, by changing the segment file of the bit stream selected according to the transmission band, adaptive distribution according to the bit rate is realized.
  • the file processing unit 203 receives the input of the segment file of the selected bitstream from the file acquisition unit 201. Then, the file processing unit 203 extracts the bitstream data from the acquired bitstream segment file and outputs it to the decoding processing unit 204. Further, the file processing unit 203 acquires information on whether or not a three-dimensional object exists by using the acquired three-dimensional object identification information, and outputs the information to the display control unit 205.
  • the decoding processing unit 204 receives the input of bitstream data from the file processing unit 203. Then, the decoding processing unit 204 performs a decoding process on the acquired bit stream data. After that, the decoding processing unit 204 outputs the decoded bit stream data to the display information generation unit 206.
  • the display control unit 205 receives the input of the operator's viewpoint position and line-of-sight direction information from an input device (not shown). Then, the display control unit 205 outputs the acquired information on the viewpoint position and the viewpoint direction to the display information generation unit 206.
  • the display control unit 205 receives input of information on what kind of three-dimensional object exists from the file processing unit 203.
  • the operator can also input designated information indicating the three-dimensional object of interest by using an input device instead of the viewpoint position and line-of-sight information.
  • the display control unit 205 acquires designated information indicating the three-dimensional object of interest designated by the operator. Then, for example, in the case of viewing by tracking a three-dimensional object, the display control unit 205 displays information on the viewpoint position and the viewpoint direction so as to track the three-dimensional object designated by the designated information with the passage of time. Output to. This makes it possible to display, for example, an image that tracks a three-dimensional object specified by the operator. Further, for example, when displaying the position of a three-dimensional object, the display control unit 205 generates information for specifying the designated three-dimensional object from the 6DoF contents.
  • the display information generation unit 206 receives the scene description and the decoded bitstream data, and the acquired information on the viewpoint position and the viewpoint direction, and generates the display information. The details of the display information generation unit 206 will be described below.
  • the display information generation unit 206 arranges the three-dimensional object which is the acquired bitstream data in the three-dimensional space based on the scene description. Further, the display information generation unit 206 receives input of information on the viewpoint position and the line-of-sight direction of the operator from the display control unit 205. Then, the display information generation unit 206 renders a three-dimensional object arranged in the three-dimensional space according to the viewpoint position and the line-of-sight direction, and generates an image for display. After that, the display information generation unit 206 supplies the generated display image to the display unit 207.
  • the display information generation unit 206 acquires information for specifying the specified three-dimensional object acquired from the display control unit 205 from the 6DoF contents. Then, the display information generation unit 206 adds information for displaying the position of the three-dimensional object designated by using the acquired information to the display image.
  • the display unit 207 has a display device such as a monitor.
  • the display unit 207 receives an input of a display image generated by the display information generation unit 206. Then, the display unit 207 causes the display device to display the acquired image for display.
  • FIG. 7 is a flowchart of a file generation process by the file generation device according to the first embodiment.
  • the preprocessing unit 102 generates 3D object specific information (step S1).
  • the preprocessing unit 102 generates 3D object identification information stored in the scene description format.
  • the preprocessing unit 102 generates data including the three-dimensional object specific information (step S2).
  • the encoding unit 103 encodes the data including the 3D object specific information to generate a bit stream of the 3D object (step S3).
  • the coding unit 103 encodes the acquired scene graph and generates a scene description.
  • the file generation unit 104 stores the acquired bitstream in the ISOBMFF file for each segment and generates a bitstream segment file. Further, the file generation unit 104 stores the scene description data in the ISOBMFF file for each segment to generate the scene description segment file (step S4).
  • the transmission unit 105 outputs the segment file generated by the file generation unit 104 to the Web server 3 (step S5).
  • FIG. 8 is a flowchart of the reproduction process executed by the client device according to the first embodiment.
  • the file acquisition unit 201 acquires the MPD file corresponding to the 6DoF content to be played back from the Web server 3 (step S11).
  • the file processing unit 203 parses the MPD file and executes the analysis process (step S12). Then, the file processing unit 203 specifies the scene description of the 6DoF content to be reproduced based on the analysis result.
  • the file acquisition unit 201 acquires the scene description specified by the file processing unit 203.
  • the file processing unit 203 parses the scene description acquired by the file acquisition unit 201. As a result, the file processing unit 203 acquires the three-dimensional object specific information (step S13).
  • the file processing unit 203 identifies the existing 3D object from the acquired 3D object identification information (step S14).
  • the file processing unit 203 outputs information on what kind of three-dimensional object exists to the display control unit 205.
  • the file processing unit 203 acquires a bitstream segment file corresponding to the 6DoF content to be played back based on the parsing result (step S15).
  • the decoding processing unit 204 performs decoding processing on the bitstream segment file. After that, the decoding processing unit 204 outputs the bitstream data to the display information generation unit 206.
  • the display control unit 205 outputs the input viewpoint position and line-of-sight direction information or the viewpoint position and line-of-sight direction information obtained from the designated information of the three-dimensional object of interest to the display information generation unit 206.
  • the display information generation unit 206 renders a three-dimensional object and adds position information using the information of the viewpoint position and the line-of-sight direction acquired from the display control unit 205, generates an image for display, and displays it on the display unit 207.
  • the viewing process is executed (step S16).
  • the file generation device generates 3D object identification information for specifying the 3D object included in the 6DoF content using the space-based expression method, and generates the 3D object identification information of the 6DoF content.
  • This allows the client device to identify a 3D object contained in 6DoF content using a space-based representation technique. That is, in the distribution system according to the present embodiment, it is possible to provide viewing that automatically tracks the three-dimensional object selected by the operator, and to display the position of the three-dimensional object to assist the operator's viewing. Therefore, it is possible to provide the user with a viewing experience with a high degree of freedom.
  • the 3D object identification information is stored in the scene description format, but in this modification, the 3D object identification information is stored in the user description format which is the standard of MPEG-21. It is different from the embodiment of 1.
  • the details of storing the three-dimensional object specific information by the preprocessing unit 102 of the file generation device 1 according to this modification will be described below.
  • the preprocessing unit 102 generates a user silk description format file indicating three-dimensional object specific information, which is a file separate from the scene description. That is, the preprocessing unit 102 stores the three-dimensional object specific information in the user description.
  • FIG. 9 is a diagram showing an example of syntax when storing three-dimensional object specific information in a user description format.
  • the preprocessing unit 102 adds an XML schema representing three-dimensional object specific information as shown in FIG.
  • the preprocessing unit 102 stores the three-dimensional object specific information as one attribute information of the user description in the XML schema.
  • the preprocessing unit 102 defines a new Service Description Type that represents the position information and detailed information of the three-dimensional object.
  • the id in FIG. 9 is identification information of a three-dimensional object and is indicated by a numerical value.
  • centerPointX, centerPointY and centerPointZ are values indicating coordinates (x, y, z) representing the center point of the three-dimensional object.
  • bboxSizeX, bboxSizeY, and bboxSizeZ are values indicating the circumscribed box of the three-dimensional object, and are represented by lengths parallel to each axis centered on centerPoint. description is a character string indicating detailed information of the three-dimensional object.
  • the preprocessing unit 102 uses the circumscribed box of the three-dimensional object to indicate the position of the three-dimensional object, but it may be indicated by a solid such as an circumscribed sphere or an circumscribed cylinder. In addition, the preprocessing unit 102 may store the shape information itself of the three-dimensional object.
  • the preprocessing unit 102 stores the 3D object specific information in a unique format different from the scene description and the user description. That is, the preprocessing unit 102 stores the three-dimensional object specific information in its own description.
  • FIG. 10 is a diagram showing an example of syntax when storing three-dimensional object specific information in a unique format.
  • the preprocessing unit 102 defines an object metadata structure as in the syntax shown in FIG. 10, and shows identification information, position information, and detailed information of a three-dimensional object to be written in the defined object metadata structure.
  • Num_of_objects in FIG. 10 is a value representing the number of three-dimensional objects.
  • object_id is identification information of a three-dimensional object and is indicated by a numerical value.
  • centerPointX, centerPointY and centerPointZ are values indicating coordinates (x, y, z) representing the center point of the three-dimensional object, and are represented by an integer part of 24 bits and a decimal part of 8 bits.
  • bboxSizeX, bboxSizeY and bboxSizeZ are values indicating the circumscribed box of the three-dimensional object, and are represented by lengths parallel to each axis centered on centerPoint.
  • bboxSizeX, bboxSizeY and bboxSizeZ are also represented by an integer part of 24 bits and a decimal part of 8 bits. description is a character string indicating detailed information of the three-dimensional object.
  • the preprocessing unit 102 may indicate the position of the 3D object by a solid such as an circumscribed sphere or a circumscribed cylinder. ..
  • the preprocessing unit 102 may store the shape information itself of the three-dimensional object.
  • the file generation device 1 stores data indicating three-dimensional object specific information in a newly defined box.
  • the generation of a file storing data indicating the three-dimensional object specific information according to this modification will be described below.
  • a case will be described in which data indicating three-dimensional object specific information represented in a scene description format is used.
  • the user description format is used or when a unique format is used, it is possible to generate a file storing data indicating three-dimensional object specific information by the same method.
  • FIG. 11 is a diagram showing an example of a box for storing data indicating three-dimensional object specific information in the modified example (2-1) of the first embodiment.
  • the file generation unit 104 according to this modification newly defines the StaticObjectMetadataBox shown in FIG.
  • the file generation unit 104 stores the StaticObjectMetadataBox in the sample entry of either the scene description track or the mesh track or the texture track of the three-dimensional object.
  • the scene description track is a file acquired by the client device 2 at the initial stage of the reproduction process. Therefore, by including the data indicating the 3D object specific information in the scene description track, the 3D object specific information can be acquired at the initial stage of the reproduction process, so that there is an advantage that the process related to the 3D object can be performed quickly. To do.
  • the file generation unit 104 may store data indicating three-dimensional object specific information in MetaBox.
  • the file generation unit 104 may store StaticObjectMatadata in ItemData with item_type as "obmt" in ItemInfoEntry.
  • the file generation unit 104 may extend the ItemProperty and store the StaticObjectMetadata as an ItemProperty ('somd').
  • FIG. 12 is a diagram showing the format of Matroska Media Container.
  • the file generation unit 104 newly stores the SceneDescriptionObjectMetadata element in the Track Entry element.
  • the file generation unit 104 sets Element Type as binary and stores SceneDescriptionObjectMetadata () as EBML data as binary data.
  • the file generation device 1 defines a new Timed metadata and stores data indicating three-dimensional object specific information in the sample entry.
  • the generation of a file storing data indicating the three-dimensional object specific information according to this modification will be described below.
  • a case will be described in which data indicating three-dimensional object specific information represented in a scene description format is used.
  • the user description format is used or when a unique format is used, it is possible to generate a file storing data indicating three-dimensional object specific information by the same method.
  • FIG. 13 is a diagram showing an example of storing data showing three-dimensional object specific information and an example of syntax in the modified example (2-2) of the first embodiment.
  • the file generation unit 104 creates a metadata file for storing the scene description showing the three-dimensional object specific information shown in FIG. 13 as a file different from the existing file. Then, as shown in the syntax 32, the file generation unit 104 newly defines an ObjectMetadataSampleEntry ('obmt') in the MetadataSampleEntry and stores a scene description indicating the three-dimensional object specific information. In this case, the file generation unit 104 stores the three-dimensional object identification information for each time indicated by the syntax 33 in the sample.
  • ObjectMetadataSampleEntry 'obmt'
  • the file generation unit 104 arranges StaticObjectMetadata in ObjectmetadataSmapleEntry.
  • the file generation unit 104 stores the 3D object specific information in the scene description of the scene description file.
  • FIG. 14 is a diagram showing an example of storing data indicating three-dimensional object specific information in the modified example (2-3) of the first embodiment. As shown in FIG. 14, the file generation unit 104 places a Group node at the root, and sets the scene graph 34 of the original 6DoF content and the scene graph 35 storing the three-dimensional object specific information as child nodes, respectively.
  • the client device 2 acquires a scene description file when playing back 6DoF content. Therefore, in the data storage method indicating the 3D object specific information according to this modification, the client device 2 that does not use the 3D object specific information acquires unnecessary 3D object specific information, and the transmission band is wasted. There is a risk of becoming.
  • FIG. 15 is a diagram showing an example of the syntax of the Adaptation Set according to the modified example (3-1) of the first embodiment.
  • the MPD is a file in which information indicating what kind of data is included in the 6DoF content is stored. Then, in the Adaptation Set held by the MPD, the scene description, the mesh data, and the texture data are shown separately.
  • the file generation unit 104 points to the data indicating the three-dimensional object specific information by using the Supplemental Property in the Adaptation Set.
  • SupplementalProperty is information indicating the contents of the AdaptationSet.
  • the id in FIG. 15 is identification information of a three-dimensional object and is represented by a numerical value.
  • centerPointX, centerPointY and centerPointZ are values indicating coordinates (x, y, z) representing the center point of the three-dimensional object.
  • bboxSizeX, bboxSizeY, and bboxSizeZ are values indicating the circumscribed box of the three-dimensional object, and are represented by lengths parallel to each axis centered on centerPoint. When omitted without using the circumscribed box, bboxSizeX, bboxSizeY and bboxSizeZ are set to (-1, -1, -1). description is a character string indicating detailed information of the three-dimensional object.
  • the identification information of the 3D object may be stored in either the scene description or the adaptation set of the mesh data or the texture data of the 3D object. Further, although the case of storing in the AdaptationSet has been described here, the file generation unit 104 may also store the identification information of the three-dimensional object in the Period of the MPD.
  • FIG. 16 is a diagram showing an example of MDP syntax in the modified example (3-2) of the first embodiment.
  • the file generation unit 104 specifies "obmt" in the AdaptationSet @ codecs in the AdaptationSet of the 3D object specific information to indicate that the 3D object specific information is in the Timed metadata format. Then, the file generation unit 104 indicates Representation @ id of the scene description including the three-dimensional object in Representation @ association. Further, the file generation unit 104 sets the Representation @ associationType to "cdsc", which is the same as the reference Type that stores the Track Reference Box specified in the modification (2-2) of the first embodiment.
  • the file generation unit 104 may clearly indicate that the scene description data includes the three-dimensional object specific information as in the modified example (2-3) of the first embodiment.
  • the file generation device generates a file for storing the three-dimensional object specific information and provides it to the client device by the method described in each of the above modifications.
  • the client device can acquire the three-dimensional object specific information, and can provide the user with a highly flexible viewing experience.
  • the file generation device When providing 6DoF content using a space-based approach, if the object cannot be identified, the operator may want to focus on a particular object and view that object in high quality, but the specified object. It is difficult to provide a high quality image of an object. Therefore, the file generation device according to the present embodiment provides a high-definition image of a specific three-dimensional object. The high-definition method for a specific three-dimensional object will be described below.
  • the file generation device is also represented by the block diagram of FIG.
  • the preprocessing unit 102 of the file generation device 1 generates one space-based 3D object including the entire 6DoF content in which a specific 3D object is high-definition. Then, the preprocessing unit 102 generates high-definition three-dimensional object identification information indicating the high-definition three-dimensional object for each of the generated space-based three-dimensional objects.
  • the preprocessing unit 102 stores high-definition three-dimensional object identification information in a scene description format.
  • FIG. 17 is a diagram showing an example of citax of a node of a scene graph including high-definition three-dimensional object information.
  • the preprocessing unit 102 shows a three-dimensional object that has been made high-definition by using the identification information indicated by the three-dimensional object specific information.
  • the preprocessing unit 102 lists the IDs of highly accurate three-dimensional objects as ids in FIG. In this way, the preprocessing unit 102 stores the HighLOD Object, which is a node of the high-definition three-dimensional object specific information, in the scene graph.
  • the preprocessing unit 102 may numerically express the fineness of the three-dimensional object by quality as shown in FIG.
  • FIG. 18 is a diagram showing an example of a syntax showing fineness together with a high-definition three-dimensional object.
  • the fineness of each three-dimensional object is numerically represented in the order of identification information listed by ids.
  • the quality value is defined, for example, so that the smaller the value, the higher the definition.
  • the preprocessing unit 102 stores the three-dimensional object specific information in the scene description format as shown in FIG. 4 as in the first embodiment, and adds a highLOD flag to the three-dimensional object specific information. , May indicate high definition.
  • the file generation device generates a space-based 3D object that is a high-definition version of a specific 3D object included in the 6DoF content, and high-definition for each space-based 3D object. Generates high-definition 3D object specific information indicating the converted 3D object.
  • the client device can acquire the space-based three-dimensional object in which a predetermined three-dimensional object is high-definition and provide it to the operator. That is, the operator can view the high-definition video of the designated three-dimensional object, and can enjoy viewing with a higher degree of freedom.
  • the preprocessing unit 102 generates Visual3DObjectInfo shown in FIG. 9 and stores the three-dimensional object specific information in a user description format. Further, the preprocessing unit 102 stores high-definition three-dimensional object identification information in a user description format. That is, the preprocessing unit 102 stores the high-definition three-dimensional object identification information in the user description.
  • FIG. 19 is a diagram showing an example of syntax when storing high-definition three-dimensional object specific information in a user description format.
  • the preprocessing unit 102 adds an XML schema so that it can be specified as one attribute information of the user description.
  • the id in FIG. 19 is high-definition three-dimensional object identification information and is represented by a numerical value. For this id, the id shown in Visual3DObjectInfo in FIG. 9 is used.
  • the preprocessing unit 102 may express the fineness numerically by quality as shown in FIG. 20.
  • FIG. 20 shows an example of the syntax when the definition is stored together with the high-definition three-dimensional object in the user description format.
  • the fineness of the three-dimensional object is numerically represented as quality in FIG.
  • the quality value is defined, for example, so that the smaller the value, the higher the definition.
  • the preprocessing unit 102 may add a highLOD flag to the Visual3DObjectInfo shown in FIG. 9 to indicate that the three-dimensional object specified by the Visual3DObjectInfo has high definition.
  • the preprocessing unit 102 generates the Object metadata shown in FIG. 10 and stores the three-dimensional object specific information in a unique format. Further, the preprocessing unit 102 stores the high-definition three-dimensional object specific information in a unique format. That is, the preprocessing unit 102 stores the high-definition three-dimensional object specific information in its own description.
  • FIG. 21 is a diagram showing an example of syntax when storing high-definition three-dimensional object specific information in a unique format.
  • the preprocessing unit 102 newly defines the HighQualityObject structure as shown in FIG. Then, the preprocessing unit 102 stores the high-definition three-dimensional object specific information in the HighQualityObject structure.
  • the num_object in FIG. 21 represents the number of high-definition three-dimensional objects.
  • High_LOD_object_id is identification information of a high-definition three-dimensional object and is represented by a numerical value. For this id, the object_id shown by the object metadata in FIG. 10 is used.
  • the preprocessing unit 102 may numerically express the fineness of the three-dimensional object by quality as shown in FIG. 22.
  • FIG. 22 is a diagram showing an example of syntax when the definition is stored together with the high-definition three-dimensional object in a unique format.
  • the preprocessing unit 102 represents the fineness of the three-dimensional object by the LOD_value in FIG.
  • the value of LOD_value is defined, for example, so that the smaller the value, the higher the definition.
  • the preprocessing unit 102 may add a highLOD flag to the object metadata shown in FIG. 10 to indicate that the three-dimensional object specified by the object metadata has high definition.
  • FIG. 23 is a diagram showing an example of a box for storing data indicating high-definition three-dimensional object specific information in the modified example (2-1) of the second embodiment.
  • the file generation unit 104 according to this modification newly defines the StaticHighLODObjectBox shown in FIG. 23.
  • the file generation unit 104 stores the StaticHighLODObjectBox in the sample entry of the scene description track, the mesh track of the three-dimensional object, or the texture track.
  • the file generation unit 104 may store data indicating high-definition three-dimensional object specific information in MetaBox.
  • the file generation unit 104 may store the StaticHighLODObjectBox in the ItemData with the item_type set to "obmt" in the ItemInfoEntry.
  • the file generation unit 104 may extend ItemPropery and store the StaticHighLODObjectBox as ItemPropery ('shlo').
  • the file generation unit 104 newly stores the SceneDescriptionHighLODObject element in the Track Entry element. At this time, the file generation unit 104 sets Element Type as binary and stores SceneDescriptionHighLODObject () as EBML data as binary data.
  • the file generation unit 104 already has a metadata file for storing a scene description indicating the three-dimensional object specific information shown in FIG. 13, as in the modification (2-2) of the first embodiment. Create as a separate file from the file in.
  • the file generation unit 104 stores the high-definition 3D object identification information at the same time as the 3D object identification information in the sample of the metadata file.
  • the file generation unit 104 may generate a file so that the three-dimensional object identification information and the high-definition three-dimensional object identification information can be accessed separately.
  • the file generation unit 104 may have a structure in which the high-definition three-dimensional object identification information is included in the three-dimensional object identification information.
  • the file generation unit 104 may define new Timed metadata for the high-definition 3D object identification information and store the high-definition 3D object identification information in the new Timed metadata. In that case, the file generation unit 104 extends the MetadataSampleEntry in the newly defined Timed metadata to make it a new HighLODObjectSampleEntry ('hobm'). Further, the file generation unit 104 stores high-definition three-dimensional object identification information in the sample.
  • the id of the information may be registered.
  • cdsc is an existing value, but it may be replaced with a value indicating a new association.
  • the file generation unit for high-definition 3D object specific information that does not change in time units arranges the StaticHighLODObjectBox of FIG. 23 on the high-definition three-dimensional object identification information track or the object identification track.
  • FIG. 24 is a diagram showing an example of the syntax of the Adaptation Set according to the modified example (3-1) of the second embodiment.
  • the file generation unit 104 points to data indicating high-definition three-dimensional object specific information by using SupplementalProperty in the AdaptationSet.
  • the id in FIG. 24 is identification information of a three-dimensional object and is represented by a numerical value. Further, objectMetadata indicates Representation @ id including 3D object specific information.
  • the file generation unit 104 may store the information representing the fineness of the 3D object in the Adaptation Set together with the identification information of the high-definition 3D object using quality.
  • the file generation unit 104 of the file generation device 1 is high-definition 3D object identification information in Timed metadata format by designating "hobm" in AdaptationSet @ codecs in the OptimizationSet of 3D object identification information. Is shown. Then, the file generation unit 104 indicates the Representation @ id of the scene description including the three-dimensional object refined by Representation @ associationId. Further, the file generation unit 104 sets Representation @ associationType to "cdsc" which is the same as the reference type storing the Track Reference Box specified in the modified example (2-2) of the second embodiment.
  • FIG. 25 is a diagram showing an extended scene description according to a modification (4) of the second embodiment.
  • the file generation unit 104 of the file generation device 1 extends the BitWrapper node including the access information to the mesh data of the three-dimensional object, and stores a plurality of adaptation @ ids as shown in syntax 36. Provide a field to do. Further, the file generation unit 104 extends the MovieTexture node including the access information to the texture data of the three-dimensional object, and provides a field for storing a plurality of Adaptation @ ids as shown in the syntax 37.
  • the AdaptatioSetIdSelection in FIG. 25 represents a plurality of AdaptationSets including mesh data or texture data of a three-dimensional object by AdaptationSet @ id. As a result, the client device 2 can access the Adaptation Set indicating the high-definition three-dimensional object identification information from the scene description.
  • the file generation unit 104 may indicate a plurality of AdaptationSet @ id in the url query parameter of the url in the scene description.
  • FIG. 26 is a diagram showing an example of an ISOBMFF file when a high-definition difference three-dimensional object is used.
  • the file generation unit 104 generates a space-based three-dimensional object 38 for the entire three-dimensional space shown in FIG. 26. Further, the file generation unit 104 generates a high-definition difference 3D object 39 representing the difference between the space-based 3D object of the entire 3D space and the space-based 3D object in which a specific 3D object is high-definition. ..
  • the space-based three-dimensional object 38 can be reproduced independently, but the high-definition difference three-dimensional object 39 is reproduced as a set with the space-based three-dimensional object 38.
  • the file generation unit 104 stores the information indicating the high-definition difference three-dimensional object in the MPD by the following method. For example, the file generation unit 104 sets the AdaptationSet @ codecs of the high-definition difference 3D object as "resv.3dof.xxxx" (xxxx indicates the codec encoding the 3D object), and sets the high-definition difference 3 Indicates that it is a dimensional object. Further, the file generation unit 104 uses the Representation @ dependencyid of the high-definition difference 3D object to indicate the Representation @ id of the space-based 3D object that is the source of the difference. In addition, a three-dimensional object that has been made high-definition by the Adaptation Set of the high-definition difference object may be shown by using the syntaxes (3-1) and (3-2) of the second embodiment. ..
  • the client device 2 acquires a space-based 3D object and a high-definition difference 3D object, decodes and renders the object, so that a specific 3D object can generate a high-definition 3D object. ..
  • the file generation unit 104 When transmitting using the Matroska Media Container shown in FIG. 12, the file generation unit 104 newly stores the Base3DObjectTrackID element in the Track Entry element of the high-definition difference three-dimensional object for high definition. At this time, the file generation unit 104 sets the Element Type to unsigned int and stores the TrackNumber of the track of the space-based 3D object that is the source of the difference as EBML data.
  • the amount of data on the server can be reduced by using the difference 3D object data for high definition. Further, by acquiring a plurality of difference data, it is possible to make a plurality of three-dimensional objects into high definition, and it is possible to improve the degree of freedom in viewing by the operator.
  • FIG. 27 is a diagram showing an example of an ISOBMFF file when a basic three-dimensional object is used.
  • the file generation unit 104 generates a basic 3D object 41 in which a specific 3D object does not exist in the entire target 3D space.
  • the file generation unit 104 generates a high-definition three-dimensional object 42 in which a specific three-dimensional object is high-definition.
  • the basic 3D object 41 and the high-definition 3D object 42 are reproduced as a set.
  • the file generation unit 104 indicates that the entire target 3D space is formed from a plurality of 3D objects for both the tracks of the basic 3D object 41 and the high-definition 3D object 42.
  • the syntax of the modified example (2-2) of the second embodiment may be used for the track of the high-definition three-dimensional object 42.
  • the file generation unit 104 stores the information indicating the high-definition difference three-dimensional object in the MPD by the following method.
  • the file generation unit 104 targets the AdaptationSet @ codecs of the high-definition difference 3D object as "resv.3dof.xxxx" (xxxx indicates the codec encoding the 3D object). It is shown that the entire dimensional space is formed by a plurality of three-dimensional objects.
  • the file generation unit 104 indicates the Representation @ id of all other high-definition 3D objects used for rendering by using the Representation @ dependencyId of the basic 3D object that is the base of the target 3D space.
  • the file generation unit 104 uses the Representation @ dependencyId of the high-definition 3D object to indicate the Representation @ id of the base 3D object.
  • the client device 2 acquires a basic 3D object and a high-definition 3D object, decodes and renders the object, so that a specific 3D object can generate a high-definition 3D object.
  • the file generation unit 104 When transmitting using the Matroska Media Container shown in FIG. 12, the file generation unit 104 newly stores the required3DObjectTrackID element in the Track Entry element of the base 3D object. At this time, the file generation unit 104 sets the Element Type to unsigned int and stores all TrackNumbers of the tracks of the three-dimensional object that do not exist in the track as EBML data. In addition, the file generation unit 104 newly stores the Base3DObjectTrackID element in the Track Entry element of a high-definition three-dimensional object that is not the base. At this time, the file generation unit 104 sets the Element Type to unsigned int and stores the Track Number of the track of the basic 3D object that is the base as EBML data.
  • the amount of data on the server can be reduced by using the 3D object excluding the high-definition 3D object from the target 3D space and the high-definition 3D object. Further, by using a plurality of high-definition three-dimensional object data, it is possible to make a plurality of three-dimensional objects high-definition, and it is possible to improve the degree of freedom in viewing by the operator.
  • FIG. 28 is a diagram showing an example of a scene graph in the modified example (7-1) of the second embodiment.
  • the file generation unit 104 indicates, for example, as shown in FIG. 28, the 3D specific information included in each 3D object in the scene description.
  • the file generation unit 104 describes a plurality of configurations in one scene description by arranging different configurations of high-definition three-dimensional objects side by side as child nodes of the Switch node 43.
  • FIG. 29 is a diagram showing an example of the syntax of the expanded Switch node.
  • ContentStruct in FIG. 29 represents 3D object specific information for each 3D object included in the configuration.
  • the file generation unit 104 uses "", "" in ContentStruct to separately represent each three-dimensional object in the configuration.
  • the file generation unit 104 uses the identification information of the 3D object identification information of the entire scene as the 3D object identification information for specifying the 3D object included in the 3D object.
  • the file generation unit 104 uses "" "" to separately represent each identification information.
  • the file generation unit 104 sets the order of the nodes as the child node order of the Group node indicating the configuration.
  • the file generation unit 104 sets the value of ContentStruct to "1, 2, 3, 4" and "2, 1, 3, 4".
  • the first configuration contains two 3D objects, one 3D object contains "1” and the other 3D object contains "2,3,4". Is represented.
  • the processing of the client device 2 will be described.
  • the client device 2 receives, for example, a designation of a three-dimensional object to be high-definition from the operator.
  • the client device 2 selects a three-dimensional object to be made high-definition from the viewing situation of the operator.
  • the client device 2 selects a three-dimensional object closest to the viewpoint position, a three-dimensional object that the operator pays the most attention to by determining the line of sight, and the like.
  • the client device 2 identifies the selected 3D object from the 3D object identification information of the entire scene.
  • the client device 2 analyzes the scene description file using the information of the specified three-dimensional object. Then, the client device 2 selects a configuration in which the three-dimensional object selected by using the three-dimensional object identification information of the Switch node of the scene graph is high-definition. Next, the client device 2 displays the selected 3D object from the MPD AdaptationSet referenced in the scene graph from the selected configuration in high quality, and the other 3D objects are in low quality. Select.
  • the above configuration can be implemented even when the content of the configuration changes dynamically every hour. Further, the client device 2 can switch the configuration without switching the scene description file.
  • the 3D object specific information for each 3D object included in each configuration is stored in the Switch node 43, but the storage location is not limited to this.
  • the file generation unit 104 arranges the ContentsStructureBox shown in FIG. 30 in the sample entry of the ISOBMFF file of the scene description, and stores the 3D object specific information for each 3D object included in each configuration in the Sample entry. You may.
  • FIG. 30 is a diagram showing an example of the syntax of ContentsStructureBox.
  • Num_contentStruct in FIG. 30 represents the number of included configurations.
  • num_3Dobject represents the number of three-dimensional objects included.
  • num_includingObject represents the number of objects included in the three-dimensional object.
  • ingcluding_object_id represents 3D object specific information included in the 3D object. This value is represented by the identification information used in the three-dimensional object identification information of the entire scene.
  • the file generation unit 104 describes information about each configuration in the same order as the order of the child nodes with respect to the root Switch node.
  • the client device 2 identifies the 3D object to be high-definition from the 3D object identification information of the entire scene.
  • the client device 2 acquires the ContentStructBox from the sample entry when analyzing the scene description file, and determines the configuration to be used using the specified three-dimensional object specific information.
  • the client device 2 analyzes the scene graph and selects the configuration determined in the Switch node.
  • the file generation unit 104 newly defines the IncludingObjectMetadata node shown in FIG. 31 and arranges the node as a child node of the Transform node of each 3D object. You may.
  • FIG. 31 is a diagram showing an example of the syntax of the IncludingObjectMetadata node.
  • the node in which the IncludingObjectMetadata node is placed is not limited to the Transform node, and may be a child node of another node as long as it is a node indicating an individual three-dimensional object.
  • the client device 2 identifies the 3D object to be high-definition from the 3D object identification information of the entire scene.
  • the client device 2 also analyzes the scene graph below the Switch node when analyzing the scene description file, acquires the three-dimensional object specific information, and selects the configuration to be used.
  • the configuration for storing the three-dimensional object specific information of each configuration using the newly defined IncludingObjectMetadata node can be implemented even when the content of the configuration changes dynamically with time.
  • the file generation unit 104 newly stores the 6DoFContentStruct element in the Track Entry element. At this time, the file generation unit 104 sets Element Type to binary and stores ContentStruct () shown in FIG. 30 as EBML data as binary data.
  • the file generation unit 104 stores the 3D object identification information for each 3D object as the IncludingObjectMetadata shown in FIG. 32 in the AdaptationSet of each 3D object with the Supplemental Property.
  • FIG. 32 is a diagram showing an example of IncludingObjectMetadata.
  • the objectMetadata in FIG. 32 represents Representation @ id including the three-dimensional object specific information.
  • ids represent 3D object specific information included in the 3D object.
  • the identification information included in the three-dimensional object specific information of the entire scene is used.
  • the file generation unit 104 may store the 3D object identification information for each 3D object in the sample entry of the ISOBMFF of each 3D object as an IncludingObjectBox shown in FIG. 33.
  • FIG. 33 is a diagram showing an example of the Including ObjectBox.
  • Num_includingObject in FIG. 33 represents the number of objects included in the three-dimensional object.
  • including_object_id represents 3D object specific information included in the 3D object. For the value of including_object_id, the identification information included in the 3D object specific information of the entire scene is used.
  • the client device 2 executes the analysis of the scene description and the analysis of the reference Set of the 3D object or the file for the selection of the configuration.
  • the file generation unit 104 newly stores the IncludingObject element in the Track Entry element. At this time, the file generation unit 104 sets Element Type as binary and stores IncludingObject () shown in FIG. 33 as EBML data as binary data.
  • the file generation unit 104 stores the 3D object identification information for each 3D object included in each configuration in the AdaptationSet 46 of the MPD scene description.
  • FIG. 34 is a diagram showing a state when the 3D object identification information for each 3D object included in each configuration is stored in the MPD Adaptation Set.
  • FIG. 35 is a diagram showing an example of the syntax of the three-dimensional object specific information for each three-dimensional object included in each configuration stored in the AdaptationSet.
  • OM in FIG. 35 represents access information to the reference three-dimensional object specific information.
  • objectMetadata represents Representation @ id including 3D object specific information.
  • 3DObject represents a three-dimensional object included in the configuration.
  • ids represents the 3D object specific information of the 3D object.
  • the identification information included in the three-dimensional object specific information of the entire scene is used. If the ids value contains multiple objects, they are separated by spaces. 6DoFContentStructDescription is described in the order of the nodes arranged under the Switch node in the scene description.
  • 3DObject element is described according to the order of child nodes of Group node.
  • the process executed by the client device 2 in this case will be described.
  • the client device 2 identifies a 3D object to be displayed in high definition from the 3D object identification information of the entire scene.
  • the client device 2 selects a configuration in which the specified 3D object has high definition from the 3D object identification information for each 3D object in the Adaptation Set.
  • the client device 2 extracts the selected configuration from the scene graph of the scene description.
  • the client device 2 selects the quality from the Adaptation Set in the MPD corresponding to the extracted configuration.
  • the client device 2 is used for the scene description without acquiring the scene description. Can be determined whether or not is included. As a result, when the configuration used for the scene description is not included, the client device 2 does not have to analyze the scene description and can reduce the execution of unnecessary processing. Further, the client device 2 can switch the configuration without switching the scene description file. In addition, redundant information can be reduced if the configuration does not change over time.
  • the file generation unit 104 can divide the scene descriptions 47 and 48 into separate files for scenes having different three-dimensional object configurations.
  • FIG. 36 is a diagram showing a scene graph when the scene description of each configuration is divided.
  • the file generation unit 104 stores the 3D object identification information for each 3D object for selecting the configuration in the AdaptationSet corresponding to the scene descriptions 47 and 48.
  • the file generation unit 104 can store the three-dimensional object identification information by using the syntax shown in FIG. 35.
  • the client device 2 identifies the 3D object to be displayed with high quality from the 3D object identification information of the entire scene.
  • the client device 2 selects a configuration in which the specified 3D object has high definition by using the 3D object identification information for each 3D object stored in the AdaptationSet of the plurality of scene descriptions.
  • the client device 2 analyzes the scene description of the selected configuration. Then, the client device 2 selects the quality from the Adaptation Set in the MPD corresponding to the analyzed scene description.
  • the client device 2 can specify the scene description including the configuration to be used without acquiring the scene description.
  • the client device 2 does not have to analyze the scene description that does not include the configuration to be used, and can reduce unnecessary processing.
  • redundant information can be reduced if the configuration does not change over time.
  • the client device 2 can switch the configuration without switching the scene description file.
  • the file generation unit 104 can store the 3D object specific information of the 3D objects included in each configuration by using the ContentStructBox of FIG. 30 in the sample entry of the scene description of each configuration.
  • the client device 2 cannot determine the configuration by the MPD, but can acquire the three-dimensional object identification information of the three-dimensional object included in the configuration by acquiring each scene description file.
  • the file generation unit 104 newly stores the 6DoFContentStruct element in the Track Entry element. At this time, the file generation unit 104 sets Element Type to binary and stores ContentSturuct () shown in FIG. 30 as EBML data as binary data.
  • the file generation device When providing 6DoF content using a space-based method, it is difficult to show the user a notable 3D object intended by the content creator unless the object can be identified. Therefore, the file generation device according to the present embodiment provides the user with information on a remarkable three-dimensional object intended by the content creator as the object of interest information. The method of providing the object of interest information will be described below.
  • the file generation device is also represented by the block diagram of FIG.
  • the preprocessing unit 102 stores the object of interest information in the scene description format using the identification information of the three-dimensional object specific information.
  • the preprocessing unit 102 newly defines a node including a filed represented by the syntax shown in FIG. 37, and stores identification information for discriminating a three-dimensional object as attention object information.
  • FIG. 37 is a diagram showing an example of the syntax of the node of the object information of interest.
  • the preprocessing unit 102 lists the identification information of the three-dimensional object to be noted in the ids in FIG. 37. In this way, the preprocessing unit 102 generates a scene graph using the NoticeableObject node of the object of interest information.
  • the preprocessing unit 102 may numerically express the degree of attention according to the level.
  • FIG. 38 is a diagram showing an example of a syntax indicating the degree of attention together with the object information of interest.
  • the level in FIG. 38 numerically represents the degree of attention of each three-dimensional object in the storage order of the ids field. For example, the value of level is defined as the smaller the number, the higher the degree of attention.
  • the object of interest information is stored in the newly defined node, but the preprocessing unit 102 may newly add filed and NoticeableObjectFlag to other nodes to indicate that the object is of interest. Good.
  • the preprocessing unit 102 stores the object of interest information in the user description format. That is, the preprocessing unit 102 stores the object of interest information in the user description. The details of the method of storing the object of interest information in the user description format will be described below.
  • the preprocessing unit 102 stores 3D object specific information in a user description format using Visual3DObjectInfo shown in FIG. Further, the preprocessing unit 102 adds an XML schema representing the object of interest information, as shown in FIG. 39.
  • FIG. 39 is a diagram showing an example of syntax when the object of interest information is stored in the user description format.
  • the pre-processing unit 102 stores specific object information as one attribute information of the user description in this XML schema.
  • FIG. 40 is a diagram showing an example of syntax when the attention level is shown together with the attention object information in the user description format.
  • Level information represents the degree of attention of a three-dimensional object numerically. The value of level is defined, for example, so that the smaller the value, the higher the degree of attention.
  • the preprocessing unit 102 may also add a new element and a NoticeableObjectFlag indicating that the Visual3DObjectInfo is a noteworthy object.
  • the preprocessing unit 102 stores the object of interest information in a unique format. That is, the preprocessing unit 102 stores the object of interest information in its own description. The details of the method of storing the object of interest information in a unique format will be described below.
  • the preprocessing unit 102 defines the ObjectMetadata structure shown in FIG. 10 and stores the three-dimensional object specific information in the ObjectMetadata. Further, as shown in FIG. 41, the preprocessing unit 102 defines a NoticeableObject structure and stores the attention object information in the NoticeableObject.
  • FIG. 41 is a diagram showing an example of syntax when the object of interest information is stored in a unique format.
  • the num_of_object_id in FIG. 41 represents the number of three-dimensional objects. Further, noticeable_object_id represents a notable three-dimensional object, and its value is object_id in ObjectMetadata.
  • FIG. 42 is a diagram showing an example of syntax when the attention level is shown in addition to the attention object information in a unique format.
  • the value of level in FIG. 42 is defined so that, for example, the smaller the value, the higher the degree of attention.
  • the preprocessing unit 102 may also add a new element and a NoticeableObjectFlag indicating that the object is an object of interest to ObjectMetadata.
  • the preprocessing unit 102 uses 6DoF according to the method of using the object information of interest specified by the content creator. It is also possible to compose the data of the content. For example, when the content creator specifies to change the definition, the preprocessing unit 102 recommends that the three-dimensional object specified in the object of interest information be reproduced with a different definition than other three-dimensional objects. May be provided to the user.
  • the file generation unit 104 stores the attention object information in ISOBMFF when the attention object does not change in time units.
  • data indicating the object of interest specific information represented in the scene description format is used.
  • the user description format is used or when a unique format is used, it is possible to generate a file containing data indicating the object specific information of interest by the same method.
  • the file generation unit 104 defines a new box for storing the object of interest information and stores it fixedly in the sample entry.
  • FIG. 43 is a diagram showing an example of a box for storing data indicating the object of interest information in the modified example (2-1) of the third embodiment.
  • the file generation unit 104 stores the StaticNoticeableObjectBox of FIG. 43 in either the track of the scene description or the sample entry of the track of the three-dimensional object specific information.
  • the file generation unit 104 may also store the attention object information in MetaBox.
  • the file generation unit 104 stores the StaticNoticeableObjectBox in the ItemData with the item_type set to "obmt" in the ItemInfoEntry of the MetaBox.
  • the file generation unit 104 may extend the ItemProperty of the MetaBox and store the StaticNoticeableObjectBox as an ItemProper ('noob').
  • the file generation unit 104 newly stores the StaticNoticeableObjectStruct element in the Track Entry element. At this time, the file generation unit 104 stores Element Type as binary and StaticNoticeableObjectStruct () as EBML data as binary data.
  • the file generation unit 104 creates a metadata file for storing the scene description showing the three-dimensional object specific information shown in FIG. 13 as a file different from the existing file.
  • the file generation unit 104 stores the attention object information at the same time as the three-dimensional object specific information in the sample of the metadata file.
  • the file generation unit 104 may generate a file so that the three-dimensional object specific information and the attention three-dimensional object information can be accessed separately. Further, the file generation unit 104 may have a structure in which the three-dimensional object specific information includes the attention three-dimensional object information.
  • the file generation unit 104 identifies the track or object of the attention object information in the StaticNoticeableObjectBox of FIG. 43 with respect to the attention object information that does not change in time units. Place it on the track.
  • the file generation unit 104 stores the attention object information in the scene description or the adaptation set of the three-dimensional object when the attention object does not change in time units.
  • FIG. 44 is a diagram showing an example of the syntax of MPD for storing the object of interest information.
  • the file generation unit 104 stores the object of interest information by using the SupplementalProperty in the AdaptationSet of the three-dimensional object.
  • the file generation unit 104 stores the information indicating the object identification information including the identification information of the three-dimensional object and the object of interest information in the file generation unit 104.
  • objectMetadata represents Representation @ id including object specific information.
  • id represents the identification information of the three-dimensional object to be noted, and the identification information included in the three-dimensional object identification information is used as the value.
  • the file generation unit 104 may store the attention level numerically together with the attention object information in the StaticNoticeableObjectDescription shown in FIG. 43.
  • the file generation unit 104 describes the storage of the object of interest information in the MPD when the object of interest changes in units of time.
  • the file generation unit 104 newly defines Timed metadata that stores the object of interest information. Further, the file generation unit 104 associates the Timed metadata of the attention object information with the scene description or the three-dimensional object related to the Timed metadata of the attention object information.
  • a preprocessing unit that generates object identification information for identifying a specific object included in the three-dimensional space, and An information processing device including a file generation unit that generates data of the spatial three-dimensional object and a file containing the object specific information.
  • the object specific information includes identification information, position information, and detailed information of the same object.
  • the preprocessing unit stores the object specific information in either a node in a scene description, a user description, or a unique description.
  • the file generation unit uses the ISO Base Media File Format (ISOBMFF) or MPD (Media Presentation Description) to provide the description in which the object identification information is stored by the preprocessing unit or the access information to the description.
  • ISOBMFF ISO Base Media File Format
  • MPD Media Presentation Description
  • the information processing device according to the appendix (3) which is stored in either one or both of the scene description in (1) and the adaptation set corresponding to the specific object.
  • the file generation unit stores the object identification information at the same time as the position information of the spatial three-dimensional object by the preprocessing unit.
  • the information processing device according to Appendix (3) which generates a description as a scene description file.
  • the preprocessing unit generates high-definition object specific information including the high-definition high-definition object specific information among the objects and the fineness of the high-definition object. Additional notes (1) to (5).
  • the information processing apparatus according to any one of ().
  • the information processing device according to the appendix (6), wherein the preprocessing unit stores the high-definition object specific information in any of a scene description, a user description, or a unique description.
  • the file generation unit stores the description in which the high-definition object specific information is stored by the preprocessing unit or the access information to the description in either or both of the ISOBMFF and the MPD Adaptation Set.
  • the information processing device according to Appendix (7).
  • the information processing device (9) The information processing device according to the appendix (6), wherein the preprocessing unit generates difference data for making the high-definition object high-definition, and also generates information for specifying the difference data. (10) The preprocessing unit generates high-definition data of the high-definition object and basic data obtained by removing the high-definition object from the three-dimensional space, and also identifies the high-definition data and the basic data.
  • the information processing apparatus according to Appendix (6).
  • the preprocessing unit generates information for specifying a partial object included in each of the objects included in the three-dimensional object, and generates information for specifying the partial object included in each object as a scene disk.
  • the information processing device which is stored in either one or both of the application and the MPD Adaptation Set. (12) Any one of the appendices (1) to (11), wherein the preprocessing unit generates attention object information including identification information of a predetermined attention object among the objects and attention level information of the attention object.
  • the information processing device described in. (13) The information processing device according to the appendix (12), wherein the preprocessing unit stores the object of interest information in any of a scene description, a user description, or a unique description.
  • the file generation unit stores the description in which the object of interest information is stored by the preprocessing unit or the access information to the description in either or both of the ISOBMFF and the MPD Adaptation Set (additional note).
  • the information processing device ( 15) In a space three-dimensional object that constitutes a three-dimensional space with a plurality of objects as a single three-dimensional object. An information processing method in which a computer is made to execute a process of generating object specific information for identifying a specific object included in the three-dimensional space. (16) Receives a file containing the contents of a space three-dimensional object that constitutes a three-dimensional space with a plurality of objects as a single three-dimensional object and object specific information for identifying a specific object included in the space three-dimensional object. Receiver and An information processing unit that acquires the object identification information from the file received by the reception unit and identifies the specific object from the spatial three-dimensional objects based on the acquired object identification information.
  • a reproduction processing device including a reproduction unit that reproduces the content based on a specific result by the information processing unit.
  • (17) Receives a file containing the contents of a space three-dimensional object that constitutes a three-dimensional space with a plurality of objects as a single three-dimensional object and object specific information for identifying a specific object included in the space three-dimensional object. And The object specific information is acquired from the received file, and the object identification information is acquired. Based on the acquired object identification information, the specific object is specified from the three-dimensional space, and the object is specified.
  • a reproduction processing method in which a computer executes a process of reproducing the content based on a specific result.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

利用者に自由度の高い視聴体験を提供する、情報処理装置、情報処理方法、再生処理装置及び再生処理方法を提供する。データ入力部は、複数の3次元オブジェクトを含む単体の空間3次元オブジェクトとして構成される3次元空間のデータを取得する。前処理部は、3次元空間に含まれる特定の3次元オブジェクトを識別するための3次元オブジェクト特定情報を生成する。ファイル生成部は、3次元空間のデータ及び前処理部により生成された3次元オブジェクト特定情報を含むファイルを生成する。

Description

情報処理装置、情報処理方法、再生処理装置及び再生処理方法
 本開示は、情報処理装置、情報処理方法、再生処理装置及び再生処理方法に関する。
 現在の映像配信においては、映画などの配信で利用される2次元ビデオと呼ばれる2次元コンテンツの配信が主流である。さらに、全方位が見回し可能である360度ビデオの配信もインターネット上の様々なサイトなどで提供されている。360度ビデオは、3DoF(Degree of Freedom)ビデオとも呼ばれる。2次元ビデオ及び3DoFビデオどちらも、基本は2次元にエンコードされたコンテンツが配信され、クライアント装置で表示される。
 一方で、更なる自由度のあるビデオとして、6DoFコンテンツの配信が提案されている。6DoFコンテンツは、3次元空間内で視線方向を自由に選択することで全方位見回しができ、さらに視点位置を自由に選択することで空間の中の自由な位置の選択が可能である。6DoFコンテンツは、3次元空間の3次元対象物を表現し、再生の際に視点方向及び視点位置を自由に設定可能な3次元コンテンツである。6DoFコンテンツは、3次元空間を1つもしくは複数の3次元オブジェクトで表現する。以下では、3次元オブジェクトを3Dオブジェクトと呼称する。
 より具体的には、6DoFコンテンツは、以下の手法により時刻毎に3次元オブジェクトを用いて3次元空間を表現したものである。1つの手法は、人や物などの対象物毎に3次元オブジェクトで3次元空間を表現する対象物ベースの表現手法である。また、他の1つの手法は、人や物などの各対象物別の3次元オブジェクトの生成は行わずに、対象空間全体を1つの3次元オブジェクトとして表現する空間ベースの表現手法である。
 スポーツや音楽の実写などに基づく6DoFコンテンツのライブストリーミングでは、空間ベースの表現手法を用いることで、コンテンツ制作が容易となりまたクライアント装置の処理コストも低く抑えられる。そして、空間ベースの表現手法を用いた場合、エンドツーエンドの遅延を小さくできる。
 6DoFコンテンツの配信方法として、例えば、3次元空間を複数の3次元オブジェクトで構成し、複数のオブジェクトストリームとして伝搬する方法がある。このような方法で6DoFコンテンツを配信する際、例えば、シーンディスクリプションという記述法を用いる技術がある。シーンディスクリプションとして、シーンをシーングラフと呼ばれるツリー階層構造のグラフで表現し、そのシーングラフをバイナリ形式又はテキスト形式で表現する技術がある。
"ISO/IEC 14496-12:2015", Information technology. Coding of audio-visual objects. Part12:ISO base media file format, 2015-12
 しかしながら、空間ベースの表現手法を用いた6DoFコンテンツの場合、対象物を識別することが困難であり、利用者に視聴体験を決める自由度が少ない。
 そこで、本開示では、利用者に自由度の高い視聴体験を提供することができる情報処理装置、情報処理方法、再生処理装置及び再生処理方法を提供する。
 本開示によれば、複数のオブジェクトを単体の3次元オブジェクトとして3次元空間を構成する空間3次元オブジェクトにおいて、前処理部は、前記3次元空間に含まれる特定のオブジェクトを識別するためのオブジェクト特定情報を生成する。ファイル生成部は、前記空間3次元オブジェクトのデータ及び前記オブジェクト特定情報を含むファイルを生成する。
配信システムの一例のシステム構成図である。 ファイル生成装置のブロック図である。 第1の実施形態に係る3次元オブジェクト特定情報の格納状態を表す図である。 オブジェクトメタデータノードのシンタックスの一例を表す図である。 既存ノードを拡張して3次元オブジェクト特定情報を格納する場合のシンタックスの一例を示す図である。 クライアント装置のブロック図である。 第1の実施形態に係るファイル生成装置によるファイル生成処理のフローチャートである。 第1の実施形態に係るクライアント装置により実行される再生処理のフローチャートである。 ユーザディスクリプション形式で3次元オブジェクト特定情報を格納する場合のシンタックスの一例を表す図である。 独自の形式で3次元オブジェクト特定情報を格納する場合のシンタックスの一例を表す図である。 第1の実施形態の変形例(2-1)における3次元オブジェクト特定情報を示すデータを格納するボックスの一例を示す図である。 Matroska Media Containerのフォーマットを表す図である。 第1の実施形態の変形例(2-2)における3次元オブジェクト特定情報を示すデータの格納例及びシンタックスの例を表す図である。 第1の実施形態の変形例(2-3)における3次元オブジェクト特定情報を示すデータの格納例を表す図である。 第1の実施形態の変形例(3-1)に係るAdaptationSetのシンタックスの一例を表す図である。 第1の実施形態の変形例(3-2)におけるMDPのシンタックスの一例を表す図である。 高精細3次元オブジェクト情報を含むシーングラフのノードのシタックスの一例を表す図である。 高精細3次元オブジェクトとともに精細度を示すシンタックスの一例を表す図である。 ユーザディスクリプション形式で高精細3次元オブジェクト特定情報を格納する場合のシンタックスの一例を表す図である。 ユーザディスクリプション形式で高精細3次元オブジェクトとともに精細度を格納する場合のシンタックスの一例を表す図である。 独自の形式で高精細3次元オブジェクト特定情報を格納する場合のシンタックスの一例を表す図である。 独自の形式で高精細3次元オブジェクトとともに精細度を格納する場合のシンタックスの一例を表す図である。 第2の実施形態の変形例(2-1)における高精細3次元オブジェクト特定情報を示すデータを格納するボックスの一例を示す図である。 第2の実施形態の変形例(3-1)に係るAdaptationSetのシンタックスの一例を表す図である。 第2の実施形態の変形例(4)に係る拡張されたシーンディスクリプションを示す図である。 高精細差分3次元オブジェクトを使用する場合のISOBMFFファイルの一例を表す図である。 基礎3次元オブジェクトを使用する場合のISOBMFFファイルの一例を表す図である。 第2の実施形態の変形例(7-1)におけるシーングラフの一例を表す図である。 拡張したSwitchノードのシンタックスの一例を表す図である。 ContentsStructureBoxのシンタックスの一例を表す図である。 IncludingObjectMetadataノードのシンタックスの一例を表す図である。 IncludingObjectMetadataの一例を表す図である。 IncludingObjectBoxの一例を表す図である。 各構成に含まれる3次元オブジェクト毎の3次元オブジェクト特定情報をMPDのAdaptationSetに格納した場合の状態を表す図である。 AdaptationSetに格納される各構成に含まれる3次元オブジェクト毎の3次元オブジェクト特定情報のシンタックスの一例を表す図である。 各構成のシーンディスクリプションを分けた場合のシーングラフを表す図である。 注目オブジェクト情報のノードのシンタックスの一例を表す図である。 注目オブジェクト情報とともに注目度示すシンタックスの一例を表す図である。 ユーザディスクリプション形式で注目オブジェクト情報を格納する場合のシンタックスの一例を表す図である。 ユーザディスクリプション形式で注目オブジェクト情報とともに注目度を示す場合のシンタックスの一例を表す図である。 独自の形式で注目オブジェクト情報を格納する場合のシンタックスの一例を表す図である。 独自の形式で注目オブジェクト情報とともに注目度を示す場合のシンタックスの一例を表す図である。 第3の実施形態の変形例(2-1)における注目オブジェクト情報を示すデータを格納するボックスの一例を示す図である。 注目オブジェクト情報を格納するMPDのシンタックスの一例を表す図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。なお、本技術で開示される範囲は、実施形態の内容に限定されるものではなく、出願当時において公知となっている以下の非特許文献に記載されている内容も含まれる。
 非特許文献1:(上述)
 非特許文献2:"ISO/IEC 14496-11:2015", Information technology. Coding of audio-visual objects. Part11:Sene description and application engine, 2015-11
 非特許文献3:"ISO/IEC 23009-1:2014", Information technology. Dynamic adaptive streaming over HTTP(DASH), Part1:Media presentation description and segment formats, 2014-15
 非特許文献4:"ISO/IEC 23009-1:2014", Information technology. Dynamic adaptive streaming over HTTP(DASH), Part1:AMENDMENT 2:Spatial relationship description generalized URL parameters and other extensions, 2014-05
 非特許文献5:"ISO/IEC 21000-22:2016", Information technology-Multimedia framework (MPEG-21)-Part22:User Description, 2016-11 
 つまり、上述の非特許文献に記載されている内容も、参照により本明細書に組み込まれる。つまり、上述の非特許文献に記載されている内容もサポート要件を判断する際の根拠となる。例えば、非特許文献1に記載されているFile Structure、非特許文献2に記載されているScene Descriptionで用いられている構造/用語、非特許文献3に記載されているMPEG-DASH規格で用いられている用語が発明の詳細な説明において直接的な記載がない場合でも、本技術の開示範囲内であり、請求の範囲のサポート要件を満たすものとする。また、例えば、パース(Parsing)、シンタックス(Syntax)、セマンティクス(Semantics)等の技術用語についても同様に、発明の詳細な説明において直接的な記載がない場合でも、本技術の開示範囲内であり、請求の範囲のサポート要件を満たすものとする。
 また、以下に示す項目順序に従って本開示を説明する。
  1.第1の実施形態
   1.1-1 第1の実施形態の変形例(1-1)
   1.1-2 第1の実施形態の変形例(1-2)
   1.2-1 第1の実施形態の変形例(2-1)
   1.2-2 第1の実施形態の変形例(2-2)
   1.2-3 第1の実施形態の変形例(2-3)
   1.3-1 第1の実施形態の変形例(3-1)
   1.3-2 第1の実施形態の変形例(3-2)
  2.第2の実施形態
   2.1-1 第2の実施形態の変形例(1-1)
   2.1-2 第2の実施形態の変形例(1-2)
   2.2-1 第2の実施形態の変形例(2-1)
   2.2-2 第2の実施形態の変形例(2-2)
   2.3-1 第2の実施形態の変形例(3-1)
   2.3-2 第2の実施形態の変形例(3-2)
   2.4 第2の実施形態の変形例(4)
   2.5 第2の実施形態の変形例(5)
   2.6 第2の実施形態の変形例(6)
   2.7-1 第2の実施形態の変形例(7-1)
   2.7-2 第2の実施形態の変形例(7-2)
  3.第3の実施形態
   3.1-1 第3の実施形態の変形例(1-1)
   3.1-2 第3の実施形態の変形例(1-2)
   3.2-1 第3の実施形態の変形例(2-1)
   3.2-2 第3の実施形態の変形例(2-2)
   3.3-1 第3の実施形態の変形例(3-1)
   3.3-2 第3の実施形態の変形例(3-2)
(1.第1の実施形態)
 上述したように、スポーツや音楽の実写などに基づく6DoFコンテンツにおいては、空間ベースの表現手法が有効である。しかしながら、空間ベースの表現手法を用いた場合、6DoFコンテンツに含まれる各対象物を識別することが困難であり、利用者による視聴体験の決定の自由度が少ない。具体的には、対象物ベースの表現手法に比べて対象物ベースの表現手法では、以下のような制限がある。自由に視点を選択する視聴において、利用者により指定された対象物をクライアント装置で自動的に追尾して視聴させることは困難である。また、クライアント装置で対象物の位置を表示し利用者の視聴を補助することは困難である。さらに、利用者により指定された対象物に限定して高品質に表示することは困難である。また、ROI(region of interest)のような指定された視聴において、コンテンツ作成者の意図する注目すべき対象物をユーザに示したり追尾して視聴させたりすることは困難であり、さらに、その対象物に限定して高品質に表示させることは困難である。そこで、以下に説明する情報処理装置及び再生処理装置を提供する。
[第1の実施形態に係るシステムの構成]
 図1は、配信システムの一例のシステム構成図である。配信システム100は、情報処理装置であるファイル生成装置1、再生処理装置であるクライアント装置2及びWebサーバ3を含む。ファイル生成装置1、クライアント装置2及びWebサーバ3は、ネットワーク4に接続される。そして、ファイル生成装置1、クライアント装置2及びWebサーバ3は、ネットワーク4を介して相互に通信可能である。ここで、図1においては、各装置を1台ずつ示しているが、配信システム100は、ファイル生成装置1及びクライアント装置2をそれぞれ複数台含んでもよい。
 ファイル生成装置1は、6DoFコンテンツを生成する。ファイル生成装置1は、生成した6DoFコンテンツをWebサーバ3にアップロードする。ここで、本実施形態では、Webサーバ3が6DoFコンテンツをクライアント装置2に提供する構成について説明するが、配信システム100は他の構成を採ることも可能である。例えば、ファイル生成装置1が、Webサーバ3の機能を含み、生成した6DoFコンテンツを自装置内に格納し、クライアント装置2に提供する構成であってもよい。
 Webサーバ3は、ファイル生成装置1からアップロードされた6DoFコンテンツを保持する。そして、Webサーバ3は、クライアント装置2からの要求にしたがい指定された6DoFコンテンツを提供する。
 クライアント装置2は、6DoFコンテンツの送信要求をWebサーバ3へ送信する。そして、クライアント装置2は、送信要求で指定した6DoFコンテンツをWebサーバ3から取得する。そして、クライアント装置2は、6DoFコンテンツをデコードして映像を生成して、その映像をモニタなどの表示装置に表示させる。
 ここで、6DoFコンテンツについて説明する。6DoFコンテンツは、3次元空間を1つもしくは複数の3次元オブジェクトで表現する。3Dオブジェクトは、6DoFコンテンツのローカル座標系である正規化されたバウンディングボックス(Bounding Box)内の座標系を用いて表現され、圧縮エンコードされてビットストリーム(bitstream)となる。このビットストリームを3次元空間へ配置するために、シーンディスクリプション(Scene Description)が用いられる。
 このシーンディスクリプションの規格は、複数存在する。基本的には、各時刻における各3Dオブジェクトを表示するシーンをシーングラフと称するツリー階層構造のグラフで表現し、そのシーングラフをバイナリ形式またはテキスト形式で表現する。ここで、シーングラフは、空間表示制御情報であり、3Dオブジェクトの表示に関する情報を、ノードを構成単位として定義し、複数のノードを階層的に組合せることで構成される。ノードは、ある座標系から別の座標系へと変換する座標変換情報のノード、3Dオブジェクトの位置情報や大きさ情報のノード、3Dオブジェクトやオーディオデータへのアクセス情報のノードがある。
 なお、以下においては、6DoFコンテンツは、空間表示制御情報であるシーンディスクリプションデータと、複数の3Dオブジェクトのメディアデータ(例えば、3Dオブジェクトのメッシュデータとテクスチャデータを合わせて表現したもの)とで構成されるものとする。また、6DoFコンテンツには、オーディオデータが含まれてもよい。3DオブジェクトのメディアデータはPoint Cloudといった別の形式も適用可能である。また、シーンディスクリプションデータは、MPEG-4 Scene Description(ISO/IEC 14496-11)に準拠するものとする。
 MPEG-4 Scene Descriptionデータは、シーングラフをBIFS(Binary Format for Scenes)という形式でバイナリ化してものである。このシーングラフのBIFSへの変換は、所定のアルゴリズムを用いることで可能となる。また、ISOBMFF(ISO Base Media File Format)に格納することで時刻毎にシーンを規定することができ、位置や大きさの変化する3Dオブジェクトを表現することが可能である。
[第1の実施形態に係るファイル生成装置の構成]
 次に、ファイル生成装置1の詳細について説明する。図2は、ファイル生成装置のブロック図である。情報処理装置であるファイル生成装置1は、図2に示すように、生成処理部10及び制御部11を有する。制御部11は、生成処理部10の制御に関する処理を実行する。例えば、制御部11は、生成処理部10の各部の動作タイミングなどの統括制御を行う。生成処理部10は、データ入力部101、前処理部102、符号化部103、ファイル生成部104及び送信部105を有する。
 データ入力部101は、3次元オブジェクト及びメタ情報などを生成するための元情報の入力を受け付ける。データ入力部101は、取得した元情報を前処理部102へ出力する。データ入力部101は、データの入力を受け付ける。データ入力部101が受け付けるデータには、3Dオブジェクト及び3Dオブジェクトの配置情報等のメタデータが含まれる。データ入力部101は、取得したデータを前処理部102へ出力する。
 前処理部102は、3Dオブジェクト及び3Dオブジェクトの配置情報等のメタデータを含むデータの入力をデータ入力部101から受ける。そして、前処理部102は、取得したデータを基にビットストリーム構成を決定し、各3Dオブジェクトのメタデータ、並びに、ビットストリームへのアクセス情報を用いてシーングラフを生成する。また、メタデータには、どのようなコーデックで圧縮するかなどの制御情報が含まれる。
 前処理部102は、3次元空間内の3次元オブジェクトを特定するための3次元オブジェクト特定情報を生成する。3次元オブジェクト特定情報には、時刻が変わった際にも、同一の3次元オブジェクトを判別するための識別情報、3次元オブジェクトの空間位置情報及び3次元オブジェクトの詳細情報などが含まれる。この3次元オブジェクト特定情報が、「オブジェクト特定情報」の一例にあたる。
 ここで、本実施形態に係る前処理部102は、3次元オブジェクト特定情報をシーンディスクリプションの形式で格納する。図3は、第1の実施形態に係る3次元オブジェクト特定情報の格納状態を表す図である。例えば、前処理部102は、図3に示すように、識別情報、3次元オブジェクトの位置情報及び3次元オブジェクトの詳細情報を示すための新しいオブジェクトメタデータノード31を定義する。そして、前処理部102は、ある時刻における3次元オブジェクト特定情報を、Groupノードをルートとして子ノードに3次元オブジェクト毎のオブジェクトメタデータノード31を有するシーングラフ30を生成する。この場合、前処理部102は、各3次元オブジェクトの3次元オブジェクト特定情報を表すオブジェクトメタデータノード31のそれぞれを、Groupノードの子ノードとする。
 図4は、オブジェクトメタデータノードのシンタックスの一例を表す図である。例えば、前処理部102は、図4に示すシンタックスを用いてオブジェクトメタデータノード31を生成する。図4に示すシンタックスにおけるcenterPointは、3次元オブジェクトの中心を示す座標(x,y,z)を示す値である。また、bboxSizeは、3次元オブジェクトの外接ボックスを示す値であり、centerPointを中心に各軸に並行な長さで表される。centerPointを利用してbboxSizeを利用しない場合、すなわちbboxSizeの省略時は、bboxSizeは、(-1,-1,-1)とされる。idは、3次元オブジェクトの識別情報であり、本実施形態では数値で表される。descriptionは、3次元オブジェクトの詳細情報を示す文字列である。
 以上では新しいノードを定義する場合を説明したが、前処理部102は、既存のノードを拡張して3次元オブジェクト特定情報を格納することも可能である。図5は、既存ノードを拡張して3次元オブジェクト特定情報を格納する場合のシンタックスの一例を示す図である。例えば、前処理部102は、図5においてexposedFieldとして表されるTransformノードにおける既存のbboxCenter fieldとbboxSize fieldとを用いて3次元オブジェクトの位置を示す。また、前処理部102は、3次元オブジェクトの識別情報及び詳細情報の格納は、Transformノードにおけるfieldを拡張することで実現する。図4に示すシンタックスにおけるidは、3次元オブジェクトの識別情報であり、数値で表される。また、noShapeFlagは、子ノードに3次元オブジェクトの形状を示すデータが存在しないこと、すなわち位置情報のみであることを示す。また、descriptionは、3次元オブジェクトの詳細情報を示す文字列である。また、ここでは、Transformノードを拡張する場合で説明したが、他のノードを拡張して3次元オブジェクト特定情報を格納することも可能である。
 さらに、以上では3次元オブジェクトの位置を示すために3次元オブジェクトの外接ボックスを用いたが、前処理部102は、外接球や、外接円柱などの立体で3次元オブジェクトの位置を示してもよい。他にも、前処理部102は、3次元オブジェクトの形状情報そのものを格納してもよい。
 前処理部102は、3次元オブジェクト及び生成したシーングラフを符号化部103へ出力する。また、前処理部102は、メタデータをファイル生成部104へ出力する。
 符号化部103は、3次元オブジェクト及びシーングラフの入力を前処理部102から受ける。そして、符号化部103は、3次元オブジェクトを符号化しビットストリームを生成する。また、符号化部103は、取得したシーングラフを符号化しシーンディスクリプションを生成する。その後、符号化部103は、生成したビットストリーム及びシーンディスクリプションをファイル生成部104へ出力する。
 ファイル生成部104は、ビットストリーム及びシーンディスクリプションの入力を符号化部103から受ける。また、ファイル生成部104は、メタデータの入力を前処理部102から受ける。そして、ファイル生成部104は、取得したビットストリームをセグメント毎にISOBMFFファイルに格納することでファイル化し、ビットストリームのセグメントファイルを生成する。また、ファイル生成部104は、シーンディスクリプションのデータをセグメント毎にISOBMFFファイルに格納することでファイル化して、シーンディスクリプションのセグメントファイルを生成する。
 また、ファイル生成部104は、前処理部102から取得したデータを基に、MPD(Media Presentation Description)ファイルを生成する。MPDファイルには、メディア種別、動画や音声のセグメントファイルの情報などの6DoFコンテンツのメタ情報が格納される。
 送信部105は、ビットストリーム、静的シーンディスクリプション及び動的シーンディスクリプションのセグメントファイルをファイル生成部104から取得し、それらをWebサーバ3に送信してアップロードする。
[第1の実施形態に係るクライアント装置の構成]
 図6は、クライアント装置のブロック図である。図6に示すように、クライアント装置2は、再生処理部20及び制御部21を有する。制御部21は、再生処理部20の各部の動作を制御する。例えば、制御部21は、再生処理部20の各部の動作のタイミングを統括制御する。再生処理部20は、ファイル取得部201、計測部202、ファイル処理部203、復号処理部204、表示制御部205、表示情報生成部206及び表示部207を有する。
 ファイル取得部201は、再生する6DoFコンテンツに対応するMPDファイルをWebサーバ3から取得する。そして、ファイル取得部201は、MPDファイルを基に、再生する6DoFコンテンツのシーンディスクリプションの情報を取得する。
 ファイル取得部201は、Webサーバ3にアクセスして表示する6DoFコンテンツのシーンディスクリプションが格納されたISOBMFFのファイルを取得する。そして、ファイル取得部201は、シーンディスクリプションが格納されたISOBMFFのファイルをファイル処理部203へ出力する。
 さらに、ファイル取得部201は、ファイル処理部203により選択されたビットストリームの情報をファイル処理部203から取得する。そして、ファイル取得部201は、Webサーバ3にアクセスして、選択されたビットストリームのセグメントファイルを取得する。その後、ファイル取得部201は、取得したビットストリームのセグメントファイルをファイル処理部203へ出力する。
 計測部202は、クライアント装置2とWEBサーバとの間の伝送路の伝送帯域を計測する。そして、計測部202は、伝送帯域の計測結果をファイル処理部203へ出力する。
 ファイル処理部203は、再生する6DoFコンテンツに対応するMPDファイルの入力をファイル取得部201から受ける。そして、ファイル処理部203は、取得したMPDファイルをパースして再生する6DoFコンテンツのシーンディスクリプションを取得する。また、ファイル処理部203は、適応配信に用いる複数のデータの認識も行う。例えば、ビットレートを切替える適応配信であれば、各ビットレートに対応するビットストリームのセグメントファイルの情報を取得する。この場合、ファイル処理部203は、再生する6DoFコンテンツのシーンディスクリプションの情報をファイル取得部201へ出力する。
 ファイル処理部203は、シーンディスクリプションが格納されたISOBMFFのファイルの入力をファイル取得部201から受ける。ファイル処理部203は、取得したISOBMFFのファイルをパースする。そして、ファイル処理部203は、座標変換情報、3次元オブジェクトの配置情報及びアクセス情報、並びに、3次元オブジェクト特定情報を取得する。
 また、ファイル処理部203は、伝送帯域の計測結果の入力を計測部202から受ける。そして、ファイル処理部203は、シーンディスクリプションのパース結果、並びに、計測部202から取得した伝送帯域を示す情報等に基づいて、再生するビットストリームのセグメントファイルを選択する。そして、ファイル処理部203は、選択したビットストリームのセグメントファイルの情報をファイル取得部201へ出力する。この時、伝送帯域に応じて選択するビットストリームのセグメントファイルを変えることで、ビットレートに応じた適応配信が実現される。
 その後、ファイル処理部203は、選択したビットストリームのセグメントファイルの入力をファイル取得部201から受ける。そして、ファイル処理部203は、取得したビットストリームのセグメントファイルから、ビットストリームのデータを抽出し復号処理部204へ出力する。また、ファイル処理部203は、取得した3次元オブジェクト特定情報を用いて3次元オブジェクトが存在するかの情報を取得して表示制御部205へ出力する。
 復号処理部204は、ビットストリームデータの入力をファイル処理部203から受ける。そして、復号処理部204は、取得したビットストリームのデータに対して復号処理を施す。その後、復号処理部204は、復号化したビットストリームのデータを表示情報生成部206へ出力する。
 表示制御部205は、操作者の視点位置及び視線方向の情報の入力を図示しない入力装置から受ける。そして、表示制御部205は、取得した視点位置及び視点方向の情報を表示情報生成部206へ出力する。
 また、表示制御部205は、どのような3次元オブジェクトが存在するかの情報の入力をファイル処理部203から受ける。操作者は、視点位置及び視線情報の代わりに入力装置を用いて注目する3次元オブジェクトを示す指定情報の入力を行うこともできる。表示制御部205は、操作者により指定された注目する3次元オブジェクトを示す指定情報を取得する。そして、例えば3次元オブジェクトの追尾した視聴の場合、表示制御部205は、時間経過にしたがい指定情報で指定された3次元オブジェクトを追尾するように視点位置及び視点方向の情報を表示情報生成部206へ出力する。これにより、例えば、操作者により指定された3次元オブジェクトを追尾する画像を表示することができる。また、例えば3次元オブジェクトの位置を表示する場合、表示制御部205は、指定された3次元オブジェクトを6DoFコンテンツの中から特定する情報を生成する。
 表示情報生成部206は、シーンディスクリプション及び復号されたビットストリームのデータおよび、取得した視点位置及び視点方向の情報を受信し、表示情報を生成する。以下に表示情報生成部206の詳細について説明する。
 ビットストリームのデータの入力を復号処理部204から受ける。そして、表示情報生成部206は、シーンディスクリプションを基に、取得したビットストリームのデータである3次元オブジェクトを3次元空間に配置する。さらに、表示情報生成部206は、操作者の視点位置及び視線方向の情報の入力を表示制御部205から受ける。そして、表示情報生成部206は、視点位置及び視線方向に合わせて3次元空間に配置した3次元オブジェクトのレンダリングを行い表示用の画像を生成する。その後、表示情報生成部206は、生成した表示用の画像を表示部207に供給する。
 また、例えば3次元オブジェクトの位置を表示する場合、表示情報生成部206は、表示制御部205から取得した指定された3次元オブジェクトを6DoFコンテンツの中から特定する情報を取得する。そして、表示情報生成部206は、取得した情報を用いて指定された3次元オブジェクトの位置を表示する情報を表示用画像に付加する。
 表示部207は、モニタなどの表示装置を有する。表示部207は、表示情報生成部206により生成された表示用の画像の入力を受ける。そして、表示部207は、取得した表示用の画像を表示装置に表示させる。
[第1の実施形態に係るファイル生成手順]
 ファイル生成装置1は、3次元空間における3次元オブジェクトにより構成される6DoFコンテンツのシーンの構成を表すシーン構成情報であるシーングラフを生成する。次に、図7を参照して、第1の実施形態に係るファイル生成装置1によるファイル生成処理の流れについて詳細に説明する。図7は、第1の実施形態に係るファイル生成装置によるファイル生成処理のフローチャートである。
 前処理部102は、3次元オブジェクト特定情報を生成する(ステップS1)。本実施形態では、前処理部102は、シーンディスクリプション形式で格納される3次元オブジェクト特定情報を生成する。
 そして、前処理部102は、3次元オブジェクト特定情報を含むデータを生成する(ステップS2)。
 次に、符号化部103は、3次元オブジェクト特定情報を含むデータをエンコードして3次元オブジェクトのビットストリームを生成する(ステップS3)。また、符号化部103は、取得したシーングラフを符号化しシーンディスクリプションを生成する。
 次に、ファイル生成部104は、取得したビットストリームをセグメント毎にISOBMFFファイルに格納してビットストリームのセグメントファイルを生成する。また、ファイル生成部104は、シーンディスクリプションのデータをセグメント毎にISOBMFFファイルに格納してシーンディスクリプションのセグメントファイルを生成する(ステップS4)。
 送信部105は、ファイル生成部104により生成されたセグメントファイルをWebサーバ3へ出力する(ステップS5)。
[第1の実施形態に係る再生処理手順]
 次に、図8を参照して、本実施形態に係るクライアント装置2により実行される再生処理の流れを説明する。図8は、第1の実施形態に係るクライアント装置により実行される再生処理のフローチャートである。
 ファイル取得部201は、再生する6DoFコンテンツに対応するMPDファイルをWebサーバ3から取得する(ステップS11)。
 ファイル処理部203は、MPDファイルをパースして解析処理を実行する(ステップS12)。そして、ファイル処理部203は、解析結果を基に、再生する6DoFコンテンツのシーンディスクリプションを特定する。
 そして、ファイル取得部201は、ファイル処理部203により特定されたシーンディスクリプションを取得する。ファイル処理部203は、ファイル取得部201が取得したシーンディスクリプションをパースする。これにより、ファイル処理部203は、3次元オブジェクト特定情報を取得する(ステップS13)。
 そして、ファイル処理部203は、取得した3次元オブジェクト特定情報から存在する3次元オブジェクトを特定する(ステップS14)。ファイル処理部203は、どのような3次元オブジェクトが存在するかの情報を表示制御部205へ出力する。
 また、ファイル処理部203は、パース結果を基に、再生する6DoFコンテンツに対応するビットストリームのセグメントファイルを取得する(ステップS15)。復号処理部204は、ビットストリームのセグメントファイルに対して復号処理を施す。その後、復号処理部204は、ビットストリームのデータを表示情報生成部206へ出力する。
 表示制御部205は、入力された視点位置及び視線方向の情報、又は、注目する3次元オブジェクトの指定情報から得た視点位置及び視線方向の情報を表示情報生成部206へ出力する。表示情報生成部206は、表示制御部205から取得した視点位置及び視線方向の情報を用いて3次元オブジェクトのレンダリングや位置情報の付加を行い表示用の画像を生成して表示部207に表示させる視聴処理を実行する(ステップS16)。
 以上に説明したように、本実施形態に係るファイル生成装置は、空間ベースの表現手法を用いた6DoFコンテンツに含まれる3次元オブジェクトを特定するための3次元オブジェクト特定情報を生成し、6DoFコンテンツの中に格納する。これにより、クライアント装置は、空間ベースの表現手法を用いた6DoFコンテンツに含まれる3次元オブジェクトを特定することができる。すなわち、本実施形態に係る配信システムでは、操作者の選択した3次元オブジェクトを自動的に追尾した視聴の提供や、3次元オブジェクトの位置を表示して操作者の視聴をアシストすることができる。したがって、利用者に自由度の高い視聴体験を提供することができる。
[1.1-1 第1の実施形態の変形例(1-1)]
 第1の実施形態では3次元オブジェクト特定情報をシーンディスクリプション形式で格納したが、本変形例では、3次元オブジェクト特定情報がMPEG-21の規格であるユーザディスクリプション形式で格納されることが第1の実施形態と異なる。以下に、本変形例に係るファイル生成装置1の前処理部102による3次元オブジェクト特定情報の格納の詳細について説明する。
 本変形例に係る前処理部102は、シーンディスクリプションとは別ファイルである、3次元オブジェクト特定情報を示すユーザシルクリプション形式のファイルを生成する。すなわち、前処理部102は、3次元オブジェクト特定情報をユーザディスクリプションに格納する。図9は、ユーザディスクリプション形式で3次元オブジェクト特定情報を格納する場合のシンタックスの一例を表す図である。
 例えば、前処理部102は、図9に示すように、3次元オブジェクト特定情報を表すXMLスキーマを追加する。前処理部102は、そのXMLスキーマにおいて、ユーザディスクリプションの1つの属性情報として3次元オブジェクト特定情報を格納する。この場合、前処理部102は、3次元オブジェクトの位置情報、詳細情報を表す新しいService DescriptionのTypeを定義する。
 図9におけるidは、3次元オブジェクトの識別情報であり、数値で示される。また、centerPointX、centerPointY及びcenterPointZは、3次元オブジェクトの中心点を表す座標(x,y,z)を示す値である。bboxSizeX、bboxSizeY及びbboxSizeZは、3次元オブジェクトの外接ボックスを示す値であり、centerPointを中心に各軸に平行な長さで表される。descriptionは、3次元オブジェクトの詳細情報を示す文字列である。
 以上では、前処理部102は、3次元オブジェクトの位置を示すために、3次元オブジェクトの外接ボックスを用いたが、外接球や、外接円柱などの立体で示してもよい。他にも、前処理部102は、3次元オブジェクトの形状情報そのものを格納してもよい。
[1.1-2 第1の実施形態の変形例(1-2)]
 本変形例では、3次元オブジェクト特定情報が、独自の形式で格納されることが第1の実施形態と異なる。以下に、本変形例に係るファイル生成装置1の前処理部102による3次元オブジェクト特定情報の格納の詳細について説明する。
 前処理部102は、3次元オブジェクト特定情報をシーンディスクリプションやユーザディスクリプションとは異なる独自の形式で格納する。すなわち、前処理部102は、3次元オブジェクト特定情報を独自のディスクリプションに格納する。図10は、独自の形式で3次元オブジェクト特定情報を格納する場合のシンタックスの一例を表す図である。
 例えば、前処理部102は、図10に示すシンタックスのように、オブジェクトメタデータ構造を定義し、その定義したオブジェクトメタデータ構造において書く3次元オブジェクトの識別情報、位置情報及び詳細情報を示す。
 図10におけるnum_of_objectsは、3次元オブジェクトの数を表す値である。object_idは、3次元オブジェクトの識別情報であり、数値で示される。また、centerPointX、centerPointY及びcenterPointZは、3次元オブジェクトの中心点を表す座標(x,y,z)を示す値であり、整数部24ビット及び小数部8ビットで表される。bboxSizeX、bboxSizeY及びbboxSizeZは、3次元オブジェクトの外接ボックスを示す値であり、centerPointを中心に各軸に平行な長さで表される。bboxSizeX、bboxSizeY及びbboxSizeZも、整数部24ビット及び小数部8ビットで表される。descriptionは、3次元オブジェクトの詳細情報を示す文字列である。
 さらに、以上では3次元オブジェクトの位置を示すために3次元オブジェクトの外接ボックスを用いたが、前処理部102は、外接球や、外接円柱などの立体で3次元オブジェクトの位置を示してもよい。他にも、前処理部102は、3次元オブジェクトの形状情報そのものを格納してもよい。
[1.2-1 第1の実施形態の変形例(2-1)]
 次に、3次元オブジェクト特定情報を示すデータの格納方法について説明する。本変形例では、3次元オブジェクト特定情報が時間単位で変化しない場合について説明する。3次元オブジェクト特定情報が時間単位で変化しない場合とは、言い換えれば、3次元オブジェクトの位置情報が変化しない場合である。
 本変形例に係るファイル生成装置1は、3次元オブジェクト特定情報を示すデータを新たに定義したボックスに格納する。以下に、本変形例に係る3次元オブジェクト特定情報を示すデータを格納したファイルの生成について説明する。ここでは、シーンディスクリプション形式で表される3次元オブジェクト特定情報を示すデータを用いる場合で説明する。ただし、ユーザディスクリプション形式を用いた場合や独自の形式を用いた場合も同様の方法で3次元オブジェクト特定情報を示すデータを格納したファイルを生成することが可能である。
 図11は、第1の実施形態の変形例(2-1)における3次元オブジェクト特定情報を示すデータを格納するボックスの一例を示す図である。本変形例に係るファイル生成部104は、図11に示すStaticObjectMetadataBoxを新たに定義する。ファイル生成部104は、StaticObjectMetadataBoxを、シーンディスクリプショントラック、3次元オブジェクトのメッシュトラック又はテクスチャトラックのいずれかのトラックのサンプルエントリに格納する。特に、シーンディスクリプショントラックは、クライアント装置2が再生処理の初期段階に取得するファイルである。そのため、シーンディスクリプショントラックの中に3次元オブジェクト特定情報を示すデータを含めることで、再生処理の初期段階で3次元オブジェクト特定情報を取得できるため3次元オブジェクトに関する処理を迅速に行えるという利点が存在する。
 また、ファイル生成部104は、MetaBoxに3次元オブジェクト特定情報を示すデータを格納してもよい。例えば、ファイル生成部104は、ItemInfoEntryにおいて、item_typeを”obmt”として、ItemDataにStaticObjectMatadataを格納してもよい。この場合、ファイル生成部104は、ItemPropertyを拡張し、ItemProperty(‘somd’)としてStaticObjectMetadataを格納してもよい。
 以上ではISOBMFFに格納する場合を説明した。ただし、図12に示すMatroska Media Container(http://www.matroska.org/)を用いて伝送する場合でも3次元オブジェクト特定情報を示すデータを送信することが可能である。図12は、Matroska Media Containerのフォーマットを表す図である。その場合、ファイル生成部104は、Track Entry elementに、新しくSceneDescriptionObjectMetadata elementを格納する。この際、ファイル生成部104は、Element Typeをbinaryとし、且つ、EBMLデータとしてSceneDescriptionObjectMetadata()をバイナリデータとして格納する。
[1.2-2 第1の実施形態の変形例(2-2)]
 本変形例では、3次元オブジェクト特定情報が時間単位で変化する場合の3次元オブジェクト特定情報を示すデータの格納方法について説明する。3次元オブジェクト特定情報が時間単位で変化する場合とは、言い換えれば、3次元オブジェクトが移動するなど位置情報が変化する場合である。
 本変形例に係るファイル生成装置1は、新規のTimed metadataを定義して、そのsample entryに3次元オブジェクト特定情報を示すデータを格納する。以下に、本変形例に係る3次元オブジェクト特定情報を示すデータを格納したファイルの生成について説明する。ここでは、シーンディスクリプション形式で表される3次元オブジェクト特定情報を示すデータを用いる場合で説明する。ただし、ユーザディスクリプション形式を用いた場合や独自の形式を用いた場合も同様の方法で3次元オブジェクト特定情報を示すデータを格納したファイルを生成することが可能である。
 図13は、第1の実施形態の変形例(2-2)における3次元オブジェクト特定情報を示すデータの格納例及びシンタックスの例を表す図である。ファイル生成部104は、図13に示す3次元オブジェクト特定情報を示すシーンディスクリプションを格納するためのmetadata fileを、既存のファイルとは別のファイルとして作成する。そして、ファイル生成部104は、シンタックス32に示すように、MetadataSampleEntryに新しくObjectMetadataSampleEntry(‘obmt’)を定義して、3次元オブジェクト特定情報を示すシーンディスクリプションを格納する。この場合、ファイル生成部104は、シンタックス33で示される時間毎の3次元オブジェクト特定情報をsampleに格納する。
 さらに、1つのISOBMFFファイルに3次元オブジェクト特定情報と共に3次元オブジェクトのメッシュデータ及びテクスチャデータがそれぞれトラックで格納されている場合、ファイル生成部104は、以下のように情報の格納を行う。例えば、ファイル生成部104は、3次元オブジェクト特定情報トラックにTrack Reference Boxを格納したreference Type=’cdsc’で3次元オブジェクトのメッシュデータトラックのIDを格納する。cdscは既存の格納領域であるが、これ以外にも、ファイル生成部104は、3次元オブジェクトの位置情報用のトラックを設けるなど、別途新たな関連を示す値に変えてもよい。
 ここで、時間毎に変わる3次元オブジェクト特定情報と、時間毎に変わらない3次元オブジェクト特定情報とが混在する場合は、ファイル生成部104は、StaticObjectMetadataをObjectmetadataSmapleEntryに配置する。
 以上ではISOBMFFに格納する場合を説明した。ただし、Matroska Media Containerを用いて伝送する場合でも3次元オブジェクト特定情報を示すデータを送信することが可能である。その場合、ファイル生成部104は、図13のsampleをMatroska Media ContainerのClusterのブロックのデータ構造とすることで3次元オブジェクト特定情報を伝送できる。その場合、ファイル生成部104は、TrackEntry elementに含まれるTrackType elementにMetadata=19を新たに定義して、CodecID elementにM_OBMTを新たに規定する。
[1.2-3 第1の実施形態の変形例(2-3)]
 本変形例では、3次元オブジェクト特定情報が時間単位で変化する場合の3次元オブジェクト特定情報を示すデータの格納の他の方法について説明する。本変形例に係るファイル生成装置1は、ISOBMFFに3次元オブジェクト特定情報を示すデータを格納する。以下に、本変形例に係る3次元オブジェクト特定情報を示すデータを格納したファイルの生成について説明する。ここでは、シーンディスクリプション形式で表される3次元オブジェクト特定情報を示すデータを用いる場合で説明する。
 ファイル生成部104は、シーンディスクリプションファイルのシーンディスクリプションに3次元オブジェクト特定情報を格納する。図14は、第1の実施形態の変形例(2-3)における3次元オブジェクト特定情報を示すデータの格納例を表す図である。図14に示すように、ファイル生成部104は、ルートにGroupノードを置き、元々の6DoFコンテンツのシーングラフ34と3次元オブジェクト特定情報を格納したシーングラフ35とをそれぞれ子ノードとする。
 ここで、クライアント装置2は、6DoFコンテンツを再生する場合、シーンディスクリプションファイルの取得を実行する。そのため、本変形例に係る3次元オブジェクト特定情報を示すデータの格納手法では、3次元オブジェクト特定情報を使用しないクライアント装置2は、不要な3次元オブジェクト特定情報取得することになり、伝送帯域が無駄になるおそれがある。
[1.3-1 第1の実施形態の変形例(3-1)]
 本変形例では、3次元オブジェクト特定情報が時間単位で変化しない場合の、MPDを用いて3次元オブジェクト特定情報を示す方法について説明する。本変形例に係るファイル生成装置1は、3次元オブジェクト特定情報を、シーンディスクリプション又は3次元オブジェクトに対応するAdaptationSetにより示す。以下に、本変形例に係るMPDを用いた3次元オブジェクト特定情報を示す方法について説明する。
 図15は、第1の実施形態の変形例(3-1)に係るAdaptationSetのシンタックスの一例を表す図である。MPDは、どのようなデータが6DoFコンテンツに含まれるかを示す情報が格納されたファイルである。そして、MPDが保持するAdaptationSetでは、シーンディスクリプション、メッシュデータ、テクスチャデータがそれぞれ分けて示される。
 ファイル生成部104は、図15に示すようにAdaptationSetにおけるSupplementalPropertyを用いて3次元オブジェクト特定情報を示すデータを指し示す。SupplementalPropertyは、AdaptationSetの内容を示す情報である。ファイル生成部104は、SupplementalPropertyを用いてschemeIdUri=”StaticObjectMetadata”を新しく定義して、その子elementのSOM:metaで3次元オブジェクト毎の識別情報を示す。
 図15におけるidは、3次元オブジェクトの識別情報であり、数値で表される。centerPointX、centerPointY及びcenterPointZは、3次元オブジェクトの中心点を表す座標(x,y,z)を示す値である。bboxSizeX、bboxSizeY及びbboxSizeZは、3次元オブジェクトの外接ボックスを示す値であり、centerPointを中心に各軸に平行な長さで表される。外接ボックスを利用せずに省略する場合は、bboxSizeX、bboxSizeY及びbboxSizeZは、(-1,-1,-1)とされる。descriptionは、3次元オブジェクトの詳細情報を示す文字列である。
 ここで、3次元オブジェクトの識別情報は、シーンディスクリプション、又は、3次元オブジェクトのメッシュデータもしくはテクスチャデータのいずれのAdaptationSetに格納されてもよい。また、ここでは、AdaptationSetに格納する場合で説明したが、他にも、ファイル生成部104は、3次元オブジェクトの識別情報をMPDのPeriodに格納してもよい。
[1.3-2 第1の実施形態の変形例(3-2)]
 本変形例では、3次元オブジェクト特定情報が時間単位で変化する場合の、MPDによる3次元オブジェクト特定情報を示すデータを指し示す方法について説明する。本変形例に係るファイル生成装置1は、MPDを用いて、3次元オブジェクト特定情報が格納されたTimed metadataと、シーンディスクリプション又は3次元オブジェクトとを関連付ける。以下に、本変形例におけるMPDを用いた3次元オブジェクト特定情報の関連付けについて説明する。
 図16は、第1の実施形態の変形例(3-2)におけるMDPのシンタックスの一例を表す図である。ファイル生成部104は、図16に示すように、3次元オブジェクト特定情報のAdaptationSetにおいてAdaptationSet@codecsで”obmt”を指定して、Timed metadata形式の3次元オブジェクト特定情報であることを示す。そして、ファイル生成部104は、Representation@associationで3次元オブジェクトが含まれるシーンディスクリプションのRepresentation@idを示す。さらに、ファイル生成部104は、Representation@associationTypeを第1の実施形態の変形例(2-2)で指定したTrack Reference Boxを格納したreference Typeと同じ”cdsc”とする。
 他にも、ファイル生成部104は、第1の実施形態の変形例(2-3)のように、3次元オブジェクト特定情報がシーンディスクリプションデータに含まれる場合を明示してもよい。例えば、ファイル生成部104は、シーンディスクリプションのAdaptationSetに<SupplementalProperty schemeIDUri=”IncludeObjectMetadata”>を格納することで、3次元オブジェクト特定情報がシーンディスクリプションデータに含まれることを明示することができる。
 以上の各変形例に説明したような方法で、本変形例に係るファイル生成装置は、3次元オブジェクト特定情報を格納するファイルを生成し、クライアント装置への提供を行う。これにより、クライアント装置は、3次元オブジェクト特定情報を取得でき、利用者に自由度の高い視聴体験を提供することができる。
 また、以上の説明では、MPEG-4シーンディスクリプションを用いて説明したが、他のシーンディスクリプションを用いる場合でもこれらの3次元オブジェクト特定情報の格納方法は適用可能である。
(2.第2の実施形態)
 空間ベースの手法を用いて6DoFコンテンツを提供する場合、対象物を識別できなければ、操作者が特定の対象物に注目してその対象物を高品質に視聴したいと望んでも、指定された対象物を高品質にした画像を提供することは困難である。そこで、本実施形態に係るファイル生成装置は、特定の3次元オブジェクトを高精細化した映像を提供する。以下に、特定の3次元オブジェクトの高精細化手法について説明する。本実施形態に係るファイル生成装置も図2のブロック図で表される。
 ファイル生成装置1の前処理部102は、特定の3次元オブジェクトが高精細化された6DoFコンテンツ全体を含む1つの空間ベース3次元オブジェクトを生成する。そして、前処理部102は、生成した空間ベース3次元オブジェクトそれぞれについて、高精細化されている3次元オブジェクトを示す高精細3次元オブジェクト特定情報を生成する。
 以下に、高精細3次元オブジェクト特定情報の生成の詳細について説明する。本実施形態に係る前処理部102は、高精細3次元オブジェクト特定情報をシーンディスクリプション形式で格納する。図17は、高精細3次元オブジェクト情報を含むシーングラフのノードのシタックスの一例を表す図である。前処理部102は、図17に示すように、3次元オブジェクト特定情報で示されている識別情報を用いて高精細化されている3次元オブジェクトを示す。前処理部102は、図17におけるidsとして、高精度な3次元オブジェクトのIDを列挙する。このように、前処理部102は、高精細3次元オブジェクト特定情報のノードであるHighLODObjectをシーングラフに格納する。
 また、前処理部102は、図18のようにqualityにより3次元オブジェクトの精細度を数値で表してもよい。図18は、高精細3次元オブジェクトとともに精細度を示すシンタックスの一例を表す図である。図18におけるqualityとして、idsで列挙した識別情報順に、それぞれの3次元オブジェクトの精細度を数値で表す。qualityの値は、例えば、値が小さいほど精細度が高くなるように定義される。
 他にも、前処理部102は、第1の実施形態と同様に図4に示すように3次元オブジェクト特定情報をシーンディスクリプション形式で格納し、その3次元オブジェクト特定情報にhighLODflagを追加して、高精細であることを示してもよい。
 以上に説明したように、本実施形態に係るファイル生成装置は、6DoFコンテンツに含まれる特定の3次元オブジェクトを高精細化した空間ベース3次元オブジェクトを生成し、空間ベース3次元オブジェクト毎に高精細化された3次元オブジェクトを示す高精細3次元オブジェクト特定情報を生成する。クライアント装置は、高精細3次元オブジェクト特定情報を取得することで、所定の3次元オブジェクトが高精細化された空間ベース3次元オブジェクトを取得して操作者に提供することができる。すなわち、操作者は、指定した3次元オブジェクトが高精細化された映像を視聴することができ、より自由度の高い視聴を享受することができる。
[2.1-1 第2の実施形態の変形例(1-1)]
 本変形例に係る前処理部102は、図9に示すVisual3DObjectInfoを生成して、3次元オブジェクト特定情報をユーザディスクリプション形式で格納する。さらに、前処理部102は、高精細3次元オブジェクト特定情報をユーザディスクリプション形式で格納する。すなわち、前処理部102は、高精細3次元オブジェクト特定情報をユーザディスクリプションに格納する。図19は、ユーザディスクリプション形式で高精細3次元オブジェクト特定情報を格納する場合のシンタックスの一例を表す図である。
 前処理部102は、図19に示すように、ユーザディスクリプションの1つの属性情報として指定できるようにXMLスキーマを追加する。図19におけるidは、高精細化された3次元オブジェクトの識別情報であり、数値で表される。このidには、図9のVisual3DObjectInfoで示されるidが用いられる。
 また、前処理部102は、図20のようにqualityにより精細度を数値で表してもよい。図20は、ユーザディスクリプション形式で高精細3次元オブジェクトとともに精細度を格納する場合のシンタックスの一例を表すである。図20におけるqualityとして3次元オブジェクトの精細度を数値で表す。qualityの値は、例えば、値が小さいほど精細度が高くなるように定義される。
 他にも、前処理部102は、図9に示すVisual3DObjectInfoにhighLODflagを追加して、そのVisual3DObjectInfoで指定された3次元オブジェクトが高精細であることを示してもよい。
[2.1-2 第2の実施形態の変形例(1-2)]
 本変形例に係る前処理部102は、図10に示すObjectmetadataを生成して、3次元オブジェクト特定情報を独自の形式で格納する。さらに、前処理部102は、高精細3次元オブジェクト特定情報を独自の形式で格納する。すなわち、前処理部102は、高精細3次元オブジェクト特定情報を独自のディスクリプションに格納する。図21は、独自の形式で高精細3次元オブジェクト特定情報を格納する場合のシンタックスの一例を表す図である。
 前処理部102は、図21に示すように、HighQualityObject構造を新たに定義する。そして、前処理部102は、HighQualityObject構造の中に高精細3次元オブジェクト特定情報を格納する。図21におけるnum_objectは、高精細化された3次元オブジェクトの数を表す。また、High_LOD_object_idは、高精細化された3次元オブジェクトの識別情報であり、数値で表される。このidには、図10のobjectmetadataで示されるobject_idが用いられる。
 また、前処理部102は、図22のようにqualityにより3次元オブジェクトの精細度を数値で表してもよい。図22は、独自の形式で高精細3次元オブジェクトとともに精細度を格納する場合のシンタックスの一例を表す図である。前処理部102は、図22におけるLOD_valueにより3次元オブジェクトの精細度を表す。LOD_valueの値は、例えば、値が小さいほど精細度が高くなるように定義される。
 他にも、前処理部102は、図10に示すobjectmetadataにhighLODflagを追加して、そのobjectmetadataで指定された3次元オブジェクトが高精細であることを示してもよい。
[2.2-1 第2の実施形態の変形例(2-1)]
 本変形例では、高精細3次元オブジェクト特定情報が時間単位で変化しない場合の高精細3次元オブジェクト特定情報を示すデータの格納方法について説明する。ここでは、シーンディスクリプション形式で表される高精細3次元オブジェクト特定情報を示すデータを用いる場合で説明する。ただし、ユーザディスクリプション形式を用いた場合や独自の形式を用いた場合も同様の方法で高精細3次元オブジェクト特定情報を示すデータを格納したファイルを生成することが可能である。
 図23は、第2の実施形態の変形例(2-1)における高精細3次元オブジェクト特定情報を示すデータを格納するボックスの一例を示す図である。本変形例に係るファイル生成部104は、図23に示すStaticHighLODObjectBoxを新たに定義する。ファイル生成部104は、StaticHighLODObjectBoxを、シーンディスクリプショントラック、3次元オブジェクトのメッシュトラック又はテクスチャトラックのいずれかのトラックのサンプルエントリに格納する。
 また、ファイル生成部104は、MetaBoxに高精細3次元オブジェクト特定情報を示すデータを格納してもよい。例えば、ファイル生成部104は、ItemInfoEntryにおいて、item_typeを”obmt”として、ItemDataにStaticHighLODObjectBoxを格納してもよい。この場合、ファイル生成部104は、ItemProperyを拡張し、ItemPropery(‘shlo’)としてStaticHighLODObjectBoxを格納してもよい。
 以上ではISOBMFFに格納する場合を説明した。ただし、図12に示すMatroska Media Containerを用いて伝送する場合でも高精細3次元オブジェクト特定情報を示すデータを送信することが可能である。その場合、ファイル生成部104は、Track Entry elementに、新しくSceneDescriptionHighLODObject elementを格納する。この際、ファイル生成部104は、Element Typeをbinaryとし、且つ、EBMLデータとしてSceneDescriptionHighLODObject()をバイナリデータとして格納する。
[2.2-2 第2の実施形態の変形例(2-2)]
 本変形例では、3次元オブジェクト特定情報が時間単位で変化する場合の高精細3次元オブジェクト特定情報を示すデータの格納方法について説明する。
 ここでは、ファイル生成部104は、第1の実施形態の変形例(2-2)と同様に、図13に示す3次元オブジェクト特定情報を示すシーンディスクリプションを格納するためのmetadata fileを、既存のファイルとは別のファイルとして作成する。
 そして、ファイル生成部104は、metadata fileのsampleに、3次元オブジェクト特定情報と同時に高精細3次元オブジェクト特定情報を格納する。ファイル生成部104は、同時に格納する場合、3次元オブジェクト特定情報と高精細3次元オブジェクト特定情報とを別々にアクセスできるようにファイルを生成してもよい。また、ファイル生成部104は、3次元オブジェクト特定情報に高精細3次元オブジェクト特定情報を含めるような構造としてもよい。
 他の方法として、ファイル生成部104は、高精細3次元オブジェクト特定情報のための新しいTimed metadataを定義して、その中に高精細3次元オブジェクト特定情報を格納してもよい。その場合、ファイル生成部104は、新しく定義したTimed metadataにおけるMetadataSampleEntryを拡張して、新しくHighLODObjectSampleEntry(‘hobm’)とする。さらに、ファイル生成部104は、sampleに高精細3次元オブジェクト特定情報を格納する。この場合、ファイル生成部104は、ObjectMetadataのTimed metadataのobject_idとの関連を示すために、高精細3次元オブジェクト特定情報トラックに、Track Reference Boxを格納し、reference_type=’cdsc’で3次元オブジェクト特定情報のidを登録してもよい。cdscは、既存の値であるが、別途新たな関連を示す値に替えてもよい。
 また、時間単位で変化する高精細3次元オブジェクト特定情報と時間単位で変化しない高精細3次元オブジェクト特定情報とが混在する場合、時間単位で変化しない高精細3次元オブジェクト特定情報に関して、ファイル生成部104は、図23のStaticHighLODObjectBoxを高精細3次元オブジェクト特定情報トラックもしくはオブジェクト特定トラックに配置する。
[2.3-1 第2の実施形態の変形例(3-1)]
 本変形例では、3次元オブジェクト特定情報が時間単位で変化しない場合に、MPDを用いて高精細3次元オブジェクト特定情報を示す方法について説明する。
 図24は、第2の実施形態の変形例(3-1)に係るAdaptationSetのシンタックスの一例を表す図である。ファイル生成部104は、図24に示すようにAdaptationSetにおけるSupplementalPropertyを用いて高精細3次元オブジェクト特定情報を示すデータを指し示す。ファイル生成部104は、SupplementalPropertyを用いてschemeIdUri=”StaticHighLOCObject”を新しく定義して、その子elementで、識別情報を含む3次元オブジェクト特定情報を含むデータを示す情報と、高精細3次元オブジェクトの識別情報を格納する。図24におけるidは、3次元オブジェクトの識別情報であり、数値で表される。また、objectMetadataは、3次元オブジェクト特定情報を含むRepresentation@idを示す。
 さらに、ファイル生成部104は、高精細3次元オブジェクトの識別情報とともに、qualityを用いて3次元オブジェクトの精細度を表す情報をAdaptationSetに格納してもよい。
[2.3-2 第2の実施形態の変形例(3-2)]
 本変形例では、3次元オブジェクト特定情報が時間単位で変化する場合に、MPDによる3次元オブジェクト特定情報を示すデータを指し示す方法について説明する。本変形例に係るファイル生成装置1のファイル生成部104は、3次元オブジェクト特定情報のAdaptationSetにおいてAdaptationSet@codecsで”hobm”を指定して、Timed metadata形式の高精細3次元オブジェクト特定情報であることを示す。そして、ファイル生成部104は、Representation@associationIdで高精細化された3次元オブジェクトが含まれるシーンディスクリプションのRepresentation@idを示す。さらに、ファイル生成部104は、Representation@associationTypeを第2の実施形態の変形例(2-2)で指定したTrack Reference Boxを格納したreference Typeと同じ”cdsc”とする。
[2.4 第2の実施形態の変形例(4)]
 本変形例では、シーンディスクリプションから高精細3次元オブジェクトを示すアクセス情報を取得できるように拡張する。図25は、第2の実施形態の変形例(4)に係る拡張されたシーンディスクリプションを示す図である。
 本変形例に係るファイル生成装置1のファイル生成部104は、3次元オブジェクトのメッシュデータのへのアクセス情報を含むBitWrapperノードを拡張して、シンタックス36に示すように複数のAdaptation@idを格納するためのfieldを設ける。また、ファイル生成部104は、3次元オブジェクトのテクスチャデータのへのアクセス情報を含むMovieTextureノードを拡張して、シンタックス37に示すように複数のAdaptation@idを格納するためのfieldを設ける。図25におけるAdaptatioSetIdSelectionは、3次元オブジェクトのメッシュデータもしくはテクスチャデータを含む複数のAdaptationSetをAdaptationSet@idで表す。これにより、クライアント装置2は、シーンディスクリプションから高精細3次元オブジェクト特定情報を示すAdaptationSetにアクセス可能となる。
 他の方法としては、ファイル生成部104は、シーンディスクリプションにおけるurlのurl query parameterで複数のAdaptationSet@idを示してもよい。
[2.5 第2の実施形態の変形例(5)]
 以上では、特定の3次元オブジェクトが高精細化された1つの空間ベース3次元オブジェクトを生成した。その場合、6DoFコンテンツの生成において高精細化したい3次元オブジェクトが多数存在すると、それぞれについて空間ベース3次元オブジェクトを作成することになり、生成コスト及びサーバ上のデータ量が増加する。そこで、生成コスト削減及びサーバ上のデータ量の削減のために以下の方法を採用することが好ましい。
 本変形例では、特定の3次元オブジェクトを高精細化するための差分情報のみを含む3次元オブジェクトである高精細差分3次元オブジェクトを用いて特定の3次元オブジェクトが高精細化された映像が生成される。図26は、高精細差分3次元オブジェクトを使用する場合のISOBMFFファイルの一例を表す図である。
 ファイル生成部104は、図26に示す3次元空間全体の空間ベース3次元オブジェクト38を生成する。さらに、ファイル生成部104は、3次元空間全体の空間ベース3次元オブジェクトと特定の3次元オブジェクトが高精細化された空間ベース3次元オブジェクトとの差分を表す高精細差分3次元オブジェクト39を生成する。空間ベース3次元オブジェクト38は単独で再生可能であるが、高精細差分3次元オブジェクト39は、空間ベース3次元オブジェクト38とセットで再生される。
 具体的には、ファイル生成部104は、高精細差分3次元オブジェクトの生成にあたり、Track Reference Boxに新しいreference_type=’dfbs’を定義して、差分の元になる空間ベース3次元オブジェクト38のトラックを示す。さらに、ファイル生成部104は、高精細差分3次元オブジェクトにおけるRestrictedSchemeInfoBoxのSchemeTypeBoxに新しくscheme_Type=’3odf’を登録することで差分データであることを示す。また、ファイル生成部104は、高精細差分3次元オブジェクトのトラックに第2の実施形態の変形例(2-1)や(2-2)で示した高精細3次元オブジェクト特定情報を格納してもよい。
 また、この場合、ファイル生成部104は、以下の方法で高精細差分3次元オブジェクトを示す情報をMPDに格納する。例えば、ファイル生成部104は、高精細差分3次元オブジェクトのAdaptationSet@codecsを、”resv.3dof.xxxx”(xxxxは、3次元オブジェクトをエンコードしているコーデックを示す。)として、高精細差分3次元オブジェクトであることを示す。また、ファイル生成部104は、高精細差分3次元オブジェクトのRepresentation@dependencyidを用いて、差分の元になる空間ベース3次元オブジェクトのRepresentation@idを示す。他にも、第2の実施形態の変形例(3-1)及び(3-2)のシンタックスを用いて高精細差分オブジェクトのAdaptationSetで高精細化されている3次元オブジェクトを示してもよい。
 クライアント装置2は、空間ベース3次元オブジェクト及び高精細差分3次元オブジェクトを取得して、デコード及びレンダリングをすることで、特定の3次元オブジェクトが高精細化された3次元オブジェクトを生成することができる。
 なお、図12に示すMatroska Media Containerを用いて伝送する場合には、ファイル生成部104は、高精細化するための高精細差分3次元オブジェクトのTrack Entry elementに、新しくBase3DObjectTrackID elementを格納する。この際、ファイル生成部104は、Element Typeをunsigned intとし、且つ、EBMLデータとして差分の元になる空間ベース3次元オブジェクトのトラックのTrackNumberを格納する。
 このように、高精細化するための差分3次元オブジェクトデータを用いることで、サーバ上のデータ量を減らすことができる。また、差分データを複数取得することで、複数の3次元オブジェクトを高精細化することが可能となり、操作者の視聴における自由度を向上させることができる。
[2.6 第2の実施形態の変形例(6)]
 本変形例では、6DoFコンテンツ全体を表す空間ベース3次元オブジェクトから特定の3次元オブジェクトを除いた基礎3次元オブジェクトと、高精細化された特定の3次元オブジェクトを示す高精細3次元オブジェクトとを用いて特定の3次元オブジェクトが高精細化された映像が生成される。図27は、基礎3次元オブジェクトを使用する場合のISOBMFFファイルの一例を表す図である。
 ファイル生成部104は、図27に示すように、対象とする3次元空間全体において特定の3次元オブジェクトが存在しない基礎3次元オブジェクト41を生成する。また、ファイル生成部104は、特定の3次元オブジェクトが高精細化された高精細3次元オブジェクト42を生成する。この場合、基礎3次元オブジェクト41及び高精細3次元オブジェクト42は、セットで再生される。
 ファイル生成部104は、基礎3次元オブジェクト41のトラックをベーストラックとして扱い、基礎3次元オブジェクト41のTrack Reference boxに新しくreference_type=’3dom’を定義して、再生に使用する3次元オブジェクトの一覧を示す。そして、ファイル生成部104は、シーンディスクリプションからの3次元オブジェクトファイルへのアクセス情報は、ベーストラックを含むファイルに対して行う。
 また、ファイル生成部104は、基礎3次元オブジェクト41及び高精細3次元オブジェクト42のいずれのトラックに対しても、対象とする3次元空間全体が複数の3次元オブジェクトから形成されることを示す情報を格納する。例えば、ファイル生成部104は、双方のトラックにおけるRestrictedSchemeInfoBoxのSchemeTypeBoxに、一部のデータであることを表すために新しく定義したscheme_type=’3osp’を格納する。また、ファイル生成部104は、高精細3次元オブジェクト42のトラックには、Track Reference Boxに新しくreference_type=’3dos’を定義して、3次元空間全体のベーストラックを示す。なお、高精細3次元オブジェクト42のトラックに、第2の実施形態の変形例(2-2)のシンタックスを用いてもよい。
 また、この場合、ファイル生成部104は、以下の方法で高精細差分3次元オブジェクトを示す情報をMPDに格納する。例えば、ファイル生成部104は、高精細差分3次元オブジェクトのAdaptationSet@codecsを、”resv.3dof.xxxx”(xxxxは、3次元オブジェクトをエンコードしているコーデックを示す。)として、対象とする3次元空間全体が複数の3次元オブジェクトで形成されることを示す。また、ファイル生成部104は、対象とする3次元空間のベースとなる基礎3次元オブジェクトのRepresentation@dependencyIdを用いて、レンダリングに用いるその他の全ての高精細3次元オブジェクトのRepresentation@idを示す。また、ファイル生成部104は、高精細3次元オブジェクトのRepresentation@dependencyIdを用いて、ベースとなる基礎3次元オブジェクトのRepresentation@idを示す。
 クライアント装置2は、基礎3次元オブジェクト及び高精細3次元オブジェクトを取得して、デコード及びレンダリングをすることで、特定の3次元オブジェクトが高精細化された3次元オブジェクトを生成することができる。
 なお、図12に示すMatroska Media Containerを用いて伝送する場合には、ファイル生成部104は、ベースとなる基礎3次元オブジェクトのTrack Entry elementに、新しくrequired3DObjectTrackID elementを格納する。この際、ファイル生成部104は、Element Typeをunsigned intとし、且つ、EBMLデータとしてそのトラックに存在しない3次元オブジェクトのトラックのTrackNumberを全て格納する。また、ファイル生成部104は、ベースでない高精細3次元オブジェクトのTrack Entry elementに、新しくBase3DObjectTrackID elementを格納する。この際、ファイル生成部104は、Element Typeをunsigned intとし、且つ、EBMLデータとしてベースとなる基礎3次元オブジェクトのトラックのTrackNumberを格納する。
 このように、高精細化する3次元オブジェクトを対象とする3次元空間から除いた3次元オブジェクトと高精細化された3次元オブジェクトとを用いることで、サーバ上のデータ量を減らすことができる。また、高精細化された3次元オブジェクトのデータを複数用いることで、複数の3次元オブジェクトを高精細化することが可能となり、操作者の視聴における自由度を向上させることができる。
[2.7-1 第2の実施形態の変形例(7-1)]
 第2の実施形態の変形例(5)及び第2の実施形態の変形例(6)では、高精細3次元オブジェクトを用いたが、そのような場合に、複数の構成から特定の3次元オブジェクトを高精細化して視聴するための構成を選択可能にするために、ファイル生成装置は、対象とする3次元空間に含まれる各3次元オブジェクトの3次元オブジェクト特定情報を提供する。本変形例では、複数の構成が1つのシーンディスクリプションに格納される場合について説明する。本変形例では、それぞれの構成に含まれる3次元オブジェクトの3次元オブジェクト特定情報をシーンディスクリプションに格納する。
 図28は、第2の実施形態の変形例(7-1)におけるシーングラフの一例を表す図である。この場合、ファイル生成部104は、例えば、図28に示すように、シーンディスクリプションでそれぞれの3次元オブジェクトに含まれる3次元特定情報を示す。具体的には、ファイル生成部104は、Switchノード43の子ノードとして、高精細3次元オブジェクトが異なる構成を並べて配置することで、1つのシーンディスクリプションに複数の構成を記述する。
 さらに、ファイル生成部104は、図29に示すように、Switchノード43を拡張して、それぞれの構成に含まれる3次元オブジェクト毎の3次元オブジェクト特定情報を示す。図29は、拡張したSwitchノードのシンタックスの一例を表す図である。図29におけるContentStructは、構成に含まれる3次元オブジェクト毎の3次元オブジェクト特定情報を表す。ファイル生成部104は、ContentStructにおいて「”,”」を用いて構成内の各3次元オブジェクトを分けて表す。また、ファイル生成部104は、3次元オブジェクトに含まれる3次元オブジェクトを特定するための3次元オブジェクト特定情報として、シーン全体の3次元オブジェクト特定情報の識別情報を用いる。ファイル生成部104は、3次元オブジェクト特定情報に複数の識別情報が含まれる場合は、「” ”」を用いて各識別情報を分けて表す。さらに、ファイル生成部104は、ノードの順を、構成を示すGroupノードの子ノード順とする。
 例えば、ファイル生成部104は、ContentStructの値を”1,2 3 4”,”2,1 3 4”とする。この場合、ContentStructの値により、1つめの構成に2つの3次元オブジェクトが含まれ、一方の3次元オブジェクトに「1」が含まれ且つ他方の3次元オブジェクトに「2,3,4」が含まれることが表される。
 クライアント装置2の処理について説明する。クライアント装置2は、例えば、操作者から高精細化する3次元オブジェクトの指定を受ける。または、クライアント装置2は、操作者の視聴状況から高精細化する3次元オブジェクトを選択する。例えば、クライアント装置2は、視点位置に最も近い3次元オブジェクトや視線判定により操作者が最も注目する3次元オブジェクトなどを選択する。そして、クライアント装置2は、シーン全体の3次元オブジェクト特定情報から、選択した3次元オブジェクトを特定する。
 次に、クライアント装置2は、特定した3次元オブジェクトの情報を用いて、シーンディスクリプションファイルを解析する。そして、クライアント装置2は、シーングラフのSwitchノードの3次元オブジェクト特定情報を用いて選択した3次元オブジェクトが高精細化されている構成を選択する。次に、クライアント装置2は、選択した構成からシーングラフにおいて参照されるMPDのAdaptationSetの中から、選択した3次元オブジェクトを高品質で表示し、他の3次元オブジェクトは低品質になるようにAdaptationSetを選択する。
 これにより、操作者は、複数の構成から特定の3次元オブジェクトを高精細化した映像を視聴することが可能となる。以上の構成は、時間毎に動的に構成の内容が変化する場合でも実施可能である。また、クライアント装置2は、シーンディスクリプションファイルの切替を行わなくても、構成の切り替えを行うことが可能である。
 以上では、それぞれの構成に含まれる3次元オブジェクト毎の3次元オブジェクト特定情報をSwitchノード43に格納したが、格納場所はこれに限らない。例えば、ファイル生成部104は、シーンディスクリプションのISOBMFFファイルのsample entryに図30に示すContentsStructureBoxを配置して、その中にそれぞれの構成に含まれる3次元オブジェクト毎の3次元オブジェクト特定情報を格納してもよい。図30は、ContentsStructureBoxのシンタックスの一例を表す図である。
 図30におけるnum_contentStructは、含まれる構成の数を表す。また、num_3Dobjectは、含まれる3次元オブジェクトの数を表す。また、num_includingObjectは、3次元オブジェクトに含まれるオブジェクト数を表す。ingcluding_object_idは、3次元オブジェクトに含まれる3次元オブジェクト特定情報を表す。この値は、シーン全体の3次元オブジェクト特定情報で用いた識別情報で表す。この場合、ファイル生成部104は、ルートのSwitchノードに対する子ノードの順と同じ順番で各構成に関する情報を記載する。
 この場合、クライアント装置2は、シーン全体の3次元オブジェクト特定情報から、高精細化する3次元オブジェクトを特定する。次に、クライアント装置2は、シーンディスクリプションファイルの解析の際に、sample entryからContentStructBoxを取得して、特定した3次元オブジェクト特定情報を用いて使用する構成を決定する。次に、クライアント装置2は、シーングラフを解析して、Switchノードにおいて決定した構成を選択する。
 このように、シーンディスクリプションのISOBMFFファイルにそれぞれの構成に含まれる3次元オブジェクト毎の3次元オブジェクト特定情報を格納することで、構成が時間で変化しない場合には冗長な情報を削減することができる。
 他にも、シーンディスクリプションのISOBMFFファイルに格納する方法として、ファイル生成部104は、図31に示すIncludingObjectMetadataノードを新しく定義して、そのノードを各3次元オブジェクトのTransformノードの子ノードとして配置してもよい。図31は、IncludingObjectMetadataノードのシンタックスの一例を表す図である。ただし、IncludingObjectMetadataノードを配置するノードはTransformノードに限らず、個々の3次元オブジェクトを示すノードであれば他のノードの子ノードとしてもよい。
 この場合、クライアント装置2は、シーン全体の3次元オブジェクト特定情報から、高精細化する3次元オブジェクトを特定する。次に、クライアント装置2は、シーンディスクリプションファイルの解析の際に、Switchノード以下のシーングラフの解析も行い、3次元オブジェクト特定情報を取得して、使用する構成を選択する。このように、新しく定義したIncludingObjectMetadataノードを用いて各構成の3次元オブジェクト特定情報を格納する構成は、時間毎に動的に構成の内容が変化する場合も実施可能である。
 以上ではISOBMFFに格納する場合を説明した。ただし、図12に示すMatroska Media Containerを用いて伝送する場合でも各構成の3次元オブジェクト特定情報を格納することが可能である。その場合、ファイル生成部104は、Track Entry elementに、新しく6DoFContentStruct elementを格納する。この際、ファイル生成部104は、Element Typeをbinaryとし、且つ、EBMLデータとして図30に示したContentStruct()をバイナリデータとして格納する。
 他にも、それぞれの構成に含まれる3次元オブジェクト毎の3次元オブジェクト特定情報の格納場所を他の場所にすることは可能である。例えば、ファイル生成部104は、各3次元オブジェクトのAdaptationSetにSuplementalPropertyで3次元オブジェクト毎の3次元オブジェクト特定情報を図32に示すIncludingObjectMetadataとして格納する。図32は、IncludingObjectMetadataの一例を表す図である。図32におけるobjectMetadataは、3次元オブジェクト特定情報を含むRepresentation@idを表す。idsは、3次元オブジェクトに含まれる3次元オブジェクト特定情報を表す。idsの値には、シーン全体の3次元オブジェクト特定情報に含まれる識別情報が用いられる。
 また、例えば、ファイル生成部104は、各3次元オブジェクトのISOBMFFのsample entryに3次元オブジェクト毎の3次元オブジェクト特定情報を図33に示すIncludingObjectBoxとして格納してもよい。図33は、IncludingObjectBoxの一例を表す図である。図33におけるnum_includingObjectは、3次元オブジェクトに含まれるオブジェクト数を表す。including_object_idは、3次元オブジェクトに含まれる3次元オブジェクト特定情報を表す。including_object_idの値には、シーン全体の3次元オブジェクト特定情報に含まれる識別情報が用いられる。
 以上に説明した、IncludingObjectMetadataノード又はIncludingObjectBoxを用いる場合、クライアント装置2は、構成の選択のためにシーンディスクリプションの解析と参照される3次元オブジェクトのAdaptationSetもしくはファイルの解析を実行する。
 以上ではISOBMFFに格納する場合を説明した。ただし、図12に示すMatroska Media Containerを用いて伝送する場合でも各構成の3次元オブジェクト特定情報を格納することが可能である。その場合、ファイル生成部104は、Track Entry elementに、新しくIncludingObject elementを格納する。この際、ファイル生成部104は、Element Typeをbinaryとし、且つ、EBMLデータとして図33に示したIncludingObject()をバイナリデータとして格納する。
 ここで、第2の実施形態の変形例(7-1)で説明したそれぞれの構成に含まれる3次元オブジェクト毎の3次元オブジェクト特定情報の格納方法のうちのいくつか又は全てを組み合わせて使用することも可能である。
[2.7-2 第2の実施形態の変形例(7-2)]
 本変形例では、MPDのAdaptationSetの中に各構成に含まれる3次元オブジェクト毎の3次元オブジェクト特定情報を格納する。この場合も、複数の構成が1つのシーンディスクリプションに格納される。
 本変形例に係るファイル生成部104は、図34に示すように、MPDのシーンディスクリプションのAdaptationSet46に各構成に含まれる3次元オブジェクト毎の3次元オブジェクト特定情報を格納する。図34は、各構成に含まれる3次元オブジェクト毎の3次元オブジェクト特定情報をMPDのAdaptationSetに格納した場合の状態を表す図である。
 この場合、ファイル生成部104は、図35に示すシンタックスを用いて各構成に含まれる3次元オブジェクト毎の3次元オブジェクト特定情報を格納する。図35は、AdaptationSetに格納される各構成に含まれる3次元オブジェクト毎の3次元オブジェクト特定情報のシンタックスの一例を表す図である。図35におけるOMは、参照する3次元オブジェクト特定情報へのアクセス情報を表す。objectMetadataは、3次元オブジェクト特定情報を含むRepresentation@idを表す。3DObjectは、構成に含まれる3次元オブジェクトを示す。idsは、3次元オブジェクトの3次元オブジェクト特定情報を表す。idsの値には、シーン全体の3次元オブジェクト特定情報に含まれる識別情報が用いられる。idsの値にオブジェクトを複数含む場合は、スペースで区切られる。6DoFContentStructDescriptionは、シーンディスクリプション中のSwitchノードの配下に配置されたノード順に合わせて記載される。3DObject elementは、Groupノードの子ノードの順番に合わせて記載される。
 この場合のクライアント装置2が実行する処理について説明する。クライアント装置2は、シーン全体の3次元オブジェクト特定情報から高精細化して表示する3次元オブジェクトを特定する。次に、クライアント装置2は、AdaptationSetにおける3次元オブジェクト毎の3次元オブジェクト特定情報から、特定した3次元オブジェクトが高精細である構成を選択する。次に、クライアント装置2は、シーンディスクリプションのシーングラフから選択した構成を抽出する。そして、クライアント装置2は、抽出した構成に対応するMPDにおけるAdaptationSetから品質を選択する。
 このように、MPDのAdaptationSetに各構成に含まれる3次元オブジェクト毎の3次元オブジェクト特定情報を格納することで、クライアント装置2は、シーンディスクリプションを取得することなく、シーンディスクリプションに使用する構成が含まれるか否かを判定できる。これにより、シーンディスクリプションに使用する構成が含まれない場合、クライアント装置2は、シーンディスクリプションを解析しなくてもよく不要な処理の実行を削減できる。また、クライアント装置2は、シーンディスクリプションファイルを切替えずに構成を切替えることができる。さらに、構成が時間で変化しない場合、冗長な情報を削減することができる。
 また、本変形例に係るシーンディスクリプションに、第2の実施形態の変形例(7-1)のシーンディスクリプションを組み合わせて使用することも可能である。
 また、ファイル生成部104は、図36に示すように、3次元オブジェクトの構成の異なるシーンはシーンディスクリプション47及び48を分けて、別ファイルとするファイル構成にすることも可能である。図36は、各構成のシーンディスクリプションを分けた場合のシーングラフを表す図である。この場合、ファイル生成部104は、各シーンディスクリプション47及び48に対応するAdaptationSetには、構成を選択するための3次元オブジェクト毎の3次元オブジェクト特定情報を格納する。この場合、ファイル生成部104は、図35に示したシンタックスを用いて3次元オブジェクト特定情報を格納することができる。
 この場合、クライアント装置2は、シーン全体の3次元オブジェクト特定情報から高品質化して表示する3次元オブジェクトを特定する。次に、クライアント装置2は、複数のシーンディスクリプションのAdaptationSetに格納された3次元オブジェクト毎の3次元オブジェクト特定情報を用いて、特定した3次元オブジェクトが高精細である構成を選択する。次に、クライアント装置2は、選択した構成のシーンディスクリプションを解析する。そして、クライアント装置2は、解析したシーンディスクリプションに対応するMPDにおけるAdaptationSetから品質を選択する。
 このように構成毎にシーンディスクリプションを分けることで、クライアント装置2は、シーンディスクリプションを取得せずに、使用する構成が含まれるシーンディスクリプションを特定できる。クライアント装置2は、使用する構成が含まれないシーンディスクリプションの解析を行わなくてよく、不要な処理を削減できる。また、MPDのAdaptationSetに格納する場合に比べて、不要なシーングラフの取得を削減することができる。さらに、構成が時間で変化しない場合は、冗長な情報を削減できる。また、クライアント装置2は、シーンディスクリプションファイルを切替えずに、構成の切替を行うことができる。
 また、ここでは、MPDのAdaptationSetを用いる場合で説明したが、構成毎にシーンディスクリプションを分けた場合、各構成に含まれる3次元オブジェクトの3次元オブジェクト特定情報は、他の場所に格納することも可能である。例えば、ファイル生成部104は、それぞれの構成のシーンディスクリプションのsample entryにおいて図30のContentStructBoxを用いて各構成に含まれる3次元オブジェクトの3次元オブジェクト特定情報を格納することも可能である。この場合、クライアント装置2は、MPDでは構成を判別できないが、各シーンディスクリプションファイルを取得することで、構成に含まれる3次元オブジェクトの3次元オブジェクト特定情報が取得できる。
 以上ではISOBMFFに格納する場合を説明した。ただし、図12に示すMatroska Media Containerを用いて伝送する場合でも各構成の3次元オブジェクト特定情報を格納することが可能である。その場合、ファイル生成部104は、Track Entry elementに、新しく6DoFContentStruct elementを格納する。この際、ファイル生成部104は、Element Typeをbinaryとし、且つ、EBMLデータとして図30に示したContentSturuct()をバイナリデータとして格納する。
 また、以上の説明では、MPEG-4シーンディスクリプションを用いて説明したが、他のシーンディスクリプションを用いる場合でもこれらの高精細3次元オブジェクト特定情報の格納方法は適用可能である。
(3.第3の実施形態)
 空間ベースの手法を用いて6DoFコンテンツを提供する場合、対象物を識別できなければ、コンテンツ作成者の意図する注目すべき3次元オブジェクトを利用者に示すことは困難である。そこで、本実施形態に係るファイル生成装置は、コンテンツ作成者が意図する注目すべき3次元オブジェクトの情報を注目オブジェクト情報として利用者に提供する。以下に、注目オブジェクト情報の提供方法について説明する。本実施形態に係るファイル生成装置も図2のブロック図で表される。
 前処理部102は、3次元オブジェクト特定情報の識別情報を用いて、注目オブジェクト情報をシーンディスクリプション形式で格納する。
 例えば、前処理部102は、図37に示すシンタックスで表されるfiledを含むノードを新しく定義して、注目オブジェクト情報として3次元オブジェクトを判別する識別情報を格納する。図37は、注目オブジェクト情報のノードのシンタックスの一例を表す図である。前処理部102は、図37におけるidsに、注目すべき3次元オブジェクトの識別情報を列挙する。このように、前処理部102は、注目オブジェクト情報のNoticeableObjectノードを用いてシーングラフを生成する。
 また、前処理部102は、図38のように、levelによって注目度を数値で表してもよい。図38は、注目オブジェクト情報とともに注目度示すシンタックスの一例を表す図である。図38におけるlevelは、ids fieldの格納順に、それぞれの3次元オブジェクトの注目度を数値で表す。例えば、levelの値は、数値が小さいほど注目度が高いと定義される。
 ここで、本実施形態では、注目オブジェクト情報を新しく規定したノードに格納したが、前処理部102は、他のノードにfiled及びNoticeableObjectFlagを新しく追加して注目すべきオブジェクトであることを示してもよい。
[3.1-1 第3の実施形態の変形例(1-1)]
 本変形例に係る前処理部102は、ユーザディスクリプション形式で注目オブジェクト情報を格納する。すなわち、前処理部102は、注目オブジェクト情報をユーザディスクリプションに格納する。以下に、ユーザディスクリプション形式で注目オブジェクト情報を格納方法の詳細を説明する。
 前処理部102は、図9に示すVisual3DObjectInfoを用いてユーザディスクリプション形式で3次元オブジェクト特定情報を格納する。さらに、前処理部102は、図39に示すように、注目オブジェクト情報を表すXMLスキーマを追加する。図39は、ユーザディスクリプション形式で注目オブジェクト情報を格納する場合のシンタックスの一例を表す図である。前処理部102は、このXMLスキーマにおいて、ユーザディスクリプションの1つの属性情報として特定オブジェクト情報を格納する。図39におけるelement name = “id”で示される情報が注目すべき3次元オブジェクトの識別情報を表す。idの値は、Visual3DObjectInfoで用いた識別子を用いられる。
 さらに、前処理部102は、図40element name = “level”として、注目度の値を加えてもよい。図40は、ユーザディスクリプション形式で注目オブジェクト情報とともに注目度を示す場合のシンタックスの一例を表す図である。Level情報は、3次元オブジェクトの注目度を数値で表す。levelの値は、例えば、値が小さいほど注目度が高くなるように定義される。
 注目オブジェクト情報をユーザディスクリプション形式で格納する方法として、他にも、前処理部102は、Visual3DObjectInfoに注目すべき対象物であることを表す新しいelement及びNoticeableObjectFlagを追加してもよい。
[3.1-2 第3の実施形態の変形例(1-2)]
 本変形例に係る前処理部102は、独自の形式で注目オブジェクト情報を格納する。すなわち、前処理部102は、注目オブジェクト情報を独自のディスクリプションに格納する。以下に、独自の形式で注目オブジェクト情報を格納方法の詳細を説明する。
 前処理部102は、図10に示すObjectMetadata構造を定義して、そのObjectMetadataに3次元オブジェクト特定情報を格納する。さらに、前処理部102は、図41に示すように、NoticeableObject構造を定義して、そのNoticeableObjectの中に注目オブジェクト情報を格納する。図41は、独自の形式で注目オブジェクト情報を格納する場合のシンタックスの一例を表す図である。図41におけるnum_of_object_idは、3次元オブジェクトの数を表す。また、noticeable_object_idは、注目すべき3次元オブジェクトを表し、その値はObjectMetadataにおけるobject_idが用いられる。
 さらに、前処理部102は、図42に示すように、注目度の値を加えてもよい。図42は、独自の形式で注目オブジェクト情報に加えて注目度を示す場合のシンタックスの一例を表す図である。図42におけるlevelの値は、例えば、値が小さいほど注目度が高くなるように定義される。
 注目オブジェクト情報を独自の形式で格納する方法として、他にも、前処理部102は、ObjectMetadataに注目すべき対象物であることを表す新しいelement及びNoticeableObjectFlagを追加してもよい。
 また、第3の実施形態、並びに、その変形例(1-1)及び(1-2)において、前処理部102は、コンテンツ作成者により指定された注目オブジェクト情報の利用方法に応じて、6DoFコンテンツのデータを構成することも可能である。例えば、前処理部102は、コンテンツ作成者が精細度の変更を指定した場合、注目オブジェクト情報で指定された3次元オブジェクトを他の3次元オブジェクトより精細度を変えて再生することを推奨する情報を利用者に提供してもよい。
[3.2-1 第3の実施形態の変形例(2-1)]
 次に、注目オブジェクト情報を示すデータの格納方法について説明する。本変形例では、注目オブジェクト情報が時間単位で変化しない場合に、注目オブジェクト情報をISOBMFFに格納する場合ついて説明する。
 本変形例に係るファイル生成部104は、注目オブジェクトが時間単位で変化しない場合に、ISOBMFFで注目オブジェクト情報を格納する。ここでは、シーンディスクリプション形式で表される注目オブジェクト特定情報を示すデータを用いる場合で説明する。ただし、ユーザディスクリプション形式を用いた場合や独自の形式を用いた場合も同様の方法で注目オブジェクト特定情報を示すデータを格納したファイルを生成することが可能である。
 ファイル生成部104は、注目オブジェクト情報を格納する新たなボックスを定義して、sample entryで固定的に格納する。図43は、第3の実施形態の変形例(2-1)における注目オブジェクト情報を示すデータを格納するボックスの一例を示す図である。ファイル生成部104は、シーンディスクリプションのトラック、又は、3次元オブジェクト特定情報のトラックのsample entryのいずれかに図43のStaticNoticeableObjectBoxを格納する。
 3次元オブジェクト特定情報が時間単位で変化しない場合に、ISOBMFFで注目オブジェクト情報を格納する方法として、他にも、ファイル生成部104は、MetaBoxに注目オブジェクト情報を格納してもよい。例えば、ファイル生成部104は、MetaBoxのItemInfoEntryにおいて、item_typeを”obmt”として、ItemDataにStaticNoticeableObjectBoxを格納する。他にも、ファイル生成部104は、MetaBoxのItemPropertyを拡張し、ItemProper(‘noob’)としてStaticNoticeableObjectBoxを格納してもよい。
 以上ではISOBMFFに格納する場合を説明した。ただし、図12に示すMatroska Media Containerを用いて伝送する場合でも高精細3次元オブジェクト特定情報を示すデータを送信することが可能である。その場合、ファイル生成部104は、Track Entry elementに、新しくStaticNoticeableObjectStruct elementを格納する。この際、ファイル生成部104は、Element Typeをbinaryとし、且つ、EBMLデータとしてStaticNoticeableObjectStruct()をバイナリデータとして格納する。
[3.2-2 第3の実施形態の変形例(2-2)]
 本変形例では、注目オブジェクト情報が時間単位で変化する場合に、注目オブジェクト情報をISOBMFFに格納する場合について説明する。本変形例に係るファイル生成部104は、注目オブジェクトが時間単位で変化する場合に、ISOBMFFで注目オブジェクト情報を格納する。
 ファイル生成部104は、図13に示す3次元オブジェクト特定情報を示すシーンディスクリプションを格納するためのmetadata fileを、既存のファイルとは別のファイルとして作成する。
 そして、ファイル生成部104は、metadata fileのsampleに、3次元オブジェクト特定情報と同時に注目オブジェクト情報を格納する。ファイル生成部104は、同時に格納する場合、3次元オブジェクト特定情報と注目3次元オブジェクト情報とを別々にアクセスできるようにファイルを生成してもよい。また、ファイル生成部104は、3次元オブジェクト特定情報に注目3次元オブジェクト情報を含めるような構造としてもよい。
 他の方法として、ファイル生成部104は、注目3次元オブジェクト情報のための新しいTimed metadataを定義して、その中に注目3次元オブジェクト情報を格納してもよい。その場合、ファイル生成部104は、新しく定義したTimed metadataにおけるMetadataSampleEntryを拡張して、新しくNoticeableObjectSampleEntry(nobm’)とする。さらに、ファイル生成部104は、sampleに注目3次元オブジェクト情報を格納する。この場合、ファイル生成部104は、ObjectMetadataのTimed metadataのobject_idとの関連を示すために、注目3次元オブジェクト情報トラックに、Track Reference Boxを格納し、reference_type=’cdsc’で3次元オブジェクト特定情報のidを登録してもよい。cdscは、既存の値であるが、別途新たな関連を示す値に替えてもよい。
 また、注目オブジェクト情報に時間単位で変化するものとしない元とが混在する場合、時間単位で変化しない注目オブジェクト情報に関して、ファイル生成部104は、図43のStaticNoticeableObjectBoxを注目オブジェクト情報のトラックもしくはオブジェクト特定トラックに配置する。
[3.3-1 第3の実施形態の変形例(3-1)]
 次に、注目オブジェクト情報又は注目オブジェクト情報のアクセス情報をMPDに格納する場合について説明する。本変形例に係るファイル生成部104は、注目オブジェクトが時間単位で変化しない場合に、注目オブジェクト情報をシーンディスクリプション又は3次元オブジェクトのAdaptationSetに格納する。
 図44は、注目オブジェクト情報を格納するMPDのシンタックスの一例を表す図である。例えば、ファイル生成部104は、図44に示すように、3次元オブジェクトのAdaptationSetにおけるSupplementalPropertyを用いて注目オブジェクト情報を格納する。ファイル生成部104は、shemeIdUri=”StaticNoticeableObject“を新たに定義する。そして、ファイル生成部104は、その中に3次元オブジェクトの識別情報を含むオブジェクト特定情報を示す情報及び注目オブジェクト情報を格納する。図43における、objectMetadataは、オブジェクト特定情報を含むRepresentation@idを表す。また、idは、注目すべき3次元オブジェクトの識別情報を表し、その値には3次元オブジェクト特定情報に含まれる識別情報が用いられる。
 さらに、ファイル生成部104は、図43に示すStaticNoticeableObjectDescriptionの中に注目オブジェクト情報とともに、注目度を数値で格納してもよい。
[3.3-2 第3の実施形態の変形例(3-2)]
 本変形例に係るファイル生成部104は、注目オブジェクトが時間単位で変化する場合のMPDへの注目オブジェクト情報の格納について説明する。
 ファイル生成部104は、注目オブジェクト情報を格納するTimed metadataを新たに定義する。さらに、ファイル生成部104は、注目オブジェクト情報のTimed metadataと注目オブジェクト情報のTimed metadataが関係するシーンディスクリプション又は3次元オブジェクトとを関連付ける。
 また、以上の説明では、MPEG-4シーンディスクリプションを用いて説明したが、他のシーンディスクリプションを用いる場合でもこれらの注目オブジェクト情報の格納方法は適用可能である。
 以上、本開示の実施形態について説明したが、本開示の技術的範囲は、上述の実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、異なる実施形態及び変形例にわたる構成要素を適宜組み合わせてもよい。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また他の効果があってもよい。
 なお、本技術は以下のような構成を取ることもできる。
(1)複数のオブジェクトを単体の3次元オブジェクトとして3次元空間を構成する空間3次元オブジェクトにおいて、
 前記3次元空間に含まれる特定のオブジェクトを識別するためのオブジェクト特定情報を生成する前処理部と、
 前記空間3次元オブジェクトのデータ及び前記オブジェクト特定情報を含むファイルを生成するファイル生成部と
 を備えた情報処理装置。
(2)前記オブジェクト特定情報は、同一のオブジェクトの識別情報、位置情報及び詳細情報を含む付記(1)に記載の情報処理装置。
(3)前記前処理部は、前記オブジェクト特定情報を、シーンディスクリプションにおけるノード、ユーザディスクリプションもしくは独自のディスクリプションのいずれかに格納する付記(2)に記載の情報処理装置。
(4)前記ファイル生成部は、前記前処理部により前記オブジェクト特定情報が格納されたディスクリプション又は前記ディスクリプションへのアクセス情報を、ISO Base Media File Format(ISOBMFF)、もしくは、MPD(Media Presentation Description)におけるシーンディスクリプション又は前記特定のオブジェクトに対応するAdaptationSetのいずれか一方もしくは両方に格納する付記(3)に記載の情報処理装置。
(5)前記ファイル生成部は、前記特定のオブジェクトの前記位置情報が時刻で変化する場合、前記前処理部により前記空間3次元オブジェクトの位置情報と同時に、前記オブジェクト特定情報が格納された前記シーンディスクリプションを、シーンディスクリプションファイルとして生成する付記(3)に記載の情報処理装置。
(6)前記前処理部は、前記オブジェクトのうちの高精細化された高精細オブジェクトの特定情報及び前記高精細オブジェクトの精細度を含む高精細オブジェクト特定情報を生成する付記(1)~(5)のいずれか1項に記載の情報処理装置。
(7)前記前処理部は、前記高精細オブジェクト特定情報を、シーンディスクリプション、ユーザディスクリプション又は独自のディスクリプションのいずれかに格納する付記(6)に記載の情報処理装置。
(8)前記ファイル生成部は、前記前処理部により前記高精細オブジェクト特定情報が格納されたディスクリプション又は前記ディスクリプションへのアクセス情報を、ISOBMFF又はMPDのAdaptationSetのいずれか一方もしくは両方に格納する付記(7)に記載の情報処理装置。
(9)前記前処理部は、前記高精細オブジェクトを高精細化するための差分データを生成し、且つ、前記差分データを特定する情報を生成する付記(6)に記載の情報処理装置。
(10)前記前処理部は、前記高精細オブジェクトの高精細データ及び前記3次元空間から前記高精細オブジェクトを除いた基礎データを生成し、且つ、前記高精細データ及び前記基礎データを特定する情報を生成する付記(6)に記載の情報処理装置。
(11)前記前処理部は、前記3次元オブジェクトに含まれる前記オブジェクト毎にそれぞれに含まれる部分オブジェクトを特定する情報を生成し、前記オブジェクト毎に含まれる前記部分オブジェクトを特定する情報をシーンディスクリプション又はMPDのAdaptationSetのいずれか一方もしくは両方に格納する付記(6)に記載の情報処理装置。
(12)前記前処理部は、前記オブジェクトのうちの所定の注目オブジェクトの識別情報及び前記注目オブジェクトの注目度情報を含む注目オブジェクト情報を生成する付記(1)~(11)のいずれか1項に記載の情報処理装置。
(13)前記前処理部は、前記注目オブジェクト情報を、シーンディスクリプション、ユーザディスクリプション又は独自のディスクリプションのいずれかに格納する付記(12)に記載の情報処理装置。
(14)前記ファイル生成部は、前記前処理部により前記注目オブジェクト情報が格納されたディスクリプション又は前記ディスクリプションへのアクセス情報を、ISOBMFF又はMPDのAdaptationSetのいずれか一方もしくは両方に格納する付記(13)に記載の情報処理装置。
(15)複数のオブジェクトを単体の3次元オブジェクトとして3次元空間を構成する空間3次元オブジェクトにおいて、
 前記3次元空間に含まれる特定のオブジェクトを識別するためのオブジェクト特定情報を生成する
 処理をコンピュータに実行させる情報処理方法。
(16)複数のオブジェクトを単体の3次元オブジェクトとして3次元空間を構成する空間3次元オブジェクトのコンテンツ及び前記空間3次元オブジェクトに含まれる特定のオブジェクトを識別するためのオブジェクト特定情報を含むファイルを受信する受信部と、
 前記受信部により受信された前記ファイルから前記オブジェクト特定情報を取得し、取得した前記オブジェクト特定情報を基に、前記空間3次元オブジェクトの中から前記特定のオブジェクトを特定する情報処理部と、
 前記情報処理部による特定結果を基に、前記コンテンツを再生する再生部と
 を備えた再生処理装置。
(17)複数のオブジェクトを単体の3次元オブジェクトとして3次元空間を構成する空間3次元オブジェクトのコンテンツ及び前記空間3次元オブジェクトに含まれる特定のオブジェクトを識別するためのオブジェクト特定情報を含むファイルを受信し、
 受信した前記ファイルから前記オブジェクト特定情報を取得し、
 取得した前記オブジェクト特定情報を基に、前記3次元空間の中から前記特定のオブジェクトを特定し、
 特定結果を基に、前記コンテンツを再生する
 処理をコンピュータに実行させる再生処理方法。
 1 ファイル生成装置
 2 クライアント装置
 3 Webサーバ
 4 ネットワーク
 10 生成処理部
 11 制御部
 20 再生処理部
 21 制御部
 101 データ入力部
 102 前処理部
 103 符号化部
 104 ファイル生成部
 105 送信部
 201 ファイル取得部
 202 計測部
 203 ファイル処理部
 204 復号処理部
 205 表示制御部
 206 表示情報生成部
 207 表示部

Claims (17)

  1.  複数のオブジェクトを単体の3次元オブジェクトとして3次元空間を構成する空間3次元オブジェクトにおいて、
     前記3次元空間に含まれる特定のオブジェクトを識別するためのオブジェクト特定情報を生成する前処理部と、
     前記空間3次元オブジェクトのデータ及び前記オブジェクト特定情報を含むファイルを生成するファイル生成部と
     を備えた情報処理装置。
  2.  前記オブジェクト特定情報は、同一のオブジェクトの識別情報、位置情報及び詳細情報を含む請求項1に記載の情報処理装置。
  3.  前記前処理部は、前記オブジェクト特定情報を、シーンディスクリプションにおけるノード、ユーザディスクリプションもしくは独自のディスクリプションのいずれかに格納する請求項2に記載の情報処理装置。
  4.  前記ファイル生成部は、前記前処理部により前記オブジェクト特定情報が格納されたディスクリプション又は前記ディスクリプションへのアクセス情報を、ISO Base Media File Format(ISOBMFF)、もしくは、MPD(Media Presentation Description)におけるシーンディスクリプション又は前記特定のオブジェクトに対応するAdaptationSetのいずれか一方もしくは両方に格納する請求項3に記載の情報処理装置。
  5.  前記ファイル生成部は、前記特定のオブジェクトの前記位置情報が時刻で変化する場合、前記前処理部により前記空間3次元オブジェクトの位置情報と同時に、前記オブジェクト特定情報が格納された前記シーンディスクリプションを、シーンディスクリプションファイルとして生成する請求項3に記載の情報処理装置。
  6.  前記前処理部は、前記オブジェクトのうちの高精細化された高精細オブジェクトの特定情報及び前記高精細オブジェクトの精細度を含む高精細オブジェクト特定情報を生成する請求項1に記載の情報処理装置。
  7.  前記前処理部は、前記高精細オブジェクト特定情報を、シーンディスクリプション、ユーザディスクリプション又は独自のディスクリプションのいずれかに格納する請求項6に記載の情報処理装置。
  8.  前記ファイル生成部は、前記前処理部により前記高精細オブジェクト特定情報が格納されたディスクリプション又は前記ディスクリプションへのアクセス情報を、ISOBMFF又はMPDのAdaptationSetのいずれか一方もしくは両方に格納する請求項7に記載の情報処理装置。
  9.  前記前処理部は、前記高精細オブジェクトを高精細化するための差分データを生成し、且つ、前記差分データを特定する情報を生成する請求項6に記載の情報処理装置。
  10.  前記前処理部は、前記高精細オブジェクトの高精細データ及び前記3次元空間から前記高精細オブジェクトを除いた基礎データを生成し、且つ、前記高精細データ及び前記基礎データを特定する情報を生成する請求項6に記載の情報処理装置。
  11.  前記前処理部は、前記3次元オブジェクトに含まれる前記オブジェクト毎にそれぞれに含まれる部分オブジェクトを特定する情報を生成し、前記オブジェクト毎に含まれる前記部分オブジェクトを特定する情報をシーンディスクリプション又はMPDのAdaptationSetのいずれか一方もしくは両方に格納する請求項6に記載の情報処理装置。
  12.  前記前処理部は、前記オブジェクトのうちの所定の注目オブジェクトの識別情報及び前記注目オブジェクトの注目度情報を含む注目オブジェクト情報を生成する請求項1に記載の情報処理装置。
  13.  前記前処理部は、前記注目オブジェクト情報を、シーンディスクリプション、ユーザディスクリプション又は独自のディスクリプションのいずれかに格納する請求項12に記載の情報処理装置。
  14.  前記ファイル生成部は、前記前処理部により前記注目オブジェクト情報が格納されたディスクリプション又は前記ディスクリプションへのアクセス情報を、ISOBMFF又はMPDのAdaptationSetのいずれか一方もしくは両方に格納する請求項13に記載の情報処理装置。
  15.  複数のオブジェクトを単体の3次元オブジェクトとして3次元空間を構成する空間3次元オブジェクトにおいて、
     前記3次元空間に含まれる特定のオブジェクトを識別するためのオブジェクト特定情報を生成する
     処理をコンピュータに実行させる情報処理方法。
  16.  複数のオブジェクトを単体の3次元オブジェクトとして3次元空間を構成する空間3次元オブジェクトのコンテンツ及び前記空間3次元オブジェクトに含まれる特定のオブジェクトを識別するためのオブジェクト特定情報を含むファイルを受信する受信部と、
     前記受信部により受信された前記ファイルから前記オブジェクト特定情報を取得し、取得した前記オブジェクト特定情報を基に、前記空間3次元オブジェクトの中から前記特定のオブジェクトを特定する情報処理部と、
     前記情報処理部による特定結果を基に、前記コンテンツを再生する再生部と
     を備えた再生処理装置。
  17.  複数のオブジェクトを単体の3次元オブジェクトとして3次元空間を構成する空間3次元オブジェクトのコンテンツ及び前記空間3次元オブジェクトに含まれる特定のオブジェクトを識別するためのオブジェクト特定情報を含むファイルを受信し、
     受信した前記ファイルから前記オブジェクト特定情報を取得し、
     取得した前記オブジェクト特定情報を基に、前記3次元空間の中から前記特定のオブジェクトを特定し、
     特定結果を基に、前記コンテンツを再生する
     処理をコンピュータに実行させる再生処理方法。
PCT/JP2020/003174 2019-03-20 2020-01-29 情報処理装置、情報処理方法、再生処理装置及び再生処理方法 WO2020189038A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US17/431,720 US11825135B2 (en) 2019-03-20 2020-01-29 Information processing apparatus, information processing method, reproduction processing apparatus, and reproduction processing method
JP2021506217A JP7480773B2 (ja) 2019-03-20 2020-01-29 情報処理装置、情報処理方法、再生処理装置及び再生処理方法
CN202080020931.1A CN113574902A (zh) 2019-03-20 2020-01-29 信息处理装置、信息处理方法、再现处理装置和再现处理方法
EP20774519.1A EP3944629A4 (en) 2019-03-20 2020-01-29 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, READ PROCESSING DEVICE AND READ PROCESSING METHOD

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201962821047P 2019-03-20 2019-03-20
US62/821,047 2019-03-20
US201962866334P 2019-06-25 2019-06-25
US62/866,334 2019-06-25

Publications (1)

Publication Number Publication Date
WO2020189038A1 true WO2020189038A1 (ja) 2020-09-24

Family

ID=72520730

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/003174 WO2020189038A1 (ja) 2019-03-20 2020-01-29 情報処理装置、情報処理方法、再生処理装置及び再生処理方法

Country Status (5)

Country Link
US (1) US11825135B2 (ja)
EP (1) EP3944629A4 (ja)
JP (1) JP7480773B2 (ja)
CN (1) CN113574902A (ja)
WO (1) WO2020189038A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022070903A1 (ja) * 2020-09-29 2022-04-07 ソニーグループ株式会社 情報処理装置および方法
WO2022075342A1 (ja) * 2020-10-07 2022-04-14 ソニーグループ株式会社 情報処理装置および方法
WO2022220291A1 (ja) * 2021-04-15 2022-10-20 ソニーグループ株式会社 情報処理装置および方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220012740A (ko) * 2020-07-23 2022-02-04 삼성전자주식회사 통신 시스템에서 컨텐츠의 송수신을 제어하기 위한 방법 및 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007334739A (ja) * 2006-06-16 2007-12-27 Toyota Infotechnology Center Co Ltd 画像生成装置
WO2018097882A1 (en) * 2016-11-23 2018-05-31 3Dsystems, Inc. System and method for rendering complex data in a virtual reality or augmented reality environment

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050036722A (ko) * 2003-10-14 2005-04-20 삼성전자주식회사 3차원 객체 그래픽 처리장치 및 3차원 신 그래프 처리장치
GB2560921B (en) * 2017-03-27 2020-04-08 Canon Kk Method and apparatus for encoding media data comprising generated content
US11290758B2 (en) * 2017-08-30 2022-03-29 Samsung Electronics Co., Ltd. Method and apparatus of point-cloud streaming
WO2020071632A1 (ko) * 2018-10-02 2020-04-09 엘지전자 주식회사 360 비디오 시스템에서 오버레이 처리 방법 및 그 장치
CN112997219A (zh) * 2018-11-16 2021-06-18 松下电器(美国)知识产权公司 三维数据编码方法、三维数据解码方法、三维数据编码装置及三维数据解码装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007334739A (ja) * 2006-06-16 2007-12-27 Toyota Infotechnology Center Co Ltd 画像生成装置
WO2018097882A1 (en) * 2016-11-23 2018-05-31 3Dsystems, Inc. System and method for rendering complex data in a virtual reality or augmented reality environment

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3944629A4 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022070903A1 (ja) * 2020-09-29 2022-04-07 ソニーグループ株式会社 情報処理装置および方法
WO2022075342A1 (ja) * 2020-10-07 2022-04-14 ソニーグループ株式会社 情報処理装置および方法
WO2022220291A1 (ja) * 2021-04-15 2022-10-20 ソニーグループ株式会社 情報処理装置および方法

Also Published As

Publication number Publication date
EP3944629A1 (en) 2022-01-26
JPWO2020189038A1 (ja) 2020-09-24
US20220159316A1 (en) 2022-05-19
US11825135B2 (en) 2023-11-21
JP7480773B2 (ja) 2024-05-10
EP3944629A4 (en) 2022-05-25
CN113574902A (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
WO2020189038A1 (ja) 情報処理装置、情報処理方法、再生処理装置及び再生処理方法
JP7263583B2 (ja) タイムドメディアデータのストリーミング中にレンダリング表示を改善するための方法、デバイス及びコンピュータプログラム
US10171541B2 (en) Methods, devices, and computer programs for improving coding of media presentation description data
CN110506423A (zh) 对包括所生成的内容的媒体数据进行编码的方法和设备
CN106471574B (zh) 信息处理装置和信息处理方法
US20220053224A1 (en) Information processing apparatus and method
WO2019202207A1 (en) Processing video patches for three-dimensional content
JP2022106944A (ja) 高品質のエクスペリエンスのためのオーディオメッセージの効率的な配信および使用のための方法および装置
JPWO2020137642A1 (ja) 情報処理装置および情報処理方法
GB2509953A (en) Displaying a Region of Interest in a Video Stream by Providing Links Between Encapsulated Video Streams
JP7439762B2 (ja) 情報処理装置および情報処理方法、並びにプログラム
WO2021065277A1 (ja) 情報処理装置、再生処理装置及び情報処理方法
WO2020261690A1 (ja) 情報処理装置、情報処理方法、再生処理装置及び再生処理方法
JP7287454B2 (ja) 情報処理装置、再生処理装置、情報処理方法及び再生処理方法
JP6632550B2 (ja) タイムピリオドにまたがってオブジェクトを識別する方法および対応デバイス
JPWO2020137854A1 (ja) 情報処理装置および情報処理方法
WO2021065605A1 (ja) 情報処理装置および情報処理方法
WO2021002338A1 (ja) 情報処理装置、情報処理方法、再生処理装置及び再生処理方法
US20220150552A1 (en) Information processing apparatus, information processing method, reproduction processing device, and reproduction processing method
US20220239994A1 (en) Information processing apparatus, information processing method, reproduction processing apparatus, and reproduction processing method
WO2022054744A1 (ja) 情報処理装置および方法
JP4017436B2 (ja) 3次元動画像データの提供方法とその表示方法、該提供システムと該表示端末、該方法の実行プログラム、および該方法の実行プログラムを記録した記録媒体
WO2023204289A1 (ja) 情報処理装置および方法
Lee et al. Design and implementation of XMT-A to/from MP4 converter for authoring and retrieving MPEG-4/7 based interactive contents
VRT et al. First Version of Playout Clients

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20774519

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021506217

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020774519

Country of ref document: EP

Effective date: 20211020