WO2023176928A1 - 情報処理装置および方法 - Google Patents

情報処理装置および方法 Download PDF

Info

Publication number
WO2023176928A1
WO2023176928A1 PCT/JP2023/010321 JP2023010321W WO2023176928A1 WO 2023176928 A1 WO2023176928 A1 WO 2023176928A1 JP 2023010321 W JP2023010321 W JP 2023010321W WO 2023176928 A1 WO2023176928 A1 WO 2023176928A1
Authority
WO
WIPO (PCT)
Prior art keywords
media
data
description
file
interaction
Prior art date
Application number
PCT/JP2023/010321
Other languages
English (en)
French (fr)
Inventor
光浩 平林
遼平 高橋
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023176928A1 publication Critical patent/WO2023176928A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware

Definitions

  • the present disclosure relates to an information processing device and method, and particularly relates to an information processing device and method that can suppress reduction in playback performance of media data associated with 3D data.
  • glTF The GL Transmission Format
  • 3D three-dimensional objects in three-dimensional space
  • Non-Patent Document 5 In parallel with the standardization of coding and transmission technology for haptic media, research has begun to search for a technology for handling haptic media in MPEG-I Scene Description (see, for example, Non-Patent Document 5).
  • the present disclosure has been made in view of this situation, and is intended to suppress reduction in playback performance of media data associated with 3D data.
  • An information processing device includes an acquisition unit that acquires encoded data of dynamic haptic media associated with 3D data to be played based on a description of a scene description file; a decoding unit that decodes the encoded data and generates the haptic media data based on the description of the scene description file; and a decoding unit that generates the haptic media data based on the description of the scene description file; a storage unit that stores data in a storage area; and a generation unit that reads data of the haptic media stored in the storage area and generates haptic media information for output based on the description of the scene description file.
  • An information processing device comprising:
  • An information processing method obtains encoded data of dynamic haptic media associated with 3D data to be played based on the description of a scene description file, and decoding the encoded data based on the description, generating data of the haptic media, and storing the data of the haptic media in a storage area corresponding to an accessor specified by the scene description file;
  • the information processing method reads data of the haptic media stored in the storage area based on the description of the scene description file, and generates haptic media information for output.
  • An information processing device includes a file generation unit that generates a scene description file that specifies an accessor for storing dynamic haptic media associated with 3D data in a predetermined storage area. It is an information processing device.
  • An information processing method is an information processing method that generates a scene description file that specifies an accessor for storing dynamic haptic media associated with 3D data in a predetermined storage area. .
  • the information processing device acquires encoded data of the interaction-type media associated with 3D data to be played, based on a description of the interaction-type media included in a scene description file. and a decoding unit that decodes the acquired encoded data and generates data of the interaction type media based on the description of the scene description file.
  • An information processing method obtains encoded data of the interaction-type media associated with 3D data to be played, based on a description of the interaction-type media included in a scene description file;
  • the information processing method decodes the acquired encoded data based on the description of the scene description file and generates data of the interaction type media.
  • An information processing device is an information processing device including a file generation unit that generates a scene description file that includes a description of interaction media associated with 3D data.
  • An information processing method is an information processing method that generates a scene description file that includes a description of interaction media associated with 3D data.
  • encoded data of dynamic haptic media associated with 3D data to be played back is acquired based on the description of the scene description file, and the scene disc is Based on the description in the scene description file, the encoded data is decoded to generate haptic media data, and the haptic media data is stored in the storage area corresponding to the accessor specified by the scene description file. Based on the description in the scene description file, the haptic media data stored in the storage area is read out, and haptic media information for output is generated.
  • a scene description file is generated that specifies an accessor for storing dynamic haptic media associated with 3D data in a predetermined storage area.
  • encoded data of the interaction-type media associated with the 3D data to be played is determined based on the description of the interaction-type media included in the scene description file.
  • the acquired encoded data is decoded based on the description of the scene description file, and interaction media data is generated.
  • a scene description file is generated that includes a description of interaction media associated with 3D data.
  • FIG. 2 is a diagram showing an example of the main configuration of glTF2.0.
  • FIG. 3 is a diagram showing an example of glTF objects and reference relationships.
  • FIG. 3 is a diagram illustrating a description example of a scene description.
  • FIG. 3 is a diagram illustrating a method of accessing binary data.
  • FIG. 3 is a diagram illustrating a description example of a scene description.
  • FIG. 2 is a diagram illustrating the relationship between a buffer object, a buffer view object, and an accessor object.
  • FIG. 7 is a diagram showing an example of description of buffer object, buffer view object, and accessor object.
  • FIG. 2 is a diagram illustrating a configuration example of an object of a scene description.
  • FIG. 3 is a diagram illustrating a description example of a scene description.
  • FIG. 3 is a diagram illustrating a method for expanding an object.
  • FIG. 2 is a diagram illustrating the configuration of client processing.
  • FIG. 3 is a diagram illustrating a configuration example of an extension for handling timed metadata.
  • FIG. 3 is a diagram illustrating a description example of a scene description.
  • FIG. 3 is a diagram illustrating a description example of a scene description.
  • FIG. 3 is a diagram illustrating a configuration example of an extension for handling timed metadata.
  • FIG. 2 is a diagram showing an example of the main configuration of a client. 3 is a flowchart illustrating an example of the flow of client processing.
  • FIG. 2 is a diagram illustrating an overview of haptic media encoding.
  • FIG. 3 is a diagram illustrating an example of expanding ISOBMFF for storing haptic media.
  • FIG. 7 is a diagram illustrating an example of expanding scene descriptions for handling haptic media.
  • FIG. 3 is a diagram illustrating an example of how haptic media is played.
  • FIG. 7 is a diagram illustrating an example of expanding scene descriptions for handling haptic media.
  • FIG. 7 is a diagram illustrating an example of specifying an accessor corresponding to a buffer that stores dynamic haptic media.
  • FIG. 3 is a diagram illustrating an example of a description of dynamic haptic media in a scene description.
  • FIG. 3 is a diagram illustrating an example of element semantics.
  • FIG. 3 is a diagram illustrating an example of a scene description regarding interaction-type media.
  • FIG. 3 is a diagram illustrating an example of element semantics.
  • FIG. 3 is a diagram illustrating an example of element semantics.
  • FIG. 3 is a diagram illustrating an example of a scene description regarding interaction-type media.
  • FIG. 3 is a diagram illustrating an example of element semantics.
  • FIG. 2 is a block diagram showing an example of the main configuration of a file generation device. 3 is a flowchart illustrating an example of the flow of file generation processing.
  • FIG. 2 is a block diagram showing an example of the main configuration of a client device.
  • 3 is a flowchart illustrating an example of the flow of reproduction processing.
  • 1 is a block diagram showing an example of the main configuration of a computer.
  • Non-patent document 1 (mentioned above)
  • Non-patent document 2 (mentioned above)
  • Non-patent document 3 (mentioned above)
  • Non-patent document 4 (mentioned above)
  • Non-patent document 5 (mentioned above)
  • the contents described in the above-mentioned non-patent documents and the contents of other documents referred to in the above-mentioned non-patent documents are also the basis for determining support requirements.
  • the syntax and terms such as glTF2.0 and its extension described in Non-Patent Documents 1 to 3 are not directly defined in this disclosure, they are within the scope of this disclosure and are claimed. shall meet the support requirements for the following:
  • technical terms such as parsing, syntax, and semantics are also within the scope of this disclosure and are claimed even if they are not directly defined in this disclosure. shall meet the support requirements for the following:
  • glTF The GL Transmission Format
  • glTF2.0 for example, as shown in FIG. 1, is composed of a JSON format file (.glTF), a binary file (.bin), and an image file (.png, .jpg, etc.).
  • Binary files store binary data such as geometry and animation.
  • the image file stores data such as texture.
  • the JSON format file is a scene description file written in JSON (JavaScript (registered trademark) Object Notation).
  • a scene description is metadata that describes (an explanation of) a scene of 3D content. This scene description defines what kind of scene it is.
  • a scene description file is a file that stores such scene descriptions. In this disclosure, the scene description file is also referred to as a scene description file.
  • JSON format file consists of a list of key (KEY) and value (VALUE) pairs.
  • KEY key
  • VALUE value
  • the key is composed of a character string. Values are composed of numbers, strings, boolean values, arrays, objects, null, etc.
  • key-value pairs (“KEY”:”VALUE”) can be grouped together using ⁇ (curly braces).
  • curly braces
  • the object grouped in curly braces is also called a JSON object.
  • An example of the format is shown below. “user”: ⁇ "id”:1, "name”:"tanaka” ⁇
  • JSON object containing the "id”:1 pair and "name”:"tanaka” pair is defined as the value corresponding to the key (user).
  • zero or more values can be arrayed using square brackets ([]).
  • This array is also called a JSON array.
  • a JSON object can also be applied as an element of this JSON array.
  • An example of the format is shown below.
  • Figure 2 shows the glTF objects that can be written at the top of a JSON format file and the reference relationships they can have.
  • the long circles in the tree structure shown in FIG. 2 indicate objects, and the arrows between the objects indicate reference relationships.
  • objects such as "scene”, “node”, “mesh”, “camera”, “skin”, “material”, and “texture” are written at the top of the JSON format file.
  • FIG. 3 An example of the description of such a JSON format file (scene description) is shown in Figure 3.
  • the JSON format file 20 in FIG. 3 shows a description example of a part of the top level.
  • this top level object 21 is the glTF object shown in FIG.
  • reference relationships between objects are shown as arrows 22. More specifically, the reference relationship is indicated by specifying the index of the element in the array of the referenced object in the property of the higher-level object.
  • FIG. 4 is a diagram illustrating a method of accessing binary data.
  • binary data is stored in a buffer object.
  • information for accessing binary data eg, URI (Uniform Resource Identifier), etc.
  • URI Uniform Resource Identifier
  • FIG. 4 is a diagram illustrating a method of accessing binary data.
  • binary data is stored in a buffer object.
  • information for accessing binary data eg, URI (Uniform Resource Identifier), etc.
  • URI Uniform Resource Identifier
  • Figure 5 shows a description example of a mesh object (mesh) in a JSON format file.
  • vertex attributes such as NORMAL, POSITION, TANGENT, and TEXCORD_0 are defined as keys, and for each attribute, the referenced accessor object is specified as a value. has been done.
  • Figure 6 shows the relationship between the buffer object, buffer view object, and accessor object. Furthermore, an example of description of these objects in the JSON format file is shown in FIG.
  • the buffer object 41 is an object that stores information (URI, etc.) for accessing binary data, which is real data, and information indicating the data length (for example, byte length) of the binary data.
  • a in FIG. 7 shows an example of the description of the buffer object 41.
  • "bytelength”:102040" shown in A of FIG. 7 indicates that the byte length of the buffer object 41 is 102040 bytes, as shown in FIG. 6.
  • "uri”:"duck.bin” shown in A of FIG. 7 indicates that the URI of the buffer object 41 is "duck.bin", as shown in FIG.
  • the buffer view object 42 is an object that stores information regarding a subset area of binary data specified in the buffer object 41 (that is, information regarding a partial area of the buffer object 41).
  • B in FIG. 7 shows an example of the description of the buffer view object 42.
  • the buffer view object 42 indicates, for example, the identification information of the buffer object 41 to which the buffer view object 42 belongs, and the position of the buffer view object 42 within the buffer object 41.
  • Information such as an offset (for example, byte offset) and a length (for example, byte length) indicating the data length (for example, byte length) of the buffer view object 42 is stored.
  • each buffer view object that is, for each subset area.
  • information such as “buffer”:0”, “bytelength”:25272", and “byteOffset”:0 shown in the upper part of B in FIG. 7 is shown in the buffer object 41 in FIG. This is information about the first buffer view object 42 (bufferView[0]).
  • information such as "buffer”:0, "bytelength”:76768, and "byteOffset”:25272, shown at the bottom of B in FIG. 7, is shown in the buffer object 41 in FIG. This is information about the second buffer view object 42 (bufferView[1]) that is displayed.
  • buffer:0 of the first buffer view object 42 (bufferView[0]) shown in B of FIG. This indicates that the identification information of the buffer object 41 to which the buffer object 41 belongs is “0" (Buffer[0]). Further, “bytelength”:25272” indicates that the byte length of the buffer view object 42 (bufferView[0]) is 25272 bytes. Furthermore, “byteOffset”:0 indicates that the byte offset of the buffer view object 42 (bufferView[0]) is 0 bytes.
  • buffer “buffer”:0" of the second buffer view object 42 (bufferView[1]) shown in B of FIG. This indicates that the identification information of the buffer object 41 to which the buffer object 41 belongs is “0" (Buffer[0]). Further, “bytelength”:76768” indicates that the byte length of the buffer view object 42 (bufferView[0]) is 76768 bytes. Further, “byteOffset”:25272” indicates that the byte offset of the buffer view object 42 (bufferView[0]) is 25272 bytes.
  • the accessor object 43 is an object that stores information regarding how to interpret the data of the buffer view object 42.
  • C in FIG. 7 shows a description example of the accessor object 43.
  • the accessor object 43 includes, for example, identification information of the buffer view object 42 to which the accessor object 43 belongs, and an offset indicating the position of the buffer view object 42 within the buffer object 41. (for example, byte offset), the component type of the buffer view object 42, the number of data stored in the buffer view object 42, the type of data stored in the buffer view object 42, and the like. This information is written for each buffer view object.
  • bufferView In the example of C in Figure 7, "bufferView”:0”, “byteOffset”:0”, “componentType”:5126”, “count”:2106", “type”:”VEC3”, etc. information is shown.
  • “bufferView”:0” indicates that the identification information of the buffer view object 42 to which the accessor object 43 belongs is “0" (bufferView[0]), as shown in FIG.
  • “byteOffset”:0” indicates that the byte offset of the buffer view object 42 (bufferView[0]) is 0 bytes.
  • componentType FLOAT type (OpenGL macro constant).
  • count indicates that the number of data stored in the buffer view object 42 (bufferView[0]) is 2106.
  • type indicates that (the type of) data stored in the buffer view object 42 (bufferView[0]) is a three-dimensional vector.
  • a point cloud is 3D content that represents a three-dimensional structure (three-dimensional object) as a collection of many points.
  • Point cloud data is composed of position information (also referred to as geometry) and attribute information (also referred to as attribute) for each point.
  • Attributes can contain arbitrary information.
  • the attributes may include color information, reflectance information, normal line information, etc. of each point. In this way, the point cloud has a relatively simple data structure, and by using a sufficiently large number of points, any three-dimensional structure can be expressed with sufficient accuracy.
  • FIG. 8 is a diagram illustrating an example of the configuration of objects in a scene description when the point cloud is static.
  • FIG. 9 is a diagram showing an example of the scene description.
  • the mode of the primitives object is specified as 0, indicating that data is treated as a point in a point cloud.
  • an accessor to a buffer that stores the position information of a point is specified. Ru.
  • an accessor to a buffer that stores color information of a point (Point) is specified. There may be one buffer and one buffer view (data may be stored in one file).
  • Each glTF2.0 object can store newly defined objects in an extension object.
  • FIG. 10 shows a description example when defining a newly defined object (ExtensionExample). As shown in FIG. 10, when using a newly defined extension, the extension object name (ExtensionExample in the example of FIG. 10) is written in "extensionUsed" and "extensionRequired". This indicates that this extension is an extension that will be used or an extension that is required for loading.
  • the client device acquires a scene description, acquires 3D object data based on the scene description, and generates a display image using the scene description and 3D object data.
  • a presentation engine, a media access function, etc. perform processing.
  • the presentation engine 51 of the client device 50 acquires the initial value of a scene description and information for updating the scene description (hereinafter also referred to as update information). and generates a scene description at the time to be processed. Then, the presentation engine 51 analyzes the scene description and specifies the media (video, audio, etc.) to be played. The presentation engine 51 then requests the media access function 52 to acquire the media via the media access API (Application Program Interface).
  • the presentation engine 51 also performs pipeline processing settings, buffer designation, and the like.
  • the media access function 52 acquires various media data requested by the presentation engine 51 from the cloud, local storage, etc.
  • the media access function 52 supplies various data (encoded data) of the acquired media to a pipeline 53.
  • the pipeline 53 decodes various data (encoded data) of the supplied media by pipeline processing, and supplies the decoding results to a buffer 54.
  • the buffer 54 holds various data on the supplied media.
  • the presentation engine 51 performs rendering and the like using various media data held in the buffer 54.
  • Timed media is media data that changes in the time axis direction, such as a moving image in a two-dimensional image.
  • glTF was applicable only to still image data as media data (3D object content). In other words, glTF did not support video media data.
  • animation a method of switching still images along the time axis
  • MPEG-I Scene Description applies glTF2.0, applies JSON format files as scene descriptions, and extends glTF so that it can handle timed media (e.g. video data) as media data. It is being considered to do so.
  • timed media e.g. video data
  • the following extensions are made, for example.
  • FIG. 12 is a diagram illustrating an extension for handling timed media.
  • the MPEG media object (MPEG_media) is an extension of glTF, and is an object that specifies attributes of MPEG media such as video data, such as uri, track, renderingRate, and startTime.
  • an MPEG texture video object (MPEG_texture_video) is provided as an extension object (extensions) of the texture object (texture).
  • the MPEG texture video object stores information on the accessor corresponding to the buffer object to be accessed.
  • the MPEG texture video object is an object that specifies the index of the accessor that corresponds to the buffer in which the texture media specified by the MPEG media object (MPEG_media) is decoded and stored. .
  • FIG. 13 is a diagram showing a description example of an MPEG media object (MPEG_media) and an MPEG texture video object (MPEG_texture_video) in a scene description to explain the extension for handling timed media.
  • MPEG_media MPEG media object
  • MPEG_texture_video MPEG texture video object
  • an MPEG texture video object MPEG_texture_video
  • extension object extensions
  • the accessor index (“2" in this example) is specified as the value of the MPEG video texture object.
  • an MPEG media object (MPEG_media) is set as an extension object (extensions) of glTF in the 7th to 16th lines from the top, as shown below.
  • MPEG media object various information regarding the MPEG media object, such as the encoding and URI of the MPEG media object, is stored.
  • each frame data is decoded and sequentially stored in a buffer, but its position etc. changes, so the scene description stores this changing information so that the renderer can read the data.
  • a system will be established to do so.
  • an MPEG buffer circular object (MPEG_buffer_circular) is provided as an extension object (extensions) of the buffer object (buffer).
  • the MPEG buffer circular object stores information for dynamically storing data within the buffer object. For example, information such as information indicating the data length of the buffer header (bufferHeader) and information indicating the number of frames is stored in this MPEG buffer circular object.
  • the buffer header stores information such as, for example, an index, a timestamp and data length of the frame data to be stored.
  • an MPEG accessor timed object (MPEG_timed_accessor) is provided as an extension object (extensions) of the accessor object (accessor).
  • the buffer view object (bufferView) referred to in the time direction may change (the position may vary). Therefore, information indicating the referenced buffer view object is stored in this MPEG accessor timed object.
  • an MPEG accessor timed object stores information indicating a reference to a buffer view object (bufferView) in which a timed accessor information header is written.
  • the timed accessor information header is, for example, header information that stores information in a dynamically changing accessor object and a buffer view object.
  • FIG. 14 is a diagram showing a description example of an MPEG buffer circular object (MPEG_buffer_circular) and an MPEG accessor timed object (MPEG_accessor_timed) in a scene description to explain the extension for handling timed media.
  • MPEG_buffer_circular MPEG buffer circular object
  • MPEG_accessor_timed MPEG accessor timed object
  • an MPEG accessor timed object MPEG_accessor_timed
  • Parameters and their values such as the index of the buffer view object (in this example, "1"), update rate (updataRate), and immutable information (immutable), are specified as the value of the MPEG accessor timed object.
  • an MPEG buffer circular object (MPEG_buffer_circular) is set as an extension object (extensions) of the buffer object (buffer), as shown below.
  • Parameters such as buffer frame count (count), header length (headerLength), and update rate (updataRate) and their values are specified as values of the MPEG buffer circular object.
  • FIG. 15 is a diagram for explaining an extension for handling timed media.
  • FIG. 15 shows an example of the relationship between an MPEG accessor timed object, an MPEG buffer circular object, an accessor object, a buffer view object, and a buffer object.
  • the MPEG buffer circular object of the buffer object stores time-varying data in the buffer area indicated by the buffer object, such as buffer frame count (count), header length (headerLength), update rate (updataRate), etc.
  • the information necessary to do so is stored.
  • parameters such as an index (idex), a timestamp (timestamp), and a data length (length) are stored in a buffer header (bufferHeader) that is a header of the buffer area.
  • the MPEG accessor timed object of the accessor object stores information about the referenced buffer view object, such as the buffer view object index (bufferView), update rate (updataRate), immutable information (immutable), etc. Ru. Additionally, this MPEG accessor timed object stores information regarding the buffer view object in which the timed accessor information header to be referenced is stored. A timestamp delta (timestamp_delta), update data of an accessor object, update data of a buffer view object, etc. can be stored in the timed accessor information header.
  • timestamp delta timestamp_delta
  • the scene description is spatial arrangement information for arranging one or more 3D objects in 3D space.
  • the contents of this scene description can be updated along the time axis. In other words, the placement of 3D objects can be updated over time.
  • the client processing performed in the client device at that time will be explained.
  • FIG. 16 shows an example of the main configuration of the client device regarding client processing
  • FIG. 17 is a flowchart showing an example of the flow of the client processing
  • the client device includes a presentation engine (hereinafter also referred to as PE) 51, a media access function (MediaAccessFuncon (hereinafter also referred to as MAF)) 52, a pipeline (Pipeline) 53, and a buffer. (Buffer) 54.
  • the presentation engine (PE) 51 includes a glTF analysis section 63 and a rendering processing section 64.
  • the presentation engine (PE) 51 causes the media access function 52 to acquire media, acquires the data via the buffer 54, and performs processing related to display. Specifically, for example, processing is performed in the following flow.
  • the glTF analysis unit 63 of the presentation engine (PE) 51 starts PE processing as shown in the example of FIG. and parse the scene description.
  • step S22 the glTF analysis unit 63 checks the media associated with the 3D object (texture), the buffer that stores the media after processing, and the accessor.
  • step S23 the glTF analysis unit 63 notifies the media access function 52 of the information as a file acquisition request.
  • the media access function (MAF) 52 starts MAF processing as in the example of FIG. 17, and obtains the notification in step S11.
  • the media access function 52 acquires the media (3D object file (mp4)) based on the notification.
  • step S13 the media access function 52 decodes the acquired media (3D object file (mp4)).
  • step S14 the media access function 52 stores the decoded media data in the buffer 54 based on the notification from the presentation engine (PE51).
  • step S24 the rendering processing unit 64 of the presentation engine 51 reads (obtains) the data from the buffer 54 at an appropriate timing.
  • step S25 the rendering processing unit 64 performs rendering using the acquired data to generate a display image.
  • the media access function 52 executes these processes for each time (each frame) by repeating the processes of step S13 and step S14. Furthermore, the rendering processing unit 64 of the presentation engine 51 executes these processes for each time (each frame) by repeating the processes of step S24 and step S25.
  • the media access function 52 ends the MAF processing, and the presentation engine 51 ends the PE processing. In other words, the client processing ends.
  • Haptic media is information that expresses virtual sensations using, for example, vibration.
  • Haptic media for example, is used in association with 3D data, which is information representing a three-dimensional space.
  • 3D data includes, for example, content that expresses the three-dimensional shape of a 3D object placed in a three-dimensional space (e.g., mesh, point cloud, etc.), and video content or audio content (e.g., video) that is developed in a three-dimensional space. and audio 6DoF content, etc.).
  • content that expresses the three-dimensional shape of a 3D object placed in a three-dimensional space (e.g., mesh, point cloud, etc.)
  • video content or audio content e.g., video
  • audio 6DoF content etc.
  • the media associated with 3D data may be any information and is not limited to this haptic media.
  • images, sounds, etc. may be included in this media.
  • Media associated with 3D data e.g., images, sounds, vibrations, etc.
  • synchronous media that is played in synchronization with the progression (change) of the scene (state of 3D space) in the time direction
  • synchronous media that is played back in synchronization with the progression (change) of the scene (state of 3D space) in the time direction
  • interaction-type media that is played when a predetermined condition is satisfied in a scene (that is, played in response to a predetermined event).
  • Haptics media of synchronous media is also referred to as synchronous haptics media.
  • haptics media which is interaction type media is also referred to as interaction type haptics media.
  • Synchronous haptic media includes, for example, vibrations that occur when the wind blows or a 3D object moves, in response to the changes in the scene (to represent changes in the scene).
  • Interaction-type haptic media occurs to express the sensation when a user's avatar touches a 3D object, when the avatar moves a 3D object, or when the avatar collides with a 3D object, etc. vibration, etc.
  • haptic media are not limited to these examples.
  • media associated with 3D data include media that can change in the time direction and media that do not change.
  • Media that can change in the time direction may include, for example, media whose playback content (actions) can change in the time direction.
  • the "media whose playback content can change over time” may include, for example, moving images, long-term audio information, vibration information, and the like.
  • “media whose playback content can change over time” includes, for example, media that is played only during a predetermined time period, and media whose content is played according to the time (for example, media that is displayed according to the time). (images to be played, sounds to be played, media in which the manner of vibration, etc. can be changed), etc. may also be included.
  • media that can change in the time direction may include, for example, media that have associated playback conditions (events) that can change in the time direction.
  • the "media whose linked playback conditions can change in the time direction” may include, for example, media in which the content of the event can change in the time direction, such as touching, pushing, knocking down, etc.
  • “media whose linked playback conditions can change in the time direction” may include, for example, media in which the position at which an event occurs can change in the time direction. For example, media may be included that is played when the right side of the object is touched at time T1, and that is played when the left side of the object is touched at time T2.
  • any media may be used as long as it changes in the time direction, and is not limited to these examples.
  • “media that does not change in the time direction” may include, for example, media in which the playback content (action) does not change in the time direction (media in which the action is the same at any time).
  • “media that does not change in the time direction” includes, for example, media whose associated playback conditions (events) do not change in the time direction (media where the content of the event or the position at which the event occurs is the same at any time). May be included.
  • the ability to change in the time direction is also referred to as "dynamic.”
  • timed media is also referred to as dynamic media.
  • haptic media that can change in the time direction are also referred to as dynamic haptic media.
  • something that does not change in the time direction is also called "static.”
  • media that does not change over time are also referred to as static media.
  • haptic media that does not change over time is also referred to as static haptic media.
  • Non-Patent Document 3 such a haptic media encoding method is proposed.
  • haptic signals (wav) and haptic signal descriptions (ivs, ahap) are encoded using the architecture shown in the upper part of Fig. 18, and are encoded in interchange format (gmap) and distribution format (mpg). is generated.
  • the table at the bottom of FIG. 18 shows an example of the configuration of the distribution format.
  • the haptic media bitstream is composed of a binary header and a binary body.
  • the binary header stores information such as the characteristics of the encoded data (Haptics stream) of the haptics media, the rendering device, and the encoding method. Further, encoded data (Haptics stream) of haptics media is stored in the binary body.
  • FIG. 19 is a diagram showing an example of expanding ISOBMFF for storing the haptic media.
  • a media type 'hapt' is defined to store haptic media.
  • a haptics sample entry has been prepared as a media information box. However, the internal structure of the haptics sample entry was undefined.
  • Non-Patent Document 5 proposes four gLTF extensions, MPEG_haptic, MPEG_material_haptic, MPEG_avatar, and MPEG_interaction, as shown in FIG. 20, in order to support haptic media in scene descriptions.
  • MPEG_haptic is information (for example, link information, etc.) for referencing haptic media data (also referred to as haptics data) referenced from the scene description.
  • This haptics data exists as independent data, similar to data such as audio and images. Further, this haptics data may be encoded (or may be encoded data).
  • MPEG_material_haptic which is a mesh/material extension of an already defined 3D object, defines haptic material information (which haptic media is associated with where in the 3D object (mesh), etc.). This material information defines static haptic media information. Furthermore, information for accessing MPEG_haptic (for example, link information, etc.) can also be defined in this haptic material information.
  • MPEG_avatar defines the 3D shape (avatar) of the user that moves in 3D space.
  • MPEG_interaction lists the conditions that the avatar (user) can perform (what the user can do) and the possible actions (how the object reacts). For example, MPEG_interaction defines the interaction (i.e., event) that occurs between the user (MPEG_avatar) and the 3D object, and the actions that occur as a result (e.g., when the user touches the 3D object, a vibration occurs, etc.).
  • FIG. 1 An example of how to play haptic media using these extensions of scene descriptions is shown in FIG.
  • the avatar defined in MPEG_avatar when the avatar defined in MPEG_avatar generates an interaction (event) defined in MPEG_interaction, an action corresponding to that interaction will be triggered, and a static image will be created according to the location where the interaction occurred according to the material information in MPEG_materal_haptics.
  • haptic media is generated and played (eg, vibrations output by a vibration device are rendered).
  • the haptics data referenced by MPEG_haptic shown in MPEG_materal_haptics is read, and dynamic haptics media is generated and played.
  • Dynamic haptic media support> ⁇ Use of PE/MAF>
  • MPEG_haptics did not have a definition regarding MAF (Fig. 16, etc.).
  • MPEG_materal_haptics could not handle timed metadata (Timed media).
  • client processing using MAF or PE
  • Non-Patent Document 2 it is difficult to reproduce dynamic haptic media using client processing (using MAF or PE) as described in Non-Patent Document 2. Therefore, there was a risk that the playback performance of media data associated with 3D data would be reduced.
  • the scene description specifies an accessor to the buffer in which dynamic haptic media associated with 3D data is stored ( Method 1).
  • a scene description including such a designation is generated on the encoding side and provided to the decoding side.
  • dynamic haptic media is acquired based on the scene description and stored in a buffer corresponding to the designated accessor.
  • an information processing device that generates a scene description file etc. uses an accessor to store dynamic haptic media associated with 3D data in a predetermined storage area.
  • the present invention includes a file generation unit that generates a scene description file that specifies the scene description file.
  • an accessor is used to store dynamic haptic media associated with 3D data in a predetermined storage area. Generate a scene description file that specifies.
  • an information processing device that plays back media associated with 3D data may play back media associated with the 3D data to be played based on the description of the scene description file.
  • an acquisition unit that acquires encoded data of the haptic media
  • a decoding unit that decodes the encoded data and generates haptic media data based on the description of the scene description file
  • the haptics media may be stored in a storage area corresponding to an accessor specified by the scene description file, and haptic media data stored in the storage area based on the description of the scene description file.
  • a generating unit that reads out the haptic media information for output (i.e., control information that controls the driving of the output unit that outputs the haptic media (for example, how the vibration device vibrates), etc.).
  • control information that controls the driving of the output unit that outputs the haptic media (for example, how the vibration device vibrates), etc.
  • dynamic The coded data of the haptic media is acquired, the coded data is decoded based on the description of the scene description file, the data of the haptic media is generated, and the data of the haptic media is
  • the haptics are stored in the storage area corresponding to the accessor specified by the scene description file, and based on the description of the scene description file, the data of the haptic media stored in the storage area is read out, and the haptics for output are stored. Generate media information.
  • the second information processing device can reproduce dynamic haptic media using client processing using MAF and PE.
  • the first information processing device can enable the second information processing device to play back dynamic haptic media using client processing using MAF or PE.
  • this dynamic haptics media may include synchronous haptics media that is played in synchronization with the progression of the scene in the time direction.
  • the generation unit of the second information processing device reads the data of this synchronous haptic media from the storage area corresponding to the accessor specified by the scene description file at a timing corresponding to a predetermined playback timing. , may generate haptic media information.
  • this dynamic haptic media may include interaction-type haptic media that is played when a predetermined condition is satisfied in the scene due to a user operation or the like.
  • the generation unit of the second information processing device reads the data of this interaction type haptic media from the storage area corresponding to the accessor specified by the scene description file, and generates the haptic media.
  • Tix media information may also be generated.
  • Method 1-1 when method 1 is applied, as shown in the second row from the top of the table in Figure 22, the "material” property can be extended to create dynamic haptics associated with 3D data.
  • An accessor for storing the media in a predetermined storage area may be specified (method 1-1). That is, the accessor specification in Method 1 may be performed anywhere in the scene description, but may be performed, for example, in the "material” property defined as material information of texture.
  • the file generation unit of the first information processing device may set an accessor for storing dynamic haptic media associated with 3D data in a predetermined storage area (buffer) in the "material" property. You may also generate a specified scene description file.
  • the storage unit of the second information processing device stores dynamic haptic media data associated with 3D data using an accessor (, The dynamic haptic media associated with the 3D data may be stored in a storage area corresponding to a predetermined storage area (buffer).
  • the accessor in method 1 may be specified in MPEG_material_haptics defined for the material.
  • MPEG_material_haptics may be extended and attributes specified for handling timed metadata may be defined.
  • An example of scene description in that case is shown in FIG.
  • the index of the accessor corresponding to the buffer in which the haptic media specified in MPEG_media is stored is specified (“accessor”: 2).An example of the semantics of the elements included in this description is shown below. It is shown in FIG.
  • the PE can refer to MPEG_media (dynamic haptics media data) stored in the buffer from the material (MPEG_material_haptics) via the accessor, as shown in Figure 23. .
  • MPEG_media dynamic haptics media data
  • MAF can store its MPEG_media in its buffer based on such a description. Therefore, the second information processing device can use PE and MAF to reproduce media data associated with 3D data. In other words, it is possible to suppress a reduction in playback performance of media data associated with 3D data.
  • Interaction processing> For example, in the case of interaction-based media, when an interaction (event) occurs, the client device acquires the file of the media and decrypts the data. However, when retrieving media files at the timing when an interaction occurs in this way, there is a delay in at least the time required for the file retrieval protocol (e.g., retrieving from the server using HTTP (HyperText Transfer Protocol)) and the time required for feedback. There was a risk that Therefore, it has been difficult to reproduce such media at the correct timing. In other words, there was a risk that the playback performance of media data associated with 3D data would be reduced.
  • HTTP HyperText Transfer Protocol
  • the first information processing device includes a file generation unit that generates a scene description file that includes a description of interaction media associated with 3D data. Furthermore, in the first information processing method, a scene description file is generated that includes a description of interaction media associated with the 3D data.
  • the second information processing device includes an acquisition unit that acquires encoded data of interaction-type media associated with 3D data to be played based on a description of interaction-type media included in a scene description file; and a decoding unit that decodes the obtained encoded data based on the description of the scene description file and generates interaction-type media data. Furthermore, in the second information processing method, encoded data of the interaction-type media associated with the 3D data to be played is acquired based on the description of the interaction-type media included in the scene description file, and the scene description Based on the file description, the obtained encoded data is decoded to generate interaction media data.
  • the first information processing device can use the scene description to control the second information processing device to acquire interaction-type media data.
  • the first information processing device can cause the second information processing device to acquire the data of the interaction type media at a timing (in advance) at which the above-described playback delay does not occur.
  • the second information processing device can acquire the data of the interaction type media at a timing (in advance) at which the above-described playback delay does not occur. In other words, it is possible to suppress a reduction in playback performance of media data associated with 3D data.
  • this interaction type media may be any media as long as it executes a process when a predetermined condition is satisfied in a scene due to a user operation or the like.
  • this interactive media may include haptic information.
  • This interaction type media may also include image information.
  • this interactive media may include audio information.
  • interactive media is not limited to these examples.
  • ⁇ Method 2-1> Furthermore, when method 2 is applied, as shown in the fourth row from the top of the table in FIG. ).
  • the description regarding interaction-type media included in the above-mentioned scene description file does not include a description indicating whether or not interaction-type processing that is executed when a predetermined condition is satisfied in the scene due to user operation, etc. is possible. But that's fine.
  • the acquisition unit of the second information processing device may acquire encoded data of interaction-type media.
  • FIG. 26 is a diagram showing a description example of a scene description when method 2 described above is applied. Further, FIG. 27 is a diagram showing an example of the semantics of elements included in the description. As shown in FIG. 26, "event_control" is defined in MPEG_media. As shown in FIG. 27, event_control is flag information indicating whether or not the haptic media playback process is valid based on the event (interaction). For example, when event_control is set to true, it indicates that processing based on the event can be executed, that is, the media being handled is interaction-type media.
  • the second information processing device can identify the description regarding the interaction type media and acquire the data of the interaction type media based on the description. For example, based on the description, the second information processing device can acquire data of the interaction type media at a timing (in advance) at which the above-described playback delay does not occur.
  • the first information processing device can control the second information processing device to acquire the data of the interaction media using the description regarding the interaction media.
  • the first information processing device can cause the second information processing device to acquire the data of the interaction type media at a timing (in advance) at which the above-described playback delay does not occur, based on the description. In other words, it is possible to suppress a reduction in playback performance of media data associated with 3D data.
  • the description regarding interaction-type media included in the above-described scene description file may include a description indicating whether or not the interaction-type media can be selected according to user operation or avatar attribute information.
  • the acquisition unit of the second information processing device may perform user operation or avatar attribute information. You may select interaction type media depending on the situation. Further, if the description regarding interaction-type media included in the scene description file described above indicates that interaction-type media cannot be selected, the acquisition unit of the second information processing device selects the predetermined interaction-type media. You may choose.
  • avatar_dependent_media is defined in MPEG_media.
  • avatar_dependent_media is flag information indicating whether or not it is possible to select the interaction type media to be applied from among a plurality of media according to the user operation or the attribute information of the avatar. For example, when avatar_dependent_media is set to true, it indicates that the interaction type media to be applied can be selected from a plurality of media according to user operations or attribute information of the avatar. In other words, it is shown that a plurality of interactive media are available that can be selected depending on the user or avatar.
  • the second information processing device can select interaction type media based on such a description.
  • the first information processing device can cause the second information processing device to select such interaction type media. This makes it possible to play more diverse media. In other words, it is possible to suppress a reduction in playback performance of media data associated with 3D data.
  • Method 2-3 media data acquisition processing conditions may be described as shown in the sixth row from the top of the table in FIG. 22 (method 2-3).
  • the description regarding interaction media included in the scene description file described above may include a description regarding acquisition of encoded data of interaction media associated with 3D data to be played.
  • the acquisition unit of the second information processing device may acquire the encoded data according to the description regarding acquisition of the encoded data.
  • fetch_timing_information is defined in MPEG_media.
  • fetch_timing_information is a description regarding acquisition of encoded data of interaction type media.
  • the second information processing device can acquire the interaction type media based on this description. In other words, this description allows the first information processing device to control the acquisition of interaction media by the second information processing device in more detail. In other words, it is possible to suppress a reduction in playback performance of media data associated with 3D data.
  • fetch_timing_information which is a description regarding acquisition of interaction-type media
  • fetch_timing_information may include any information.
  • fetch_timing_information may include a description regarding acquisition conditions.
  • the acquisition unit of the second information processing device may acquire the encoded data of the interaction type media when the condition is satisfied.
  • the second information processing device can acquire the interaction media based on the description regarding the acquisition conditions. In other words, this description allows the first information processing device to control the acquisition of interaction media by the second information processing device based on the acquisition conditions.
  • the description regarding this acquisition condition may include a description indicating whether the condition is "before initialization of information necessary for the scene". For example, if the description indicates that the acquisition condition is "before initialization of information necessary for the scene," the acquisition unit of the second information processing device may perform interaction processing before initialization of the information.
  • the encoded data of type media may also be obtained.
  • FIG. 28 shows an example of the semantics of the elements of fetch_timing_information.
  • this Initial is flag information indicating whether or not to obtain encoded data of this interaction type media when initializing information necessary for a scene. For example, if Initial is set to true, it indicates that the encoded data of this interaction type media will be acquired when initializing the information necessary for the scene.
  • the second information processing device can select whether or not to acquire the encoded data of this interaction-type media, for example, when initializing information necessary for a scene.
  • the first information processing device uses this description to control whether or not the second information processing device acquires the encoded data of this interaction type media when initializing information necessary for the scene. can do.
  • the description regarding the acquisition conditions may include a description indicating the LoD (Level Of Detail) of the position corresponding to the interaction type media to be acquired. For example, if the LoD of the position corresponding to the interaction-type media to be acquired is larger than the LoD indicated by the description, even if the acquisition unit of the second information processing device acquires the encoded data of the interaction-type media. good.
  • LoD Level Of Detail
  • Lod is defined as fetch_timing_information in MPEG_media.
  • this Lod is a description indicating acquisition conditions regarding the LoD of encoded data of interaction type media. For example, if the LoD of the position corresponding to the interaction-type media to be acquired is larger than this LoD, the encoded data of the interaction-type media is acquired.
  • the second information processing device for example, when the second information processing device gets sufficiently close to the position corresponding to the interaction-type media to be acquired (when the position is displayed larger than the LoD setting), Encoded data of this interaction type media can be obtained.
  • the first information processing device for example, when it gets sufficiently close to the position corresponding to the interaction type media to be obtained (when the position is displayed larger than the LoD setting), the first information processing device
  • the second information processing device can be controlled to obtain encoded data of the interaction type media.
  • the description regarding the acquisition conditions may include a description indicating the distance to the position corresponding to the interaction type media to be acquired.
  • the acquisition unit of the second information processing device may acquire the encoded data of the interaction media when the viewpoint or the avatar approaches the position within a distance indicated by the description.
  • “Distance” is defined as fetch_timing_information in MPEG_media.
  • This Distance is a description indicating the acquisition condition regarding the viewing distance to the position (mesh/texture) to which this interaction type media is linked. For example, if the viewing distance is closer (shorter) than this Distance, encoded data of the interaction type media is acquired.
  • this Distance setting for example, when the second information processing device gets sufficiently close to the position corresponding to the interaction-type media to be acquired (when the distance is closer than the distance setting), the second information processing device acquires the interaction-type media.
  • encoded data can be obtained.
  • the first information processing device gets sufficiently close to the position corresponding to the interaction-type media to be acquired (if the distance is shorter than the Distance setting)
  • the first information processing device acquires the interaction-type media.
  • the second information processing device can be controlled to acquire the encoded data.
  • the description regarding the acquisition condition may include a description indicating whether the condition is "the position corresponding to the interaction type media is within sight.” For example, if the description indicates that the condition for acquisition is that the position corresponding to the interaction type media comes within the field of view, the acquisition unit of the second information processing device Encoded data of the interaction type media may be obtained.
  • view_frustum is defined as fetch_timing_information in MPEG_media. This view_frustum acquires the encoded data of this interaction type media when the position (mesh/texture) associated with this interaction type media enters the user's (camera) field of view, as shown in Figure 28. Show that.
  • the second information processing device can select whether or not to acquire the encoded data of the interaction-type media when the position corresponding to the interaction-type media comes into view, for example, according to the view_frustum setting. I can do it.
  • the first information processing device determines whether the second information processing device acquires the encoded data of the interaction-type media when the position corresponding to the interaction-type media comes into view. You can control whether or not.
  • the description regarding the acquisition conditions may include a description indicating the recommended time to acquire the interaction media.
  • the acquisition unit of the second information processing device may acquire the encoded data of the interaction media at the recommended time indicated by the description.
  • “recommended_Fetch_time” is defined as fetch_timing_information in MPEG_media. As shown in FIG. 28, this recommended_Fetch_time indicates a time recommended as a time to acquire encoded data of this interaction type media. For example, if a scene in which an interaction is likely to occur is known, a recommended time is set so that encoded data can be acquired at that timing (at an earlier timing).
  • the second information processing device can acquire the encoded data of the interaction-type media at the recommended timing (time) according to the recommended_Fetch_time setting.
  • the first information processing device can control the timing (time) at which the second information processing device acquires the encoded data of the interaction type media.
  • the first information processing device can control the second information processing device to acquire the encoded data of the interaction type media at a more appropriate timing (time).
  • the description regarding the acquisition conditions may include a description indicating a predetermined spatial area in which the interaction media is to be acquired.
  • the acquisition unit of the second information processing device may acquire encoded data of interaction-type media when the viewpoint or avatar is located within the spatial region indicated by the description.
  • fetch_boundaries is defined as fetch_timing_information in MPEG_media. This fetch_boundaries indicates that, as shown in FIG. 28, when the user (camera) is located in the mesh space expressed by this index, encoded data of interaction media is acquired.
  • the second information processing device can acquire the encoded data of the interaction media when the viewpoint or avatar is located within the spatial region indicated by the description.
  • the first information processing device can control the spatial region from which the second information processing device acquires the encoded data of the interaction-type media based on this description.
  • fetch_timing_information may include a description regarding how to obtain interaction media.
  • the acquisition unit of the second information processing device may acquire the encoded data of the interaction media according to the description regarding the acquisition method.
  • the second information processing device can acquire the interaction type media based on the description regarding the acquisition method.
  • the first information processing device can control the acquisition method of the interaction type media by the second information processing device using this description.
  • the description regarding this acquisition method may include a description indicating whether or not encoded data of interaction-type media is included in the 3D data file. For example, if it is indicated that the encoded data of the interaction-type media is not included in the 3D data file, the acquisition unit of the second information processing device may acquire the encoded data.
  • delivery_with_texture_video is defined as fetch_timing_information in MPEG_media.
  • This delivery_with_texture_video indicates whether the encoded data of the interaction type media is stored in the same file as the 3D data at the position (mesh/texture) associated with the interaction type media, as shown in Figure 28. This is flag information to indicate. For example, if delivery_with_texture_video is true, it indicates that encoded data of interaction media is included in the 3D data file. That is, in this case, since the encoded data of the interaction type media can be obtained from the 3D data file, there is no need to obtain any interaction type media file other than the 3D data file.
  • the second information processing device can select the source file for the encoded data of the interaction media according to the delivery_with_texture_video setting. In other words, the second information processing device can select whether to acquire the interaction media file according to the delivery_with_texture_video setting. In other words, the first information processing device can control whether or not the second information processing device acquires the interactive media file based on this description.
  • the description regarding this acquisition method may include a description indicating the priority of interaction media.
  • the acquisition unit of the second information processing device may acquire the encoded data of the interaction type media according to this priority.
  • priority is defined as fetch_timing_information in MPEG_media. As shown in FIG. 28, this priority indicates the priority of playback or rendering of interaction type media. For example, interaction-type media with a high priority indicate that playback or rendering is highly important. For example, it is possible to indicate which of a plurality of media with the same acquisition conditions should be prioritized.
  • the second information processing device can, for example, control the acquisition order of encoded data of interaction-type media or select encoded data to acquire, according to this priority setting.
  • the second information processing device may acquire encoded data from interaction-type media with a high priority first, or may acquire encoded data only from interaction-type media with a sufficiently high priority. good.
  • the first information processing device can control the order in which the second information processing device acquires the encoded data of the interaction type media and the selection of the encoded data to be acquired by the second information processing device.
  • fetch_timing_information may include a description regarding the type of interaction media.
  • the acquisition unit of the second information processing device may acquire encoded data of interaction-type media according to a description regarding the type of interaction-type media.
  • the second information processing device can acquire the interaction type media based on the description regarding the type of the interaction type media.
  • the first information processing device can control the acquisition of interaction media by the second information processing device using this description.
  • the description regarding the type of interaction media may include a description indicating whether the interaction media is dynamic media.
  • the acquisition unit of the second information processing device may acquire the encoded data using a method suitable for the dynamic media.
  • moving_object is defined as fetch_timing_information in MPEG_media. As shown in FIG. 28, this moving_object refers to LoD, Distance, Recommended_Fetch_time, Fetch_boundaries, etc. of Fetch_timinig_information because this interactive media moves in 3D space (it is dynamic). If moving_object is True, dynamically changing values are obtained from the moving_object_metadata file, which is timed metadata.
  • the second information processing device can acquire encoded data of interaction-type media in a method according to its type, according to the moving_object setting.
  • the first information processing device can cause the second information processing device to acquire the encoded data using a method according to the type of interaction media.
  • the second information processing device can acquire the encoded data of the interaction type media using a method according to the setting of this moving_object.
  • the first information processing device can control the method by which the second information processing device acquires the encoded data of the interaction type media using this description.
  • the description regarding the type of interaction media may include a description specifying an accessor corresponding to a storage area that stores dynamic media.
  • the acquisition unit of the second information processing device may store the dynamic media in the storage area corresponding to the accessor specified by this description.
  • the second information processing device can send and receive interaction-type media using the buffer corresponding to the accessor indicated by the accessors.
  • the first information processing device can control the second information processing device to send and receive interaction media using the buffer corresponding to the accessor indicated by the accessors.
  • ⁇ Material> a description regarding the interaction type media as described above may be written in the material of the scene description file.
  • the file generation unit of the first information processing device may generate a scene description file that stores a description regarding the interaction type media in the material.
  • the acquisition unit of the second information processing device may acquire the encoded data of the interaction-type media based on the description of the interaction-type media in the material of the scene description file.
  • Method 2 when method 2 is applied, as shown in the seventh row from the top of the table in FIG. 2-4).
  • the acquisition unit of the second information processing device may acquire the encoded data of the interaction-type media based on the description of the interaction-type media in the material of the scene description file.
  • the description regarding the interaction type media described above is written in MPEG_media.
  • the description regarding the interaction type media is stored as file information in the material of the scene description. Such a configuration may also be used.
  • ⁇ Method 2-5> Furthermore, when method 2 is applied, as shown at the bottom of the table in FIG. 22, a description regarding the interaction media may be stored as pre-processing information of the interaction media in the scene description material. (Method 2-5).
  • the acquisition unit of the second information processing device acquires encoded data of the interaction-type media based on a description of the interaction-type media described as pre-processing information of the interaction-type media in the material of the scene description file. You may obtain it.
  • FIG. 29 shows a description example in that case.
  • the description regarding the interaction type media described above is written as "properties" (pre-processing information) outside of MPEG_media. That is, the description regarding the interaction type media is stored as pre-processing information in the material of the scene description.
  • the semantics of this property is shown in FIG. Note that examples of the semantics of elements such as event_control, avatar_dependent_media, and fetch_timing_information are the same as those in FIGS. 27 and 28. Such a configuration may also be used.
  • FIG. 31 is a block diagram illustrating an example of the configuration of a file generation device that is one aspect of an information processing device to which the present technology is applied.
  • the file generation device 100 shown in FIG. 31 is a device that encodes 3D object content (for example, 3D data such as a point cloud) associated with media such as haptic media, and stores it in a file container such as ISOBMFF.
  • the file generation device 100 also generates a scene description file of the 3D object content.
  • FIG. 31 shows the main things such as the processing unit and the flow of data, and not all of the things shown in FIG. 31 are shown. That is, in the file generation device 100, there may be a processing unit that is not shown as a block in FIG. 31, or there may be a process or a data flow that is not shown as an arrow or the like in FIG.
  • the file generation device 100 includes a control section 101 and a file generation processing section 102.
  • the control unit 101 controls the file generation processing unit 102.
  • the file generation processing unit 102 is controlled by the control unit 101 and performs processing related to file generation.
  • the file generation processing unit 102 includes an input unit 111, a preprocessing unit 112, an encoding unit 113, a preprocessing unit 114, an encoding unit 115, a file generation unit 116, a storage unit 117, and an output unit 118.
  • the file generation section 116 includes an SD file generation section 121, a 3D file generation section 122, and a media file generation section 123.
  • the input unit 111 performs processing related to acquiring data of 3D object content.
  • the input unit 111 may acquire 3D data from outside the file generation device 100.
  • the input unit 111 may acquire media data associated with the 3D data from outside the file generation device 100.
  • the input unit 111 may supply the acquired 3D data to the preprocessing unit 112.
  • the input unit 111 may supply the acquired media data to the preprocessing unit 114.
  • the preprocessing unit 112 executes processing related to preprocessing performed on 3D data before encoding.
  • the preprocessing unit 112 may acquire 3D data supplied from the input unit 111. Further, the preprocessing unit 112 may acquire information necessary for generating a scene description from the acquired 3D data or the like. Furthermore, the preprocessing unit 112 may supply the acquired information to the file generation unit 116 (the SD file generation unit 121 thereof). Further, the preprocessing unit 112 may supply 3D data to the encoding unit 113.
  • the encoding unit 113 executes processing related to encoding 3D data.
  • the encoding unit 113 may acquire 3D data supplied from the preprocessing unit 112.
  • the encoding unit 113 may encode the acquired 3D data and generate the encoded data.
  • the encoding unit 113 may supply the generated encoded data to the file generation unit 116 (3D file generation unit 122 thereof).
  • the preprocessing unit 114 executes processing related to preprocessing performed on media data associated with 3D data before encoding. For example, the preprocessing unit 114 may acquire media data supplied from the input unit 111. Further, the preprocessing unit 114 may acquire information necessary for generating a scene description from the acquired media data or the like. Further, the preprocessing unit 114 may supply the acquired information to the file generation unit 116 (the SD file generation unit 121 thereof). Further, the preprocessing unit 114 may supply media data to the encoding unit 115.
  • the encoding unit 115 executes processing related to encoding media data. For example, the encoding unit 115 may acquire media data supplied from the preprocessing unit 114. Furthermore, the encoding unit 115 may encode the acquired media data and generate the encoded data. Further, the encoding unit 115 may supply the generated encoded data to the file generation unit 116 (the media file generation unit 123).
  • the file generation unit 116 performs processing related to generation of files and the like.
  • the SD file generation unit 121 performs processing related to generation of a scene description file.
  • the 3D file generation unit 122 performs processing related to generation of a 3D file that stores (encoded data of) 3D data.
  • the media file generation unit 123 performs processing related to generation of a media file that stores (encoded data of) media data.
  • the SD file generation unit 121 acquires information supplied from the encoding unit 113 and information supplied from the encoding unit 115.
  • the SD file generation unit 121 generates a scene description based on the information.
  • the SD file generation unit 121 generates a scene description file and stores the generated scene description. Further, the SD file generation unit 121 supplies the scene description file to the storage unit 117.
  • the 3D file generation unit 122 acquires encoded data of 3D data supplied from the encoding unit 113.
  • the 3D file generation unit 122 generates a 3D file and stores the encoded data.
  • the 3D file generation unit 122 supplies the 3D file to the storage unit 117.
  • the media file generation unit 123 acquires encoded data of media data supplied from the encoding unit 115.
  • the media file generation unit 123 generates a media file and stores its encoded data.
  • the media file generation unit 123 supplies the media file to the storage unit 117.
  • the storage unit 117 has an arbitrary storage medium such as a hard disk or a semiconductor memory, and executes processing related to data storage. For example, the storage unit 117 may acquire the scene description file supplied from the SD file generation unit 121 of the file generation unit 116 and store it in the storage medium. Further, the storage unit 117 may acquire a 3D file supplied from the 3D file generation unit 122 of the file generation unit 116 and store it in the storage medium. Further, the storage unit 117 may acquire a media file supplied from the media file generation unit 123 of the file generation unit 116 and store it in the storage medium. Furthermore, the storage unit 117 may read files and the like recorded on the storage medium and supply them to the output unit 118 according to a request from the control unit 101 or the output unit 118 or at a predetermined timing.
  • the storage unit 117 may read files and the like recorded on the storage medium and supply them to the output unit 118 according to a request from the control unit 101 or the output unit 118 or at a predetermined timing.
  • the output unit 118 may acquire the file etc. supplied from the storage unit 117 and output the file etc. to the outside of the file generation device 100 (for example, a distribution server, a playback device, etc.).
  • the above-described first information processing device is used, and ⁇ 3.
  • the present technology described above in Dynamic Haptic Media Support may also be applied.
  • the file generation device 100 can perform ⁇ 3. Dynamic Haptic Media Support> The same effect as described above can be obtained. That is, the file generation device 100 can suppress reduction in playback performance of media data associated with 3D data.
  • the above-described first information processing device is used, and ⁇ 4.
  • the present technology described above in "Support for interaction-based media” may be applied.
  • method 2 may be applied, and the SD file generation unit 121 may generate a scene description file that includes a description of interaction media associated with 3D data.
  • other methods may be applied.
  • a plurality of the present techniques may be applied in combination as appropriate. By doing so, the file generation device 100 can perform ⁇ 4. It is possible to obtain the same effect as described above in ⁇ Support for interaction-type media''. That is, the file generation device 100 can suppress reduction in playback performance of media data associated with 3D data.
  • the input unit 111 of the file generation device 100 acquires 3D data and media data associated with the 3D data in step S101.
  • the preprocessing unit 112 performs preprocessing on the 3D data. For example, the preprocessing unit 112 acquires information used to generate a scene description, which is spatial arrangement information for arranging one or more 3D objects in a 3D space, from the 3D data. Further, the preprocessing unit 114 performs preprocessing on the media data. For example, the preprocessing unit 114 acquires information used to generate a scene description, which is spatial arrangement information for arranging one or more 3D objects in a 3D space, from the media data.
  • step S103 the SD file generation unit 121 uses the information to generate a scene description file that describes the media data associated with the 3D data.
  • step S104 the encoding unit 113 encodes the 3D data and generates encoded data. Furthermore, the encoding unit 115 encodes media data associated with the 3D data to generate encoded data.
  • step S105 the 3D file generation unit 122 generates a 3D file (ISOBMFF) that stores encoded data of 3D data. Furthermore, the media file generation unit 123 generates a media file (ISOBMFF) that stores encoded data of media data.
  • ISOBMFF 3D file
  • the media file generation unit 123 generates a media file (ISOBMFF) that stores encoded data of media data.
  • step S106 the storage unit 117 stores the generated scene description file, 3D file, and media file on the storage medium.
  • the output unit 118 reads the scene description file, 3D file, and media file from the storage unit 117, and outputs the read file to the outside of the file generation device 100 at a predetermined timing.
  • the output unit 118 may transmit (upload) the file read from the storage unit 117 to another device such as a distribution server or a playback device via a communication medium such as a network.
  • the output unit 118 may record the files and the like read from the storage medium onto an external recording medium such as a removable medium. In that case, the output file may be supplied to another device (such as a distribution server or a playback device) via the external recording medium, for example.
  • step S107 ends, the file generation process ends.
  • the file generation device 100 is the above-mentioned first information processing device, and ⁇ 3.
  • the present technology described above in Dynamic Haptic Media Support may also be applied.
  • the SD file generation unit 121 creates a scene description file that specifies an accessor for storing dynamic haptic media associated with 3D data in a predetermined storage area. May be generated. Also, other methods may be applied. Further, a plurality of the present techniques may be applied in combination as appropriate. By doing so, the file generation device 100 can perform ⁇ 3. Dynamic Haptic Media Support> The same effect as described above can be obtained. That is, the file generation device 100 can suppress reduction in playback performance of media data associated with 3D data.
  • the file generation device 100 is the above-described first information processing device, and ⁇ 4.
  • the present technology described above in "Support for interaction-based media" may be applied.
  • method 2 may be applied, and in step S103, the SD file generation unit 121 may generate a scene description file that includes a description of interaction media associated with 3D data.
  • other methods may be applied.
  • a plurality of the present techniques may be applied in combination as appropriate. By doing so, the file generation device 100 can perform ⁇ 4. It is possible to obtain the same effect as described above in ⁇ Support for interaction-type media''. That is, the file generation device 100 can suppress reduction in playback performance of media data associated with 3D data.
  • FIG. 33 is a block diagram illustrating an example of the configuration of a client device that is one aspect of an information processing device to which the present technology is applied.
  • the client device 200 shown in FIG. 33 is a playback device that performs playback processing of 3D data and media data associated with the 3D data based on a scene description.
  • the client device 200 acquires a file generated by the file generation device 100, and reproduces 3D data and media data stored in the file. At this time, the client device 200 performs processing related to the reproduction based on the scene description file.
  • FIG. 33 shows the main things such as the processing unit and the flow of data, and not all of the things shown in FIG. 33 are shown. That is, in the client device 200, there may be a processing unit that is not shown as a block in FIG. 33, or there may be a process or a data flow that is not shown as an arrow or the like in FIG.
  • the client device 200 includes a control section 201 and a client processing section 202.
  • the control unit 201 performs processing related to controlling the client processing unit 202.
  • the client processing unit 202 performs processing related to reproduction of 3D data and media data.
  • the client processing unit 202 includes an SD file acquisition unit 211, an SD file analysis unit 212, a 3D file acquisition unit 213, a 3D data decoding unit 214, a buffer 215, a display information generation unit 216, a media file acquisition unit 217, and a media data decoding unit 218. , a buffer 219, a media information generation section 220, and an output section 221.
  • the SD file acquisition unit 211 performs processing related to acquiring a scene description file.
  • the SD file acquisition unit 211 may acquire a scene description file or the like supplied from outside the client device 200, such as a distribution server or the file generation device 100. Further, the SD file acquisition unit 211 may supply the acquired scene description file to the SD file analysis unit 212.
  • the SD file analysis unit 212 performs processing related to scene description file analysis.
  • the SD file analysis unit 212 may acquire a scene description file supplied from the SD file acquisition unit 211. Further, the SD file analysis section 212 may analyze the scene description file and control the 3D file acquisition section 213 and the media file acquisition section 217 according to the description. That is, the SD file analysis unit 212 may control the acquisition of 3D files and media files according to the description of the scene description file. Furthermore, the SD file analysis section 212 may control the 3D data decoding section 214 and the media data decoding section 218 according to the description in the scene description file. That is, the SD file analysis unit 212 may control the decoding of 3D data and media data according to the description of the scene description file.
  • the SD file analysis unit 212 may control the buffer 215 and the buffer 219 according to the description in the scene description file. That is, the SD file analysis unit 212 may control the storage of 3D data and media data in the buffer according to the description of the scene description file.
  • the 3D file acquisition unit 213 performs processing related to 3D file acquisition under the control of the SD file analysis unit 212.
  • the 3D file acquisition unit 213 may acquire a 3D file or the like supplied from outside the client device 200, such as a distribution server or the file generation device 100. Further, the 3D file acquisition unit 213 may extract encoded data of 3D data stored in the acquired 3D file and supply it to the 3D data decoding unit 214.
  • the 3D data decoding unit 214 performs processing related to 3D data decoding under the control of the SD file analysis unit 212. For example, the 3D data decoding unit 214 may acquire encoded data of 3D data supplied from the 3D file acquisition unit 213. Further, the 3D data decoding unit 214 may decode the encoded data. Further, the 3D data decoding unit 214 may supply the 3D data obtained through the decoding to the buffer 215.
  • the buffer 215 performs processing related to storing 3D data under the control of the SD file analysis unit 212.
  • the buffer 215 may acquire 3D data supplied from the 3D data decoding unit 214.
  • the buffer 215 may also store the 3D data in a storage area specified in the scene description file. Further, the buffer 215 may read 3D data from the storage area and supply it to the display information generation section 216 based on a request from the control section 201 or the display information generation section 216 or at a predetermined timing.
  • the display information generation unit 216 performs processing related to displaying 3D data. For example, the display information generation unit 216 may acquire 3D data read from the buffer 215. Further, the display information generation unit 216 may perform rendering of the 3D data and generate display information (for example, a display image, etc.). Further, the display information generation section 216 may supply the generated display information to the output section 221.
  • the media file acquisition unit 217 performs processing related to media file acquisition under the control of the SD file analysis unit 212.
  • the media file acquisition unit 217 may acquire media files etc. supplied from outside the client device 200, such as a distribution server or the file generation device 100.
  • the media file acquisition unit 217 may extract encoded data of media data stored in the acquired media file and supply it to the media data decoding unit 218.
  • the media data decoding unit 218 performs processing related to decoding of media data under the control of the SD file analysis unit 212.
  • the media data decoding unit 218 may acquire encoded data of 3D data supplied from the media file acquisition unit 217.
  • the media data decoding unit 218 may decode the encoded data.
  • the media data decoding unit 218 may supply the media data obtained through the decoding to the buffer 219.
  • the buffer 219 performs processing related to storing media data under the control of the SD file analysis unit 212.
  • the buffer 219 may acquire media data supplied from the media data decoding unit 218.
  • Buffer 219 may also store the media data in a storage area specified in the scene description file.
  • the buffer 219 may read media data from the storage area and supply it to the media information generation section 220 based on a request from the control section 201 or the media information generation section 220 or at a predetermined timing.
  • the media information generation unit 220 performs processing related to output of media data. For example, the media information generation unit 220 may acquire media data read from the buffer 219. The media information generation unit 220 may also perform rendering of the media data and generate output media information (for example, haptic media information for output, image for display, audio information for output, etc.). . Furthermore, the media information generation section 220 may supply the generated media information to the output section 221.
  • the output unit 221 includes a display device, an audio output device, a haptics device (for example, a vibration device), and outputs the above-mentioned display information and media information (image display, audio output, haptic media output (for example, vibration output)). etc.).
  • the output unit 221 may acquire display information supplied from the display information generation unit 216.
  • the output unit 221 may acquire media information supplied from the media information generation unit 220.
  • the output unit 221 may display the acquired display information on a display unit (for example, a display). Further, the output unit 221 may output the acquired media information to a media output unit (for example, a vibration device, etc.).
  • the above-described second information processing device is used, and ⁇ 3.
  • the present technology described above in Dynamic Haptic Media Support may also be applied.
  • the media file acquisition unit 217 may acquire encoded data of dynamic haptic media associated with the 3D data to be played based on the description of the scene description file. .
  • the media data decoding unit 218 may decode the encoded data based on the description of the scene description file to generate haptic media data.
  • the buffer 219 may store haptic media data in a storage area corresponding to an accessor specified by the scene description file.
  • the media information generation unit 220 may read haptic media data stored in the storage area of the buffer 219 based on the description of the scene description file, and generate haptic media information for output. .
  • other methods may be applied.
  • a plurality of the present techniques may be applied in combination as appropriate.
  • the client device 200 can perform ⁇ 3. Dynamic Haptic Media Support> The same effect as described above can be obtained. That is, the client device 200 can suppress reduction in playback performance of media data associated with 3D data.
  • the client device 200 having the above configuration the above-described second information processing device is used, and ⁇ 4.
  • the present technology described above in "Support for interaction-based media” may be applied.
  • the media file acquisition unit 217 acquires encoded data of interaction-type media associated with 3D data to be played based on the description of interaction-type media included in the scene description file. It's okay. Furthermore, the media data decoding unit 218 may decode the obtained encoded data based on the description of the scene description file to generate interaction-type media data. By doing this, the client device 200 can perform ⁇ 4. It is possible to obtain the same effect as described above in ⁇ Support for interaction-type media''. That is, the client device 200 can suppress reduction in playback performance of media data associated with 3D data.
  • the SD file acquisition unit 211 of the client device 200 acquires a scene description file in step S201. Furthermore, the SD file analysis unit 212 analyzes the scene description file.
  • step S202 the 3D file acquisition unit 213 acquires a 3D file according to the scene description file.
  • step S203 the 3D data decoding unit 214 decodes the encoded data of the 3D data.
  • the buffer 215 stores the 3D data obtained by the decoding in a storage area specified by the scene description file.
  • step S204 the display information generation unit 216 reads out the 3D data stored in the buffer 215 and renders it. That is, the display information generation section 216 generates display information (display image, etc.) using the read 3D data, and supplies it to the output section 221 for display.
  • the process in step S204 ends the process advances to step S209.
  • each process of steps S205 to S208 is executed.
  • step S205 the media file acquisition unit 217 acquires the media file according to the scene description file.
  • step S206 the media file acquisition unit 217 determines whether or not the reproduction conditions of the acquired media file are satisfied, and waits until it is determined that the conditions are satisfied. Furthermore, if it is determined that the reproduction conditions for the acquired media file are satisfied, the process advances to step S207.
  • step S207 the media data decoding unit 218 decodes the encoded data of the media data.
  • the buffer 219 stores the 3D data obtained by the decoding in a storage area specified by the scene description file.
  • step S208 the media information generation unit 220 reads the media data stored in the buffer 219 and renders it. That is, the media information generation section 220 generates media information (vibration information, etc.) using the read media data, and supplies it to the output section 221 for output.
  • the process in step S208 ends the process advances to step S209.
  • step S209 the control unit 201 determines whether or not to end the playback process. If it is determined that the process does not end, the process returns to step S202 and step S205. Furthermore, if it is determined that the playback process should be ended, the playback process is ended.
  • the client device 200 is the second information processing device described above, and ⁇ 3.
  • the present technology described above in Dynamic Haptic Media Support may also be applied.
  • the media file acquisition unit 217 may acquire encoded data of dynamic haptic media associated with the 3D data to be played based on the description of the scene description file. .
  • the media data decoding unit 218 may decode the encoded data based on the description of the scene description file to generate haptic media data.
  • the buffer 219 may store haptic media data in a storage area corresponding to an accessor specified by the scene description file
  • the media information generation unit 220 may store haptic media data in a storage area corresponding to an accessor specified by the scene description file. Based on the haptic media data stored in the storage area, the haptic media information for output may be generated. Also, other methods may be applied.
  • the client device 200 can perform ⁇ 3. Dynamic Haptic Media Support> The same effect as described above can be obtained. That is, the client device 200 can suppress reduction in playback performance of media data associated with 3D data.
  • the client device 200 having the above configuration the above-described second information processing device is used, and ⁇ 4.
  • the present technology described above in "Support for interaction-based media” may be applied.
  • the media file acquisition unit 217 acquires encoded data of the interaction-type media associated with the 3D data to be played, based on the description of the interaction-type media included in the scene description file. You may.
  • the media data decoding unit 218 may decode the obtained encoded data based on the description of the scene description file to generate interaction-type media data.
  • other methods may be applied.
  • a plurality of the present techniques may be applied in combination as appropriate. By doing this, the client device 200 can perform ⁇ 4. It is possible to obtain the same effect as described above in ⁇ Support for interaction-type media''. That is, the client device 200 can suppress reduction in playback performance of media data associated with 3D data.
  • the series of processes described above can be executed by hardware or software.
  • the programs that make up the software are installed on the computer.
  • the computer includes a computer built into dedicated hardware and, for example, a general-purpose personal computer that can execute various functions by installing various programs.
  • FIG. 35 is a block diagram showing an example of the hardware configuration of a computer that executes the series of processes described above using a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input/output interface 910 is also connected to the bus 904.
  • An input section 911 , an output section 912 , a storage section 913 , a communication section 914 , and a drive 915 are connected to the input/output interface 910 .
  • the input unit 911 includes, for example, a keyboard, a mouse, a microphone, a touch panel, an input terminal, and the like.
  • the output unit 912 includes, for example, a display, a speaker, an output terminal, and the like.
  • the storage unit 913 includes, for example, a hard disk, a RAM disk, a nonvolatile memory, and the like.
  • the communication unit 914 includes, for example, a network interface.
  • the drive 915 drives a removable medium 921 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 901 executes the above-described series by, for example, loading a program stored in the storage unit 913 into the RAM 903 via the input/output interface 910 and the bus 904 and executing it. processing is performed.
  • the RAM 903 also appropriately stores data necessary for the CPU 901 to execute various processes.
  • a program executed by a computer can be applied by being recorded on a removable medium 921 such as a package medium, for example.
  • the program can be installed in the storage unit 913 via the input/output interface 910 by attaching the removable medium 921 to the drive 915.
  • the program may also be provided via wired or wireless transmission media, such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be received by the communication unit 914 and installed in the storage unit 913.
  • this program can also be installed in the ROM 902 or storage unit 913 in advance.
  • the present technology can be applied to any configuration.
  • the present technology can be applied to various electronic devices.
  • the present technology can be applied to a processor (e.g., video processor) as a system LSI (Large Scale Integration), a module (e.g., video module) that uses multiple processors, etc., a unit (e.g., video unit) that uses multiple modules, etc.
  • a processor e.g., video processor
  • the present invention can be implemented as a part of a device, such as a set (for example, a video set), which is a unit with additional functions.
  • the present technology can also be applied to a network system configured by a plurality of devices.
  • the present technology may be implemented as cloud computing in which multiple devices share and jointly perform processing via a network.
  • this technology will be implemented in a cloud service that provides services related to images (moving images) to any terminal such as a computer, AV (Audio Visual) equipment, mobile information processing terminal, IoT (Internet of Things) device, etc. You may also do so.
  • a system refers to a collection of multiple components (devices, modules (components), etc.), and it does not matter whether all the components are in the same housing or not. Therefore, multiple devices housed in separate casings and connected via a network, and one device with multiple modules housed in one casing are both systems. .
  • Systems, devices, processing units, etc. to which this technology is applied can be used in any field, such as transportation, medical care, crime prevention, agriculture, livestock farming, mining, beauty, factories, home appliances, weather, and nature monitoring. . Moreover, its use is also arbitrary.
  • the present technology can be applied to systems and devices used for providing ornamental content and the like. Further, for example, the present technology can be applied to systems and devices used for transportation, such as traffic situation supervision and automatic driving control. Furthermore, for example, the present technology can also be applied to systems and devices used for security. Furthermore, for example, the present technology can be applied to systems and devices used for automatic control of machines and the like. Furthermore, for example, the present technology can also be applied to systems and devices used in agriculture and livestock farming. Further, the present technology can also be applied to systems and devices that monitor natural conditions such as volcanoes, forests, and oceans, and wildlife. Furthermore, for example, the present technology can also be applied to systems and devices used for sports.
  • the term “flag” refers to information for identifying multiple states, and includes not only information used to identify two states, true (1) or false (0), but also information for identifying three or more states. Information that can identify the state is also included. Therefore, the value that this "flag” can take may be, for example, a binary value of 1/0, or a value of three or more. That is, the number of bits constituting this "flag" is arbitrary, and may be 1 bit or multiple bits.
  • identification information can be assumed not only to be included in the bitstream, but also to include differential information of the identification information with respect to certain reference information, so this specification
  • flags can be assumed not only to be included in the bitstream, but also to include differential information of the identification information with respect to certain reference information, so this specification
  • flags and “identification information” include not only that information but also difference information with respect to reference information.
  • encoded data may be transmitted or recorded in any form as long as it is associated with encoded data.
  • the term "associate" means, for example, that when processing one data, the data of the other can be used (linked). In other words, data that are associated with each other may be combined into one piece of data, or may be made into individual pieces of data.
  • information associated with encoded data (image) may be transmitted on a transmission path different from that of the encoded data (image).
  • information associated with encoded data (image) may be recorded on a different recording medium (or in a different recording area of the same recording medium) than the encoded data (image). good.
  • this "association" may be a part of the data instead of the entire data.
  • an image and information corresponding to the image may be associated with each other in arbitrary units such as multiple frames, one frame, or a portion within a frame.
  • embodiments of the present technology are not limited to the embodiments described above, and various changes can be made without departing from the gist of the present technology.
  • the configuration described as one device (or processing section) may be divided and configured as a plurality of devices (or processing sections).
  • the configurations described above as a plurality of devices (or processing units) may be configured as one device (or processing unit).
  • part of the configuration of one device (or processing unit) may be included in the configuration of another device (or other processing unit) as long as the configuration and operation of the entire system are substantially the same. .
  • the above-mentioned program may be executed on any device.
  • the device has the necessary functions (functional blocks, etc.) and can obtain the necessary information.
  • each step of one flowchart may be executed by one device, or may be executed by multiple devices.
  • the multiple processes may be executed by one device, or may be shared and executed by multiple devices.
  • multiple processes included in one step can be executed as multiple steps.
  • processes described as multiple steps can also be executed together as one step.
  • the processing of the steps described in the program may be executed chronologically in the order described in this specification, or may be executed in parallel, or may be executed in parallel. It may also be configured to be executed individually at necessary timings, such as when a request is made. In other words, the processing of each step may be executed in a different order from the order described above, unless a contradiction occurs. Furthermore, the processing of the step of writing this program may be executed in parallel with the processing of other programs, or may be executed in combination with the processing of other programs.
  • the present technology can also have the following configuration.
  • an acquisition unit that acquires encoded data of dynamic haptic media associated with 3D data to be played based on the description of the scene description file; a decoding unit that decodes the encoded data and generates data of the haptic media based on the description of the scene description file; a storage unit that stores data of the haptic media in a storage area corresponding to an accessor specified by the scene description file;
  • An information processing device comprising: a generation unit that reads data of the haptic media stored in the storage area based on the description of the scene description file, and generates haptic media information for output.
  • the information processing device stores the data of the haptic media in the storage area corresponding to the accessor specified in the material of the scene description file.
  • the haptic media includes synchronous haptic media that is played in synchronization with the progression of the scene in the time direction,
  • the information processing device reads data of the synchronous haptic media from the storage area at a timing corresponding to a predetermined playback timing, and generates the haptic media information. .
  • the haptic media includes interaction-type haptic media that is played when a predetermined condition is satisfied in the scene by a user operation,
  • the generation unit reads data of the interaction type haptic media from the storage area and generates the haptic media information when the condition is satisfied.
  • An information processing device comprising a file generation unit that generates a scene description file that specifies an accessor for storing dynamic haptic media associated with 3D data in a predetermined storage area.
  • the haptic media includes synchronous haptic media that is reproduced in synchronization with the progression of the scene in the time direction.
  • the haptic media includes interaction-type haptic media that is played when a predetermined condition is satisfied in a scene by a user operation.
  • An information processing method that generates a scene description file that specifies an accessor for storing dynamic haptic media associated with 3D data in a predetermined storage area.
  • an acquisition unit that acquires encoded data of the interaction-type media associated with the 3D data to be played based on the description of the interaction-type media included in the scene description file;
  • An information processing device comprising: a decoding unit that decodes the acquired encoded data based on the description of the scene description file and generates data of the interaction type media.
  • the description regarding the interaction type media includes a description indicating whether or not interaction type processing is possible to be executed when a predetermined condition is satisfied in the scene by a user operation, The information processing device according to (21), wherein the acquisition unit acquires the encoded data when it is indicated that the interaction type processing is possible.
  • the description regarding the interaction type media includes a description indicating whether or not the interaction type media can be selected according to a user operation or attribute information of an avatar;
  • the acquisition unit includes: If it is indicated that the interaction type media can be selected, selecting the interaction type media according to the user operation or the attribute information of the avatar;
  • the description regarding the interaction type media includes a description regarding the acquisition of the encoded data, The information processing device according to any one of (21) to (23), wherein the acquisition unit acquires the encoded data according to a description regarding acquisition of the encoded data.
  • the description regarding acquisition of the encoded data includes a description regarding acquisition conditions, The information processing device according to (24), wherein the acquisition unit acquires the encoded data when the condition is satisfied.
  • the description regarding the condition includes a description indicating whether the condition is before the initialization of information necessary for the scene, The information processing device according to (25), wherein the acquisition unit acquires the encoded data before the information is initialized, if the description indicates that the condition is before the information is initialized.
  • the description regarding the condition includes a description indicating the LoD of the position corresponding to the interaction type media, The information processing device according to (25) or (26), wherein the acquisition unit acquires the encoded data when the LoD at the position is larger than the LoD indicated by the description.
  • the description regarding the condition includes a description indicating a distance to a position corresponding to the interaction type media, The information processing according to any one of (25) to (27), wherein the acquisition unit acquires the encoded data when the viewpoint or the avatar approaches the position within the distance indicated by the description. Device.
  • the description regarding the condition includes a description indicating whether the condition is that the position corresponding to the interaction type media is within sight, If the description indicates that the condition is that the position is within the field of view, the acquisition unit acquires the encoded data when the position enters the field of view (25) to (28).
  • the information processing device according to any one of.
  • the description regarding the conditions includes a description indicating a recommended time for acquiring the encoded data, The information processing device according to any one of (25) to (29), wherein the acquisition unit acquires the encoded data at the recommended time indicated by the description.
  • the description regarding the condition includes a description indicating a predetermined spatial area, The information processing device according to any one of (25) to (30), wherein the acquisition unit acquires the encoded data when a viewpoint or an avatar is located within the spatial region indicated by the description.
  • the description regarding the acquisition of the encoded data includes a description regarding the acquisition method of the encoded data, The information processing device according to any one of (24) to (31), wherein the acquisition unit acquires the encoded data according to a description regarding the acquisition method.
  • the description regarding the acquisition method includes a description indicating whether the encoded data is included in the 3D data file, The information processing apparatus according to (32), wherein the acquisition unit acquires the encoded data when it is indicated that the encoded data is not included in the 3D data file.
  • the description regarding the acquisition method includes a description indicating the priority of the encoded data, The information processing device according to (32) or (33), wherein the acquisition unit acquires the encoded data according to the priority.
  • the description regarding the acquisition of encoded data includes a description regarding the type of the interaction type media, The information processing device according to any one of (24) to (34), wherein the acquisition unit acquires the encoded data according to a description regarding the type of the interaction type media.
  • the description regarding the type of the interaction type media includes a description indicating whether the interaction type media is a dynamic media, The information processing device according to (35), wherein the acquisition unit acquires the encoded data in a method according to the dynamic medium, when it is indicated that the interaction type media is the dynamic medium.
  • the description regarding the type of interaction type media includes a description specifying an accessor corresponding to a storage area that stores dynamic media, The information processing device according to (35) or (36), wherein the acquisition unit stores the acquired encoded data in the storage area corresponding to the designated accessor.
  • An information processing device that includes a file generation unit that generates a scene description file that includes a description of interaction media associated with 3D data.
  • Device. The information processing according to (51) or (52), wherein the description regarding the interaction type media includes a description indicating whether or not the interaction type media can be selected according to a user operation or attribute information of an avatar.
  • Device. The information processing device according to any one of (51) to (53), wherein the description regarding the interaction type media includes a description regarding acquisition of the interaction type media.
  • the information processing device (54), wherein the description regarding acquisition of the interaction type media includes a description regarding acquisition conditions.
  • the information processing device (5) or (56), wherein the description regarding the condition includes a description indicating an LoD of a position corresponding to the interaction type media to be acquired.
  • Device. (60) The information processing device according to any one of (55) to (59), wherein the description regarding the condition includes a description indicating a recommended time to acquire the interaction type media. (61) The information processing device according to any one of (55) to (60), wherein the description regarding the condition includes a description indicating a predetermined spatial area from which the interaction type media is acquired. (62) The information processing device according to any one of (54) to (61), wherein the description regarding acquisition of the interaction type media includes a description regarding a method for acquiring the interaction type media.
  • the information processing device (62), wherein the description regarding the acquisition method includes a description indicating whether or not the interaction type media is included in the 3D data file. (64) The information processing device according to (61) or (62), wherein the description regarding the acquisition method includes a description indicating a priority of the interaction type media. (65) The information processing device according to any one of (54) to (64), wherein the description regarding acquisition of the interaction type media includes a description regarding the type of the interaction type media. (66) The information processing device according to (65), wherein the description regarding the type of the interaction type media includes a description indicating whether the interaction type media is a dynamic medium.
  • the information processing device according to any one of (51) to (71), wherein the interaction type media includes image information.
  • the interaction type media includes audio information.
  • An information processing method that generates a scene description file that includes a description of interaction media associated with 3D data.
  • 100 File generation device 101 Control unit, 102 File generation processing unit, 111 Input unit, 112 Preprocessing unit, 113 Encoding unit, 114 Preprocessing unit, 115 Encoding unit, 116 File generation unit, 117 Recording section, 118 output section, 121 SD file generation section, 122 3D file generation section, 123 media file generation section, 200 client device, 201 control section, 202 client processing section, 211 SD file acquisition section, 212 SD file analysis section, 213 3D File acquisition part , 214 3D data decoding unit, 215 buffer, 216 display information generation unit, 217 media file acquisition unit, 218 media data decoding unit, 219 buffer, 220 media information generation unit, 221 output unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本開示は、3Dデータに関連付けられたメディアデータの再生性能の低減を抑制することができるようにする情報処理装置および方法に関する。 3Dデータに関連付けられた動的なハプティクスメディアを所定の記憶領域に記憶させるためのアクセサをシーンディスクリプションファイルにおいて指定し、そのシーンディスクリプションファイルに基づいてその動的なハプティクスメディアの符号化データを取得して復号し、そのシーンディスクリプションファイルにより指定されるアクセサに対応する記憶領域に記憶する。また、インタラクション型メディアに関する記述をシーンディスクリプションファイルに格納し、その記述に基づいてインタラクション型メディアの符号化データを取得し、復号する。本開示は、例えば、情報処理装置、または情報処理方法等に適用することができる。

Description

情報処理装置および方法
 本開示は、情報処理装置および方法に関し、特に、3Dデータに関連付けられたメディアデータの再生性能の低減を抑制することができるようにした情報処理装置および方法に関する。
 従来、3D(3次元)オブジェクトを3次元空間内に配置し、レンダリングするためのシーンディスクリプション(Scene Description)のフォーマットであるglTF(The GL Transmission Format)(登録商標)2.0があった(例えば非特許文献1参照)。
 また、MPEG(Moving Picture Experts Group)-I Scene Descriptionにおいて、glTF2.0を拡張し、時間方向に動的なコンテンツを扱う方法が提案された(例えば非特許文献2参照)。
 ところで、2Dビデオコンテンツや3DoF(Degree of Freedom)/6DoFビデオコンテンツの構成要素であるオーディオメディアやビデオメディアに加えて、触覚情報(ハプティクスメディア(haptics media)とも称する)の符号化伝送技術の規格化が始まった(例えば、非特許文献3参照)。
 また、そのハプティクスメディアが符号化されたビットストリームをISOBMFF(International Organization for Standardization Base Media File Format)に格納するための基本機能が作成された(例えば、非特許文献4参照)。
 また、ハプティクスメディアの符号化伝送技術の規格化と並行して、MPEG-I Scene Descriptionでハプティクスメディアを扱うための技術探索検討が始まった(例えば、非特許文献5参照)。
Saurabh Bhatia, Patrick Cozzi, Alexey Knyazev, Tony Parisi, "Khronos glTF2.0", https://github.com/KhronosGroup/glTF/tree/master/specification/2.0, June 9, 2017 "Text of ISO/IEC CD 23090-14 Scene Description for MPEG Media", ISO/IEC JTC 1/SC 29/WG 3 N00485, 2021/10/12 Quentin Galvane, Fabien Danieau, Philippe Guillotel, Eric Vezzoli, Alexandre Hulsken, Titouan Rabu, Andreas Noll, Lars Nockenberg, "WD on the Coded Representation of Haptics - Phase 1", ISO/IEC JTC 1/SC 29/WG 2, m58748, 2021/10/ "Information technology - Coding of audio-visual objects - Part 12: ISO base media file format, TECHNICAL CORRIGENDUM 1",ISO/IEC 14496-12:2015/Cor.1, ISO/IEC JTC 1/SC 29/WG 11, 2016/6/3 Chris Ullrich, Yeshwant Muthusamy, Fabien Danieau, Quentin Galvane, Philippe Guillotel, Eric Vezzoli, Titouan Rabu, "MPEG-I SD Revised Haptic Schema and Processing Model", ISO/IEC JTC 1/SC 29/WG 3 m58487_v3, 2021/10/
 しかしながら、ハプティクスメディアのように3Dデータに関連付けられたメディアデータをシーンディスクリプションで扱うための技術探索検討は始まったばかりであり、まだシーンディスクリプションで正しく扱うことができないメディアデータも存在した。そのため、3Dデータに関連付けられたメディアデータの再生性能が低減するおそれがあった。
 本開示は、このような状況に鑑みてなされたものであり、3Dデータに関連付けられたメディアデータの再生性能の低減を抑制することができるようにするものである。
 本技術の一側面の情報処理装置は、シーンディスクリプションファイルの記述に基づいて、再生対象の3Dデータに関連付けられた動的なハプティクスメディアの符号化データを取得する取得部と、前記シーンディスクリプションファイルの記述に基づいて、前記符号化データを復号し、前記ハプティクスメディアのデータを生成する復号部と、前記ハプティクスメディアのデータを、前記シーンディスクリプションファイルにより指定されるアクセサに対応する記憶領域に記憶する記憶部と、前記シーンディスクリプションファイルの記述に基づいて、前記記憶領域に記憶されている前記ハプティクスメディアのデータを読み出し、出力用のハプティクスメディア情報を生成する生成部とを備える情報処理装置である。
 本技術の一側面の情報処理方法は、シーンディスクリプションファイルの記述に基づいて、再生対象の3Dデータに関連付けられた動的なハプティクスメディアの符号化データを取得し、前記シーンディスクリプションファイルの記述に基づいて、前記符号化データを復号し、前記ハプティクスメディアのデータを生成し、前記ハプティクスメディアのデータを、前記シーンディスクリプションファイルにより指定されるアクセサに対応する記憶領域に記憶し、前記シーンディスクリプションファイルの記述に基づいて、前記記憶領域に記憶されている前記ハプティクスメディアのデータを読み出し、出力用のハプティクスメディア情報を生成する情報処理方法である。
 本技術の他の側面の情報処理装置は、3Dデータに関連付けられた動的なハプティクスメディアを所定の記憶領域に記憶させるためのアクセサを指定するシーンディスクリプションファイルを生成するファイル生成部を備える情報処理装置である。
 本技術の他の側面の情報処理方法は、3Dデータに関連付けられた動的なハプティクスメディアを所定の記憶領域に記憶させるためのアクセサを指定するシーンディスクリプションファイルを生成する情報処理方法である。
 本技術のさらに他の側面の情報処理装置は、シーンディスクリプションファイルに含まれるインタラクション型メディアに関する記述に基づいて、再生対象の3Dデータに関連付けられた前記インタラクション型メディアの符号化データを取得する取得部と、前記シーンディスクリプションファイルの記述に基づいて、取得された前記符号化データを復号し、前記インタラクション型メディアのデータを生成する復号部とを備える情報処理装置である。
 本技術のさらに他の側面の情報処理方法は、シーンディスクリプションファイルに含まれるインタラクション型メディアに関する記述に基づいて、再生対象の3Dデータに関連付けられた前記インタラクション型メディアの符号化データを取得し、前記シーンディスクリプションファイルの記述に基づいて、取得された前記符号化データを復号し、前記インタラクション型メディアのデータを生成する情報処理方法である。
 本技術のさらに他の側面の情報処理装置は、3Dデータに関連付けられたインタラクション型メディアに関する記述を含むシーンディスクリプションファイルを生成するファイル生成部を備える情報処理装置である。
 本技術のさらに他の側面の情報処理方法は、3Dデータに関連付けられたインタラクション型メディアに関する記述を含むシーンディスクリプションファイルを生成する情報処理方法である。
 本技術の一側面の情報処理装置および方法においては、シーンディスクリプションファイルの記述に基づいて、再生対象の3Dデータに関連付けられた動的なハプティクスメディアの符号化データが取得され、そのシーンディスクリプションファイルの記述に基づいて、その符号化データが復号され、ハプティクスメディアのデータが生成され、そのハプティクスメディアのデータが、シーンディスクリプションファイルにより指定されるアクセサに対応する記憶領域に記憶され、シーンディスクリプションファイルの記述に基づいて、その記憶領域に記憶されているハプティクスメディアのデータが読み出され、出力用のハプティクスメディア情報が生成される。
 本技術の他の側面の情報処理装置および方法においては、3Dデータに関連付けられた動的なハプティクスメディアを所定の記憶領域に記憶させるためのアクセサを指定するシーンディスクリプションファイルが生成される。
 本技術のさらに他の側面の情報処理装置および方法においては、シーンディスクリプションファイルに含まれるインタラクション型メディアに関する記述に基づいて、再生対象の3Dデータに関連付けられたそのインタラクション型メディアの符号化データが取得され、そのシーンディスクリプションファイルの記述に基づいて、その取得された符号化データが復号され、インタラクション型メディアのデータが生成される。
 本技術のさらに他の側面の情報処理装置および方法においては、3Dデータに関連付けられたインタラクション型メディアに関する記述を含むシーンディスクリプションファイルが生成される。
glTF2.0の主な構成例を示す図である。 glTFオブジェクトと参照関係の例を示す図である。 シーンディスクリプションの記述例を示す図である。 バイナリデータへのアクセス方法について説明する図である。 シーンディスクリプションの記述例を示す図である。 buffer object、buffer view object、accessor objectの関係を説明する図である。 buffer object、buffer view object、accessor objectの記述例を示す図である。 シーンディスクリプションのオブジェクトの構成例を説明する図である。 シーンディスクリプションの記述例を示す図である。 オブジェクトの拡張方法について説明する図である。 クライアント処理の構成について説明する図である。 タイムドメタデータを扱うためのextensionの構成例を示す図である。 シーンディスクリプションの記述例を示す図である。 シーンディスクリプションの記述例を示す図である。 タイムドメタデータを扱うためのextensionの構成例を示す図である。 クライアントの主な構成例を示す図である。 クライアント処理の流れの例を説明するフローチャートである。 ハプティクスメディアの符号化の概要を説明する図である。 ハプティクスメディアを格納するためのISOBMFFの拡張例を示す図である。 ハプティクスメディアを扱うためのシーンディスクリプションの拡張例を示す図である。 ハプティクスメディアの再生の様子の例を示す図である。 ハプティクスメディアを扱うためのシーンディスクリプションの拡張例を示す図である。 動的なハプティクスメディアを格納するバッファに対応するアクセサを指定する様子の例を示す図である。 シーンディスクリプションの、動的なハプティクスメディアに関する記述例を示す図である。 要素のセマンティクスの例を示す図である。 シーンディスクリプションの、インタラクション型メディアに関する記述例を示す図である。 要素のセマンティクスの例を示す図である。 要素のセマンティクスの例を示す図である。 シーンディスクリプションの、インタラクション型メディアに関する記述例を示す図である。 要素のセマンティクスの例を示す図である。 ファイル生成装置の主な構成例を示すブロック図である。 ファイル生成処理の流れの例を示すフローチャートである。 クライアント装置の主な構成例を示すブロック図である。 再生処理の流れの例を示すフローチャートである。 コンピュータの主な構成例を示すブロック図である。
 以下、本開示を実施するための形態(以下実施の形態とする)について説明する。なお、説明は以下の順序で行う。
 1.技術内容・技術用語をサポートする文献等
 2.MPEG-Iシーンディスクリプション
 3.動的なハプティクスメディアのサポート
 4.インタラクション型メディアのサポート
 5.第1の実施の形態(ファイル生成装置)
 6.第2の実施の形態(クライアント装置)
 7.付記
 <1.技術内容・技術用語をサポートする文献等>
 本技術で開示される範囲は、実施の形態に記載されている内容だけではなく、出願当時において公知となっている以下の非特許文献等に記載されている内容や以下の非特許文献において参照されている他の文献の内容等も含まれる。
 非特許文献1:(上述)
 非特許文献2:(上述)
 非特許文献3:(上述)
 非特許文献4:(上述)
 非特許文献5:(上述)
 つまり、上述の非特許文献に記載されている内容や、上述の非特許文献において参照されている他の文献の内容等も、サポート要件を判断する際の根拠となる。例えば、非特許文献1乃至非特許文献3に記載されるglTF2.0やそのextensionなどのシンタックスや用語が本開示において直接的に定義されていない場合でも、本開示の範囲内であり、請求の範囲のサポート要件を満たすものとする。また、例えば、パース(Parsing)、シンタックス(Syntax)、セマンティクス(Semantics)等の技術用語についても同様に、本開示において直接的に定義されていない場合でも、本開示の範囲内であり、請求の範囲のサポート要件を満たすものとする。
 <2.MPEG-Iシーンディスクリプション>
  <gltf2.0>
 従来、例えば、非特許文献1に記載のように、3D(3次元)オブジェクトを3次元空間内に配置するためのフォーマットであるglTF(The GL Transmission Format)(登録商標)2.0があった。glTF2.0では、例えば図1に示されるように、JSONフォーマットファイル(.glTF)と、バイナリファイル(.bin)と、イメージファイル(.pngや.jpg等)とにより構成される。バイナリファイルは、ジオメトリやアニメーション等のバイナリデータを格納する。イメージファイルは、テクスチャ等のデータを格納する。
 JSONフォーマットファイルは、JSON(JavaScript(登録商標) Object Notation)で記述されたシーンディスクリプションファイル(scene description file)である。シーンディスクリプションとは、3Dコンテンツのシーン(の説明)を記述するメタデータである。このシーンディスクリプションの記述により、どのようなシーンであるかが定義される。シーンディスクリプションファイルは、そのようなシーンディスクリプションを格納するファイルである。本開示においては、シーンディスクリプションファイルのことをシーン記述ファイルとも称する。
 JSONフォーマットファイルの記述は、キー(KEY)とバリュー(VALUE)のペアの羅列により構成される。以下にその書式の例を示す。
 “KEY”:”VALUE”
 キーは文字列により構成される。バリューは数値、文字列、真偽値、配列、オブジェクト、またはnull等により構成される。
 また、複数のキーとバリューのペア(“KEY”:”VALUE”)を、{}(中かっこ)を用いてまとめることができる。この中かっこでまとめたものをJSONオブジェクトとも称する。以下にその書式の例を示す。
 “user”:{"id":1, "name":"tanaka”}
 この例の場合、キー(user)に対応するバリューとして、"id":1のペアと"name":"tanaka”のペアをまとめたJSONオブジェクトが定義されている。
 また、0個以上のバリューを、[](大かっこ)を用いて配列化することもできる。この配列をJSON配列とも称する。このJSON配列の要素として、例えば、JSONオブジェクトを適用することもできる。以下にその書式の例を示す。
 test":["hoge", "fuga", "bar"]
 "users":[{"id":1, "name":"tanaka"},{"id":2,"name":"yamada"},{"id":3, "name":"sato"}]
 JSONフォーマットファイルの最上位に記載できるglTFオブジェクト(glTF object)と、それらが持てる参照関係を図2に示す。図2に示されるツリー構造の長丸がオブジェクトを示し、そのオブジェクト間の矢印が参照関係を示している。図2に示されるように、"scene"、"node"、"mesh"、"camera"、"skin"、"material"、"texture"等のオブジェクトがJSONフォーマットファイルの最上位に記述される。
 このようなJSONフォーマットファイル(シーンディスクリプション)の記述例を図3に示す。図3のJSONフォーマットファイル20は、最上位の一部の記述例を示している。このJSONフォーマットファイル20において、使用されるトップレベルオブジェクト(top-level object)21は、全て最上位に記述される。このトップレベルオブジェクト21は、図2に示されるglTFオブジェクトである。また、JSONフォーマットファイル20においては、矢印22として示されるように、オブジェクト(object)間の参照関係が示される。より具体的には、上位オブジェクトのプロパティ(property)で、参照するオブジェクトの配列の要素のインデックス(index)を指定することによりその参照関係が示される。
 図4は、バイナリデータへのアクセス方法について説明する図である。図4に示されるように、バイナリデータは、バッファオブジェクト(buffer object)に格納される。つまり、バッファオブジェクトにおいてバイナリデータにアクセスするための情報(例えばURI(Uniform Resource Identifier)等)が示される。JSONフォーマットファイルにおいては、図4に示されるように、例えばメッシュ(mesh)、カメラ(camera)、スキン(skin)等のオブジェクトから、そのバッファオブジェクトに対して、アクセサオブジェクト(accessor object)とバッファビューオブジェクト(bufferView object)を介してアクセスすることができる。
 つまり、メッシュ(mesh)、カメラ(camera)、スキン(skin)等のオブジェクトにおいては、参照するアクセサオブジェクトが指定される。JSONフォーマットファイルにおけるメッシュオブジェクト(mesh)の記述例を図5に示す。例えば、図5のように、メッシュオブジェクトにおいては、NORMAL、POSITION、TANGENT、TEXCORD_0等の頂点の属性(アトリビュート(attribute))がキーとして定義され、その属性毎に、参照するアクセサオブジェクトがバリューとして指定されている。
 バッファオブジェクト、バッファビューオブジェクト、アクセサオブジェクトの関係を図6に示す。また、JSONフォーマットファイルにおけるそれらのオブジェクトの記述例を図7に示す。
 図6において、バッファオブジェクト41は、実データであるバイナリデータにアクセスするための情報(URI等)と、そのバイナリデータのデータ長(例えばバイト長)を示す情報とを格納するオブジェクトである。図7のAは、そのバッファオブジェクト41の記述例を示している。図7のAに示される「"bytelength":102040」は、図6に示されるように、バッファオブジェクト41のバイト長が102040バイト(bytes)であることを示している。また、図7のAに示される「"uri":"duck.bin"」は、図6に示されるように、バッファオブジェクト41のURIが"duck.bin"であることを示している。
 図6において、バッファビューオブジェクト42は、バッファオブジェクト41において指定されたバイナリデータのサブセット(subset)領域に関する情報(つまりバッファオブジェクト41の一部の領域に関する情報)を格納するオブジェクトである。図7のBは、そのバッファビューオブジェクト42の記述例を示している。図6や図7のBに示されるように、バッファビューオブジェクト42は、例えば、そのバッファビューオブジェクト42が属するバッファオブジェクト41の識別情報、そのバッファオブジェクト41内におけるそのバッファビューオブジェクト42の位置を示すオフセット(例えばバイトオフセット)、そのバッファビューオブジェクト42のデータ長(例えばバイト長)を示すレングス(例えばバイトレングス)等の情報を格納する。
 図7のBに示されるように、バッファビューオブジェクトが複数存在する場合、そのバッファビューオブジェクト毎(つまりサブセット領域毎)に情報が記述される。例えば、図7のBにおいて上側に示される、「"buffer":0」、「"bytelength":25272」、「"byteOffset":0」等の情報は、図6においてバッファオブジェクト41内に示される1つ目のバッファビューオブジェクト42(bufferView[0])の情報である。また、図7のBにおいて下側に示される、「"buffer":0」、「"bytelength":76768」、「"byteOffset":25272」等の情報は、図6においてバッファオブジェクト41内に示される2つ目のバッファビューオブジェクト42(bufferView[1])の情報である。
 図7のBに示される1つ目のバッファビューオブジェクト42(bufferView[0])の「"buffer":0」は、図6に示されるように、そのバッファビューオブジェクト42(bufferView[0])が属するバッファオブジェクト41の識別情報が「0」(Buffer[0])であることを示している。また、「"bytelength":25272」は、そのバッファビューオブジェクト42(bufferView[0])のバイト長が25272バイトであることを示している。さらに、「"byteOffset":0」は、そのバッファビューオブジェクト42(bufferView[0])のバイトオフセットが0バイトであることを示している。
 図7のBに示される2つ目のバッファビューオブジェクト42(bufferView[1])の「"buffer":0」は、図6に示されるように、そのバッファビューオブジェクト42(bufferView[0])が属するバッファオブジェクト41の識別情報が「0」(Buffer[0])であることを示している。また、「"bytelength":76768」は、そのバッファビューオブジェクト42(bufferView[0])のバイト長が76768バイトであることを示している。さらに、「"byteOffset":25272」は、そのバッファビューオブジェクト42(bufferView[0])のバイトオフセットが25272バイトであることを示している。
 図6において、アクセサオブジェクト43は、バッファビューオブジェクト42のデータの解釈方法に関する情報を格納するオブジェクトである。図7のCは、そのアクセサオブジェクト43の記述例を示している。図6や図7のCに示されるように、アクセサオブジェクト43は、例えば、そのアクセサオブジェクト43が属するバッファビューオブジェクト42の識別情報、そのバッファビューオブジェクト42の、バッファオブジェクト41内における位置を示すオフセット(例えばバイトオフセット)、そのバッファビューオブジェクト42のコンポーネントタイプ、そのバッファビューオブジェクト42に格納されるデータ数、そのバッファビューオブジェクト42に格納されるデータのタイプ等の情報を格納する。これらの情報は、バッファビューオブジェクト毎に記述される。
 図7のCの例では、「"bufferView":0」、「"byteOffset":0」、「"componentType":5126」、「"count":2106」、「"type":"VEC3"」等の情報が示されている。「"bufferView":0」は、図6に示されるように、そのアクセサオブジェクト43が属するバッファビューオブジェクト42の識別情報が「0」(bufferView[0])であることを示している。また、「"byteOffset":0」は、そのバッファビューオブジェクト42(bufferView[0])のバイトオフセットが0バイトであることを示している。さらに、「"componentType":5126」は、コンポーネントタイプが、FLOAT型(OpenGLマクロ定数)であることを示している。また、「"count":2106」は、そのバッファビューオブジェクト42(bufferView[0])に格納されるデータが2106個であることを示している。さらに、「"type":"VEC3"」は、そのバッファビューオブジェクト42(bufferView[0])に格納されるデータ(のタイプ)が3次元ベクトルであることを示している。
 イメージ(image)以外のデータへのアクセスは、全てこのアクセサオブジェクト43への参照により(アクセサのインデックスを指定することにより)定義される。
 次に、このようなglTF2.0に準拠するシーンディスクリプション(JSONフォーマットファイル)において、ポイントクラウドの3Dオブジェクトを指定する方法について説明する。ポイントクラウドは、立体構造物(3次元形状のオブジェクト)を多数の点の集合として表現する3Dコンテンツである。ポイントクラウドのデータは、各点の位置情報(ジオメトリ(geometry)とも称する)と属性情報(アトリビュート(attribute)とも称する)とにより構成される。アトリビュートは任意の情報を含むことができる。例えば、各ポイントの色情報、反射率情報、法線情報等がアトリビュートに含まれるようにしてもよい。このようにポイントクラウドは、データ構造が比較的単純であるとともに、十分に多くの点を用いることにより任意の立体構造物を十分な精度で表現することができる。
 ポイントクラウドが時間方向に変化しない(静的であるとも称する)場合、glTF2.0のmesh.primitives objectを用いて3Dオブジェクトを指定する。図8は、ポイントクラウドが静的な場合の、シーンディスクリプションにおけるオブジェクトの構成例を示す図である。図9は、そのシーンディスクリプションの記述例を示す図である。
 図9に示されるように、primitives objectのmodeは、データ(data)がポイントクラウドの点(point)として扱われることを示す0に指定される。図8や図9に示されるように、mesh.primitives内のattributesオブジェクトのポジションプロパティ(POSITION property)において、点(Point)の位置情報を格納するバッファ(buffer)へのアクセサ(accessor)が指定される。同様に、attributesオブジェクトのカラープロパティ(COLOR property)において、点(Point)の色情報を格納するバッファ(buffer)へのアクセサ(accessor)が指定される。バッファ(buffer)とバッファビュー(bufferView)は1つであってもよい(1つのファイル(file)にデータ(data)が格納されてもよい)。
 次に、このようなシーンディスクリプションのオブジェクトの拡張について説明する。glTF2.0の各オブジェクトは、拡張オブジェクト(extension object)内に新たに定義されたオブジェクトを格納することができる。図10は、新たに定義されたオブジェクト(ExtensionExample)を規定する場合の記述例を示す。図10に示されるように、新たに定義されたextensionを使用する場合、“extensionUsed”と”extensionRequired”にそのextension object名(図10の例の場合、ExtensionExample)が記述される。これにより、このextensionが、使用されるextensionであること、または、ロード(load)に必要なextensionであることが示される。
  <クライアント処理>
 次に、MPEG-I Scene Descriptionにおけるクライアント装置の処理について説明する。クライアント装置は、シーンディスクリプションを取得し、そのシーンディスクリプションに基づいて3Dオブジェクトのデータを取得し、そのシーンディスクリプションや3Dオブジェクトのデータを用いて表示画像を生成する。
 非特許文献2に記載のように、クライアント装置では、プレゼンテーションエンジンやメディアアクセスファンクション等が処理を行う。例えば、図11に示されるように、クライアント装置50のプレゼンテーションエンジン(Presentation Engine)51が、シーンディスクリプションの初期値やそのシーンディスクリプションを更新するための情報(以下、更新情報とも称する)を取得し、処理対象時刻のシーンディスクリプションを生成する。そして、プレゼンテーションエンジン51は、そのシーンディスクリプションを解析し、再生するメディア(動画や音声等)を特定する。そして、プレゼンテーションエンジン51は、メディアアクセスAPI(Media Access API(Application Program Interface))経由で、メディアアクセスファンクション(Media Access Function)52に対してそのメディアの取得を要求する。また、プレゼンテーションエンジン51は、パイプライン処理の設定やバッファの指定等も行う。
 メディアアクセスファンクション52は、プレゼンテーションエンジン51から要求されたメディアの各種データをクラウド(Cloud)やローカルストレージ(Local Storage)等から取得する。メディアアクセスファンクション52は、取得したメディアの各種データ(符号化データ)をパイプライン(Pipeline)53に供給する。
 パイプライン53は、供給されたメディアの各種データ(符号化データ)を、パイプライン処理により復号し、その復号結果をバッファ(Buffer)54に供給する。バッファ54は、供給されたメディアの各種データを保持する。
 プレゼンテーションエンジン51は、バッファ54に保持されているメディアの各種データを用いてレンダリング(Rendering)等を行う。
  <Timed mediaの適用>
 近年、例えば、非特許文献2に示されるように、MPEG-I Scene Descriptionにおいて、glTF2.0を拡張し、3Dオブジェクトコンテンツとしてタイムドメディア(Timed media)を適用することが検討されている。タイムドメディアとは、2次元画像における動画像のように、時間軸方向に変化するメディアデータである。
 glTFは、メディアデータ(3Dオブジェクトコンテンツ)として、静止画データのみ適用可能であった。つまり、glTFは、動画像のメディアデータには対応していなかった。3Dオブジェクトを動かす場合は、アニメーション(時間軸に沿って静止画を切り替える方法)が適用されていた。
 MPEG-I Scene Descriptionでは、そのglTF2.0を適用し、シーンディスクリプションとしてJSONフォーマットファイルを適用し、さらに、メディアデータとして、タイムドメディア(例えばビデオデータ)を扱うことができるようにglTFを拡張することが検討されている。タイムドメディアを扱うために、例えば以下のような拡張が行われる。
 図12は、タイムドメディアを扱うための拡張について説明する図である。図12の例において、MPEGメディアオブジェクト(MPEG_media)は、glTFのextensionであり、例えば、uri, track, renderingRate, startTime等、ビデオデータ等のMPEGメディアの属性を指定するオブジェクトである。
 また、図12に示されるように、テクスチャオブジェクト(texture)の拡張オブジェクト(extensions)として、MPEGテクスチャビデオオブジェクト(MPEG_texture_video)が設けられる。そのMPEGテクスチャビデオオブジェクトには、アクセスするバッファオブジェクトに対応するアクセサの情報が格納される。すなわち、MPEGテクスチャビデオオブジェクトは、MPEGメディアオブジェクト(MPEG_media)で指定されたテクスチャメディア(texture media)が復号されて格納されるバッファ(buffer)に対応するアクセサ(accessor)のインデックスを指定するオブジェクトである。
 図13は、タイムドメディアを扱うための拡張について説明するための、シーンディスクリプションにおけるMPEGメディアオブジェクト(MPEG_media)およびMPEGテクスチャビデオオブジェクト(MPEG_texture_video)の記述例を示す図である。図13の例の場合、上から2行目において下記のように、テクスチャオブジェクト(texture)の拡張オブジェクト(extensions)として、MPEGテクスチャビデオオブジェクト(MPEG_texture_video)が設定されている。そして、そのMPEGビデオテクスチャオブジェクトのバリューとして、アクセサのインデックス(この例では「2」)が指定されている。
"texture":[{"sampler":0, "source":1, "extensions":{"MPEG_texture_video ":"accessor":2}}],
 また、図13の例の場合、上から7行目乃至16行目において下記のように、glTFの拡張オブジェクト(extensions)として、MPEGメディアオブジェクト(MPEG_media)が設定されている。そして、そのMPEGメディアオブジェクトのバリューとして、例えば、そのMPEGメディアオブジェクトの符号化やURI等といった、MPEGメディアオブジェクトに関する様々な情報が格納されている。
"MPEG_media":{
  "media":[
        {"name":"source_1", "renderingRate":30.0, "startTime":9.0, "timeOffset":0.0,
          "loop":"true", "controls":"false",
          "alternatives":[{"mimeType":"video/mp4;codecs=\"avc1.42E01E\"", "uri":"video1.mp4",
                                     "tracks":[{"track":""#track_ID=1"}]
                         }]
        }
  ]
}
 また、各フレームデータはデコードされ順次バッファに格納されるが、その位置などが変動するため、シーンディスクリプションには、その変動する情報を格納して、レンダラ(renderer)がデータを読みだせるようにする仕組みが設けられる。例えば、図12に示されるように、バッファオブジェクト(buffer)の拡張オブジェクト(extensions)として、MPEGバッファサーキュラオブジェクト(MPEG_buffer_circular)が設けられる。そのMPEGバッファサーキュラオブジェクトには、バッファオブジェクト内にデータを動的に格納するための情報が格納される。例えば、バッファヘッダ(bufferHeader)のデータ長を示す情報や、フレーム数を示す情報等といった情報がこのMPEGバッファサーキュラオブジェクトに格納される。なお、バッファヘッダは、例えば、インデックス(index)、格納されるフレームデータのタイムスタンプやデータ長等といった情報を格納する。
 また、図12に示されるように、アクセサオブジェクト(accessor)の拡張オブジェクト(extensions)として、MPEGアクセサタイムドオブジェクト(MPEG_timed_accessor)が設けられる。この場合、メディアデータは動画なので時間方向に参照するバッファビューオブジェクト(bufferView)が変化し得る(位置が変動し得る)。そこで、その参照するバッファビューオブジェクトを示す情報が、このMPEGアクセサタイムドオブジェクトに格納される。例えば、MPEGアクセサタイムドオブジェクトには、タイムドアクセサインフォメーションヘッダ(timedAccessor information header)が記述されるバッファビューオブジェクト(bufferView)への参照を示す情報が格納される。なお、タイムドアクセサインフォメーションヘッダは、例えば、動的に変化するアクセサオブジェクトとバッファビューオブジェクト内の情報を格納するヘッダ情報である。
 図14は、タイムドメディアを扱うための拡張について説明するための、シーンディスクリプションにおけるMPEGバッファサーキュラオブジェクト(MPEG_buffer_circular)およびMPEGアクセサタイムドオブジェクト(MPEG_accessor_timed)の記述例を示す図である。図14の例の場合、上から5行目において下記のように、アクセサオブジェクト(accessors)の拡張オブジェクト(extensions)として、MPEGアクセサタイムドオブジェクト(MPEG_accessor_timed)が設定されている。そして、そのMPEGアクセサタイムドオブジェクトのバリューとして、バッファビューオブジェクトのインデックス(この例では「1」)、アップデートレート(updataRate)、不変の情報(immutable)等のパラメータとその値が指定されている。
"MPEG_accessor_timed":{"bufferView":1, "updateRate":25.0, "immutable":1,"}
 また、図14の例の場合、上から13行目において下記のように、バッファオブジェクト(buffer)の拡張オブジェクト(extensions)として、MPEGバッファサーキュラオブジェクト(MPEG_buffer_circular)が設定されている。そして、そのMPEGバッファサーキュラオブジェクトのバリューとして、バッファフレームカウント(count)、ヘッダ長(headerLength)、アップデートレート(updataRate)等のパラメータとその値が指定されている。
"MPEG_buffer_circular":{"count":5, "headerLength":12, "updateRate":25.0}
 図15は、タイムドメディアを扱うための拡張について説明するための図である。図15において、MPEGアクセサタイムドオブジェクトやMPEGバッファサーキュラオブジェクトと、アクセサオブジェクト、バッファビューオブジェクト、およびバッファオブジェクトとの関係の例を示す。
 バッファオブジェクトのMPEGバッファサーキュラオブジェクトには、上述したように、バッファフレームカウント(count)、ヘッダ長(headerLength)、アップデートレート(updataRate)等といった、バッファオブジェクトによって示されるバッファ領域に時間変化するdataを格納するのに必要な情報が格納される。また、そのバッファ領域のヘッダであるバッファヘッダ(bufferHeader)には、インデックス(idex)、タイムスタンプ(timestamp)、データ長(length)等のパラメータが格納される。
 アクセサオブジェクトのMPEGアクセサタイムドオブジェクトには、上述したように、バッファビューオブジェクトのインデックス(bufferView)、アップデートレート(updataRate)、不変の情報(immutable)等といった、参照するバッファビューオブジェクトに関する情報が格納される。また、このMPEGアクセサタイムドオブジェクトには、参照するタイムドアクセサインフォメーションヘッダが格納されるバッファビューオブジェクトに関する情報が格納される。タイムドアクセサインフォメーションヘッダには、タイムスタンプデルタ(timestamp_delta)、アクセサオブジェクトの更新データ、バッファビューオブジェクトの更新データ等が格納され得る。
  <MPEG_texture_video使用時のクライアント処理>
 シーンディスクリプションは、1つ以上の3Dオブジェクトを3D空間に配置するための空間配置情報である。このシーンディスクリプションは、時間軸に沿ってその内容を更新することができる。つまり、時間の経過とともに、3Dオブジェクトの配置を更新することができる。その際のクライアント装置において行われるクライアント処理について説明する。
 図16は、クライアント装置の、クライアント処理に関する主な構成例を示し、図17は、そのクライアント処理の流れの例を示すフローチャートである。図16に示されるように、クライアント装置は、プレゼンテーションエンジン(PresentaionEngine(以下、PEとも称する))51、メディアアクセスファンクション(MediaAccessFuncon(以下、MAFとも称する))52、パイプライン(Pipeline)53、およびバッファ(Buffer)54を有する。プレゼンテーションエンジン(PE)51は、glTF解析部63およびレンダリング(Rendering)処理部64を有する。
 プレゼンテーションエンジン(PE)51は、メディアアクセスファンクション52にメディアを取得させ、バッファ54を介してそのデータを取得し、表示に関する処理等を行う。具体的には例えば以下のような流れで処理が行われる。
 クライアント処理が開始されると、プレゼンテーションエンジン(PE)51のglTF解析部63は、図17の例のようにPE処理を開始し、ステップS21において、シーンディスクリプションファイルであるSD(glTF)ファイル62を取得し、そのシーンディスクリプションを解析(parse)する。
 ステップS22において、glTF解析部63は、3Dオブジェクト(texture)に紐づくメディア(media)と、そのメディアを処理後に格納するバッファ(buffer)と、アクセサ(accessor)を確認する。ステップS23において、glTF解析部63は、ファイル取得要求として、メディアアクセスファンクション52にその情報を通知する。
 メディアアクセスファンクション(MAF)52は、図17の例のようにMAF処理を開始し、ステップS11において、その通知を取得する。ステップS12において、メディアアクセスファンクション52は、その通知に基づいてメディア(3Dオブジェクトファイル(mp4))を取得する。
 ステップS13において、メディアアクセスファンクション52は、取得したメディア(3Dオブジェクトファイル(mp4))を復号する。ステップS14において、メディアアクセスファンクション52は、復号して得られたメディアのデータを、プレゼンテーションエンジン(PE51)からの通知に基づいて、バッファ54に格納する。
 ステップS24において、プレゼンテーションエンジン51のレンダリング処理部64は、そのデータを適切なタイミングにおいてバッファ54から読み出す(取得する)。ステップS25において、レンダリング処理部64は、取得したデータを用いてレンダリングを行い、表示用画像を生成する。
 メディアアクセスファンクション52は、ステップS13およびステップS14の処理を繰り返すことにより、各時刻(各フレーム)についてこれらの処理を実行する。また、プレゼンテーションエンジン51のレンダリング処理部64は、ステップS24およびステップS25の処理を繰り返すことにより、各時刻(各フレーム)についてこれらの処理を実行する。全てのフレームについて処理が終了すると、メディアアクセスファンクション52はMAF処理を終了し、プレゼンテーションエンジン51はPE処理を終了する。つまり、クライアント処理が終了する。
  <ハプティクスメディア>
 ところで、例えば非特許文献3に記載のように、2Dビデオコンテンツや3DoF(Degree of Freedom)/6DoFビデオコンテンツの構成要素であるオーディオメディアやビデオメディアに加えて、触覚情報(ハプティクスメディア(haptics media)とも称する)の符号化伝送技術の規格化が始まった。ハプティクスメディアは、例えば振動等を用いて仮想の感覚を表現する情報である。ハプティクスメディアは例えば、3次元空間を表現する情報である3Dデータに関連付けられて利用される。3Dデータには、例えば、3次元空間に配置された3Dオブジェクトの3次元形状を表現するコンテンツ(例えば、メッシュやポイントクラウド等)や、3次元空間に展開されるビデオコンテンツやオーディオコンテンツ(例えばビデオやオーディオの6DoFコンテンツ等)等が含まれる。
 なお、3Dデータに関連付けられたメディアはどのような情報であってもよく、このハプティクスメディアに限定されない。例えば、画像や音声等がこのメディアに含まれてもよい。3Dデータに関連付けられたメディア(例えば、画像、音声、振動等)には、シーン(3次元空間の状態)の時間方向の進行(変化)に同期して再生される同期型メディアと、ユーザ操作等によりシーンにおいて所定の条件が満たされる場合に再生される(つまり、所定のイベントに対して再生される)インタラクション型メディアとがある。同期型メディアのハプティクスメディアを同期型ハプティクスメディアとも称する。また、インタラクション型メディアのハプティクスメディアをインタラクション型ハプティクスメディアとも称する。同期型ハプティクスメディアは、例えば、風が吹いたり、3Dオブジェクトが移動したりした場合に、その様子に合わせて(そのシーンの変化の様子を表現するように)発生する振動等である。インタラクション型ハプティクスメディアは、例えば、ユーザのアバターが3Dオブジェクトに触れた場合、アバターが3Dオブジェクトを動かした場合、または、アバターが3Dオブジェクトにぶつかった場合等に、その感覚を表現するように発生する振動等である。勿論、これらはハプティクスメディアの一例であり、ハプティクスメディアはこれらの例に限定されない。
 また、3Dデータに関連付けられたメディアには、時間方向に変化し得るメディアと変化しないメディアとがある。
 「時間方向に変化し得るメディア」には、例えば、再生内容(アクション)が時間方向に変化し得るメディアが含まれてもよい。その「再生内容が時間方向に変化し得るメディア」には、例えば、動画像や、長時間の音声情報や振動情報等が含まれてもよい。また、「再生内容が時間方向に変化し得るメディア」には、例えば、所定の時間帯においてのみ再生されるメディアや、時刻に応じた内容が再生されるメディア(例えば、時刻に応じて表示される画像、再生される音声、振動の仕方等が切り替わるメディア)等が含まれてもよい。また、「時間方向に変化し得るメディア」には、例えば、紐づけられる再生条件(イベント)が時間方向に変化し得るメディアが含まれてもよい。その「紐づけられる再生条件が時間方向に変化し得るメディア」には、例えば、触れる、押す、倒す等の、イベントの内容が時間方向に変化し得るメディアが含まれてもよい。また、「紐づけられる再生条件が時間方向に変化し得るメディア」には、例えば、イベントが発生する位置が時間方向に変化し得るメディアが含まれてもよい。例えば、時刻T1においてはオブジェクトの右側に触れた場合に再生され、時刻T2においてはオブジェクトの左側に触れた場合に再生されるメディアが含まれてもよい。勿論、時間方向に変化するものであればどのようなメディアであってもよく、これらの例には限定されない。これに対して、「時間方向に変化しないメディア」には、例えば、再生内容(アクション)が時間方向に変化しないメディア(どの時刻においてもアクションが同一なメディア)が含まれてもよい。また、「時間方向に変化しないメディア」には、例えば、紐づけられる再生条件(イベント)が時間方向に変化しないメディア(イベントの内容やイベントが発生する位置がどの時刻においても同一なメディア)が含まれてもよい。本明細書において、時間方向に変化し得ることを「動的」とも称する。例えば、時間方向に変化し得るメディア(Timed media)のことを動的なメディアとも称する。例えば、時間方向に変化し得るハプティクスメディアを動的なハプティクスメディアとも称する。また、時間方向に変化しないことを「静的」とも称する。例えば、時間方向に変化しないメディアのことを静的なメディアとも称する。例えば、時間方向に変化しないハプティクスメディアを静的なハプティクスメディアとも称する。
 非特許文献3においては、このようなハプティクスメディアの符号化方法が提案されている。この方法では、図18の上側に示されるようなアーキテクチャを用いて、ハプティクス信号(wav)や、ハプティクス信号記述(ivs,ahap)が符号化され、インターチェンジフォーマット(gmap)やディストリビューションフォーマット(mpg)が生成される。図18の下側の表は、ディストリビューションフォーマットの構成例を示す。この表に示されるように、ハプティクスメディアのビットストリームは、バイナリヘッダとバイナリボディとにより構成される。バイナリヘッダには、ハプティクスメディアの符号化データ(Haptics stream)の特性、レンダリングデバイス、符号化手法の情報等が格納される。また、バイナリボディには、ハプティクスメディアの符号化データ(Haptics stream)が格納される。
 また、非特許文献4に記載のように、そのハプティクスメディアが符号化されたビットストリームをISOBMFF(International Organization for Standardization Base Media File Format)に格納するための基本機能が作成された。図19は、そのハプティクスメディアを格納するためのISOBMFFの拡張例を示す図である。非特許文献4には、ハプティクスメディアを格納するために、メディアタイプ’hapt’が定義された。また、メディアインフォメーションボックスとして、ハプティクスサンプルエントリ(HapticsSampleEntry)が用意された。ただし、ハプティクスサンプルエントリの内部の構造については未定義であった。
 また、非特許文献5に記載のように、ハプティクスメディアの符号化伝送技術の規格化と並行して、MPEG-I Scene Descriptionでハプティクスメディアを扱うための技術探索検討が始まった。非特許文献5においては、シーンディスクリプションにおいてハプティクスメディアをサポートするために、図20に示されるように、MPEG_haptic、MPEG_material_haptic、MPEG_avatar、およびMPEG_interactionの4つのgLTF拡張が提案された。
 MPEG_hapticは、シーンディスクリプションから参照されるハプティクスメディアのデータ(ハプティクスデータとも称する)を参照するための情報(例えばリンク情報等)である。このハプティクスデータは、オーディオや画像等のデータと同様に、独立したデータとして存在する。また、このハプティクスデータは、符号化されていてもよい(符号化データであってもよい)。
 既に定義されている3Dオブジェクトのmesh/material拡張であるMPEG_material_hapticは、ハプティクス素材情報(3Dオブジェクト(メッシュ)の何処にどのハプティクスメディアが関連付けられるか等)を定義する。この素材情報には、静的なハプティクスメディアの情報が定義される。また、このハプティクス素材情報には、MPEG_hapticにアクセスするための情報(例えばリンク情報等)を定義することもできる。
 MPEG_avatarは、3次元空間を移動するユーザの3D形状(アバター)を定義する。MPEG_interactionは、アバター(ユーザ)が実行可能な条件(ユーザができること)と可能なアクション(オブジェクトの反応方法)をリストアップする。例えば、MPEG_interactionは、ユーザ(MPEG_avatar)と3Dオブジェクトとの間で発生するインタラクション(つまり、イベント)と、その結果発生するアクションを定義する(例えば、ユーザが3Dオブジェクトを触ると振動が起きる等)。
 シーンディスクリプションのこれらの拡張を用いてハプティクスメディアを再生する方法の様子の例を、図21に示す。例えば、MPEG_avatarに定義されるアバターがMPEG_interactionに定義されるインタラクション(イベント)を発生させると、そのインタラクションに対応するアクションを起こすように、MPEG_materal_hapticsの素材情報に従ってインタラクションが発生した場所等に応じた静的なハプティクスメディアが生成され、再生される(例えば、振動デバイスにより出力される振動がレンダリングされる)。または、MPEG_materal_hapticsに示されるMPEG_hapticが参照するハプティクスデータが読み出され、動的なハプティクスメディアが生成され、再生される。
 しかしながら、ハプティクスメディアのように3Dデータに関連付けられたメディアデータをシーンディスクリプションで扱うための技術探索検討は始まったばかりであり、まだシーンディスクリプションで正しく扱うことができないメディアデータも存在した。そのため、3Dデータに関連付けられたメディアデータの再生性能が低減するおそれがあった。
 <3.動的なハプティクスメディアのサポート>
  <PE・MAFの利用>
 例えば、上述の例のように、MPEG_hapticを利用して動的なハプティクスメディアを再生することが考えられる。しかしながら、MPEG_hapticsにはMAF(図16等)に関する定義がなかった。そして、マテリアル(material)プロパティには、静的な情報の記述しか行うことができない。そのため、MPEG_materal_hapticsにおいてタイムドメタデータ(Timed media)を扱うことができなかった。つまり、動的なハプティクスメディアを非特許文献2に記載のような(MAFやPEを利用した)クライアント処理を用いて再生することは困難であった。そのため、3Dデータに関連付けられたメディアデータの再生性能が低減するおそれがあった。
  <方法1>
 そこで、図22の表の最上段に示されるように、シーンディスクリプション(SD)において、3Dデータに関連付けられた動的なハプティクスメディアが格納されるバッファへのアクセサを指定するようにする(方法1)。換言するに、符号化側においてそのような指定を含むシーンディスクリプションが生成され、復号側に提供される。そして、復号側においてそのシーンディスクリプションに基づいて動的なハプティクスメディアが取得され、その指定されたアクセサに対応するバッファに格納される。
 例えば、シーンディスクリプションファイル等を生成する情報処理装置(以下において第1の情報処理装置とも称する)が、3Dデータに関連付けられた動的なハプティクスメディアを所定の記憶領域に記憶させるためのアクセサを指定するシーンディスクリプションファイルを生成するファイル生成部を備える。また、シーンディスクリプションファイル等を生成する情報処理方法(以下において第1の情報処理方法とも称する)において、3Dデータに関連付けられた動的なハプティクスメディアを所定の記憶領域に記憶させるためのアクセサを指定するシーンディスクリプションファイルを生成する。
 例えば、3Dデータに関連付けられたメディアを再生する情報処理装置(以下において第2の情報処理装置とも称する)が、シーンディスクリプションファイルの記述に基づいて、再生対象の3Dデータに関連付けられた動的なハプティクスメディアの符号化データを取得する取得部と、そのシーンディスクリプションファイルの記述に基づいて、その符号化データを復号し、ハプティクスメディアのデータを生成する復号部と、そのハプティクスメディアのデータを、そのシーンディスクリプションファイルにより指定されるアクセサに対応する記憶領域に記憶する記憶部と、そのシーンディスクリプションファイルの記述に基づいて、その記憶領域に記憶されているハプティクスメディアのデータを読み出し、出力用のハプティクスメディア情報(つまり、ハプティクスメディアを出力する出力部の駆動(例えば、振動デバイスの振動の仕方)を制御する制御情報等)を生成する生成部とを備える。また、3Dデータに関連付けられたメディアを再生する情報処理方法(以下において第2の情報処理方法とも称する)において、シーンディスクリプションファイルの記述に基づいて、再生対象の3Dデータに関連付けられた動的なハプティクスメディアの符号化データを取得し、そのシーンディスクリプションファイルの記述に基づいて、その符号化データを復号し、そのハプティクスメディアのデータを生成し、そのハプティクスメディアのデータを、そのシーンディスクリプションファイルにより指定されるアクセサに対応する記憶領域に記憶し、そのシーンディスクリプションファイルの記述に基づいて、その記憶領域に記憶されているハプティクスメディアのデータを読み出し、出力用のハプティクスメディア情報を生成する。
 このようにすることにより、第2の情報処理装置は、MAFやPEを利用したクライアント処理を用いて動的なハプティクスメディアを再生することができる。換言するに、第1の情報処理装置は、第2の情報処理装置がMAFやPEを利用したクライアント処理を用いて動的なハプティクスメディアを再生することができるようにすることができる。つまり、3Dデータに関連付けられたメディアデータの再生性能の低減を抑制することができる。
 なお、この動的なハプティクスメディアは、シーンの時間方向の進行に同期して再生される同期型ハプティクスメディアを含んでもよい。換言するに、第2の情報処理装置の生成部が、所定の再生タイミングに応じたタイミングにおいて、シーンディスクリプションファイルにより指定されるアクセサに対応する記憶領域からこの同期型ハプティクスメディアのデータを読み出し、ハプティクスメディア情報を生成してもよい。
 また、この動的なハプティクスメディアは、ユーザ操作等によりシーンにおいて所定の条件が満たされる場合に再生されるインタラクション型ハプティクスメディアを含んでもよい。換言するに、第2の情報処理装置の生成部が、その条件が満たされる場合に、シーンディスクリプションファイルにより指定されるアクセサに対応する記憶領域からこのインタラクション型ハプティクスメディアのデータを読み出し、ハプティクスメディア情報を生成してもよい。
  <方法1-1>
 また、方法1が適用される場合において、図22の表の上から2段目に示されるように、「マテリアル(material)」プロパティを拡張して、3Dデータに関連付けられた動的なハプティクスメディアを所定の記憶領域に記憶させるためのアクセサを指定してもよい(方法1-1)。つまり、方法1におけるアクセサの指定は、シーンディスクリプションの何処で行われてもよいが、例えば、textureの素材情報として定義されている「マテリアル(material)」プロパティにおいて行われてもよい。
 例えば、第1の情報処理装置のファイル生成部が、「マテリアル(material)」プロパティにおいて、3Dデータに関連付けられた動的なハプティクスメディアを所定の記憶領域(バッファ)に記憶させるためのアクセサを指定するシーンディスクリプションファイルを生成してもよい。換言するに、第2の情報処理装置の記憶部が、3Dデータに関連付けられた動的なハプティクスメディアのデータを、シーンディスクリプションファイルの「マテリアル(material)」プロパティにおいて指定されるアクセサ(、3Dデータに関連付けられた動的なハプティクスメディアを所定の記憶領域(バッファ)に記憶させるためのアクセサ)に対応する記憶領域に記憶してもよい。
 例えば、図23に示されるように、マテリアルに定義されたMPEG_material_hapticsにおいて、方法1におけるアクセサの指定が行われてもよい。つまり、MPEG_material_hapticsを拡張し、タイムドメタデータを扱うために規定された属性を定義してもよい。その場合のシーンディスクリプションの記述例を図24に示す。
 図24に示されるように、MPEG_media(glTFのextension)において、所定のバッファに対応するアクセサ(source_2)が指定され、そこに、格納する動的なハプティクスメディアの属性等が指定される(例えば、“mimeType”:"video/mp4;codecs=\"avc1.42E01E\“”, "uri”:”video1.mp4”,“tracks”:[{“track”:””#track_ID=1”等)。また、MPEG_material_hapticsにおいて、MPEG_mediaで指定されたハプティクスメディアが格納されるバッファに対応するアクセサのインデックスが指定される(“accessor": 2)。なお、この記述に含まれる要素のセマンティクスの例を図25に示す。
 PEは、このような記述に基づいて、図23に示されるように、マテリアル(MPEG_material_haptics)からアクセサを介してバッファに格納されるMPEG_media(動的なハプティクスメディアのデータ)を参照することができる。換言するに、MAFは、このような記述に基づいて、そのMPEG_mediaをそのバッファに格納することができる。したがって、第2の情報処理装置は、PEやMAFを利用して、3Dデータに関連付けられたメディアデータを再生することができる。つまり、3Dデータに関連付けられたメディアデータの再生性能の低減を抑制することができる。
 <4.インタラクション型メディアのサポート>
  <インタラクション処理>
 例えば、インタラクション型メディアの場合、インタラクション(イベント)が発生すると、クライアント装置により、そのメディアのファイルが取得され、データが復号される。しかしながら、このようにインタラクションが発生したタイミングでメディアのファイルを取得すると、少なくともファイル取得のプロトコル(例えば、HTTP(HyperText Transfer Protocol)でサーバから取得)の時間や、フィードバックに要する時間等の遅延が発生するおそれがあった。そのため、そのようなメディアを正しいタイミングで再生することが困難であった。つまり、3Dデータに関連付けられたメディアデータの再生性能が低減するおそれがあった。
  <方法2>
 そこで、図22の表の上から3段目に示されるように、シーンディスクリプション(SD)において、3Dデータに関連付けられたインタラクション型メディアに関する情報を記述するようにする(方法2)。換言するに、符号化側において、そのような情報を含むシーンディスクリプションが生成され、復号側に提供される。そして、復号側において、そのシーンディスクリプションの情報に基づいて、(所定のインタラクション(イベント)の発生よりも前に)インタラクション型メディアの符号化データが取得され、復号される。
 例えば、第1の情報処理装置が、3Dデータに関連付けられたインタラクション型メディアに関する記述を含むシーンディスクリプションファイルを生成するファイル生成部を備える。また、第1の情報処理方法において、3Dデータに関連付けられたインタラクション型メディアに関する記述を含むシーンディスクリプションファイルを生成する。
 例えば、第2の情報処理装置が、シーンディスクリプションファイルに含まれるインタラクション型メディアに関する記述に基づいて、再生対象の3Dデータに関連付けられたインタラクション型メディアの符号化データを取得する取得部と、そのシーンディスクリプションファイルの記述に基づいて、取得された符号化データを復号し、インタラクション型メディアのデータを生成する復号部とを備える。また、第2の情報処理方法において、シーンディスクリプションファイルに含まれるインタラクション型メディアに関する記述に基づいて、再生対象の3Dデータに関連付けられたインタラクション型メディアの符号化データを取得し、そのシーンディスクリプションファイルの記述に基づいて、その取得された符号化データを復号し、インタラクション型メディアのデータを生成する。
 このようにすることにより、第2の情報処理装置によるインタラクション型メディアのデータの取得をシーンディスクリプションにおいて制御することができる。換言するに、第1の情報処理装置は、シーンディスクリプションを用いて、第2の情報処理装置によるインタラクション型メディアのデータの取得を制御することができる。例えば、第1の情報処理装置は、上述した再生遅延が生じないようなタイミングにおいて(事前に)、インタラクション型メディアのデータを第2の情報処理装置に取得させることができる。また、第2の情報処理装置は、上述した再生遅延が生じないようなタイミングにおいて(事前に)、インタラクション型メディアのデータを取得することができる。つまり、3Dデータに関連付けられたメディアデータの再生性能の低減を抑制することができる。
 なお、このインタラクション型メディアは、ユーザ操作等によりシーンにおいて所定の条件が満たされる場合に処理を実行するメディアであれば、どのようなメディアであってもよい。例えば、このインタラクション型メディアがハプティクス情報を含んでもよい。また、このインタラクション型メディアは、画像情報を含んでもよい。また、このインタラクション型メディアが、音声情報を含んでもよい。勿論、インタラクション型メディアは、これらの例に限定されない。
  <方法2-1>
 また、方法2が適用される場合において、図22の表の上から4段目に示されるように、インタラクション処理を実行するか否かをシーンディスクリプションに記述してもよい(方法2-1)。例えば、上述したシーンディスクリプションファイルに含まれるインタラクション型メディアに関する記述は、ユーザ操作等によりシーンにおいて所定の条件が満たされる場合に実行するインタラクション型の処理が可能であるか否かを示す記述を含んでもよい。例えば、第2の情報処理装置の取得部が、その記述によりインタラクション型の処理が可能であることが示される場合、インタラクション型メディアの符号化データを取得してもよい。
 図26は、上述した方法2が適用される場合の、シーンディスクリプションの記述例を示す図である。また、図27は、その記述に含まれる要素のセマンティクスの例を示す図である。図26に示されるように、MPEG_mediaにおいて「event_control」が定義されている。event_controlは、図27に示されるように、イベント(インタラクション)に基づいて、このハプティクスメディアの再生処理が有効であるか否かを示すフラグ情報である。例えば、このevent_controlが真に設定されている場合、イベントに基づく処理の実行が可能であること、すなわち、取り扱われるメディアがインタラクション型メディアであることを示す。
 このような記述により、インタラクション型メディアに関する記述であることを第2の情報処理装置に明示することができる。したがって、第2の情報処理装置は、インタラクション型メディアに関する記述を識別し、その記述に基づいてインタラクション型メディアのデータを取得することができる。例えば、第2の情報処理装置は、その記述に基づいて、インタラクション型メディアのデータを、上述した再生遅延が生じないようなタイミングにおいて(事前に)取得することができる。換言するに、第1の情報処理装置は、このインタラクション型メディアに関する記述により、第2の情報処理装置によるインタラクション型メディアのデータの取得を制御することができる。例えば、第1の情報処理装置は、その記述により、上述した再生遅延が生じないようなタイミングにおいて(事前に)、インタラクション型メディアのデータを第2の情報処理装置に取得させることができる。つまり、3Dデータに関連付けられたメディアデータの再生性能の低減を抑制することができる。
  <方法2-2>
 また、方法2が適用される場合において、図22の表の上から5段目に示されるように、アバターに応じたインタラクション処理を実行するか否かをシーンディスクリプションに記述してもよい(方法2-2)。例えば、上述したシーンディスクリプションファイルに含まれるインタラクション型メディアに関する記述は、ユーザ操作またはアバターの属性情報に応じてそのインタラクション型メディアを選択可能であるか否かを示す記述を含んでもよい。例えば、上述したシーンディスクリプションファイルに含まれるインタラクション型メディアに関する記述において、インタラクション型メディアを選択可能であることが示される場合、第2の情報処理装置の取得部が、ユーザ操作またはアバターの属性情報等に応じてインタラクション型メディアを選択してもよい。また、上述したシーンディスクリプションファイルに含まれるインタラクション型メディアに関する記述において、インタラクション型メディアを選択不可能であることが示される場合、第2の情報処理装置の取得部が、所定のインタラクション型メディアを選択してもよい。
 図26に示されるように、MPEG_mediaにおいて「avatar_dependent_media」が定義されている。avatar_dependent_mediaは、図27に示されるように、ユーザ操作またはアバターの属性情報に応じて、複数のメディアの中から適用するインタラクション型メディアを選択することができるか否かを示すフラグ情報である。例えば、このavatar_dependent_mediaが真に設定されている場合、適用するインタラクション型メディアを、複数のメディアの中からユーザ操作またはアバターの属性情報に応じて選択することが可能であることを示す。つまり、ユーザまたはアバターに応じて選択可能なインタラクション型メディアが複数用意されていることが示される。
 したがって、第2の情報処理装置は、このような記述に基づいて、インタラクション型メディアを選択することができる。換言するに、第1の情報処理装置は、このようなインタラクション型メディアの選択を第2の情報処理装置に実行させることができる。これにより、より多様なメディアの再生が可能になる。つまり、3Dデータに関連付けられたメディアデータの再生性能の低減を抑制することができる。
  <方法2-3>
 また、方法2が適用される場合において、図22の表の上から6段目に示されるように、メディアデータの取得処理条件を記述してもよい(方法2-3)。例えば、上述したシーンディスクリプションファイルに含まれるインタラクション型メディアに関する記述は、再生対象の3Dデータに関連付けられたインタラクション型メディアの符号化データの取得に関する記述を含んでもよい。例えば、第2の情報処理装置の取得部が、その符号化データの取得に関する記述に従ってその符号化データを取得してもよい。
 図26に示されるように、MPEG_mediaにおいて「fetch_timing_information」が定義されている。fetch_timing_informationは、図27に示されるように、インタラクション型メディアの符号化データの取得に関する記述である。第2の情報処理装置は、この記述に基づいて、インタラクション型メディアを取得することができる。換言するに、第1の情報処理装置は、この記述により、第2の情報処理装置によるインタラクション型メディアの取得をより詳細に制御することができる。つまり、3Dデータに関連付けられたメディアデータの再生性能の低減を抑制することができる。
  <fetch_timing_information>
 次に、インタラクション型メディアの取得に関する記述であるfetch_timing_informationについて説明する。fetch_timing_informationにはどのような情報が含まれてもよい。例えば、fetch_timing_informationに、取得の条件に関する記述が含まれてもよい。例えば、第2の情報処理装置の取得部が、その条件が満たされる場合に、インタラクション型メディアの符号化データを取得してもよい。
 第2の情報処理装置は、この取得の条件に関する記述に基づいて、インタラクション型メディアを取得することができる。換言するに、第1の情報処理装置は、この記述により、第2の情報処理装置によるインタラクション型メディアの取得を、この取得の条件に基づいて制御することができる。
 例えば、この取得の条件に関する記述に、その条件が「シーンに必要な情報の初期化前」であるか否かを示す記述が含まれてもよい。例えば、その記述により、取得の条件が、「シーンに必要な情報の初期化前」であることが示される場合、第2の情報処理装置の取得部が、その情報の初期化前において、インタラクション型メディアの符号化データを取得してもよい。
 図26に示されるように、MPEG_mediaにおいてfetch_timing_informationとして、「Initial」が定義されている。fetch_timing_informationの要素のセマンティクスの例を図28に示す。このInitialは、図28に示されるように、シーンに必要な情報を初期化する際に、このインタラクション型メディアの符号化データを取得するか否かを示すフラグ情報である。例えば、このInitialが真に設定されている場合、シーンに必要な情報を初期化する際にこのインタラクション型メディアの符号化データを取得することを示す。
 したがって、第2の情報処理装置は、このInitialの設定に従って、例えば、シーンに必要な情報を初期化する際にこのインタラクション型メディアの符号化データを取得するか否かを選択することができる。換言するに、第1の情報処理装置は、この記述により、第2の情報処理装置がシーンに必要な情報を初期化する際にこのインタラクション型メディアの符号化データを取得するか否かを制御することができる。
 例えば、この取得の条件に関する記述に、取得するインタラクション型メディアに対応する位置のLoD(Level Of Detail)を示す記述が含まれてもよい。例えば、その記述により示されるLoDよりも、取得するインタラクション型メディアに対応する位置のLoDの方が大きい場合、第2の情報処理装置の取得部がインタラクション型メディアの符号化データを取得してもよい。
 図26に示されるように、MPEG_mediaにおいてfetch_timing_informationとして、「Lod」が定義されている。このLodは、図28に示されるように、インタラクション型メディアの符号化データのLoDに関する取得条件を示す記述である。例えば、取得するインタラクション型メディアに対応する位置のLoDの方がこのLoDよりも大きい場合、そのインタラクション型メディアの符号化データが取得される。
 したがって、第2の情報処理装置は、このLoDの設定に従って、例えば、取得するインタラクション型メディアに対応する位置に十分に近づいた場合(LoDの設定よりもその位置が大きく表示される場合)に、このインタラクション型メディアの符号化データを取得することができる。換言するに、第1の情報処理装置は、この記述により、例えば、取得するインタラクション型メディアに対応する位置に十分に近づいた場合(LoDの設定よりもその位置が大きく表示される場合)にこのインタラクション型メディアの符号化データを取得するように、第2の情報処理装置を制御することができる。
 例えば、この取得の条件に関する記述に、取得するインタラクション型メディアに対応する位置までの距離を示す記述が含まれてもよい。例えば、第2の情報処理装置の取得部が、視点またはアバターがその位置に対して、その記述により示される距離以内に接近した場合にインタラクション型メディアの符号化データを取得してもよい。
 図26に示されるように、MPEG_mediaにおいてfetch_timing_informationとして、「Distance」が定義されている。このDistanceは、図28に示されるように、このインタラクション型メディアが紐づけられた位置(mesh/texture)までの視聴距離に関する取得条件を示す記述である。例えば、その視聴距離がこのDistanceよりも近い(短い)場合、そのインタラクション型メディアの符号化データが取得される。
 したがって、第2の情報処理装置は、このDistanceの設定に従って、例えば、取得するインタラクション型メディアに対応する位置に十分に近づいた場合(Distanceの設定よりも近距離の場合)に、このインタラクション型メディアの符号化データを取得することができる。換言するに、第1の情報処理装置は、この記述により、例えば、取得するインタラクション型メディアに対応する位置に十分に近づいた場合(Distanceの設定よりも近距離の場合)にこのインタラクション型メディアの符号化データを取得するように、第2の情報処理装置を制御することができる。
 例えば、この取得の条件に関する記述に、その条件が「インタラクション型メディアに対応する位置が視界に入ること」であるか否かを示す記述が含まれてもよい。例えば、その記述により、インタラクション型メディアに対応する位置が視界に入ることが取得の条件であることが示される場合、第2の情報処理装置の取得部が、その位置が視界内に入った時にそのインタラクション型メディアの符号化データを取得してもよい。
 図26に示されるように、MPEG_mediaにおいてfetch_timing_informationとして、「view_frustum」が定義されている。このview_frustumは、図28に示されるように、このインタラクション型メディアに紐づけられた位置(mesh/texture)がユーザ(カメラ)の視界に入った場合に、このインタラクション型メディアの符号化データを取得することを示す。
 したがって、第2の情報処理装置は、このview_frustumの設定に従って、例えば、インタラクション型メディアに対応する位置が視界に入った場合にこのインタラクション型メディアの符号化データを取得するか否かを選択することができる。換言するに、第1の情報処理装置は、この記述により、第2の情報処理装置が、インタラクション型メディアに対応する位置が視界に入った場合にこのインタラクション型メディアの符号化データを取得するか否かを制御することができる。
 例えば、この取得の条件に関する記述に、インタラクション型メディアを取得する推奨時刻を示す記述が含まれてもよい。例えば、第2の情報処理装置の取得部が、その記述により示される推奨時刻においてインタラクション型メディアの符号化データを取得してもよい。
 図26に示されるように、MPEG_mediaにおいてfetch_timing_informationとして、「recommended_Fetch_time」が定義されている。このrecommended_Fetch_timeは、図28に示されるように、このインタラクション型メディアの符号化データを取得する時刻として推奨される時刻を示す。例えば、インタラクションが発生する可能性のあるシーンが既知である場合、そのタイミングに合わせて(それよりも前のタイミングにおいて)符号化データを取得することができるように推奨時刻がセットされる。
 したがって、第2の情報処理装置は、このrecommended_Fetch_timeの設定に従って、推奨されるタイミング(時刻)において、インタラクション型メディアの符号化データを取得することができる。換言するに、第1の情報処理装置は、この記述により、第2の情報処理装置が、インタラクション型メディアの符号化データを取得するタイミング(時刻)を制御することができる。つまり、第1の情報処理装置は、この記述により、より適切なタイミング(時刻)においてインタラクション型メディアの符号化データを取得するように、第2の情報処理装置を制御することができる。
 例えば、この取得の条件に関する記述に、インタラクション型メディアを取得する所定の空間領域を示す記述が含まれてもよい。例えば、第2の情報処理装置の取得部が、視点またはアバターがその記述により示される空間領域内に位置する場合、インタラクション型メディアの符号化データを取得してもよい。
 図26に示されるように、MPEG_mediaにおいてfetch_timing_informationとして、「fetch_boundaries」が定義されている。このfetch_boundariesは、図28に示されるように、このインデックスで表現されるメッシュ空間にユーザ(カメラ)が位置する場合、インタラクション型メディアの符号化データが取得されることを示す。
 したがって、第2の情報処理装置は、このfetch_boundariesの設定に従って、視点またはアバターがその記述により示される空間領域内に位置する場合に、インタラクション型メディアの符号化データを取得することができる。換言するに、第1の情報処理装置は、この記述により、第2の情報処理装置がインタラクション型メディアの符号化データを取得する空間領域を制御することができる。
 また、fetch_timing_informationに、インタラクション型メディアの取得方法に関する記述が含まれてもよい。例えば、第2の情報処理装置の取得部が、その取得方法に関する記述に従ってインタラクション型メディアの符号化データを取得してもよい。
 第2の情報処理装置は、この取得方法に関する記述に基づいて、インタラクション型メディアを取得することができる。換言するに、第1の情報処理装置は、この記述により、第2の情報処理装置によるインタラクション型メディアの取得方法を制御することができる。
 例えば、この取得方法に関する記述に、インタラクション型メディアの符号化データが3Dデータのファイルに含まれるか否かを示す記述が含まれてもよい。例えば、インタラクション型メディアの符号化データが3Dデータのファイルに含まれないことが示される場合、第2の情報処理装置の取得部がその符号化データを取得してもよい。
 図26に示されるように、MPEG_mediaにおいてfetch_timing_informationとして、「delivery_with_texture_video」が定義されている。このdelivery_with_texture_videoは、図28に示されるように、インタラクション型メディアの符号化データが、そのインタラクション型メディアに紐づけられた位置(mesh/texture)の3Dデータと同じファイルに格納されているか否かを示すフラグ情報である。例えば、このdelivery_with_texture_videoが真の場合、インタラクション型メディアの符号化データが3Dデータのファイルに含まれることを示す。つまり、この場合、インタラクション型メディアの符号化データは、3Dデータのファイルから取得することができるので、その3Dデータのファイル以外にインタラクション型メディアのファイルを取得する必要がない。
 したがって、第2の情報処理装置は、このdelivery_with_texture_videoの設定に従って、インタラクション型メディアの符号化データの取得元ファイルを選択することができる。つまり、第2の情報処理装置は、インタラクション型メディアのファイルを取得するか否かを、このdelivery_with_texture_videoの設定に従って選択することができる。換言するに、第1の情報処理装置は、この記述により、第2の情報処理装置がインタラクション型メディアのファイルを取得するか否かを制御することができる。
 例えば、この取得方法に関する記述に、インタラクション型メディアの優先度を示す記述が含まれてもよい。例えば、第2の情報処理装置の取得部が、この優先度に応じてインタラクション型メディアの符号化データを取得してもよい。
 図26に示されるように、MPEG_mediaにおいてfetch_timing_informationとして、「priority」が定義されている。このpriorityは、図28に示されるように、インタラクション型メディアの再生やレンダリングの優先度を示す。例えば、優先度の高いインタラクション型メディアは再生やレンダリングする重要度が高いことを示す。例えば、取得条件が互いに同一の複数のメディアのいずれを優先させるかを示すことができる。
 したがって、第2の情報処理装置は、このpriorityの設定に従って、例えばインタラクション型メディアの符号化データの取得順を制御したり、取得する符号化データを選択したりすることができる。例えば、第2の情報処理装置は、優先度が高いインタラクション型メディアから先に符号化データを取得してもよいし、優先度が十分に高いインタラクション型メディアの符号化データのみを取得してもよい。換言するに、第1の情報処理装置は、この記述により、第2の情報処理装置によるインタラクション型メディアの符号化データの取得順や、取得する符号化データの選択を制御することができる。
 また、fetch_timing_informationに、インタラクション型メディアのタイプに関する記述が含まれてもよい。例えば、第2の情報処理装置の取得部が、インタラクション型メディアのタイプに関する記述に従ってそのインタラクション型メディアの符号化データを取得してもよい。
 第2の情報処理装置は、このインタラクション型メディアのタイプに関する記述に基づいて、インタラクション型メディアを取得することができる。換言するに、第1の情報処理装置は、この記述により、第2の情報処理装置によるインタラクション型メディアの取得を制御することができる。
 例えば、このインタラクション型メディアのタイプに関する記述に、そのインタラクション型メディアが動的なメディアであるか否かを示す記述が含まれてもよい。例えば、インタラクション型メディアが動的なメディアであることが示される場合、第2の情報処理装置の取得部が動的なメディアに応じた方法でその符号化データを取得してもよい。
 図26に示されるように、MPEG_mediaにおいてfetch_timing_informationとして、「moving_object」が定義されている。このmoving_objectは、図28に示されるように、このインタラクション型メディアが3D空間内を移動する(動的である)ため、初期値はFetch_timinig_informationのLoD、Distance、Recommended_Fetch_time、Fetch_boundaries等を参照する。このmoving_objectがTrueの場合、動的に変化する値は、タイムドメタデータ(timed metadata)であるmoving_object_metadataファイルから取得する。
 したがって、第2の情報処理装置は、このmoving_objectの設定に従って、インタラクション型メディアの符号化データを、そのタイプに応じた方法で取得することができる。換言するに、第1の情報処理装置は、この記述により、第2の情報処理装置に対して、インタラクション型メディアのタイプに応じた方法で、その符号化データを取得させることができる。つまり、第2の情報処理装置は、インタラクション型メディアの符号化データの取得を、このmoving_objectの設定に従った方法で行うことができる。換言するに、第1の情報処理装置は、この記述により、第2の情報処理装置がインタラクション型メディアの符号化データを取得する方法を制御することができる。
 例えば、このインタラクション型メディアのタイプに関する記述に、動的なメディアを格納する記憶領域に対応するアクセサを指定する記述が含まれてもよい。例えば、インタラクション型メディアが動的なメディアである場合、第2の情報処理装置の取得部が、この記述により指定されるアクセサに対応する記憶領域にその動的なメディアを記憶させてもよい。
 図26に示されるように、MPEG_mediaにおいてfetch_timing_informationとして、「accessors」が定義されている。このaccessorsは、図28に示されるように、このインタラクション型メディアが空間内を移動するため、Moving_object=trueの場合、動的に変化するFetch_timinig_informationである、LoD、Distance、Recommended_Fetch_time、Fetch_boundariesは、このaccessorがアクセスするmoving_object_metadataファイルからバッファを通じて取得する。
 したがって、第2の情報処理装置は、このaccessorsにより示されるアクセサに対応するバッファを用いてインタラクション型メディアを授受することができる。換言するに、第1の情報処理装置は、このaccessorsにより示されるアクセサに対応するバッファを用いてインタラクション型メディアを授受するように、第2の情報処理装置を制御することができる。
  <マテリアル>
 なお、方法2が適用される場合において、上述のようなインタラクション型メディアに関する記述が、シーンディスクリプションファイルのマテリアル(material)に記述されてもよい。例えば、第1の情報処理装置のファイル生成部が、インタラクション型メディアに関する記述をマテリアルに格納するシーンディスクリプションファイルを生成してもよい。また、第2の情報処理装置の取得部が、シーンディスクリプションファイルのマテリアルの、インタラクション型メディアに関する記述に基づいて、そのインタラクション型メディアの符号化データを取得してもよい。
  <方法2-4>
 また、方法2が適用される場合において、図22の表の上から7段目に示されるように、インタラクション型メディアに関する記述が、シーンディスクリプションのマテリアルにおいてファイル情報として格納されてもよい(方法2-4)。例えば、第2の情報処理装置の取得部が、シーンディスクリプションファイルのマテリアルの、インタラクション型メディアに関する記述に基づいて、そのインタラクション型メディアの符号化データを取得してもよい。
 図26の例においては、上述したインタラクション型メディアに関する記述は、MPEG_media内に記述されている。つまり、インタラクション型メディアに関する記述は、シーンディスクリプションのマテリアルにおいてファイル情報として格納されている。このような構成としてもよい。
  <方法2-5>
 また、方法2が適用される場合において、図22の表の最下段に示されるように、インタラクション型メディアに関する記述が、シーンディスクリプションのマテリアルにおいてインタラクション型メディアの事前処理情報として格納されてもよい(方法2-5)。例えば、第2の情報処理装置の取得部が、シーンディスクリプションファイルのマテリアルにおいて、インタラクション型メディアの事前処理情報として記述されたインタラクション型メディアに関する記述に基づいて、そのインタラクション型メディアの符号化データを取得してもよい。
 図29にその場合の記述例を示す。図29の例においては、上述したインタラクション型メディアに関する記述は、MPEG_mediaの外に「properties」(事前処理情報)として記述されている。つまり、インタラクション型メディアに関する記述は、シーンディスクリプションのマテリアルにおいて事前処理情報として格納されている。なお、このpropertiesのセマンティクスの例を図30に示す。なお、event_control、avatar_dependent_media、fetch_timing_information等の要素のセマンティクスの例は、図27および図28の場合と同様である。このような構成としてもよい。
 <5.第1の実施の形態>
  <ファイル生成装置>
 上述した本技術は、任意の装置に適用し得る。図31は、本技術を適用した情報処理装置の一態様であるファイル生成装置の構成の一例を示すブロック図である。図31に示されるファイル生成装置100は、ハプティクスメディア等のメディアが関連付けられた3Dオブジェクトコンテンツ(例えばポイントクラウド等の3Dデータ)を符号化し、例えばISOBMFF等のファイルコンテナに格納する装置である。また、ファイル生成装置100は、その3Dオブジェクトコンテンツのシーンディスクリプションファイルを生成する。
 なお、図31においては、処理部やデータの流れ等の主なものを示しており、図31に示されるものが全てとは限らない。つまり、ファイル生成装置100において、図31においてブロックとして示されていない処理部が存在したり、図31において矢印等として示されていない処理やデータの流れが存在したりしてもよい。
 図31に示されるようにファイル生成装置100は、制御部101およびファイル生成処理部102を有する。制御部101は、ファイル生成処理部102を制御する。ファイル生成処理部102は、制御部101により制御されて、ファイルの生成に関する処理を行う。
 ファイル生成処理部102は、入力部111、前処理部112、符号化部113、前処理部114、符号化部115、ファイル生成部116、記憶部117、および出力部118を有する。ファイル生成部116は、SDファイル生成部121、3Dファイル生成部122、およびメディアファイル生成部123を有する。
 入力部111は、3Dオブジェクトコンテンツのデータの取得に関する処理を行う。例えば、入力部111は、3Dデータをファイル生成装置100の外部から取得してもよい。また、入力部111は、その3Dデータに関連付けられたメディアデータをファイル生成装置100の外部から取得してもよい。入力部111は、取得した3Dデータを前処理部112へ供給してもよい。入力部111は、取得したメディアデータを前処理部114へ供給してもよい。
 前処理部112は、3Dデータに対して符号化前に行う前処理に関する処理を実行する。例えば、前処理部112は、入力部111から供給される3Dデータを取得してもよい。また、前処理部112は、取得した3Dデータ等から、シーンディスクリプションの生成に必要な情報を取得してもよい。また、前処理部112は、その取得した情報をファイル生成部116(のSDファイル生成部121)へ供給してもよい。また、前処理部112は、3Dデータを符号化部113へ供給してもよい。
 符号化部113は、3Dデータの符号化に関する処理を実行する。例えば、符号化部113は、前処理部112から供給される3Dデータを取得してもよい。また、符号化部113は、取得した3Dデータを符号化し、その符号化データを生成してもよい。また、符号化部113は、生成した符号化データをファイル生成部116(の3Dファイル生成部122)へ供給してもよい。
 前処理部114は、3Dデータに関連付けられたメディアデータに対して符号化前に行う前処理に関する処理を実行する。例えば、前処理部114は、入力部111から供給されるメディアデータを取得してもよい。また、前処理部114は、取得したメディアデータ等から、シーンディスクリプションの生成に必要な情報を取得してもよい。また、前処理部114は、その取得した情報をファイル生成部116(のSDファイル生成部121)へ供給してもよい。また、前処理部114は、メディアデータを符号化部115へ供給してもよい。
 符号化部115は、メディアデータの符号化に関する処理を実行する。例えば、符号化部115は、前処理部114から供給されるメディアデータを取得してもよい。また、符号化部115は、取得したメディアデータを符号化し、その符号化データを生成してもよい。また、符号化部115は、生成した符号化データをファイル生成部116(のメディアファイル生成部123)へ供給してもよい。
 ファイル生成部116は、ファイル等の生成に関する処理を行う。SDファイル生成部121は、シーンディスクリプションファイルの生成に関する処理を行う。3Dファイル生成部122は、3Dデータ(の符号化データ)を格納する3Dファイルの生成に関する処理を行う。メディアファイル生成部123は、メディアデータ(の符号化データ)を格納するメディアファイルの生成に関する処理を行う。
 例えば、SDファイル生成部121は、符号化部113から供給された情報および符号化部115から供給された情報を取得する。SDファイル生成部121は、それらの情報に基づいてシーンディスクリプションを生成する。また、SDファイル生成部121は、シーンディスクリプションファイルを生成し、生成したシーンディスクリプションを格納させる。また、SDファイル生成部121は、そのシーンディスクリプションファイルを記憶部117へ供給する。
 3Dファイル生成部122は、符号化部113から供給される3Dデータの符号化データを取得する。3Dファイル生成部122は、3Dファイルを生成し、その符号化データを格納させる。3Dファイル生成部122は、その3Dファイルを記憶部117へ供給する。
 メディアファイル生成部123は、符号化部115から供給されるメディアデータの符号化データを取得する。メディアファイル生成部123は、メディアファイルを生成し、その符号化データを格納させる。メディアファイル生成部123は、そのメディアファイルを記憶部117へ供給する。
 記憶部117は、例えば、ハードディスクや半導体メモリ等、任意の記憶媒体を有し、データの記憶に関する処理を実行する。例えば、記憶部117は、ファイル生成部116のSDファイル生成部121から供給されるシーンディスクリプションファイルを取得し、その記憶媒体に記憶してもよい。また、記憶部117は、ファイル生成部116の3Dファイル生成部122から供給される3Dファイルを取得し、その記憶媒体に記憶してもよい。また、記憶部117は、ファイル生成部116のメディアファイル生成部123から供給されるメディアファイルを取得し、その記憶媒体に記憶してもよい。また、記憶部117は、制御部101若しくは出力部118の要求に従って、または所定のタイミングにおいて、記憶媒体に記録されているファイル等を読み出し、出力部118に供給してもよい。
 出力部118は、記憶部117から供給されるファイル等を取得し、そのファイル等をファイル生成装置100の外部(例えば配信サーバや再生装置等)に出力してもよい。
 以上のような構成のファイル生成装置100において、上述した第1の情報処理装置とし、<3.動的なハプティクスメディアのサポート>において上述した本技術を適用してもよい。
 例えば、方法1を適用し、SDファイル生成部121が、3Dデータに関連付けられた動的なハプティクスメディアを所定の記憶領域に記憶させるためのアクセサを指定するシーンディスクリプションファイルを生成してもよい。また、その他の方法を適用してもよい。また、複数の本技術を適宜組み合わせて適用してもよい。このようにすることにより、ファイル生成装置100は、<3.動的なハプティクスメディアのサポート>において上述したのと同様の効果を得ることができる。すなわち、ファイル生成装置100は、3Dデータに関連付けられたメディアデータの再生性能の低減を抑制することができる。
 また、以上のような構成のファイル生成装置100において、上述した第1の情報処理装置とし、<4.インタラクション型メディアのサポート>において上述した本技術を適用してもよい。
 例えば、方法2を適用し、SDファイル生成部121が、3Dデータに関連付けられたインタラクション型メディアに関する記述を含むシーンディスクリプションファイルを生成してもよい。また、その他の方法を適用してもよい。また、複数の本技術を適宜組み合わせて適用してもよい。このようにすることにより、ファイル生成装置100は、<4.インタラクション型メディアのサポート>において上述したのと同様の効果を得ることができる。すなわち、ファイル生成装置100は、3Dデータに関連付けられたメディアデータの再生性能の低減を抑制することができる。
  <ファイル生成処理の流れ>
 次に、ファイル生成装置100が実行するファイル生成処理の流れの例を、図32のフローチャートを参照して説明する。
 ファイル生成処理が開始されると、ファイル生成装置100の入力部111は、ステップS101において、3Dデータと、その3Dデータに関連付けられたメディアデータを取得する。
 ステップS102において、前処理部112は、その3Dデータに対して前処理を実行する。例えば、前処理部112は、その3Dデータから、1つ以上の3Dオブジェクトを3D空間に配置するための空間配置情報であるシーンディスクリプションの生成に用いられる情報を取得する。また、前処理部114は、そのメディアデータに対して前処理を実行する。例えば、前処理部114は、そのメディアデータから、1つ以上の3Dオブジェクトを3D空間に配置するための空間配置情報であるシーンディスクリプションの生成に用いられる情報を取得する。
 ステップS103において、SDファイル生成部121は、それらの情報を用いて、3Dデータに関連付けられたメディアデータについて記述するシーンディスクリプションファイルを生成する。
 ステップS104において、符号化部113は、3Dデータを符号化し、その符号化データを生成する。また、符号化部115は、その3Dデータに関連付けられたメディアデータを符号化し、その符号化データを生成する。
 ステップS105において、3Dファイル生成部122は、3Dデータの符号化データを格納する3Dファイル(ISOBMFF)を生成する。また、メディアファイル生成部123は、メディアデータの符号化データを格納するメディアファイル(ISOBMFF)を生成する。
 ステップS106において、記憶部117は、生成されたシーンディスクリプションファイル、3Dファイル、およびメディアファイルを記憶媒体に記憶する。
 ステップS107において、出力部118は、シーンディスクリプションファイル、3Dファイル、およびメディアファイルを記憶部117より読み出し、所定のタイミングにおいて、その読み出したファイルをファイル生成装置100の外部に出力する。例えば、出力部118は、記憶部117より読み出したファイルを、ネットワーク等の通信媒体を介して、配信サーバや再生装置等の他の装置へ送信(アップロード)してもよい。また、出力部118は、記憶媒体より読み出したファイル等を、リムーバブルメディア等の外部記録媒体に記録してもよい。その場合、その出力されたファイルは、例えば、その外部記録媒体を介して他の装置(配信サーバや再生装置等)に供給されてもよい。
 ステップS107の処理が終了すると、ファイル生成処理が終了する。
 以上のようなファイル生成処理において、ファイル生成装置100を上述した第1の情報処理装置とし、<3.動的なハプティクスメディアのサポート>において上述した本技術を適用してもよい。
 例えば、方法1を適用し、ステップS103において、SDファイル生成部121が、3Dデータに関連付けられた動的なハプティクスメディアを所定の記憶領域に記憶させるためのアクセサを指定するシーンディスクリプションファイルを生成してもよい。また、その他の方法を適用してもよい。また、複数の本技術を適宜組み合わせて適用してもよい。このようにすることにより、ファイル生成装置100は、<3.動的なハプティクスメディアのサポート>において上述したのと同様の効果を得ることができる。すなわち、ファイル生成装置100は、3Dデータに関連付けられたメディアデータの再生性能の低減を抑制することができる。
 また、以上のようなファイル生成処理において、ファイル生成装置100を上述した第1の情報処理装置とし、<4.インタラクション型メディアのサポート>において上述した本技術を適用してもよい。
 例えば、方法2を適用し、ステップS103において、SDファイル生成部121が、3Dデータに関連付けられたインタラクション型メディアに関する記述を含むシーンディスクリプションファイルを生成してもよい。また、その他の方法を適用してもよい。また、複数の本技術を適宜組み合わせて適用してもよい。このようにすることにより、ファイル生成装置100は、<4.インタラクション型メディアのサポート>において上述したのと同様の効果を得ることができる。すなわち、ファイル生成装置100は、3Dデータに関連付けられたメディアデータの再生性能の低減を抑制することができる。
 <6.第2の実施の形態>
  <クライアント装置>
 上述した本技術は、任意の装置に適用し得る。図33は、本技術を適用した情報処理装置の一態様であるクライアント装置の構成の一例を示すブロック図である。図33に示されるクライアント装置200は、シーンディスクリプションに基づいて、3Dデータやその3Dデータに関連付けられたメディアデータの再生処理を行う再生装置である。例えば、クライアント装置200は、ファイル生成装置100により生成されたファイルを取得し、そのファイルに格納される3Dデータやメディアデータを再生する。その際、クライアント装置200は、シーンディスクリプションファイルに基づいて、その再生に関する処理を行う。
 なお、図33においては、処理部やデータの流れ等の主なものを示しており、図33に示されるものが全てとは限らない。つまり、クライアント装置200において、図33においてブロックとして示されていない処理部が存在したり、図33において矢印等として示されていない処理やデータの流れが存在したりしてもよい。
 図33に示されるようにクライアント装置200は、制御部201およびクライアント処理部202を有する。制御部201は、クライアント処理部202の制御に関する処理を行う。クライアント処理部202は、3Dデータやメディアデータの再生に関する処理を行う。
 クライアント処理部202は、SDファイル取得部211、SDファイル解析部212、3Dファイル取得部213、3Dデータ復号部214、バッファ215、表示情報生成部216、メディアファイル取得部217、メディアデータ復号部218、バッファ219、メディア情報生成部220、出力部221を有する。
 SDファイル取得部211は、シーンディスクリプションファイルの取得に関する処理を行う。例えば、SDファイル取得部211は、配信サーバやファイル生成装置100等、クライアント装置200の外部から供給されるシーンディスクリプションファイル等を取得してもよい。また、SDファイル取得部211は、取得したシーンディスクリプションファイルをSDファイル解析部212へ供給してもよい。
 SDファイル解析部212は、シーンディスクリプションファイルの解析に関する処理を行う。例えば、SDファイル解析部212は、SDファイル取得部211から供給されるシーンディスクリプションファイルを取得してもよい。また、SDファイル解析部212は、そのシーンディスクリプションファイルを解析し、その記述に従って、3Dファイル取得部213やメディアファイル取得部217を制御してもよい。つまり、SDファイル解析部212は、そのシーンディスクリプションファイルの記述に従って、3Dファイルやメディアファイルの取得を制御してもよい。また、SDファイル解析部212は、シーンディスクリプションファイルの記述に従って、3Dデータ復号部214やメディアデータ復号部218を制御してもよい。つまり、SDファイル解析部212は、そのシーンディスクリプションファイルの記述に従って、3Dデータやメディアデータの復号を制御してもよい。また、SDファイル解析部212は、シーンディスクリプションファイルの記述に従って、バッファ215やバッファ219を制御してもよい。つまり、SDファイル解析部212は、そのシーンディスクリプションファイルの記述に従って、3Dデータやメディアデータのバッファへの格納を制御してもよい。
 3Dファイル取得部213は、SDファイル解析部212の制御に従って3Dファイルの取得に関する処理を行う。例えば、3Dファイル取得部213は、配信サーバやファイル生成装置100等、クライアント装置200の外部から供給される3Dファイル等を取得してもよい。また、3Dファイル取得部213は、取得した3Dファイルに格納される3Dデータの符号化データを抽出し、3Dデータ復号部214へ供給してもよい。
 3Dデータ復号部214は、SDファイル解析部212の制御に従って3Dデータの復号に関する処理を行う。例えば、3Dデータ復号部214は、3Dファイル取得部213から供給される3Dデータの符号化データを取得してもよい。また、3Dデータ復号部214は、その符号化データを復号してもよい。また、3Dデータ復号部214は、その復号により得られた3Dデータをバッファ215へ供給してもよい。
 バッファ215は、SDファイル解析部212の制御に従って3Dデータの格納に関する処理を行う。例えば、バッファ215は、3Dデータ復号部214から供給される3Dデータを取得してもよい。また、バッファ215は、その3Dデータを、シーンディスクリプションファイルにおいて指定される記憶領域に記憶してもよい。また、バッファ215は、制御部201若しくは表示情報生成部216の要求に基づいて、または所定のタイミングにおいて、記憶領域から3Dデータを読み出し、表示情報生成部216へ供給してもよい。
 表示情報生成部216は、3Dデータの表示に関する処理を行う。例えば、表示情報生成部216は、バッファ215から読み出した3Dデータを取得してもよい。また、表示情報生成部216は、その3Dデータのレンダリングを行い、表示情報(例えば、表示用画像等)を生成してもよい。また、表示情報生成部216は、生成した表示情報を、出力部221へ供給してもよい。
 メディアファイル取得部217は、SDファイル解析部212の制御に従ってメディアファイルの取得に関する処理を行う。例えば、メディアファイル取得部217は、配信サーバやファイル生成装置100等、クライアント装置200の外部から供給されるメディアファイル等を取得してもよい。また、メディアファイル取得部217は、取得したメディアファイルに格納されるメディアデータの符号化データを抽出し、メディアデータ復号部218へ供給してもよい。
 メディアデータ復号部218は、SDファイル解析部212の制御に従ってメディアデータの復号に関する処理を行う。例えば、メディアデータ復号部218は、メディアファイル取得部217から供給される3Dデータの符号化データを取得してもよい。また、メディアデータ復号部218は、その符号化データを復号してもよい。また、メディアデータ復号部218は、その復号により得られたメディアデータをバッファ219へ供給してもよい。
 バッファ219は、SDファイル解析部212の制御に従ってメディアデータの格納に関する処理を行う。例えば、バッファ219は、メディアデータ復号部218から供給されるメディアデータを取得してもよい。また、バッファ219は、そのメディアデータを、シーンディスクリプションファイルにおいて指定される記憶領域に記憶してもよい。また、バッファ219は、制御部201若しくはメディア情報生成部220の要求に基づいて、または所定のタイミングにおいて、記憶領域からメディアデータを読み出し、メディア情報生成部220へ供給してもよい。
 メディア情報生成部220は、メディアデータの出力に関する処理を行う。例えば、メディア情報生成部220は、バッファ219から読み出したメディアデータを取得してもよい。また、メディア情報生成部220は、そのメディアデータのレンダリングを行い、出力用のメディア情報(例えば、出力用のハプティクスメディア情報、表示用画像、出力用の音声情報等)を生成してもよい。また、メディア情報生成部220は、生成したメディア情報を、出力部221へ供給してもよい。
 出力部221は、表示デバイス、音声出力デバイス、ハプティクスデバイス(例えば振動デバイス)等を有し、上述の表示情報やメディア情報の出力(画像表示、音声出力、ハプティクスメディア出力(例えば振動出力)等)に関する処理を行う。例えば、出力部221は、表示情報生成部216から供給される表示情報を取得してもよい。また、出力部221は、メディア情報生成部220から供給されるメディア情報を取得してもよい。また、出力部221は、取得した表示情報を表示部(例えばディスプレイ等)に表示させてもよい。また、出力部221は、取得したメディア情報を、メディア出力部(例えば振動デバイス等)に出力させてもよい。
 以上のような構成のクライアント装置200において、上述した第2の情報処理装置とし、<3.動的なハプティクスメディアのサポート>において上述した本技術を適用してもよい。
 例えば、方法1を適用し、メディアファイル取得部217が、シーンディスクリプションファイルの記述に基づいて、再生対象の3Dデータに関連付けられた動的なハプティクスメディアの符号化データを取得してもよい。また、メディアデータ復号部218が、シーンディスクリプションファイルの記述に基づいて、その符号化データを復号し、ハプティクスメディアのデータを生成してもよい。また、バッファ219が、ハプティクスメディアのデータを、シーンディスクリプションファイルにより指定されるアクセサに対応する記憶領域に記憶してもよい。また、メディア情報生成部220が、シーンディスクリプションファイルの記述に基づいて、バッファ219の記憶領域に記憶されているハプティクスメディアのデータを読み出し、出力用のハプティクスメディア情報を生成してもよい。また、その他の方法を適用してもよい。また、複数の本技術を適宜組み合わせて適用してもよい。このようにすることにより、クライアント装置200は、<3.動的なハプティクスメディアのサポート>において上述したのと同様の効果を得ることができる。すなわち、クライアント装置200は、3Dデータに関連付けられたメディアデータの再生性能の低減を抑制することができる。
 また、以上のような構成のクライアント装置200において、上述した第2の情報処理装置とし、<4.インタラクション型メディアのサポート>において上述した本技術を適用してもよい。
 例えば、方法2を適用し、メディアファイル取得部217が、シーンディスクリプションファイルに含まれるインタラクション型メディアに関する記述に基づいて、再生対象の3Dデータに関連付けられたインタラクション型メディアの符号化データを取得してもよい。また、メディアデータ復号部218が、シーンディスクリプションファイルの記述に基づいて、取得された符号化データを復号し、インタラクション型メディアのデータを生成してもよい。このようにすることにより、クライアント装置200は、<4.インタラクション型メディアのサポート>において上述したのと同様の効果を得ることができる。すなわち、クライアント装置200は、3Dデータに関連付けられたメディアデータの再生性能の低減を抑制することができる。
  <再生処理の流れ>
 次に、再生処理の流れの例を、図34のフローチャートを参照して説明する。再生処理が開始されると、クライアント装置200のSDファイル取得部211は、ステップS201においてシーンディスクリプションファイルを取得する。また、SDファイル解析部212は、そのシーンディスクリプションファイルを解析する。
 ステップS202において、3Dファイル取得部213は、シーンディスクリプションファイルに従って、3Dファイルを取得する。
 ステップS203において、3Dデータ復号部214は、3Dデータの符号化データを復号する。バッファ215は、その復号により得られた3Dデータを、シーンディスクリプションファイルにより指定される記憶領域へ記憶する。
 ステップS204において、表示情報生成部216は、バッファ215に格納される3Dデータを読み出し、レンダリングする。つまり、表示情報生成部216は、読み出した3Dデータを用いて表示情報(表示画像等)を生成し、それを出力部221へ供給して表示させる。ステップS204の処理が終了すると、処理はステップS209へ進む。
 このステップS202乃至ステップS204の各処理と並行して、ステップS205乃至ステップS208の各処理が実行される。
 ステップS205において、メディアファイル取得部217は、シーンディスクリプションファイルに従って、メディアファイルを取得する。ステップS206において、メディアファイル取得部217は、取得したメディアファイルの再生条件を満たすか否かを判定し、満たすと判定されるまで待機する。また、取得したメディアファイルの再生条件を満たすと判定された場合、処理はステップS207へ進む。
 ステップS207において、メディアデータ復号部218は、メディアデータの符号化データを復号する。バッファ219は、その復号により得られた3Dデータを、シーンディスクリプションファイルにより指定される記憶領域へ記憶する。
 ステップS208において、メディア情報生成部220は、バッファ219に格納されるメディアデータを読み出し、レンダリングする。つまり、メディア情報生成部220は、読み出したメディアデータを用いてメディア情報(振動情報等)を生成し、それを出力部221へ供給して出力させる。ステップS208の処理が終了すると、処理はステップS209へ進む。
 ステップS209において、制御部201は、再生処理を終了するか否かを判定する。終了しないと判定された場合、処理はステップS202およびステップS205へ戻る。また、再生処理を終了すると判定された場合、再生処理が終了する。
 以上のような再生処理において、クライアント装置200を上述した第2の情報処理装置とし、<3.動的なハプティクスメディアのサポート>において上述した本技術を適用してもよい。
 例えば、方法1を適用し、メディアファイル取得部217が、シーンディスクリプションファイルの記述に基づいて、再生対象の3Dデータに関連付けられた動的なハプティクスメディアの符号化データを取得してもよい。また、メディアデータ復号部218が、シーンディスクリプションファイルの記述に基づいて、その符号化データを復号し、ハプティクスメディアのデータを生成してもよい。また、バッファ219が、ハプティクスメディアのデータを、シーンディスクリプションファイルにより指定されるアクセサに対応する記憶領域に記憶してもよい、また、メディア情報生成部220が、シーンディスクリプションファイルの記述に基づいて、その記憶領域に記憶されているハプティクスメディアのデータを読み出し、出力用のハプティクスメディア情報を生成してもよい。また、その他の方法を適用してもよい。また、複数の本技術を適宜組み合わせて適用してもよい。このようにすることにより、クライアント装置200は、<3.動的なハプティクスメディアのサポート>において上述したのと同様の効果を得ることができる。すなわち、クライアント装置200は、3Dデータに関連付けられたメディアデータの再生性能の低減を抑制することができる。
 また、以上のような構成のクライアント装置200において、上述した第2の情報処理装置とし、<4.インタラクション型メディアのサポート>において上述した本技術を適用してもよい。
 例えば、方法2を適用し、メディアファイル取得部217が、シーンディスクリプションファイルに含まれるインタラクション型メディアに関する記述に基づいて、再生対象の3Dデータに関連付けられた前記インタラクション型メディアの符号化データを取得してもよい。メディアデータ復号部218が、そのシーンディスクリプションファイルの記述に基づいて、取得された符号化データを復号し、インタラクション型メディアのデータを生成してもよい。また、その他の方法を適用してもよい。また、複数の本技術を適宜組み合わせて適用してもよい。このようにすることにより、クライアント装置200は、<4.インタラクション型メディアのサポート>において上述したのと同様の効果を得ることができる。すなわち、クライアント装置200は、3Dデータに関連付けられたメディアデータの再生性能の低減を抑制することができる。
 <7.付記>
  <組み合わせ>
 上述した本技術の各例(各方法)は、矛盾が生じない限り、他の例(他の方法)と適宜組み合わせて適用してもよい。また、上述した本技術の各例を、上述した以外の他の技術と組み合わせて適用してもよい。
  <コンピュータ>
 上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここでコンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ等が含まれる。
 図35は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 図35に示されるコンピュータ900において、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、RAM(Random Access Memory)903は、バス904を介して相互に接続されている。
 バス904にはまた、入出力インタフェース910も接続されている。入出力インタフェース910には、入力部911、出力部912、記憶部913、通信部914、およびドライブ915が接続されている。
 入力部911は、例えば、キーボード、マウス、マイクロホン、タッチパネル、入力端子などよりなる。出力部912は、例えば、ディスプレイ、スピーカ、出力端子などよりなる。記憶部913は、例えば、ハードディスク、RAMディスク、不揮発性のメモリなどよりなる。通信部914は、例えば、ネットワークインタフェースよりなる。ドライブ915は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディア921を駆動する。
 以上のように構成されるコンピュータでは、CPU901が、例えば、記憶部913に記憶されているプログラムを、入出力インタフェース910およびバス904を介して、RAM903にロードして実行することにより、上述した一連の処理が行われる。RAM903にはまた、CPU901が各種の処理を実行する上において必要なデータなども適宜記憶される。
 コンピュータが実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア921に記録して適用することができる。その場合、プログラムは、リムーバブルメディア921をドライブ915に装着することにより、入出力インタフェース910を介して、記憶部913にインストールすることができる。
 また、このプログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することもできる。その場合、プログラムは、通信部914で受信し、記憶部913にインストールすることができる。
 その他、このプログラムは、ROM902や記憶部913に、あらかじめインストールしておくこともできる。
  <本技術の適用可能な対象>
 本技術は、任意の符号化・復号方式に適用することができる。
 また、本技術は、任意の構成に適用することができる。例えば、本技術は、様々な電子機器に応用され得る。
 また、例えば、本技術は、システムLSI(Large Scale Integration)等としてのプロセッサ(例えばビデオプロセッサ)、複数のプロセッサ等を用いるモジュール(例えばビデオモジュール)、複数のモジュール等を用いるユニット(例えばビデオユニット)、または、ユニットにさらにその他の機能を付加したセット(例えばビデオセット)等、装置の一部の構成として実施することもできる。
 また、例えば、本技術は、複数の装置により構成されるネットワークシステムにも適用することもできる。例えば、本技術を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングとして実施するようにしてもよい。例えば、コンピュータ、AV(Audio Visual)機器、携帯型情報処理端末、IoT(Internet of Things)デバイス等の任意の端末に対して、画像(動画像)に関するサービスを提供するクラウドサービスにおいて本技術を実施するようにしてもよい。
 なお、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、全ての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、および、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
  <本技術を適用可能な分野・用途>
 本技術を適用したシステム、装置、処理部等は、例えば、交通、医療、防犯、農業、畜産業、鉱業、美容、工場、家電、気象、自然監視等、任意の分野に利用することができる。また、その用途も任意である。
 例えば、本技術は、観賞用コンテンツ等の提供の用に供されるシステムやデバイスに適用することができる。また、例えば、本技術は、交通状況の監理や自動運転制御等、交通の用に供されるシステムやデバイスにも適用することができる。さらに、例えば、本技術は、セキュリティの用に供されるシステムやデバイスにも適用することができる。また、例えば、本技術は、機械等の自動制御の用に供されるシステムやデバイスに適用することができる。さらに、例えば、本技術は、農業や畜産業の用に供されるシステムやデバイスにも適用することができる。また、本技術は、例えば火山、森林、海洋等の自然の状態や野生生物等を監視するシステムやデバイスにも適用することができる。さらに、例えば、本技術は、スポーツの用に供されるシステムやデバイスにも適用することができる。
  <その他>
 なお、本明細書において「フラグ」とは、複数の状態を識別するための情報であり、真(1)または偽(0)の2状態を識別する際に用いる情報だけでなく、3以上の状態を識別することが可能な情報も含まれる。したがって、この「フラグ」が取り得る値は、例えば1/0の2値であってもよいし、3値以上であってもよい。すなわち、この「フラグ」を構成するbit数は任意であり、1bitでも複数bitでもよい。また、識別情報(フラグも含む)は、その識別情報をビットストリームに含める形だけでなく、ある基準となる情報に対する識別情報の差分情報をビットストリームに含める形も想定されるため、本明細書においては、「フラグ」や「識別情報」は、その情報だけではなく、基準となる情報に対する差分情報も包含する。
 また、符号化データ(ビットストリーム)に関する各種情報(メタデータ等)は、符号化データに関連づけられていれば、どのような形態で伝送または記録されるようにしてもよい。ここで、「関連付ける」という用語は、例えば、一方のデータを処理する際に他方のデータを利用し得る(リンクさせ得る)ようにすることを意味する。つまり、互いに関連付けられたデータは、1つのデータとしてまとめられてもよいし、それぞれ個別のデータとしてもよい。例えば、符号化データ(画像)に関連付けられた情報は、その符号化データ(画像)とは別の伝送路上で伝送されるようにしてもよい。また、例えば、符号化データ(画像)に関連付けられた情報は、その符号化データ(画像)とは別の記録媒体(または同一の記録媒体の別の記録エリア)に記録されるようにしてもよい。なお、この「関連付け」は、データ全体でなく、データの一部であってもよい。例えば、画像とその画像に対応する情報とが、複数フレーム、1フレーム、またはフレーム内の一部分などの任意の単位で互いに関連付けられるようにしてもよい。
 なお、本明細書において、「合成する」、「多重化する」、「付加する」、「一体化する」、「含める」、「格納する」、「入れ込む」、「差し込む」、「挿入する」等の用語は、例えば符号化データとメタデータとを1つのデータにまとめるといった、複数の物を1つにまとめることを意味し、上述の「関連付ける」の1つの方法を意味する。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、1つの装置(または処理部)として説明した構成を分割し、複数の装置(または処理部)として構成するようにしてもよい。逆に、以上において複数の装置(または処理部)として説明した構成をまとめて1つの装置(または処理部)として構成されるようにしてもよい。また、各装置(または各処理部)の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置(または処理部)の構成の一部を他の装置(または他の処理部)の構成に含めるようにしてもよい。
 また、例えば、上述したプログラムは、任意の装置において実行されるようにしてもよい。その場合、その装置が、必要な機能(機能ブロック等)を有し、必要な情報を得ることができるようにすればよい。
 また、例えば、1つのフローチャートの各ステップを、1つの装置が実行するようにしてもよいし、複数の装置が分担して実行するようにしてもよい。さらに、1つのステップに複数の処理が含まれる場合、その複数の処理を、1つの装置が実行するようにしてもよいし、複数の装置が分担して実行するようにしてもよい。換言するに、1つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を1つのステップとしてまとめて実行することもできる。
 また、例えば、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。
 また、例えば、本技術に関する複数の技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部または全部を、他の実施の形態において説明した本技術の一部または全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部または全部を、上述していない他の技術と併用して実施することもできる。
 なお、本技術は以下のような構成も取ることができる。
 (1) シーンディスクリプションファイルの記述に基づいて、再生対象の3Dデータに関連付けられた動的なハプティクスメディアの符号化データを取得する取得部と、
 前記シーンディスクリプションファイルの記述に基づいて、前記符号化データを復号し、前記ハプティクスメディアのデータを生成する復号部と、
 前記ハプティクスメディアのデータを、前記シーンディスクリプションファイルにより指定されるアクセサに対応する記憶領域に記憶する記憶部と、
 前記シーンディスクリプションファイルの記述に基づいて、前記記憶領域に記憶されている前記ハプティクスメディアのデータを読み出し、出力用のハプティクスメディア情報を生成する生成部と
 を備える情報処理装置。
 (2) 前記記憶部は、前記ハプティクスメディアのデータを、前記シーンディスクリプションファイルのマテリアルにおいて指定される前記アクセサに対応する前記記憶領域に記憶する
 (1)に記載の情報処理装置。
 (3) 前記ハプティクスメディアは、シーンの時間方向の進行に同期して再生される同期型ハプティクスメディアを含み、
 前記生成部は、所定の再生タイミングに応じたタイミングにおいて前記記憶領域から前記同期型ハプティクスメディアのデータを読み出し、前記ハプティクスメディア情報を生成する
 (1)または(2)に記載の情報処理装置。
 (4) 前記ハプティクスメディアは、ユーザ操作によりシーンにおいて所定の条件が満たされる場合に再生されるインタラクション型ハプティクスメディアを含み、
 前記生成部は、前記条件が満たされる場合に前記記憶領域から前記インタラクション型ハプティクスメディアのデータを読み出し、前記ハプティクスメディア情報を生成する
 (1)乃至(3)のいずれかに記載の情報処理装置。
 (5) シーンディスクリプションファイルの記述に基づいて、再生対象の3Dデータに関連付けられた動的なハプティクスメディアの符号化データを取得し、
 前記シーンディスクリプションファイルの記述に基づいて、前記符号化データを復号し、前記ハプティクスメディアのデータを生成し、
 前記ハプティクスメディアのデータを、前記シーンディスクリプションファイルにより指定されるアクセサに対応する記憶領域に記憶し、
 前記シーンディスクリプションファイルの記述に基づいて、前記記憶領域に記憶されている前記ハプティクスメディアのデータを読み出し、出力用のハプティクスメディア情報を生成する
 情報処理方法。
 (11) 3Dデータに関連付けられた動的なハプティクスメディアを所定の記憶領域に記憶させるためのアクセサを指定するシーンディスクリプションファイルを生成するファイル生成部
 を備える情報処理装置。
 (12) 前記ファイル生成部は、マテリアルにおいて前記アクセサを指定する前記シーンディスクリプションファイルを生成する
 (11)に記載の情報処理装置。
 (13) 前記ハプティクスメディアは、シーンの時間方向の進行に同期して再生される同期型ハプティクスメディアを含む
 (11)または(12)に記載の情報処理装置。
 (14) 前記ハプティクスメディアは、ユーザ操作によりシーンにおいて所定の条件が満たされる場合に再生されるインタラクション型ハプティクスメディアを含む
 (11)乃至(3)のいずれかに記載の情報処理装置。
 (15) 3Dデータに関連付けられた動的なハプティクスメディアを所定の記憶領域に記憶させるためのアクセサを指定するシーンディスクリプションファイルを生成する
 情報処理方法。
 (21) シーンディスクリプションファイルに含まれるインタラクション型メディアに関する記述に基づいて、再生対象の3Dデータに関連付けられた前記インタラクション型メディアの符号化データを取得する取得部と、
 前記シーンディスクリプションファイルの記述に基づいて、取得された前記符号化データを復号し、前記インタラクション型メディアのデータを生成する復号部と
 を備える情報処理装置。
 (22) 前記インタラクション型メディアに関する記述は、ユーザ操作によりシーンにおいて所定の条件が満たされる場合に実行するインタラクション型の処理が可能であるか否かを示す記述を含み、
 前記取得部は、前記インタラクション型の処理が可能であることが示される場合、前記符号化データを取得する
 (21)に記載の情報処理装置。
 (23) 前記インタラクション型メディアに関する記述は、ユーザ操作またはアバターの属性情報に応じて前記インタラクション型メディアを選択可能であるか否かを示す記述を含み、
 前記取得部は、
  前記インタラクション型メディアを選択可能であることが示される場合、前記ユーザ操作または前記アバターの属性情報に応じて前記インタラクション型メディアを選択し、
  前記インタラクション型メディアを選択不可能であることが示される場合、所定の前記インタラクション型メディアを選択する
 (21)または(22)に記載の情報処理装置。
 (24) 前記インタラクション型メディアに関する記述は、前記符号化データの取得に関する記述を含み、
 前記取得部は、前記符号化データの取得に関する記述に従って前記符号化データを取得する
 (21)乃至(23)のいずれかに記載の情報処理装置。
 (25) 前記符号化データの取得に関する記述は、取得の条件に関する記述を含み、
 前記取得部は、前記条件が満たされる場合に前記符号化データを取得する
 (24)に記載の情報処理装置。
 (26) 前記条件に関する記述は、前記条件がシーンに必要な情報の初期化前であるか否かを示す記述を含み、
 前記取得部は、前記記述により前記条件が前記情報の初期化前であることが示される場合、前記情報の初期化前において前記符号化データを取得する
 (25)に記載の情報処理装置。
 (27) 前記条件に関する記述は、前記インタラクション型メディアに対応する位置のLoDを示す記述を含み、
 前記取得部は、前記記述により示される前記LoDよりも前記位置のLoDの方が大きい場合、前記符号化データを取得する
 (25)または(26)に記載の情報処理装置。
 (28) 前記条件に関する記述は、前記インタラクション型メディアに対応する位置までの距離を示す記述を含み、
 前記取得部は、視点またはアバターが前記位置に対して、前記記述により示される前記距離以内に接近した場合、前記符号化データを取得する
 (25)乃至(27)のいずれかに記載の情報処理装置。
 (29) 前記条件に関する記述は、前記条件が前記インタラクション型メディアに対応する位置が視界に入ることであるか否かを示す記述を含み、
 前記取得部は、前記記述により前記位置が視界に入ることが前記条件であることが示される場合、前記位置が前記視界内に入った時に前記符号化データを取得する
 (25)乃至(28)のいずれかに記載の情報処理装置。
 (30) 前記条件に関する記述は、前記符号化データを取得する推奨時刻を示す記述を含み、
 前記取得部は、前記記述により示される前記推奨時刻において前記符号化データを取得する
 (25)乃至(29)のいずれかに記載の情報処理装置。
 (31) 前記条件に関する記述は、所定の空間領域を示す記述を含み、
 前記取得部は、視点またはアバターが前記記述により示される前記空間領域内に位置する場合、前記符号化データを取得する
 (25)乃至(30)のいずれかに記載の情報処理装置。
 (32) 前記符号化データの取得に関する記述は、前記符号化データの取得方法に関する記述を含み、
 前記取得部は、前記取得方法に関する記述に従って前記符号化データを取得する
 (24)乃至(31)のいずれかに記載の情報処理装置。
 (33) 前記取得方法に関する記述は、前記符号化データが前記3Dデータのファイルに含まれるか否かを示す記述を含み、
 前記取得部は、前記符号化データが前記3Dデータのファイルに含まれないことが示される場合、前記符号化データを取得する
 (32)に記載の情報処理装置。
 (34) 前記取得方法に関する記述は、前記符号化データの優先度を示す記述を含み、
 前記取得部は、前記優先度に応じて前記符号化データを取得する
 (32)または(33)に記載の情報処理装置。
 (35) 前記符号化データの取得に関する記述は、前記インタラクション型メディアのタイプに関する記述を含み、
 前記取得部は、前記インタラクション型メディアのタイプに関する記述に従って前記符号化データを取得する
 (24)乃至(34)のいずれかに記載の情報処理装置。
 (36) 前記インタラクション型メディアのタイプに関する記述は、前記インタラクション型メディアが動的なメディアであるか否かを示す記述を含み、
 前記取得部は、前記インタラクション型メディアが前記動的なメディアであることが示される場合、前記動的なメディアに応じた方法で前記符号化データを取得する
 (35)に記載の情報処理装置。
 (37) 前記インタラクション型メディアのタイプに関する記述は、動的なメディアを格納する記憶領域に対応するアクセサを指定する記述を含み、
 前記取得部は、取得した前記符号化データを、指定された前記アクセサに対応する前記記憶領域に記憶させる
 (35)または(36)に記載の情報処理装置。
 (38) 前記取得部は、前記シーンディスクリプションファイルのマテリアルの、前記インタラクション型メディアに関する記述に基づいて、前記符号化データを取得する
 (21)乃至(37)のいずれかに記載の情報処理装置。
 (39) 前記取得部は、前記マテリアルにおいて、前記インタラクション型メディアのファイル情報として記述された前記インタラクション型メディアに関する記述に基づいて、前記符号化データを取得する
 (38)に記載の情報処理装置。
 (40) 前記取得部は、前記マテリアルにおいて、前記インタラクション型メディアの事前処理情報として記述された前記インタラクション型メディアに関する記述に基づいて、前記符号化データを取得する
 (38)または(39)に記載の情報処理装置。
 (41) 前記インタラクション型メディアは、ハプティクス情報を含む
 (21)乃至(40)のいずれかに記載の情報処理装置。
 (42) 前記インタラクション型メディアは、画像情報を含む
 (21)乃至(41)のいずれかに記載の情報処理装置。
 (43) 前記インタラクション型メディアは、音声情報を含む
 (21)乃至(42)のいずれかに記載の情報処理装置。
 (44) シーンディスクリプションファイルに含まれるインタラクション型メディアに関する記述に基づいて、再生対象の3Dデータに関連付けられた前記インタラクション型メディアの符号化データを取得し、
 前記シーンディスクリプションファイルの記述に基づいて、取得された前記符号化データを復号し、前記インタラクション型メディアのデータを生成する
 情報処理方法。
 (51) 3Dデータに関連付けられたインタラクション型メディアに関する記述を含むシーンディスクリプションファイルを生成するファイル生成部
 を備える情報処理装置。
 (52) 前記インタラクション型メディアに関する記述は、ユーザ操作によりシーンにおいて所定の条件が満たされる場合に実行するインタラクション型の処理が可能であるか否かを示す記述を含む
 (51)に記載の情報処理装置。
 (53) 前記インタラクション型メディアに関する記述は、ユーザ操作またはアバターの属性情報に応じて前記インタラクション型メディアを選択可能であるか否かを示す記述を含む
 (51)または(52)に記載の情報処理装置。
 (54) 前記インタラクション型メディアに関する記述は、前記インタラクション型メディアの取得に関する記述を含む
 (51)乃至(53)のいずれかに記載の情報処理装置。
 (55) 前記インタラクション型メディアの取得に関する記述は、取得の条件に関する記述を含む
 (54)に記載の情報処理装置。
 (56) 前記条件に関する記述は、前記条件がシーンに必要な情報の初期化前であるか否かを示す記述を含む
 (55)に記載の情報処理装置。
 (57) 前記条件に関する記述は、取得する前記インタラクション型メディアに対応する位置のLoDを示す記述を含む
 (55)または(56)に記載の情報処理装置。
 (58) 前記条件に関する記述は、取得する前記インタラクション型メディアに対応する位置までの距離を示す記述を含む
 (55)乃至(57)のいずれかに記載の情報処理装置。
 (59) 前記条件に関する記述は、前記条件が前記インタラクション型メディアに対応する位置が視界に入ることであるか否かを示す記述を含む
 (55)乃至(58)のいずれかに記載の情報処理装置。
 (60) 前記条件に関する記述は、前記インタラクション型メディアを取得する推奨時刻を示す記述を含む
 (55)乃至(59)のいずれかに記載の情報処理装置。
 (61) 前記条件に関する記述は、前記インタラクション型メディアを取得する所定の空間領域を示す記述を含む
 (55)乃至(60)のいずれかに記載の情報処理装置。
 (62) 前記インタラクション型メディアの取得に関する記述は、前記インタラクション型メディアの取得方法に関する記述を含む
 (54)乃至(61)のいずれかに記載の情報処理装置。
 (63) 前記取得方法に関する記述は、前記インタラクション型メディアが前記3Dデータのファイルに含まれるか否かを示す記述を含む
 (62)に記載の情報処理装置。
 (64) 前記取得方法に関する記述は、前記インタラクション型メディアの優先度を示す記述を含む
 (61)または(62)に記載の情報処理装置。
 (65) 前記インタラクション型メディアの取得に関する記述は、前記インタラクション型メディアのタイプに関する記述を含む
 (54)乃至(64)のいずれかに記載の情報処理装置。
 (66) 前記インタラクション型メディアのタイプに関する記述は、前記インタラクション型メディアが動的なメディアであるか否かを示す記述を含む
 (65)に記載の情報処理装置。
 (67) 前記インタラクション型メディアのタイプに関する記述は、動的なメディアを格納する記憶領域に対応するアクセサを指定する記述を含む
 (65)または(66)に記載の情報処理装置。
 (68) 前記ファイル生成部は、前記インタラクション型メディアに関する記述をマテリアルに格納する前記シーンディスクリプションファイルを生成する
 (51)乃至(67)のいずれかに記載の情報処理装置。
 (69) 前記インタラクション型メディアに関する記述は、前記マテリアルにおいてファイル情報として格納される
 (68)に記載の情報処理装置。
 (70) 前記インタラクション型メディアに関する記述は、前記マテリアルにおいて事前処理情報として格納される
 (68)または(69)に記載の情報処理装置。
 (71) 前記インタラクション型メディアは、ハプティクス情報を含む
 (51)乃至(70)のいずれかに記載の情報処理装置。
 (72) 前記インタラクション型メディアは、画像情報を含む
 (51)乃至(71)のいずれかに記載の情報処理装置。
 (73) 前記インタラクション型メディアは、音声情報を含む
 (51)乃至(72)のいずれかに記載の情報処理装置。
 (74) 3Dデータに関連付けられたインタラクション型メディアに関する記述を含むシーンディスクリプションファイルを生成する
 情報処理方法。
 100 ファイル生成装置, 101 制御部, 102 ファイル生成処理部, 111 入力部, 112 前処理部, 113 符号化部, 114 前処理部, 115 符号化部, 116 ファイル生成部, 117 記録部, 118 出力部, 121 SDファイル生成部, 122 3Dファイル生成部, 123 メディアファイル生成部, 200 クライアント装置, 201 制御部, 202 クライアント処理部, 211 SDファイル取得部, 212 SDファイル解析部, 213 3Dファイル取得部, 214 3Dデータ復号部, 215 バッファ, 216 表示情報生成部, 217 メディアファイル取得部, 218 メディアデータ復号部, 219 バッファ, 220 メディア情報生成部, 221 出力部

Claims (20)

  1.  シーンディスクリプションファイルの記述に基づいて、再生対象の3Dデータに関連付けられた動的なハプティクスメディアの符号化データを取得する取得部と、
     前記シーンディスクリプションファイルの記述に基づいて、前記符号化データを復号し、前記ハプティクスメディアのデータを生成する復号部と、
     前記ハプティクスメディアのデータを、前記シーンディスクリプションファイルにより指定されるアクセサに対応する記憶領域に記憶する記憶部と、
     前記シーンディスクリプションファイルの記述に基づいて、前記記憶領域に記憶されている前記ハプティクスメディアのデータを読み出し、出力用のハプティクスメディア情報を生成する生成部と
     を備える情報処理装置。
  2.  前記記憶部は、前記ハプティクスメディアのデータを、前記シーンディスクリプションファイルのマテリアルにおいて指定される前記アクセサに対応する前記記憶領域に記憶する
     請求項1に記載の情報処理装置。
  3.  シーンディスクリプションファイルの記述に基づいて、再生対象の3Dデータに関連付けられた動的なハプティクスメディアの符号化データを取得し、
     前記シーンディスクリプションファイルの記述に基づいて、前記符号化データを復号し、前記ハプティクスメディアのデータを生成し、
     前記ハプティクスメディアのデータを、前記シーンディスクリプションファイルにより指定されるアクセサに対応する記憶領域に記憶し、
     前記シーンディスクリプションファイルの記述に基づいて、前記記憶領域に記憶されている前記ハプティクスメディアのデータを読み出し、出力用のハプティクスメディア情報を生成する
     情報処理方法。
  4.  3Dデータに関連付けられた動的なハプティクスメディアを所定の記憶領域に記憶させるためのアクセサを指定するシーンディスクリプションファイルを生成するファイル生成部
     を備える情報処理装置。
  5.  前記ファイル生成部は、マテリアルにおいて前記アクセサを指定する前記シーンディスクリプションファイルを生成する
     請求項4に記載の情報処理装置。
  6.  3Dデータに関連付けられた動的なハプティクスメディアを所定の記憶領域に記憶させるためのアクセサを指定するシーンディスクリプションファイルを生成する
     情報処理方法。
  7.  シーンディスクリプションファイルに含まれるインタラクション型メディアに関する記述に基づいて、再生対象の3Dデータに関連付けられた前記インタラクション型メディアの符号化データを取得する取得部と、
     前記シーンディスクリプションファイルの記述に基づいて、取得された前記符号化データを復号し、前記インタラクション型メディアのデータを生成する復号部と
     を備える情報処理装置。
  8.  前記インタラクション型メディアに関する記述は、ユーザ操作によりシーンにおいて所定の条件が満たされる場合に実行するインタラクション型の処理が可能であるか否かを示す記述を含み、
     前記取得部は、前記インタラクション型の処理が可能であることが示される場合、前記符号化データを取得する
     請求項7に記載の情報処理装置。
  9.  前記インタラクション型メディアに関する記述は、ユーザ操作またはアバターの属性情報に応じて前記インタラクション型メディアを選択可能であるか否かを示す記述を含み、
     前記取得部は、
      前記インタラクション型メディアを選択可能であることが示される場合、前記ユーザ操作または前記アバターの属性情報に応じて前記インタラクション型メディアを選択し、
      前記インタラクション型メディアを選択不可能であることが示される場合、所定の前記インタラクション型メディアを選択する
     請求項7に記載の情報処理装置。
  10.  前記インタラクション型メディアに関する記述は、前記符号化データの取得に関する記述を含み、
     前記取得部は、前記符号化データの取得に関する記述に従って前記符号化データを取得する
     請求項7に記載の情報処理装置。
  11.  前記取得部は、前記シーンディスクリプションファイルのマテリアルにおいて、前記インタラクション型メディアのファイル情報として記述された前記インタラクション型メディアに関する記述に基づいて、前記符号化データを取得する
     請求項7に記載の情報処理装置。
  12.  前記取得部は、前記シーンディスクリプションファイルのマテリアルにおいて、前記インタラクション型メディアの事前処理情報として記述された前記インタラクション型メディアに関する記述に基づいて、前記符号化データを取得する
     請求項7に記載の情報処理装置。
  13.  シーンディスクリプションファイルに含まれるインタラクション型メディアに関する記述に基づいて、再生対象の3Dデータに関連付けられた前記インタラクション型メディアの符号化データを取得し、
     前記シーンディスクリプションファイルの記述に基づいて、取得された前記符号化データを復号し、前記インタラクション型メディアのデータを生成する
     情報処理方法。
  14.  3Dデータに関連付けられたインタラクション型メディアに関する記述を含むシーンディスクリプションファイルを生成するファイル生成部
     を備える情報処理装置。
  15.  前記インタラクション型メディアに関する記述は、ユーザ操作によりシーンにおいて所定の条件が満たされる場合に実行するインタラクション型の処理が可能であるか否かを示す記述を含む
     請求項14に記載の情報処理装置。
  16.  前記インタラクション型メディアに関する記述は、ユーザ操作またはアバターの属性情報に応じて前記インタラクション型メディアを選択可能であるか否かを示す記述を含む
     請求項14に記載の情報処理装置。
  17.  前記インタラクション型メディアに関する記述は、前記インタラクション型メディアの取得に関する記述を含む
     請求項14に記載の情報処理装置。
  18.  前記インタラクション型メディアに関する記述は、前記シーンディスクリプションファイルのマテリアルにおいてファイル情報として格納される
     請求項14に記載の情報処理装置。
  19.  前記インタラクション型メディアに関する記述は、前記シーンディスクリプションファイルのマテリアルにおいて事前処理情報として格納される
     請求項14に記載の情報処理装置。
  20.  3Dデータに関連付けられたインタラクション型メディアに関する記述を含むシーンディスクリプションファイルを生成する
     情報処理方法。
PCT/JP2023/010321 2022-03-18 2023-03-16 情報処理装置および方法 WO2023176928A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202263321305P 2022-03-18 2022-03-18
US63/321,305 2022-03-18

Publications (1)

Publication Number Publication Date
WO2023176928A1 true WO2023176928A1 (ja) 2023-09-21

Family

ID=88023408

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/010321 WO2023176928A1 (ja) 2022-03-18 2023-03-16 情報処理装置および方法

Country Status (1)

Country Link
WO (1) WO2023176928A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120092146A1 (en) * 2009-12-11 2012-04-19 Gwangju Institute Of Science And Technology Method for expressing haptic information using control information, and system for transmitting haptic information
JP2014239430A (ja) * 2013-05-24 2014-12-18 イマージョン コーポレーションImmersion Corporation 触覚データを符号化及びストリーミングする方法及びシステム
JP2018527655A (ja) * 2015-07-13 2018-09-20 トムソン ライセンシングThomson Licensing ユーザ・ハプティック空間(HapSpace)に基づくハプティック・フィードバックおよびインタラクティブ性を提供する方法および装置
WO2021251185A1 (ja) * 2020-06-11 2021-12-16 ソニーグループ株式会社 情報処理装置および方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120092146A1 (en) * 2009-12-11 2012-04-19 Gwangju Institute Of Science And Technology Method for expressing haptic information using control information, and system for transmitting haptic information
JP2014239430A (ja) * 2013-05-24 2014-12-18 イマージョン コーポレーションImmersion Corporation 触覚データを符号化及びストリーミングする方法及びシステム
JP2018527655A (ja) * 2015-07-13 2018-09-20 トムソン ライセンシングThomson Licensing ユーザ・ハプティック空間(HapSpace)に基づくハプティック・フィードバックおよびインタラクティブ性を提供する方法および装置
WO2021251185A1 (ja) * 2020-06-11 2021-12-16 ソニーグループ株式会社 情報処理装置および方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"ISO/IEC Standard. Draft Amendment ISO/IEC 14496-12:2020/DAM 1", 20 January 2021, article "ISO/IEC 14496-12:2020/CD Amd-1 Information technology - Coding of audio-visual objects - Part 12: ISO base media file format AMENDMENT 1: Support for new media types (haptics, volumetric visual) and other improvements", pages: 1 - 7, XP009553131 *

Similar Documents

Publication Publication Date Title
US20070006065A1 (en) Conditional event timing for interactive multimedia presentations
WO2021251185A1 (ja) 情報処理装置および方法
US20210392386A1 (en) Data model for representation and streaming of heterogeneous immersive media
WO2007005301A2 (en) State-based timing for interactive multimedia presentations
EP3944629A1 (en) Information processing device, information processing method, playback processing device, and playback processing method
CN116210221A (zh) Mpeg和gltf媒体的时间对齐
WO2021065277A1 (ja) 情報処理装置、再生処理装置及び情報処理方法
Flotyński et al. Building multi-platform 3D virtual museum exhibitions with Flex-VR
JP2001243496A (ja) シーン記述生成装置及び方法、シーン記述変換装置及び方法、シーン記述記憶装置及び方法、シーン記述復号装置及び方法、ユーザインタフェースシステム、記録媒体並びに伝送媒体
US20230334804A1 (en) Information processing device and method
WO2023176928A1 (ja) 情報処理装置および方法
US20240046562A1 (en) Information processing device and method
WO2022070903A1 (ja) 情報処理装置および方法
WO2023204289A1 (ja) 情報処理装置および方法
US11797476B2 (en) Method and apparatus for media scene description
EP3940539A1 (en) A system and method for generating dynamic media
WO2022220255A1 (ja) 情報処理装置および方法
WO2022220278A1 (ja) 情報処理装置および方法
WO2024014526A1 (ja) 情報処理装置および方法
US20240193862A1 (en) Information processing device and method
WO2024024874A1 (ja) 情報処理装置および方法
WO2022220291A1 (ja) 情報処理装置および方法
US20240193869A1 (en) Information processing device and method thereof
CN117980951A (zh) 信息处理装置和方法
JP2024503059A (ja) マルチトラックベースの没入型メディアプレイアウト

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23770881

Country of ref document: EP

Kind code of ref document: A1