WO2021002338A1 - 情報処理装置、情報処理方法、再生処理装置及び再生処理方法 - Google Patents

情報処理装置、情報処理方法、再生処理装置及び再生処理方法 Download PDF

Info

Publication number
WO2021002338A1
WO2021002338A1 PCT/JP2020/025591 JP2020025591W WO2021002338A1 WO 2021002338 A1 WO2021002338 A1 WO 2021002338A1 JP 2020025591 W JP2020025591 W JP 2020025591W WO 2021002338 A1 WO2021002338 A1 WO 2021002338A1
Authority
WO
WIPO (PCT)
Prior art keywords
transition
information
viewpoint
file
generation unit
Prior art date
Application number
PCT/JP2020/025591
Other languages
English (en)
French (fr)
Inventor
由佳 木山
遼平 高橋
平林 光浩
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to CN202080047166.2A priority Critical patent/CN114026849A/zh
Priority to US17/622,880 priority patent/US11985290B2/en
Priority to EP20834772.4A priority patent/EP3996376A4/en
Priority to KR1020217041681A priority patent/KR20220031560A/ko
Priority to JP2021530025A priority patent/JPWO2021002338A1/ja
Publication of WO2021002338A1 publication Critical patent/WO2021002338A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/858Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot
    • H04N21/8586Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot by using a URL
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/189Recording image signals; Reproducing recorded image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/282Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4722End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content
    • H04N21/4725End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content using interactive regions of the image, e.g. hot spots
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4858End-user interface for client configuration for modifying screen layout parameters, e.g. fonts, size of the windows
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8146Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream

Definitions

  • the present invention relates to an information processing device, an information processing method, a reproduction processing device, and a reproduction processing method.
  • MPEG-DASH Moving Picture Experts Group-Dynamic Adaptive Streaming over HTTP
  • HTTP Hypertext Transfer Protocol
  • ISOBMFF International Organization for Standardization Base Media File Format
  • a spherical image which is an image obtained by projecting an image having a circumference of 360 degrees in the horizontal direction and a period of 180 degrees in the vertical direction onto a stereostructure is mapped as a planar image.
  • the spherical image is also called a 3DoF (Degrees of Freedom) image
  • the spherical image is also called a projective plane image or a 3DoF image.
  • MPEG-I OMAF Omnidirectional Media Format
  • ISO / IEC 2015 Information technology. Coding of audio-visual objects. Part 12: ISO base media file format, 2015-12
  • the client device does not have information indicating the creator's intention such as which other spherical image can be transitioned from the spherical image currently being viewed. It is difficult to provide a viewing experience that includes a transition to a transitionable spherical image in a distribution system that does not have information indicating a transitionable spherical image of the client device, and the viewer's viewing experience. May impair the quality of the.
  • the function that realizes the video transition depends on the type of function implemented for the client device, the intention of the creator is not always properly reflected when the content is played back. Therefore, the quality of the viewing experience of the user may be impaired.
  • the present disclosure provides an information processing device, an information processing method, a reproduction processing device, and a reproduction processing method that provide a user with a high-quality viewing experience.
  • the metadata generation unit generates transition identification information for identifying the second viewpoint which is the viewpoint position in the second video which can be transitioned from the first video whose viewpoint position is the first viewpoint. To do.
  • the file generation unit generates a file including the data of the first video and the transition identification information.
  • Non-Patent Document 1 (above)
  • Non-Patent Document 2 ISO / IEC 23090-2: 2019 Information technology. Coded representation of immersive media. Part 2: Omnidirectional media format, 2019-01
  • Non-Patent Document 3 N18393, WD5 of ISO / IEC 23090-2 OMAF 2nd edition, 2019-05-16
  • Non-Patent Document 4 m47385, [OMAF] Multiviewpoint switching transitions, 2019-03
  • Non-Patent Document 5 "Matroska Media Container", [Searched on March 12, 2nd year of Reiwa], Internet ⁇ URL: https://www.matroscka.org/>
  • Non-Patent Documents 1 to 5 are not directly defined in the detailed description of the invention, it is within the scope of the present disclosure and satisfies the support requirements of the claims. To do.
  • technical terms such as Parsing, Syntax, and Semantics are also within the scope of the present disclosure, even if they are not directly defined in the detailed description of the invention. Yes, and shall meet the support requirements of the claims.
  • FIG. 1 is a system configuration diagram of an example of a distribution system.
  • the distribution system 100 includes a file generation device 1 which is an information processing device, a client device 2 which is a reproduction processing device, and a Web server 3.
  • the file generation device 1, the client device 2, and the Web server 3 are connected to the network 4. Then, the file generation device 1, the client device 2, and the Web server 3 can communicate with each other via the network 4.
  • the distribution system 100 may include a plurality of file generation devices 1 and a plurality of client devices 2, respectively.
  • the file generation device 1 generates 3DoF content, which is data that provides 3DoF video.
  • the file generation device 1 uploads the generated 3DoF content to the Web server 3.
  • the configuration in which the Web server 3 provides the 3DoF content to the client device 2 will be described, but the distribution system 100 can adopt another configuration.
  • the file generation device 1 may include the functions of the Web server 3, store the generated 3DoF content in its own device, and provide it to the client device 2.
  • the Web server 3 holds the 3DoF content uploaded from the file generation device 1. Then, the Web server 3 provides the designated 3DoF content according to the request from the client device 2.
  • the client device 2 transmits a transmission request for 3DoF content to the Web server 3. Then, the client device 2 acquires the 3DoF content specified in the transmission request from the Web server 3. Then, the client device 2 decodes the 3DoF content to generate an image, and displays the image on a display device such as a monitor.
  • FIG. 2 is a block diagram of the file generator.
  • the file generation device 1 which is an information processing device has a file generation processing unit 10, a control unit 11, and a communication unit 12.
  • the control unit 11 executes a process related to the control of the file generation processing unit 10.
  • the control unit 11 performs integrated control such as the operation timing of each unit of the file generation processing unit 10.
  • the file generation processing unit 10 includes a data acquisition unit 101, an encoding unit 102, a metadata generation unit 103, and a file generation unit 104.
  • the data acquisition unit 101 accepts the input of the original data of the 3DoF content for displaying the 3DoF video.
  • the original data of the 3DoF content includes image data for generating a 3DoF image and control information for generating metadata.
  • the control information includes, for example, time information of each image data, viewpoint position information of each image data, and information of image data that can be transitioned from each image data. Further, the control information includes information indicating a viewpoint corresponding to each image data, position information of each viewpoint, information indicating a correspondence with a transitionable viewpoint, and the like.
  • the data acquisition unit 101 outputs the image data included in the original data of the acquired 3DoF content to the coding unit 102. Further, the data acquisition unit 101 outputs the control information included in the original data of the acquired 3DoF content to the metadata generation unit 103.
  • the coding unit 102 receives the input of image data from the data acquisition unit 101. Then, the coding unit 102 performs a coding process on the image data to generate 3DoF image data. Then, the coding unit 102 outputs the generated 3DoF image data to the file generation unit 104.
  • the viewpoint position may be called the viewpoint.
  • viewpoint image data when emphasizing that the 3DoF image data is an image when viewed from various viewpoint positions, it is called “viewpoint image data”, and the spherical image displayed when the viewpoint image data is reproduced. May be called a "viewpoint image”.
  • the metadata generation unit 103 receives input of control information from the data acquisition unit 101. Next, the metadata generation unit 103 generates metadata based on the control information.
  • the metadata includes control information related to image generation and reproduction such as what kind of codec is used for compression. Further, the metadata generation unit 103 generates the following information as metadata.
  • the metadata generation unit 103 generates transition identification information for identifying a viewpoint that can be transitioned from each viewpoint from the acquired control information. Specifically, the metadata generation unit 103 assigns viewpoint_id, which is identification information, to each viewpoint. Further, the metadata generation unit 103 associates the identification information of the transitionable viewpoint with the identification information of the viewpoint of the transition source. By using this transition identification information, the client device 2 can identify a transitionable viewpoint from a specific viewpoint, and can realize a transition to a transitionable viewpoint. Then, the metadata generation unit 103 associates the viewpoint image data at each viewpoint with the transition identification information whose transition source is that viewpoint.
  • the metadata generation unit 103 calculates the display position of the transition execution area corresponding to the transition destination viewpoint in the transition source viewpoint image from the viewpoint position information included in the control information. Next, the metadata generation unit 103 generates transition execution area information representing the transition execution area on each viewpoint image by using the calculated display position of the transition execution area.
  • the metadata generation unit 103 generates transition trigger information representing an operation that triggers execution of the transition specified in the control information. After that, the metadata generation unit 103 associates the transition execution area information and the transition trigger information corresponding to each viewpoint image data. In this way, the metadata generation unit 103 generates 3DoF image data indicating a transitionable viewpoint by associating the transition identification information and the transition execution area information with the corresponding viewpoint image data.
  • the metadata generation unit 103 outputs the metadata including the transition identification information, the transition execution area information, and the transition trigger information to the file generation unit 104.
  • the file generation unit 104 receives the input of 3DoF image data from the encoding unit 102. Further, the file generation unit 104 receives input of metadata including transition identification information, transition execution area information, and transition trigger information from the metadata generation unit 103. Then, the file generation unit 104 creates a file by storing the acquired 3DoF image data in the ISOBMFF file for each segment, and generates a segment file of the 3DoF image data. Further, the file generation unit 104 stores various information such as transition identification information, transition execution area information, and transition trigger information included in the metadata in each ISOBMFF file.
  • Each TrackBox in the IOSBMFF file contains information about one viewpoint image. In the following, each TrackBox of the IOSBMFF file may be simply referred to as a track. For example, each track in the IOSBMFF file contains a link to specific viewpoint image data and the like.
  • FIG. 3 is a diagram for explaining the storage of transition identification information.
  • ViewpointTrackGroupBox is a Box used when using Multiple Viewpoint of OMAF.
  • the ViewpointTrackGroupBox is a BOX included in the TrackBox of the ISOBMFF file, and stores the viewpoint information, position information, group information, coordinate rotation information, and the like of the video included in the TrackBox. That is, the ViewpointTrackGroupBox corresponds to one viewpoint image data.
  • the signed viewpoint_lavel in the syntax 112 represents the information of the viewpoint of the video included in the track.
  • the viewpoint information is, for example, viewpoint_id, which is the identification information of the viewpoint, and matches track_group_id.
  • ViewPosStruct () represents the position information of the viewpoint.
  • ViewpointGroupStruct () is information for grouping viewpoints, and has VWPT_group_id and VWPT_group_descrption.
  • a group of viewpoints is, for example, a group of viewpoints in a certain building. The same coordinates are used within the group.
  • ViewpointGlobalCoordinateSysRotationStruct has rotation information in the global coordinate system of the coordinate system referenced by the viewpoint.
  • ViewpointGlobalCoordinateSysRotationStruct depends on the settings at the time of shooting.
  • ViewpointGlobalCoordinateSysRotationStruct can represent the relationship between two viewpoints.
  • the file generation unit 104 extends the ViewpointTrackGroupBox as shown in the syntax 111, and stores the SwitchableContentStruct () representing the transition identification information in the ViewpointTrackGroupBox.
  • the file generation unit 104 newly defines SwitchableContentStruct () indicated by the syntax 112.
  • the file generation unit 104 represents transition identification information for identifying a transitionable viewpoint from a viewpoint image which is a spherical image at a certain viewpoint by SwitchableContentStruct ().
  • transition identification information SwitchableContentStruct () is stored in the ViewpointTrackGroupBox in this way, the transition period-specific information corresponding to the viewpoint image data is stored in the ISOBMFF file that stores the specific viewpoint image data.
  • the file generation unit 104 stores the transition identification information SwitchableContentStruct () in the ViewpointTrackGroupBox, but the present invention is not limited to this, and SiwtchableContentStruct () can also be stored in the TrackGroupTypeBox (). .. Further, the file generation unit 104 stores the transition execution area information and the transition trigger information corresponding to the viewpoint image data in the ISOBMFF file that stores the specific viewpoint image data. As a result, the file generation unit 104 completes the segment file of the 3DoF content.
  • the file generation unit 104 generates an MPD (Media Presentation Description) file based on the metadata acquired from the metadata generation unit 103.
  • the MPD file stores meta information of 3DoF contents such as media type and information of segment files of moving images and audio. After that, the file generation unit 104 outputs the generated segment file and MPD file of the 3FoF content to the communication unit 12.
  • the communication unit 12 acquires a segment file and an MPD file of 3DoF content in which 3DoF image data, metadata, transition identification information, transition execution area information, and transition trigger information are stored from the file generation unit 104. Then, the communication unit 12 transmits the acquired segment file and MPD file of the 3DoF content to the Web server 3 and uploads the segment file.
  • FIG. 4 is a block diagram of the client device.
  • the client device 2 has a reproduction processing unit 20, a control unit 21, and a communication unit 22.
  • the control unit 21 controls the operation of each unit of the reproduction processing unit 20.
  • the control unit 21 comprehensively controls the operation timing of each unit of the reproduction processing unit 20.
  • the reproduction processing unit 20 includes a file acquisition unit 201, a measurement unit 202, a file processing unit 203, a decoding processing unit 204, a display information generation unit 205, and a display unit 206.
  • the communication unit 22 acquires the segment file and MPD file of the 3DoF content from the Web server 3. Then, the communication unit 22 outputs the acquired 3DoF content segment file and MPD file to the file acquisition unit 201.
  • the file acquisition unit 201 acquires the MPD file corresponding to the 3DoF content to be reproduced from the Web server 3 via the communication unit 22.
  • the MPD file includes information on the storage destination of data of 3DoF contents and information on video reproduction such as coding speed and image size. Then, the file acquisition unit 201 outputs the acquired MPD file to the file processing unit 203. After that, the file acquisition unit 201 receives the input of the information of the storage destination of the data of the 3DoF content to be reproduced from the file processing unit 203.
  • the file acquisition unit 201 makes a request to the Web server 3 to acquire the data of the 3DoF content by using the information of the storage destination of the acquired 3DoF content data. Then, the file acquisition unit 201 acquires the segment file of the 3DoF content. After that, the segment files of the file acquisition units 201 and 3DoF contents are output to the file processing unit 203.
  • the measurement unit 202 measures the transmission band of the transmission line between the client device 2 and the WEB server. Then, the measurement unit 202 outputs the measurement result of the transmission band to the file processing unit 203. Further, the measurement unit 202 receives an input of an operator's operation such as movement of a viewpoint. For example, when the transition execution area is displayed in the 3DoF image displayed on the monitor, the operator performs an operation such as clicking the transition execution area. Then, the measurement unit 202 outputs the user's operation to the file processing unit 203.
  • the file processing unit 203 receives the input of the MPD file corresponding to the 3DoF content to be reproduced from the file acquisition unit 201. Then, the file processing unit 203 acquires information indicating the data of the 3DoF content that parses and reproduces the acquired MPD file. The file processing unit 203 also recognizes a plurality of data used for adaptive distribution. For example, in the case of adaptive distribution in which the bit rate is switched, the file processing unit 203 acquires the information of the 3DoF image data corresponding to each bit rate. After that, the file processing unit 203 selects the 3DoF content to be reproduced, and outputs the information of the selected 3DoF content to the file acquisition unit 201.
  • the file processing unit 203 receives the input of the segment file in which the data of the 3DoF content to be reproduced is stored from the file acquisition unit 201.
  • the file processing unit 203 parses the acquired segment file. Then, the file processing unit 203 acquires 3DoF image data, metadata, transition identification information, transition execution area information, and transition trigger information.
  • the file processing unit 203 receives the input of the measurement result of the transmission band from the measurement unit 202. Then, the file processing unit 203 selects the 3DoF image data to be reproduced based on the parsing result and the information indicating the transmission band acquired from the measurement unit 202. Then, the file processing unit 203 outputs the selected 3DoF image data to the decoding processing unit 204. Further, the file processing unit 203 outputs the acquired metadata and the transition execution area information to the display information generation unit 205.
  • the file processing unit 203 receives the input of the operator's operation from the measurement unit 202. Then, the file processing unit 203 determines whether or not the input operation is an operation for the transition execution area that accepts the operation of transitioning the viewpoint by using the transition execution area information. Further, the file processing unit 203 determines from the transition trigger information whether or not the operation of the operator is an operation that becomes a transition trigger that causes a transition of the viewpoint.
  • the file processing unit 203 sets the viewpoint of the transition destination when performing the transition corresponding to the input operation from the acquired transition identification information. get. Then, the file processing unit 203 specifies the 3DoF content according to the acquired viewpoint.
  • the file processing unit 203 If the specified 3DoF content has not been acquired, the file processing unit 203 outputs the information of the specified 3DoF content to the file acquisition unit 201 and requests the acquisition of the specified 3DoF content. After that, when the file processing unit 203 acquires the segment file of the specified 3DoF content, it executes parsing to acquire the 3DoF image data, metadata, and transition identification information of the 3DoF content. Then, the file processing unit 203 outputs the acquired 3DoF image data to the decoding processing unit 204. Further, the file processing unit 203 outputs the metadata to the display information generation unit 205 to instruct the switching of the 3DoF content.
  • the decoding processing unit 204 receives the input of 3DoF image data from the file processing unit 203. Then, the decoding processing unit 204 performs decoding processing on the acquired 3DoF image data data. After that, the decoding processing unit 204 outputs the decrypted 3DoF image data to the display information generation unit 205.
  • the display information generation unit 205 receives the input of the decoded 3DoF image data from the decoding processing unit 204. Further, the display information generation unit 205 receives the input of the metadata and the transition execution area information from the file processing unit 203. Then, the display information generation unit 205 generates a display image from the 3DoF image data by using the information of the viewpoint position, the viewpoint direction, and the time specified in the metadata. Further, the display information generation unit 205 sets the area designated by the transition execution area information of the display image as the transition execution area. After that, the display information generation unit 205 provides the generated display image to the display unit 206 for display.
  • the display information generation unit 205 may give an instruction to switch the 3DoF content from the file processing unit 203 while displaying the display image generated from the 3DoF image data on the display unit 206.
  • the display information generation unit 205 acquires 3DoF image data from the 3DoF content designated by the file processing unit 203. Then, the display information generation unit 205 causes the display unit 206 to display the display image generated from the acquired 3DoF image data, and switches the viewpoint. Also in this case, the display information generation unit 205 also provides a transition execution area in the display image after the transition of the viewpoint.
  • the display unit 206 has a display device such as a monitor.
  • the display unit 206 receives the input of the display image generated by the display information generation unit 205. Then, the display unit 206 causes the display device to display the acquired display image.
  • FIG. 5 is a flowchart of a file generation process by the file generation device.
  • the data acquisition unit 101 acquires the original data of the 3DoF content.
  • the original data includes image data and control information of images viewed from a plurality of viewpoints. Then, the data acquisition unit 101 outputs the control information included in the acquired original data to the metadata generation unit 103.
  • the metadata generation unit 103 uses the control information to generate metadata including transition identification information, transition execution area information, and transition trigger information (step S101).
  • the data acquisition unit 101 outputs the image data included in the acquired original data to the coding unit 102.
  • the coding unit 102 uses the image data to generate a plurality of viewpoint image data which are image data when viewed from a plurality of viewpoints (step S102).
  • the metadata generation unit 103 associates the transition identification information, the transition execution area information, and the transition trigger information with each viewpoint image data generated by the coding unit 102, and indicates a viewpoint that can be transitioned. Image data is generated (step S103).
  • the file generation unit 104 acquires the encoded viewpoint image data from the coding unit 102. Further, the file generation unit 104 acquires metadata including information relating the transition identification information, the transition execution area information, and the transition trigger information to each viewpoint image data from the metadata generation unit 103. Then, the file generation unit 104 stores the 3DoF image data including the plurality of viewpoint image data in the ISOBMFF file for each segment. Further, the file generation unit 104 stores the transition identification information, the transition execution area information, and the transition trigger information corresponding to each viewpoint image data in the ISOBMFF file to generate a segment file of 3DoF contents (step S104).
  • the file generation unit 104 outputs the generated segment file of the 3DoF content to the communication unit 12.
  • the communication unit 12 outputs the segment file of the 3DoF content generated by the file generation unit 104 to the Web server 3 (step S105).
  • FIG. 6 is a flowchart of the metadata creation process.
  • the process shown in the flowchart of FIG. 6 corresponds to an example of the process executed in step S101 in FIG.
  • the metadata generation unit 103 assigns identification information to each of the viewpoints notified by the control information acquired from the data acquisition unit 101. Next, the metadata generation unit 103 identifies the transition identification information indicating the transitionable viewpoint from the transition source viewpoint for each viewpoint from the correspondence of the transitionable viewpoints included in the control information. (Step S111).
  • the metadata generation unit 103 calculates the display position of the transition execution area corresponding to the transition destination viewpoint in the transition source viewpoint image from the viewpoint position information included in the control information (step S112). ..
  • the metadata generation unit 103 uses the calculated display position of the transition execution area to generate transition execution area information representing the transition execution area on each viewpoint image (step S113).
  • the metadata generation unit 103 generates transition trigger information representing an operation that becomes a trigger for executing the transition specified in the control information (step S114). After that, the metadata generation unit 103 also generates control information related to image generation and reproduction such as a codec to be used, and ends the creation of metadata including transition identification information, transition execution area information, and transition trigger information.
  • FIG. 7 is a flowchart of the reproduction process executed by the client device.
  • the file acquisition unit 201 acquires the MPD file corresponding to the 3DoF content to be reproduced from the Web server 3 via the communication unit 22.
  • the file processing unit 203 parses the MPD file and executes the analysis process.
  • the file acquisition unit 201 acquires the segment file of the 3DoF content to be reproduced specified by the file processing unit 203 from the analysis result from the Web server 3 (step S201).
  • the file processing unit 203 parses the segment file of the 3DoF content acquired by the file acquisition unit 201. Next, the file processing unit 203 executes an analysis process of the metadata obtained by parsing (step S202).
  • the file processing unit 203 when the file processing unit 203 receives the input of the operator's operation from the measurement unit 202, the file processing unit 203 also considers the information and determines the content configuration to be reproduced from the metadata analysis processing result (step S203).
  • the file processing unit 203 acquires the segment file of the 3DoF content according to the determined content configuration (step S204).
  • the file processing unit 203 acquires 3DoF image data from the acquired segment file of the 3DoF content and outputs it to the decoding processing unit 204.
  • the decoding processing unit 204 performs decoding processing on the 3DoF image data. After that, the decoding processing unit 204 outputs the decoded 3DoF image data to the display information generation unit 205.
  • the display information generation unit 205 executes a viewing process of generating a display image including a transition execution area using the information included in the metadata and displaying it on the display unit 206 (step S205).
  • FIG. 8 is a flowchart of the viewpoint transition process.
  • the file processing unit 203 parses the segment file of the 3DoF content to acquire the metadata, and acquires the transition identification information, the transition execution area information, and the transition trigger information from the metadata (step S211).
  • the file processing unit 203 acquires the 3DoF image data to be displayed (step S212).
  • the file processing unit 203 outputs the acquired 3DoF image data to the decoding processing unit 204. Further, the file processing unit 203 outputs the acquired metadata to the display information generation unit 205.
  • the decoding processing unit 204 decodes the 3DoF image data and outputs the decoded 3DoF image data to the display information generation unit 205.
  • the display information generation unit 205 generates a display image from the 3DoF image data and the metadata and displays it on the display unit 206 (step S213).
  • the file processing unit 203 receives a notification of the operator's operation from the measurement unit 202 (step S214).
  • the file processing unit 203 confirms that the input operation is an operation that serves as a transition trigger for the transition execution area. Then, the file processing unit 203 specifies the viewpoint of the transition destination according to the operation. Next, the file processing unit 203 acquires a segment file including the viewpoint image data of the specified transition destination viewpoint (step S215).
  • the file processing unit 203 acquires the viewpoint image data of the transition destination, causes the decoding processing unit 204 to perform decoding, and then transmits the data to the display information generation unit 205 to instruct the content switching.
  • the display information generation unit 205 receives an instruction to switch the contents from the file processing unit 203 together with the viewpoint image data of the transition destination. After that, the display information generation unit 205 generates a display image from the acquired viewpoint image data and displays it on the display unit 206 to switch the viewpoint of the display image to the transition destination viewpoint (step S216). ).
  • the file generation device generates and associates information representing a transitionable viewpoint with respect to the viewpoint of each 3DoF image and stores it in the 3DoF content.
  • the client device can identify the viewpoint that can be transitioned from the viewpoint of the displayed 3DoF image and provide it to the operator.
  • the client device receives the specified viewpoint from the 3DoF image viewed from the current viewport. You can switch to the 3DoF image seen from. That is, in the distribution system according to the present embodiment, the operator can recognize the transitionable viewpoints, and by designating the transition destination viewpoint from the transitionable viewpoints, the transition to a desired image can be performed. Can be done.
  • the metadata generation unit 103 extends the VWPT descriptor in the MPD file as shown in FIG. 9 in order to store the transition identification information.
  • FIG. 9 is a diagram showing an extended example of the VWPT descriptor.
  • the metadata generation unit 103 newly defines ViewPointInfo.SwitchableContent and ViewPointInfo.SwitchableContent@content in the bottom two lines of FIG. 9 in the VWPT descriptor.
  • ViewPointInfo.SwitchableContent @ content represents the viewpoint identification information.
  • the file generation unit 104 generates an MPD file of 3DoF content represented by the syntax shown in FIG. 10, and stores ViewpintInfo.SwitchableContent in the VWPT descriptor.
  • FIG. 10 is a diagram showing an example of an MPD file in which ViewpintInfo.SwitchableContent is included in the VWPT descriptor.
  • an AdaptationoSet is provided for each viewpoint, and the ID of the viewpoint that can be transitioned from that viewpoint is represented by the value of SwitchableContent content in the AdapteroSet.
  • the transition identification information can also be stored in the VWPT descriptor. In this way, even if it is stored in the VWPT descriptor, it is possible to provide the identification information of the viewport that can be transitioned to the client device, and it is possible to provide the user with a high-quality viewing experience.
  • the metadata generation unit 103 adds identification information to each viewpoint. Further, the metadata generation unit 103 generates a viewpoint group in which a plurality of viewpoints are put together and adds identification information. For example, the metadata generation unit 103 groups the identification information of the viewpoint to generate a view pong and a group. Then, the metadata generation unit 103 selects a viewpoint group that summarizes the viewpoints that can be transitioned from the viewpoint for each viewpoint. Then, the metadata generation unit 103 generates transition identification information for identifying a transitionable viewpoint group from the viewpoint image data of each viewpoint by using the identification information of the viewpoint and the viewpoint group. After that, the metadata generation unit 103 outputs the transition identification information to the file generation unit 104.
  • the file generation unit 104 receives the input of the transition identification information from the metadata generation unit 103. Then, the file generation unit 104 newly defines SwitchableContentStruct () representing the transition identification information shown in the syntax 131 of FIG. VQPT_group_id in syntax 131 corresponds to the identification information of the viewpoint group.
  • FIG. 11 is a diagram showing a storage example of transition identification information in which the transition destination is a viewpoint group.
  • the metadata generation unit 103 stores SwitchableContentStruct () in the ViewpointTrackGroup of the ISOBMFF file. As a result, the file generation unit 104 associates the viewpoint image data stored in the ISOBMFF file with the transition identification information so that the transitionable viewpoint group can be identified from the viewpoint image data.
  • the viewpoint group is set as the transition destination, but it is also possible to set the information of other videos as the transition destination.
  • the metadata generation unit 103 accesses other video specified by a URL such as a URL (Uniform Resource Locator) representing MPD or a URL representing a position on the Web as information representing other video of the transition destination. Information can be used.
  • the metadata generation unit 103 generates transition identification information with the transition destination as another video and outputs it to the file generation unit 104.
  • the file generation unit 104 receives the input of the transition identification information with the transition destination as another video from the metadata generation unit 103. Then, the file generation unit 104 newly defines SwitchableContentStruct () shown in the syntax 132 of FIG. 11 and stores the transition identification information. In the syntax 32, the MPD_URL corresponds to the identification information of the other video of the transition destination.
  • a transition destination other than the viewpoint is specified so that the client device can identify the transition destination.
  • the transition destination from the image represented by the specific viewpoint image data can be provided to the user, and the user can be provided with a high-quality viewing experience. Can be provided.
  • the file generation device 1 provides a transition execution area as an interactive area for transitioning the viewpoint.
  • the file generation device 1 according to this embodiment is also represented by the block diagram of FIG. In the following description, the description of the processing of each part similar to that of the first embodiment may be omitted.
  • the metadata generation unit 103 calculates the display position of the transition execution area corresponding to the transition destination viewpoint in the transition source viewpoint image from the viewpoint position information and direction information included in the control information.
  • the metadata generation unit 103 obtains, for example, the size of the transition execution area and the display position in the spherical image which is a viewport image, and uses it as the transition execution area information.
  • the metadata generation unit 103 uses an interactive rectangular area on the spherical image as a transition execution area. When the transition execution area is rectangular, the size of the transition execution area is represented by the length and width.
  • the metadata generation unit 103 determines a transition execution area as an area for displaying information on viewpoints that can be transitioned in the viewpoint direction on the spherical image, and generates transition execution area information. Further, the metadata generation unit 103 generates information for associating the transition execution area with the identification information of the viewpoint corresponding to the transition execution area.
  • the metadata generation unit 103 outputs the transition execution area information and the information associating the transition execution area with the viewpoint corresponding to the transition execution area to the file generation unit 104. At this time, the metadata generation unit 103 also outputs the transition identification information to the file generation unit 104.
  • the file generation unit 104 receives input from the metadata generation unit 103 of the transition identification information, the transition execution area information, and the information for associating the transition execution area with the viewpoint corresponding to the transition execution area. Next, the file generation unit 104 generates SphereRegionStruct () indicating a transition execution area which is a rectangular area. Then, the file generation unit 104 newly defines SphereRegionStruct () shown in FIG. 12 and RegionForViewpoint () for storing the transition identification information.
  • FIG. 12 is a diagram showing an example of SphereRegionStruct () and RegionForViewpoint ().
  • SphereRegionStruct () in syntax 211 corresponds to the transition execution area information. Further, in the syntax 211, transition identification information indicating a viewpoint that can be transitioned by viewpoint_id is stored. That is, both the transition identification information and the transition execution area information are stored in RegionForViewpoint ().
  • the file generation unit 104 extends ViewpointTrackGroup as shown in syntax 212 and stores the newly defined RegionForViewpoint () in ViewpointTrackGroup. That is, the file generation unit 104 stores the transition execution area information in the ViewpointTrackGroupBox in the TraceckBox of the ISOBMFF file.
  • the client device 2 can use the transition execution area information stored in the ViewpointTrackGroupBox to provide the user who views the 3DoF video with information about the transition destination video as interactive visual information.
  • an interactive area for transitioning the viewpoint is arranged as a transition execution area on the spherical image which is a 3DoF image.
  • the client device can provide the user with an interactive transition execution area by arranging and displaying the transition execution area information on the spherical image, and improves the quality of the viewing experience of the user. be able to.
  • the file generation device 1 provides the transition execution area to the client device 2 by using the OMAF technique.
  • the overlay of OMAF will be described.
  • overlay is defined as a technology for superimposing other images on the spherical image.
  • the image superimposed by the overlay may be either a moving image or a still image.
  • OverlayStruct () is specified in ISOBMFF as a storage destination of information related to the superimposed video.
  • OverlayStruct () is stored in VisualDample () in the ISOBMFF file if it is a moving image, and stored in ItemPropertyContainerBox () in the ISOBMFF file if it is a still image.
  • FIG. 13 is a diagram showing an overlay control structure.
  • OverlayStruct () Overlay_control_struct [i] containing the control structure represented by Table 221 in FIG. 13 is defined.
  • Overlay_control_struct [i] provides property information representing the structure of various overlays depending on the value of i.
  • AssociatedSphereRegion () is a property indicating an area related to the overlay, and by clicking this area, it is possible to switch between showing and hiding the associated overlay.
  • the file generation device 1 provides the client device 2 with a transition execution area by using the OMAF overlay technique described above. The processing of each part in this modification will be described below.
  • the metadata generation unit 103 calculates the transition execution area. Then, the metadata generation unit 103 generates transition execution information so as to correspond to the overlay of the OMAF. After that, the metadata generation unit 103 outputs the transition execution information to the file generation unit 104.
  • the file generation unit 104 receives the input of the transition execution area information from the metadata generation unit 103. Then, the file generation unit 104 uses SphereRelativeOmniOverlay () represented by the syntax 222 in FIG. 14 to overlay the image display area on the spherical image displaying the transition execution area.
  • FIG. 14 is a diagram showing an example of SphereRelativeOmniOverlay () and AssociatiedSpereRegion ().
  • SphereRelativeOmniOverlay indicates the image display area of the overlay on the spherical image.
  • the proj_picture_width and proj_picture_hight in the syntax 222 represent an image to be attached to the image display area of the overlay. Further, proj_reg_width, roj_reg_hight, proj_reg_top and proj_reg_reft in the syntax 222 represent the image display area of the overlay to which the image is pasted.
  • the file generation unit 104 uses AssociatedSphereRegion () in the case of Overlay_control_struct [10] in the overlay control structure to store the transition execution area.
  • AssociatiedSpereRegion () indicates the area associated with the overlay.
  • the area indicated by AssociatiedSpereRegion () is an area in which the overlay associated with the area can be displayed or hidden when an operation such as clicking is performed.
  • the file generation unit 104 generates the AssociatiedSpereRegion () represented by the syntax 223 in FIG.
  • the file generation unit 104 extends AssociatiedSpereRegion () as shown in syntax 223 in order to associate the transition execution area with the transitionable viewpoint, and the viewpoint_id which is the identification information of the associated viewpoint. To store.
  • the transition execution area is displayed on the spherical image using the overlay technology of OMAF.
  • the user can confirm the transition execution area displayed on the spherical image, and can easily move the viewpoint.
  • the file generation device 1 adds a new definition to the overlay structure and stores the transition execution area information using the structure. The details of the method of storing the transition execution area information in this modification will be described below.
  • the file generator 104 stores a new transition execution area information in overlay_control_struct (), which represents the control structure of the overlay, as shown in Table 231 of FIG. Define the control structure.
  • FIG. 15 is a diagram showing an example of overlay_control_struct () to which a new control structure for storing transition execution area information is added.
  • FIG. 16 is a diagram showing an example of Associatedviewpointregion (). Also in this case, the file generation unit 104 stores the information for associating the transition execution area with the viewpoint in the Associatedviewpointregion ().
  • a new control structure is defined in the overlay and the transition execution area is displayed on the spherical image. Even in such a method, the user can confirm the transition execution area displayed on the spherical image, and the viewpoint can be easily changed.
  • the file generation unit 104 uses AssociatedSphereRegion () in the case of Overlay_control_struct [10] in the overlay control structure to store the transition execution area information. Further, as shown in Table 241 of FIG. 17, the file generation unit 104 defines a new control structure for storing the transition identification information in overlay_control_struct ().
  • FIG. 18 is a diagram showing an example of Associatedviewpointregion () and AssociatedViewpoint ().
  • the file generation unit 104 generates the Associatedviewpointregion () represented by the syntax 242 shown in FIG. Further, the file generation unit 104 generates an Associatedviewpoint () represented by the syntax 243. Then, the file generation unit 104 associates the transition execution area with the transitionable viewpoint by associating the AssociatedSphereRegion () and the Associatedviewpoint ().
  • a new control structure is defined in the overlay, the information of the viewpoint that can be transitioned is stored, and it is associated with the transition execution area. Even in such a method, the user can confirm the transition execution area displayed on the spherical image, and can easily move the viewpoint.
  • the metadata generation unit 103 determines the transition execution area so that the video display area and the transition execution area in the overlay of the OMAF are the same. Then, the metadata generation unit 103 generates a flag indicating that the video display area and the transition execution area match. Then, the metadata generation unit 103 outputs the transition execution area information including the flag indicating that the video display area and the transition execution area match to the file generation unit 104.
  • the file generation unit 104 receives input of transition execution area information including a flag indicating that the video display area and the transition execution area match from the metadata generation unit 103. Then, the file generation unit 104 specifies the video display area in WhereRalativeOverlay (). Next, the file generation unit 104 generates AssociatedSphereRegion () that stores the transition execution area information. Further, as shown in the syntax 251 of FIG. 19, the file generation unit 104 extends AssociatedSphereRegion () and sets a flag indicating that the transition execution area is the same as the video display area.
  • FIG. 19 is a diagram showing an example of AssociatedSphereRegion () when the video display area is diverted to the transition execution area. The file generation unit 104 uses the flag set in AssociatedSphereRegion () to indicate that the transition execution area matches the video display area, so that the information in the video display area is executed without storing the information in the transition execution area. Divert to the area.
  • the file generation unit 104 can also use AssociatedViewpointRegion () to indicate the transition execution area. Even in that case, the file generation unit 104 can divert the information of the video display area to the transition execution area by setting a flag in AssociatedViewpointRegion () indicating that the transition execution area is the same as the video display area. ..
  • the information in the video display area is diverted to the transition execution area by using the flag newly provided in AssociatedSphereRegion (). This makes it possible to reduce data.
  • the transition execution area information is always displayed on the spherical image which is a 3DoF image. Therefore, unnecessary information is presented to the user who is not interested in the transition of the viewpoint, and the quality of the viewing experience of the user may be deteriorated. Therefore, the file generation device 1 according to this modification displays the transition execution area information on the spherical image when the user is watching the same spherical image including the transition execution area for a certain period of time. The details of the method of storing the transition execution area information in this modification will be described below.
  • the metadata generation unit 103 calculates the transition execution area information.
  • the metadata generation unit 103 generates time information that controls the display of the transition execution region on the spherical image. For example, the metadata generation unit 103 generates time information representing the time until the transition execution area information associated with the displayed spherical image is displayed. Then, the metadata generation unit 103 outputs the time information together with the transition execution area information to the file generation unit 104.
  • the file generation unit 104 receives input of transition execution area information and time information from the metadata generation unit 103. Then, the file generation unit 104 newly defines SphereRegionStruct () and RegionForViewpoint () for storing the transition identification information. Further, the file generation unit 104 stores the time information in RegionForViewpoint ().
  • the file generation unit 104 stores the time until the transition execution area information associated with the displayed spherical image is displayed in RegionForViewpoint ().
  • FIG. 20 is a diagram showing an example of RegionForViewpoint () when the transition execution area information is displayed after a certain period of time.
  • the time_to_ovelay in the syntax 261 is the time until the transition execution area information is displayed.
  • the file processing unit 203 of the client device 2 acquires the time until the transition execution area information included in RegionForViewpoint () is displayed. Then, when the time specified in the state where the 3DoF image is displayed elapses after the file processing unit 203 causes the display information generation unit 205 to display the 3DoF image, the display information generation unit 205 displays the execution area. Instruct. As a result, the client device 2 displays the transition execution area after a certain period of time has elapsed from the display of the 3DoF image, and the viewpoint can be changed.
  • the transition execution area information on the spherical image is not displayed at first, but is displayed after a certain period of time.
  • the transition execution area information is displayed when the user is interested in the transition execution area and there is a high possibility that the viewpoint transitions. Therefore, the display of unnecessary information can be reduced, and the quality of the viewing experience of the user can be improved.
  • the file generation device 1 provides the client device 2 with information for switching an operation (user interaction) with respect to an area when transitioning a viewpoint.
  • the file generation device 1 according to this embodiment is also represented by the block diagram of FIG. In the following description, the description of the processing of each part similar to that of the first embodiment may be omitted.
  • the metadata generation unit 103 generates transition trigger information indicating user interaction according to the user interaction information specified by the operator. When there are a plurality of specified user interactions, the metadata generation unit 103 generates transition trigger information indicating that switching is possible between each user interaction. For example, when click and zoom are specified as user interaction, the metadata generation unit 103 generates transition trigger information including that click and zoom can be switched. Further, the metadata generation unit 103 may set a threshold value of the zoom at which the transition occurs and add it to the transition trigger information, for example, when the zoom is used as the user interaction. After that, the metadata generation unit 103 outputs the generated transition trigger information to the file generation unit 104.
  • the file generation unit 104 receives the input of the transition trigger information from the metadata generation unit 103. Next, the file generation unit 104 newly defines SphereRegionStruct () and RegionForViewpoint () that stores the transition identification information. Further, the file generation unit 104 stores information for switching the user interaction with respect to the region in RegionForViewpoint (), as shown in the syntax 311 of FIG.
  • FIG. 21 is a diagram showing an example of RegionForViewpoint () when switching user interaction.
  • Action_control_flag in syntax 311 is a flag for switching user interaction with the transition execution area.
  • the file generation unit 104 defines action_control_flag as follows. When the value of action_control_flag is 0, clicking the transition execution area switches to the spherical image viewed from the viewpoint specified by viewpoint_id. When the value of action_control_flag is 1, zooming to the transition execution area switches to the spherical image viewed from the viewpoint specified by viewpoint_id.
  • the file generation unit 104 sets a zoom threshold value at which a transition occurs as shown in syntax 311 when the user interaction is zoom.
  • Zoom_threshold in syntax 311 is a threshold value for executing a transition when the user interaction that triggers the transition is zoom.
  • the file generation unit 104 defines Zoom_threshold as follows. When Zoom_threshold> 1 is defined, the transition is executed when the zoom ratio of zooming into the transitionable area is larger than 1. Further, when Zoom_threshold ⁇ 1 is defined, the transition is executed when the zoom ratio of zooming out to the transitionable area is larger than 1.
  • the setting of the user interaction switching information and the setting of the threshold value for generating the transition can also be applied to the AssociatedSphereRegion () such as the modification (2) of the second embodiment. Further, in this embodiment, the case where the click and the zoom are used as the user interaction has been described, but the same setting can be made by other operations.
  • FIG. 22 is a diagram showing the format of the Matroska Media Container.
  • the file generation unit 104 stores the transition identification information, the transition execution area information, and the transition trigger information in the element newly defined in the Track Entry element.
  • FIG. 23 is a hardware configuration diagram of the computer.
  • the file generation device 1 and the client device 2 can be realized by the computer 90 shown in FIG.
  • the processor 91, the memory 92, the network interface 93, the non-volatile storage 94, the input / output interface 95, and the display interface 86 are connected to each other via a bus.
  • External devices such as an input device, an output device, a storage device, and a drive are connected to the input / output interface 95.
  • the input device is, for example, a keyboard, a mouse, a microphone, a touch panel, an input terminal, or the like.
  • the output device is, for example, a speaker, an output terminal, or the like.
  • the storage device is, for example, a hard disk, a RAM (Random Access Memory) disk, or the like.
  • the drive drives removable media such as magnetic disks, optical disks, magneto-optical disks, or semiconductor memories.
  • a display 98 which is a display device, is connected to the display interface 96.
  • the network interface 93 is connected to an external network.
  • the file generation device 1 and the client device 2 are connected to each other via the network interface 93. Further, the file generation device 1 and the client device 2 are connected to the Web server 3 via the network interface 93.
  • the non-volatile storage 94 is a built-in auxiliary storage device such as a hard disk or SSD (Solid State Drive).
  • the processor 91 for example, loads the program stored in the non-volatile storage 94 into the memory 92 via the bus and executes the series of processing described above. Is done.
  • the memory 92 also appropriately stores data and the like necessary for the processor 91 to execute various processes.
  • the program executed by the processor 91 can be recorded and applied to removable media such as package media, for example.
  • the program can be installed in the non-volatile storage 94 via the input / output interface 95 by mounting the removable media in the drive which is the external device 97.
  • This program can also be provided via wired or wireless transmission media such as local area networks, the Internet, and digital satellite broadcasting. In that case, the program can be received at the network interface 93 and installed in the non-volatile storage 94.
  • this program can be installed in advance in the non-volatile storage 94.
  • the present technology can also have the following configuration.
  • a metadata generation unit that generates transition identification information for identifying the second viewpoint, which is the viewpoint position in the second video that can be transitioned from the first video with the first viewpoint as the viewpoint position.
  • An information processing device including a file generation unit that generates a file containing the data of the first video and the transition identification information.
  • the metadata generation unit generates the transition identification information including the identification information for identifying the second viewpoint.
  • the metadata generation unit may be added to any one of the appendices (1) to (3) for generating the transition identification information including access information to another video specified by a URL (Uniform Resource Locator).
  • the file generation unit stores the identification information in a VWPT descriptor of an MPD (Media Presentation Description) file.
  • the metadata generation unit generates transition execution area information indicating a transition execution area on the first video that accepts an operation for transitioning from the first viewpoint to the second viewpoint.
  • the information processing device according to Appendix (1), wherein the file generation unit includes the transition execution area information in the file.
  • the metadata generation unit generates the transition execution area information including the size of the transition execution area and the display position in the first video.
  • the information processing device according to the appendix (7) or (8), wherein the file generation unit stores the transition execution area information in the ViewpointTrackGroupBox in the TrackBox of the ISOBMFF file.
  • the information processing device (9) The information processing device according to the appendix (7) or (8), wherein the metadata generation unit indicates the transition execution area information by overlaying in OMAF. (11) The information processing device according to the appendix (10), wherein the metadata generation unit generates the transition execution area information including a flag indicating that the transition execution area is the same as the video display area in the overlay. (12) The information processing device according to any one of the appendices (7) to (11), wherein the metadata generation unit includes time information for controlling the display of the transition execution region on the first video. .. (13) The metadata generation unit generates transition trigger information indicating an operation for generating a transition from the first viewpoint to the second viewpoint.
  • the information processing apparatus includes the transition execution area information in the file.
  • the file generation unit includes the transition execution area information in the file.
  • the metadata generation unit generates the transition trigger information indicating that the transition is generated by clicking.
  • the metadata generation unit generates the transition trigger information indicating that the transition is generated by zooming.
  • the metadata generation unit generates the transition trigger information including the zoom threshold value that generates the transition.
  • a file acquisition unit that acquires a file containing transition identification information for identifying the second viewpoint, which is the viewpoint position in the second video that can be transitioned from the first video with the first viewpoint as the viewpoint position.
  • a file processing unit that acquires the transition identification information from the file acquired by the file acquisition unit and identifies the second viewpoint that can be transitioned from the first viewpoint based on the acquired transition identification information.
  • a playback processing device including a playback unit that reproduces the first video and outputs information of the second viewpoint specified by the file processing unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Computer Graphics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

利用者に高品質な視聴体験を提供する情報処理装置、情報処理方法、再生処理装置及び再生処理方法を提供する。メタデータ生成部は、第1ビューポイントを視点位置とする第1映像から遷移可能な第2映像における視点位置である第2ビューポイントを識別するための遷移識別情報を生成する。ファイル生成部は、前記第1映像のデータ及び前記遷移識別情報を含むファイルを生成する。

Description

情報処理装置、情報処理方法、再生処理装置及び再生処理方法
 本発明は、情報処理装置、情報処理方法、再生処理装置及び再生処理方法に関する。
 HTTP(Hypertext Transfer Protocol)によるアダプティブなコンテンツ配信技術の標準化規格として、MPEG-DASH(Moving Picture Experts Group ‐ Dynamic Adaptive Streaming over HTTP)が存在する。また、MPEG-DASHのファイルフォーマットとして、動画圧縮の国際標準技術「MPEG-4」のファイルコンテナ仕様であるISOBMFF(International Organization for Standardization Base Media File Format)が提供されている。
 ところで、いわゆる全天球映像のように、水平方向の周囲360度及び垂直方向の周期180度の画像を立体構造に投影した画像である立体構造画像を、平面画像としてマッピングした全天球画像を再生する映像がある。全天球映像は3DoF(Degrees of Freedom)映像とも呼ばれ、全天球画像は投影平面画像や3DoF画像とも呼ばれる。MPEG-I OMAF(Omnidirectional Media Format)では、全天球画像を形成する立体構造画像の配信へのMPEG-DASHの利用が検討されている。
 さらに、MPEG-I Phase 1b requirementにおいては、Multiple Viewpointと呼ばれる複数視点からの全天球映像の配信技術が提案されている。このMultiple Viewpointを用いることで、ある視点の全天球映像から、異なる視点の全天球映像に映像を切り替えてコンテンツをユーザに提供することが可能となる。ビューポイント(Viewpoint)とは、全天球映像における視点位置である。
"ISO/IEC" 14496-12:2015 Information technology. Coding of audio-visual objects. Part 12:ISO base media file format, 2015-12
 しかしながら、クライアント装置は、現在見ている全天球映像から、他のどの全天球映像に遷移可能かといった製作者の意図を示す情報を有さない。クライアント装置が遷移可能な全天球映像を示す情報などを有さない配信システムでは、遷移可能な全天球映像への遷移を含む視聴体験を提供することは困難であり、視聴者の視聴体験の品質を損なうおそれがある。
 また、映像遷移を実現する機能は、クライアント装置に対して実装された機能の種類に依存するため、コンテンツの再生する際に製作者の意図が適切に反映されるとは限らない。そのため、利用者の視聴体験の品質を損ねるおそれがある。
 そこで、本開示では、利用者に高品質な視聴体験を提供する情報処理装置、情報処理方法、再生処理装置及び再生処理方法を提供する。
 本開示によれば、メタデータ生成部は、第1ビューポイントを視点位置とする第1映像から遷移可能な第2映像における視点位置である第2ビューポイントを識別するための遷移識別情報を生成する。ファイル生成部は、前記第1映像のデータ及び前記遷移識別情報を含むファイルを生成する。
配信システムの一例のシステム構成図である。 ファイル生成装置のブロック図である。 遷移識別情報の格納を説明するための図である。 クライアント装置のブロック図である。 ファイル生成装置によるファイル生成処理のフローチャートである。 メタデータの作成処理のフローチャートである。 クライアント装置により実行される再生処理のフローチャートである。 ビューポイントの遷移処理のフローチャートである。 VWPT descriptorの拡張例を表す図である。 VWPT descriptorにViewpintInfo.SwitchableContentを含ませたMPDファイルの一例を表す図である。 遷移先をビューポイントグループとする遷移識別情報の格納例を示す図である。 SphereRegionStruct()及びRegionForViewpoint()の一例を表す図である。 オーバーレイのコントロール構造を表す図である。 SphereRelativeOmniOverlay()及びAssociatiedSpereRegion()の一例を表す図である。 遷移実行領域情報を格納するための新たなに新たなコントロール構造を加えたoverlay_control_struct()の一例を表す図である。 Associatedviewpointregion()の一例を表す図である。 遷移識別情報を格納するための新たなに新たなコントロール構造を加えたoverlay_control_struct()の一例を表す図である。 Associatedviewpointregion()及びAssociatedViewpoint()の一例を表す図である。 映像表示領域を遷移実行領域に流用する場合のAssociatedSphereRegion()の一例を表す図である。 一定時間後に遷移実行領域情報を表示する場合のRegionForViewpoint()の一例を表す図である。 ユーザインタラクションを切り替える場合のRegionForViewpoint()の一例を表す図である。 Matroska Media Containerのフォーマットを表す図である。 コンピュータのハードウェア構成図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付すことにより重複する説明を省略する。また、本技術で開示される範囲は、実施形態の内容に限定されるものではなく、出願当時において公知となっている以下の非特許文献におき記載されている内容も含まれる。
 非特許文献1:(上述)
 非特許文献2:ISO/IEC 23090-2:2019 Information technology. Coded representation of immersive media. Part 2: Omnidirectional media format, 2019-01
 非特許文献3:N18393, WD5 of ISO/IEC 23090-2 OMAF 2nd edition, 2019-05-16
 非特許文献4:m47385, [OMAF] Multiviewpoint switching transitions, 2019-03
 非特許文献5:” Matroska Media Container”, [令和2年3月12日検索], インターネット <URL : https://www.matroscka.org/>
 上述の非特許文献に記載されている内容も、参照により本実施例に組み込まれる。つまり、上述の非特許文献に記載されている内容もサポート要件について判断する際の根拠となる。例えば、非特許文献1~5に記載されているFile Structureが発明の詳細な説明において直接的に定義されていない場合でも、本開示の範囲内であり、請求の範囲のサポート要件を満たすものとする。また、例えば、パース(Parsing)、シンタックス(Syntax)、セマンティクス(Semantics)などの技術用語についても同様に、発明の詳細な説明において直接的に定義されていない場合でも、本開示の範囲内であり、請求の範囲のサポート要件を満たすものとする。
 また、以下に示す項目順序に従って本開示を説明する。
  1.第1の実施形態
   1.1 第1の実施形態の変形例(1)
   1.2 第1の実施形態の変形例(2)
  2.第2の実施形態
   2.1 第2の実施形態の変形例(1)
   2.2 第2の実施形態の変形例(2)
   2.3 第2の実施形態の変形例(3)
   2.3 第2の実施形態の変形例(4)
  3.第3の実施形態
  4.第4の実施形態
[1.第1の実施形態]
(第1の実施形態に係る配信システムの構成)
 図1は、配信システムの一例のシステム構成図である。配信システム100は、情報処理装置であるファイル生成装置1、再生処理装置であるクライアント装置2及びWebサーバ3を含む。ファイル生成装置1、クライアント装置2及びWebサーバ3は、ネットワーク4に接続される。そして、ファイル生成装置1、クライアント装置2及びWebサーバ3は、ネットワーク4を介して相互に通信可能である。ここで、図1においては、各装置を1台ずつ示しているが、配信システム100は、ファイル生成装置1及びクライアント装置2をそれぞれ複数台含んでもよい。
 ファイル生成装置1は、3DoF映像を提供するデータである3DoFコンテンツを生成する。ファイル生成装置1は、生成した3DoFコンテンツをWebサーバ3にアップロードする。ここで、本実施形態では、Webサーバ3が3DoFコンテンツをクライアント装置2に提供する構成について説明するが、配信システム100は他の構成を採ることも可能である。例えば、ファイル生成装置1が、Webサーバ3の機能を含み、生成した3DoFコンテンツを自装置内に格納し、クライアント装置2に提供する構成であってもよい。
 Webサーバ3は、ファイル生成装置1からアップロードされた3DoFコンテンツを保持する。そして、Webサーバ3は、クライアント装置2からの要求にしたがい指定された3DoFコンテンツを提供する。
 クライアント装置2は、3DoFコンテンツの送信要求をWebサーバ3へ送信する。そして、クライアント装置2は、送信要求で指定した3DoFコンテンツをWebサーバ3から取得する。そして、クライアント装置2は、3DoFコンテンツをデコードして映像を生成して、その映像をモニタなどの表示装置に表示させる。
(第1の実施形態に係るファイル生成装置の構成)
 次に、ファイル生成装置1の詳細について説明する。図2は、ファイル生成装置のブロック図である。情報処理装置であるファイル生成装置1は、図2に示すように、ファイル生成処理部10、制御部11及び通信部12を有する。制御部11は、ファイル生成処理部10の制御に関する処理を実行する。例えば、制御部11は、ファイル生成処理部10の各部の動作タイミングなどの統括制御を行う。ファイル生成処理部10は、データ取得部101、符号化部102、メタデータ生成部103及びファイル生成部104を有する。
 データ取得部101は、3DoF映像を表示させる3DoFコンテンツの元データの入力を受け付ける。3DoFコンテンツの元データには、3DoF画像を生成するための画像データ及びメタデータを生成するための制御情報が含まれる。制御情報は、例えば、各画像データの時間情報、各画像データの視点位置情報及び各画像データから遷移可能な画像データの情報が含まれる。また、制御情報には、各画像データに対応するビューポイントを示す情報、各ビューポイントの位置情報及び遷移可能なビューポイントとの対応を示す情報などが含まれる。データ取得部101は、取得した3DoFコンテンツの元データに含まれる画像データを符号化部102へ出力する。また、データ取得部101は、取得した3DoFコンテンツの元データに含まれる制御情報をメタデータ生成部103へ出力する。
 符号化部102は、画像データの入力をデータ取得部101から受ける。そして、符号化部102は、画像データに符号化処理を施して3DoF画像データを生成する。そして、符号化部102は、生成した3DoF画像データをファイル生成部104へ出力する。
 以下では、視点位置をビューポイントと呼ぶ場合がある。さらに、3DoF画像データが様々な視点位置から見た場合の画像であることを強調する場合、「ビューポイント画像データ」と呼び、そのビューポイント画像データを再生した場合に表示される全天球画像を「ビューポイント画像」と呼ぶ場合がある。
 メタデータ生成部103は、制御情報の入力をデータ取得部101から受ける。次に、メタデータ生成部103は、制御情報をもとにメタデータを生成する。メタデータには、どのようなコーデックで圧縮するかなどの画像生成及び再生に関する制御情報などが含まれる。さらに、メタデータ生成部103は、メタデータとして以下の情報を生成する。
 メタデータ生成部103は、取得した制御情報から、各ビューポイントから遷移可能なビューポイントを識別するための遷移識別情報を生成する。具体的には、メタデータ生成部103は、各ビューポイントに対して識別情報であるviewpoint_idを割り当てる。さらに、メタデータ生成部103は、遷移元のビューポイントの識別情報に遷移可能なビューポイントの識別情報を対応付ける。この遷移識別情報を用いることで、クライアント装置2は、特定のビューポイントから遷移可能なビューポイントを識別可能となり、遷移可能なビューポイントへの遷移を実現できる。そして、メタデータ生成部103は、各ビューポイントでのビューポイント画像データに、そのビューポイントを遷移元とする遷移識別情報を対応付ける。
 また、メタデータ生成部103は、制御情報に含まれるビューポイントの位置情報から、遷移元のビューポイント画像における遷移先のビューポイントに対応する遷移実行領域の表示位置を算出する。次に、メタデータ生成部103は、算出した遷移実行領域の表示位置を用いて、各ビューポイント画像上での遷移実行領域を表す遷移実行領域情報を生成する。
 次に、メタデータ生成部103は、制御情報で指定された遷移を実行するトリガとなる操作を表す遷移トリガ情報を生成する。その後、メタデータ生成部103は、各ビューポイント画像データに対応する遷移実行領域情報及び遷移トリガ情報を対応付ける。このように、メタデータ生成部103は、遷移識別情報及び遷移実行領域情報を対応するビューポイント画像データに対応付けることにより、遷移可能なビューポイントを示す3DoF画像データを生成する。
 その後、メタデータ生成部103は、遷移識別情報、遷移実行領域情報及び遷移トリガ情報を含むメタデータをファイル生成部104へ出力する。
 ファイル生成部104は、3DoF画像データの入力を符号化部102から受ける。また、ファイル生成部104は、遷移識別情報、遷移実行領域情報及び遷移トリガ情報を含むメタデータの入力をメタデータ生成部103から受ける。そして、ファイル生成部104は、取得した3DoF画像データをセグメント毎にISOBMFFファイルに格納することでファイル化し、3DoF画像データのセグメントファイルを生成する。また、ファイル生成部104は、メタデータに含まれる遷移識別情報、遷移実行領域情報及び遷移トリガ情報などの各種情報を各ISOBMFFファイルに格納する。IOSBMFFファイルの各TrackBoxには、1つのビューポイント画像に関する情報が含まれる。以下では、IOSBMFFファイルの各TrackBoxを、単にtrackと呼ぶ場合がある。例えば、IOSBMFFファイルの各trackには、特定のビューポイント画像データへのリンクなどが含まれる。
 ここで、ファイル生成部104による遷移識別情報のISOBMFFファイルへの格納について説明する。ファイル生成部104は、遷移識別情報を格納するために、図3のシンタックス111で示されるViewpointTrackGroupBoxを生成する。図3は、遷移識別情報の格納を説明するための図である。
 ViewpointTrackGroupBoxは、OMAFのMultiple Viewpointを用いる場合に使用されるBoxである。ViewpointTrackGroupBoxは、ISOBMFFファイルのTrackBoxに含まれるBOXであり、そのTrackBoxに含まれる映像のビューポイントの情報、位置情報、グループ情報、座標回転情報などが格納される。すなわち、ViewpointTrackGroupBoxは、1つのビューポイント画像データに対応する。
 シンタックス112におけるsigned viewpoint_lavelが、trackに含まれる映像のビューポイントの情報を表す。ビューポイントの情報は、例えば、ビューポイントの識別情報であるviewpoint_idであり、track_group_idと一致する。また、ViewPosStruct()は、ビューポイントの位置情報を表す。
 ViewpointGroupStruct()は、ビューポイントをグループ化するための情報であり、VWPT_group_id及びVWPT_group_descrptionを有する。ビューポイントのグループとは、例えば、ある建物内におけるビューポイントをまとめたグループなどである。グループ内では同じ座標が用いられる。
 ViewpointGlobalCoordinateSysRotationStruct()は、ビューポイントが参照する座標系のグローバル座標系における回転情報を有する。ViewpointGlobalCoordinateSysRotationStruct()は、撮影時のセッティングに依存する。ViewpointGlobalCoordinateSysRotationStruct()により、2つのビューポイントの関係を表すことができる。
 さらに、本実施形態に係るファイル生成部104は、シンタックス111に示すようにViewpointTrackGroupBoxを拡張して、遷移識別情報を表すSwitchableContentStruct()をViewpointTrackGroupBoxに格納する。
 ファイル生成部104は、シンタックス112で示すSwitchableContentStruct()を新たに定義する。ファイル生成部104は、SwitchableContentStruct()により、ある視点における全天球映像であるビューポイント画像から遷移可能なビューポイントを識別するための遷移識別情報を表す。このように、遷移識別情報であるSwitchableContentStruct()をViewpointTrackGroupBoxに格納することで、特定のビューポイント画像データを格納するISOBMFFファイルにそのビューポイント画像データに対応する遷移期別情報を格納する。
 ここで、本実施形態では、ファイル生成部104は、遷移識別情報であるSwitchableContentStruct()をViewpointTrackGroupBoxに格納したが、これに限らず、SiwtchableContentStruct()をTrackGroupTypeBox()内に格納することも可能である。さらに、ファイル生成部104は、特定のビューポイント画像データを格納するISOBMFFファイルにそのビューポイント画像データに対応する遷移実行領域情報及び遷移トリガ情報を格納する。これにより、ファイル生成部104は、3DoFコンテンツのセグメントファイルを完成させる。
 また、ファイル生成部104は、メタデータ生成部103から取得したメタデータを基に、MPD(Media Presentation Description)ファイルを生成する。MPDファイルには、メディア種別、動画や音声のセグメントファイルの情報などの3DoFコンテンツのメタ情報が格納される。その後、ファイル生成部104は、生成した3FoFコンテンツのセグメントファイル及びMPDファイルを通信部12へ出力する。
 通信部12は、3DoF画像データ、メタデータ、遷移識別情報、遷移実行領域情報及び遷移トリガ情報が格納された3DoFコンテンツのセグメントファイル及びMPDファイルをファイル生成部104から取得する。そして、通信部12は、取得した3DoFコンテンツのセグメントファイル及びMPDファイルをWebサーバ3に送信してアップロードする。
(第1の実施形態に係るクライアント装置の構成)
 図4は、クライアント装置のブロック図である。図4に示すように、クライアント装置2は、再生処理部20、制御部21及び通信部22を有する。制御部21は、再生処理部20の各部の動作を制御する。例えば、制御部21は、再生処理部20の各部の動作のタイミングを統括制御する。再生処理部20は、ファイル取得部201、計測部202、ファイル処理部203、復号処理部204、表示情報生成部205及び表示部206を有する。
 通信部22は、3DoFコンテンツのセグメントファイル及びMPDファイルをWebサーバ3から取得する。そして、通信部22は、取得した3DoFコンテンツのセグメントファイル及びMPDファイルをファイル取得部201へ出力する。
 ファイル取得部201は、再生する3DoFコンテンツに対応するMPDファイルをWebサーバ3から通信部22を介して取得する。MPDファイルには、3DoFコンテンツのデータの格納先の情報や、符号化速度や画像サイズなどの映像再生に関する情報が含まれる。そして、ファイル取得部201は、取得したMPDファイルをファイル処理部203へ出力する。その後、ファイル取得部201は、再生する3DoFコンテンツのデータの格納先の情報の入力をファイル処理部203から受ける。
 ファイル取得部201は、取得した3DoFコンテンツのデータの格納先の情報を用いて3DoFコンテンツのデータの取得要求をWebサーバ3に行う。そして、ファイル取得部201は、3DoFコンテンツのセグメントファイルを取得する。その後、ファイル取得部201、3DoFコンテンツのセグメントファイルをファイル処理部203へ出力する。
 計測部202は、クライアント装置2とWEBサーバとの間の伝送路の伝送帯域を計測する。そして、計測部202は、伝送帯域の計測結果をファイル処理部203へ出力する。また、計測部202は、ビューポイントの移動などの操作者の操作の入力を受ける。例えば、モニタに表示されている3DoF画像に遷移実行領域が表示されている場合、操作者は、遷移実行領域をクリックするなどの操作を行う。そして、計測部202は、利用者の操作をファイル処理部203へ出力する。
 ファイル処理部203は、再生する3DoFコンテンツに対応するMPDファイルの入力をファイル取得部201から受ける。そして、ファイル処理部203は、取得したMPDファイルをパースして再生する3DoFコンテンツのデータを示す情報を取得する。また、ファイル処理部203は、適応配信に用いる複数のデータの認識も行う。例えば、ビットレートを切替える適応配信であれば、ファイル処理部203は、各ビットレートに対応する3DoF画像データの情報を取得する。その後、ファイル処理部203は、再生する3DoFコンテンツを選択して、選択した3DoFコンテンツの情報をファイル取得部201へ出力する。
 ファイル処理部203は、再生する3DoFコンテンツのデータが格納されたセグメントファイルの入力をファイル取得部201から受ける。ファイル処理部203は、取得したセグメントファイルをパースする。そして、ファイル処理部203は、3DoF画像データ、メタデータ、遷移識別情報、遷移実行領域情報及び遷移トリガ情報を取得する。
 また、ファイル処理部203は、伝送帯域の計測結果の入力を計測部202から受ける。そして、ファイル処理部203は、パース結果及び計測部202から取得した伝送帯域を示す情報等に基づいて、再生する3DoF画像データを選択する。そして、ファイル処理部203は、選択した3DoF画像データを復号処理部204へ出力する。また、ファイル処理部203は、取得したメタデータ及び遷移実行領域情報を表示情報生成部205へ出力する。
 また、ファイル処理部203は、操作者の操作の入力を計測部202から受ける。そして、ファイル処理部203は、入力された操作がビューポイントを遷移させる操作を受け付ける遷移実行領域に対する操作か否か遷移実行領域情報を用いて判定する。さらに、ファイル処理部203は、操作者の操作が、ビューポイントの遷移を発生させる遷移トリガとなる操作か否かを遷移トリガ情報から判定する。
 操作者の操作が遷移実行領域に対する遷移トリガとなる操作の場合、ファイル処理部203は、取得した遷移識別情報の中から、入力された操作に対応する遷移を行う場合の遷移先のビューポイントを取得する。そして、ファイル処理部203は、取得したビューポイントに応じた3DoFコンテンツを特定する。
 ファイル処理部203は、特定した3DoFコンテンツを未取得の場合は、特定した3DoFコンテンツの情報をファイル取得部201へ出力して特定した3DoFコンテンツの取得要求を行う。その後、ファイル処理部203は、特定した3DoFコンテンツのセグメントファイルを取得すると、パースを実行してその3DoFコンテンツの3DoF画像データ、メタデータ及び遷移識別情報を取得する。そして、ファイル処理部203は、取得した3DoF画像データを復号処理部204へ出力する。また、ファイル処理部203は、メタデータを表示情報生成部205へ出力して、3DoFコンテンツの切り替えを指示する。
 復号処理部204は、3DoF画像データの入力をファイル処理部203から受ける。そして、復号処理部204は、取得した3DoF画像データのデータに対して復号処理を施す。その後、復号処理部204は、復号処理を施した3DoF画像データを表示情報生成部205へ出力する。
 表示情報生成部205は、復号された3DoF画像データの入力を復号処理部204から受ける。また、表示情報生成部205は、メタデータ及び遷移実行領域情報の入力をファイル処理部203から受ける。そして、表示情報生成部205は、メタデータで指定された視点位置、視点方向及び時刻の情報を用いて、3DoF画像データから表示用画像を生成する。さらに、表示情報生成部205は、表示用画像の遷移実行領域情報で指定された領域を遷移実行領域とする。その後、表示情報生成部205は、生成した表示用画像を表示部206に提供して表示させる。
 また、表示情報生成部205は、3DoF画像データから生成した表示用の画像を表示部206に表示させている間に、3DoFコンテンツの切り替えの指示をファイル処理部203からする場合がある。その場合、表示情報生成部205は、ファイル処理部203から指定された3DoFコンテンツから3DoF画像データを取得する。そして、表示情報生成部205は、取得した3DoF画像データから生成した表示用画像の表示を表示部206に行わせて、ビューポイントの切り替えを行う。この場合も、表示情報生成部205は、ビューポイントの遷移後の表示用画像にも遷移実行領域を設ける。
 表示部206は、モニタなどの表示装置を有する。表示部206は、表示情報生成部205により生成された表示用画像の入力を受ける。そして、表示部206は、取得した表示用画像を表示装置に表示させる。
(第1の実施形態に係るファイル生成手順)
 次に、図5を参照して、ファイル生成装置1によるファイル生成処理の流れについて詳細に説明する。図5は、ファイル生成装置によるファイル生成処理のフローチャートである。
 データ取得部101は、3DoFコンテンツの元データを取得する。この元データには、複数のビューポイントから見た画像の画像データ及び制御情報が含まれる。そして、データ取得部101は、取得した元データに含まれる制御情報をメタデータ生成部103へ出力する。メタデータ生成部103は、制御情報を用いて、遷移識別情報、遷移実行領域情報及び遷移トリガ情報を含むメタデータを生成する(ステップS101)。
 また、データ取得部101は、取得した元データに含まれる画像データを符号化部102へ出力する。符号化部102は、画像データを用いて、複数のビューポイントから見た場合のそれぞれ画像のデータである複数のビューポイント画像データを生成する(ステップS102)。
 次に、メタデータ生成部103は、符号化部102により生成された各ビューポイント画像データに、遷移識別情報、遷移実行領域情報及び遷移トリガ情報を関連付けて、遷移可能なビューポイントを示すビューポイント画像データを生成する(ステップS103)。
 ファイル生成部104は、符号化されたビューポイント画像データを符号化部102から取得する。さらに、ファイル生成部104は、各ビューポイント画像データに対して遷移識別情報、遷移実行領域情報及び遷移トリガ情報を関連付ける情報を含むメタデータをメタデータ生成部103から取得する。そして、ファイル生成部104は、複数のビューポイント画像データを含む3DoF画像データをセグメント毎にISOBMFFファイルに格納する。さらに、ファイル生成部104は、各ビューポイント画像データに対応する遷移識別情報、遷移実行領域情報及び遷移トリガ情報をISOBMFFファイルに格納して3DoFコンテンツのセグメントファイルを生成する(ステップS104)。
 次に、ファイル生成部104は、生成した3DoFコンテンツのセグメントファイルを通信部12へ出力する。通信部12は、ファイル生成部104により生成された3DoFコンテンツのセグメントファイルをWebサーバ3へ出力する(ステップS105)。
 次に、図6を参照して、メタデータの作成処理について詳細に説明する。図6は、メタデータの作成処理のフローチャートである。図6のフローチャートで示した処理は、図5におけるステップS101で実行される処理の一例にあたる。
 メタデータ生成部103は、データ取得部101から取得した制御情報で通知されたビューポイントのそれぞれに識別情報を割り当てる。次に、メタデータ生成部103は、制御情報に含まれる遷移可能なビューポイントの対応関係から、遷移元となるビューポイントからの遷移可能なビューポイントを示す遷移識別情報をビューポイント毎に識別情報を用いて生成する(ステップS111)。
 次に、メタデータ生成部103は、制御情報に含まれるビューポイントの位置情報から、遷移元のビューポイント画像における遷移先のビューポイントに対応する遷移実行領域の表示位置を算出する(ステップS112)。
 次に、メタデータ生成部103は、算出した遷移実行領域の表示位置を用いて、各ビューポイント画像上での遷移実行領域を表す遷移実行領域情報を生成する(ステップS113)。
 次に、メタデータ生成部103は、制御情報で指定された遷移を実行するトリガとなる操作を表す遷移トリガ情報を生成する(ステップS114)。その後、メタデータ生成部103は、使用するコーデックなどの画像生成及び再生に関する制御情報なども生成して、遷移識別情報、遷移実行領域情報及び遷移トリガ情報を含むメタデータの作成を終了する。
(第1の実施形態に係る再生処理手順)
 次に、図7を参照して、クライアント装置2により実行される再生処理の流れを説明する。図7は、クライアント装置により実行される再生処理のフローチャートである。
 ファイル取得部201は、再生する3DoFコンテンツに対応するMPDファイルをWebサーバ3から通信部22を介して取得する。次に、ファイル処理部203は、MPDファイルをパースして解析処理を実行する。そして、ファイル取得部201は、解析結果からファイル処理部203により特定された再生する3DoFコンテンツのセグメントファイルをWebサーバ3から取得する(ステップS201)。
 ファイル処理部203は、ファイル取得部201が取得した3DoFコンテンツのセグメントファイルをパースする。次に、ファイル処理部203は、パースにより得られたメタデータの解析処理を実行する(ステップS202)。
 そして、ファイル処理部203は、操作者の動作の入力を計測部202から受けている場合はその情報も加味して、メタデータの解析処理結果から再生するコンテンツ構成を決定する(ステップS203)。
 ファイル処理部203は、決定したコンテンツ構成にしたがって、3DoFコンテンツのセグメントファイルを取得する(ステップS204)。
 ファイル処理部203は、取得した3DoFコンテンツのセグメントファイルから3DoF画像データを取得して復号処理部204へ出力する。復号処理部204は、3DoF画像データに対して復号処理を施す。その後、復号処理部204は、復号した3DoF画像データを表示情報生成部205へ出力する。表示情報生成部205は、メタデータに含まれる情報を用いて遷移実行領域を含む表示用画像を生成して表示部206に表示させる視聴処理を実行する(ステップS205)。
 次に、図8を参照して、ビューポイントの遷移処理の詳細について説明する。図8は、ビューポイントの遷移処理のフローチャートである。
 ファイル処理部203は、3DoFコンテンツのセグメントファイルをパースしてメタデータを取得し、メタデータから遷移識別情報、遷移実行領域情報及び遷移トリガ情報を取得する(ステップS211)。
 次に、ファイル処理部203は、表示する3DoF画像データを取得する(ステップS212)。
 次に、ファイル処理部203は、取得した3DoF画像データを復号処理部204へ出力する。また、ファイル処理部203は、取得したメタデータを表示情報生成部205へ出力する。復号処理部204は、3DoF画像データの復号を行い、復号した3DoF画像データを表示情報生成部205へ出力する。表示情報生成部205は、3DoF画像データ及びメタデータから表示用画像を生成し表示部206に表示させる(ステップS213)。
 その後、ファイル処理部203は、操作者の操作の通知を計測部202から受ける(ステップS214)。
 次に、ファイル処理部203は、入力された操作が遷移実行領域に対する遷移トリガとなる操作であることを確認する。そして、ファイル処理部203は、操作に応じて遷移先のビューポイントを特定する。次に、ファイル処理部203は、特定した遷移先のビューポイントのビューポイント画像データを含むセグメントファイルを取得する(ステップS215)。
 次に、ファイル処理部203は、遷移先のビューポイント画像データを取得して復号処理部204に復号を行わせた上で、表示情報生成部205へ送信して、コンテンツの切り替えを指示する。表示情報生成部205は、遷移先のビューポイント画像データとともに、コンテンツの切り替えの指示をファイル処理部203から受ける。その後、表示情報生成部205は、取得したビューポイント画像データから表示用画像を生成して、表示部206に表示させることで、表示用画像のビューポイントを遷移先のビューポイントに切り替える(ステップS216)。
 以上に説明したように、本実施形態に係るファイル生成装置は、各3DoF画像のビューポイントに対して遷移可能なビューポイントを表す情報を生成して対応付けて3DoFコンテンツの中に格納する。これにより、クライアント装置は、表示中の3DoF画像のビューポイントから遷移可能なビューポイントを識別して操作者に提供することができる。また、提供された遷移可能なビューポイントの中から遷移先のピューポイントを指定して切り替えを操作者が指示すると、クライアント装置は、現在のビューポートから見た3DoF画像から、指定されたビューポイントから見た3DoF画像への切り替えが行える。すなわち、本実施形態に係る配信システムでは、操作者は、遷移可能なビューポイントを認識でき、遷移可能なビューポイントの中から遷移先のビューポイントを指定することで、所望の映像へ遷移させることができる。これにより、製作者の意図したとおりに遷移してほしい画像への遷移といった視聴体験を利用者に提供することができ、利用者に高品質な視聴体験を提供することができる。
[1.1 第1の実施形態の変形例(1)]
 次に、第1の実施形態の変形例(1)について説明する。本変形例では、遷移識別情報が、MPEG-DASHで規定されたVWPT descriptor内に格納される。
 本変形例に係るメタデータ生成部103は、遷移識別情報を格納するためにMPDファイルにおけるVWPT descriptorを図9に示すように拡張する。図9は、VWPT descriptorの拡張例を表す図である。メタデータ生成部103は、図9の最下行から2行のViewPointInfo.SwitchableContent及びViewPointInfo.SwitchableContent@contentをVWPT descriptorに新たに規定する。ViewPointInfo.SwitchableContent@contentが、ビューポイントの識別情報を表す。
 ファイル生成部104は、図10に示すシンタックスで表される3DoFコンテンツのMPDファイルを生成し、VWPT descriptorにViewpintInfo.SwitchableContentを格納する。図10は、VWPT descriptorにViewpintInfo.SwitchableContentを含ませたMPDファイルの一例を表す図である。図10のMPDファイルでは、ビューポイント毎にAdaptationoSetが設けられ、その中のSwitchableContent contentの値によりそのビューポイントから遷移可能なビューポイントのIDが表される。
 以上に説明したように、遷移識別情報は、VWPT descriptorに格納することも可能である。このように、VWPT descriptorに格納しても、クライアント装置に遷移可能なビューポートの識別情報を提供することができ、利用者に高品質な視聴体験を提供することができる。
[1.2 第1の実施形態の変形例(2)]
 次に、第1の実施形態の変形例(2)について説明する。本変形例では、遷移可能な遷移先のビューポイントを複数の含むビューポイントグループの情報が、遷移識別情報として用いられる。
 本変形例に係るメタデータ生成部103は、各ビューポイントに識別情報を付加する。さらに、メタデータ生成部103は、複数のビューポイントをまとめたビューポイントグループを生成して識別情報を付加する。例えば、メタデータ生成部103は、ビューポイントの識別情報をグループ化してビューポンとグループを生成する。そして、メタデータ生成部103は、各ビューポイントについて、そのビューポイントから遷移可能なビューポイントをまとめたビューポイントグループを選択する。そして、メタデータ生成部103は、ビューポイント及びビューポイントグループの識別情報を用いて、各ビューポイントのビューポイント画像データから遷移可能なビューポイントグループを識別するための遷移識別情報を生成する。その後、メタデータ生成部103は、遷移識別情報をファイル生成部104へ出力する。
 ファイル生成部104は、遷移識別情報の入力をメタデータ生成部103から受ける。そして、ファイル生成部104は、図11のシンタックス131で示される遷移識別情報を表すSwitchableContentStruct()を新たに定義する。シンタックス131における、VQPT_group_idが、ビューポイントグループの識別情報にあたる。図11は、遷移先をビューポイントグループとする遷移識別情報の格納例を示す図である。さらに、メタデータ生成部103は、SwitchableContentStruct()をISOBMFFファイルのViewpointTrackGroupに格納する。これにより、ファイル生成部104は、そのISOBMFFファイルに格納されたビューポイント画像データと遷移識別情報とを対応付けてそのビューポイント画像データから遷移可能なビューポイントグループを識別可能にする。
 以上では、ビューポイントグループを遷移先としたが、他の映像の情報を遷移先とすることも可能である。例えば、メタデータ生成部103は、遷移先の他の映像を表す情報として、MPDを表すURL(Uniform Resource Locator)やWeb上の位置を表すURLなどといったURLで指定される他の映像へのアクセス情報を用いることができる。この場合、メタデータ生成部103は、遷移先を他の映像とした遷移識別情報を生成しファイル生成部104へ出力する。
 ファイル生成部104は、遷移先を他の映像とした遷移識別情報の入力をメタデータ生成部103から受ける。そして、ファイル生成部104は、図11のシンタックス132で示されるSwitchableContentStruct()を新たに定義して遷移識別情報を格納する。シンタックス32では、MPD_URLが、遷移先の他の映像の識別情報にあたる。
 以上に説明したように、本変形例に係るファイル生成装置では、遷移先としてビューポイント以外を指定して、クライアント装置に遷移先を識別可能にさせた。このように、ビューポイント以外でも遷移先と指定することで、特定のビューポイント画像データで表される画像からの遷移先を利用者に提供することができ、利用者に高品質な視聴体験を提供することができる。
[2.第2の実施形態]
 本実施形態では、映像を遷移させるために使用される操作を受け付ける領域となる遷移実行領域を示す遷移実行領域の生成について詳細に説明する。本実施形態に係るファイル生成装置1は、ビューポイントを遷移させるためのインタラクティブな領域として遷移実行領域を提供する。本実施例に係るファイル生成装置1も図2のブロック図で表される。以下の説明では、第1の実施形態と同様の各部の処理については説明を省略する場合がある。
 メタデータ生成部103は、制御情報に含まれるビューポイントの位置情報及び方向情報から、遷移元のビューポイント画像における遷移先のビューポイントに対応する遷移実行領域の表示位置を算出する。メタデータ生成部103は、例えば、遷移実行領域のサイズ及びビューポート画像である全天球映像における表示位置を求めて遷移実行領域情報とする。本実施形態では、メタデータ生成部103は、全天球映像上のインタラクティブな矩形領域を遷移実行領域とする。遷移実行領域が矩形の場合、遷移実行領域のサイズは縦横の長さで表される。例えば、メタデータ生成部103は、全天球画像上においてビューポイント方向に遷移可能なビューポイントの情報を表示する領域として遷移実行領域を決定して遷移実行領域情報を生成する。さらに、メタデータ生成部103は、その遷移実行領域とその遷移実行領域に対応するビューポイントの識別情報とを対応付ける情報を生成する。
 そして、メタデータ生成部103は、遷移実行領域情報、及び、遷移実行領域とその遷移実行領域に対応するビューポイントとを対応付ける情報をファイル生成部104へ出力する。この時、メタデータ生成部103は、遷移識別情報もファイル生成部104へ出力する。
 ファイル生成部104は、遷移識別情報、遷移実行領域情報及び遷移実行領域とその遷移実行領域に対応するビューポイントとを対応付ける情報の入力をメタデータ生成部103から受ける。次に、ファイル生成部104は、矩形領域である遷移実行領域を示すSphereRegionStruct()を生成する。そして、ファイル生成部104は、図12に示すSphereRegionStruct()及び遷移識別情報を格納するRegionForViewpoint()を新たに定義する。図12は、SphereRegionStruct()及びRegionForViewpoint()の一例を表す図である。シンタックス211におけるSphereRegionStruct()が遷移実行領域情報にあたる。また、シンタックス211では、viewpoint_idにより遷移可能なビューポイントが示される遷移識別情報が格納される。すなわち、RegionForViewpoint()には、遷移識別情報及び遷移実行領域情報の両方が格納される。
 さらに、ファイル生成部104は、シンタックス212で示すようにViewpointTrackGroupを拡張して、新たに定義したRegionForViewpoint()をViewpointTrackGroupに格納する。すなわち、ファイル生成部104は、ISOBMFFファイルのTracckBoxにおけるViewpointTrackGroupBoxに遷移実行領域情報を格納する。クライアント装置2は、ViewpointTrackGroupBoxに格納された遷移実行領域情報を用いて、3DoF映像を視聴する利用者に対して、遷移先の映像に関する情報をインタラクティブな視覚情報として提供することができる。
 以上に説明したように、本実施例に係るファイル装置は、ビューポイントを遷移させるためのインタラクティブな領域を遷移実行領域として3DoF画像である全天球映像上に配置させる。そして、クライアント装置は、全天球画像上に遷移実行領域情報を配置して表示することで、利用者にインタラクティブな遷移実行領域を提供することができ、利用者の視聴体験の質を向上させることができる。
[2.1 第2の実施形態の変形例(1)]
 本変形例に係るファイル生成装置1は、遷移実行領域をOMAFの技術を用いてクライアント装置2に提供する。ここで、OMAFのオーバーレイについて説明する。
 既存のOMAF技術には、全天球映像上に他の映像などを重畳する技術として、オーバーレイが規定されている。オーバーレイにより重畳される映像は、動画又は静止画どちらでもよい。重畳する映像に関する情報の格納先としてISOBMFFにおいてOverlayStruct()が規定されている。OverlayStruct()は、動画であればISOBMFFファイルにおけるVisualDample()内に格納され、静止画であればISOBMFFファイルにおけるItemPropertyContainerBox()内に格納される。
 図13は、オーバーレイのコントロール構造を表す図である。OverlayStruct()内には、図13における表221で表されるコントロール構造を内容とするOverlay_control_struct[i]が規定されている。Overlay_control_struct[i]は、iの値により種々のオーバーレイの構造を表すプロパティ情報が提供される。これらのプロパティのうち、i=1の場合のSphereRelativeOmniOverlay()は、全天球映像上のオーバーレイ領域を示すプロパティである。また、i=10の場合のAssociatedSphereRegion()は、オーバーレイに関連する領域を示すプロパティであり、この領域がクリックされることで、紐づくオーバーレイの表示と非表示とを切り替えることが可能である。
 本変形例に係るファイル生成装置1は、以上に説明したOMAFのオーバーレイの技術を用いて遷移実行領域をクライアント装置2に提供する。以下に、本変形例における各部の処理について説明する。
 メタデータ生成部103は、遷移実行領域を算出する。そして、メタデータ生成部103は、OMAFのオーバーレイに対応するように遷移実行情報を生成する。その後、メタデータ生成部103は、遷移実行情報をファイル生成部104へ出力する。
 ファイル生成部104は、遷移実行領域情報の入力をメタデータ生成部103から受ける。そして、ファイル生成部104は、図14におけるシンタックス222で表されるSphereRelativeOmniOverlay()を使用して、遷移実行領域を表示する全天球画像上の映像表示領域をオーバーレイで示す。図14は、SphereRelativeOmniOverlay()及びAssociatiedSpereRegion()の一例を表す図である。
 SphereRelativeOmniOverlay()は、全天球画像上のオーバーレイの映像表示領域を示す。シンタックス222におけるproj_picture_width及びproj_picture_hightがオーバーレイの映像表示領域に張り付ける画像を表す。また、シンタックス222におけるproj_reg_width、roj_reg_hight、proj_reg_top及びproj_reg_reftが画像の貼り付け先となるオーバーレイの映像表示領域を表す。
 さらに、本実施形態に係るファイル生成部104は、オーバーレイのコントロール構造におけるOverlay_control_struct[10]の場合のAssociatedSphereRegion()を遷移実行領域の格納に使用する。AssociatiedSpereRegion()は、オーバーレイに関連する領域を示す。AssociatiedSpereRegion()で示される領域は、例えばクリックされるなどの操作が行われた場合に、その領域紐づくオーバーレイの表示と非表示とを切り替えることができる領域である。
 この場合、ファイル生成部104は、図14におけるシンタックス223で表されるAssociatiedSpereRegion()を生成する。ここで、ファイル生成部104は、遷移実行領域と遷移可能なビューポイントとを紐づけるために、シンタックス223で示すようにAssociatiedSpereRegion()を拡張して、紐づくビューポイントの識別情報であるviewpoint_idを格納する。
 以上に説明したように、本変形例ではOMAFのオーバーレイの技術を用いて全天球映像上に遷移実行領域を表示させる。これにより、利用者は、全天球映像上に表示された遷移実行領域を確認することができ、ビューポイントの移動を容易に行うことができる。
[2.2 第2の実施形態の変形例(2)]
 本変形例に係るファイル生成装置1は、オーバーレイの構造に新たな定義を加えてその構造を使用して遷移実行領域情報を格納する。以下に、本変形例における遷移実行領域情報の格納方法の詳細について説明する。
 ファイル生成部104は、AssociatedSphereRegion()を使用する代わりに、図15の表231に示すように、オーバーレイのコントロール構造を表すoverlay_control_struct()に、遷移実行領域情報を格納するための新たなに新たなコントロール構造を規定する。図15は、遷移実行領域情報を格納するための新たなに新たなコントロール構造を加えたoverlay_control_struct()の一例を表す図である。本変形例では、ファイル生成部104は、overlay_control_struct()に新たなコントロール構造としてi=12にAssociatedviewpointregion()を追加する。
 そして、ファイル生成部104は、図16に示すようなシンタックス232で表されるAssociatedviewpointregion()を生成する。図16は、Associatedviewpointregion()の一例を表す図である。この場合も、ファイル生成部104は、遷移実行領域をビューポイントに紐づける情報をのAssociatedviewpointregion()に格納する。
 以上に説明したように、本変形例ではオーバーレイに新たなコントロール構造を定義して全天球映像上に遷移実行領域を表示させる。このような方法でも、利用者は、全天球映像上に表示された遷移実行領域を確認することができ、ビューポイントの遷移を容易に行うことができる。
[2.3 第2の実施形態の変形例(3)]
 上述した第2の実施形態の変形例(1)では、遷移実行領域と遷移可能なビューポイントとを紐づけるために、AssociatedSphereRedionを拡張した。これに対して、本変形例に係るファイル生成装置1は、オーバーレイの構造に新たな定義を加えてその構造を使用して遷移実行領域と遷移可能なビューポイントとを紐づける。以下に、本変形例における遷移実行領域の格納方法の詳細について説明する。
 本実施形態に係るファイル生成部104は、オーバーレイのコントロール構造におけるOverlay_control_struct[10]の場合のAssociatedSphereRegion()を遷移実行領域情報の格納に使用する。また、ファイル生成部104は、図17の表241に示すように、overlay_control_struct()に遷移識別情報を格納するための新たなに新たなコントロール構造を規定する。図17は、遷移識別情報を格納するための新たなに新たなコントロール構造を加えたoverlay_control_struct()の一例を表す図である。本変形例では、ファイル生成部104は、overlay_control_struct()に新たなコントロール構造としてi=12にAssociatedviewpoint()を追加する。
 図18は、Associatedviewpointregion()及びAssociatedViewpoint()の一例を表す図である。例えば、ファイル生成部104は、図18に示すシンタックス242で表されるAssociatedviewpointregion()を生成する。また、ファイル生成部104は、シンタックス243で表されるAssociatedviewpoint()を生成する。そして、ファイル生成部104は、AssociatedSphereRegion()とAssociatedviewpoint()とを紐づけることで、遷移実行領域と遷移可能なビューポイントとの紐づけを行う。
 以上に説明したように、本変形例ではオーバーレイに新たなコントロール構造を定義して遷移可能なビューポイントの情報を格納し、遷移実行領域と紐づけを行う。このような方法でも、利用者は、全天球映像上に表示された遷移実行領域を確認することができ、ビューポイントの移動を容易に行うことができる。
[2.4 第2の実施形態の変形例(4)]
 上述した第2の実施形態の変形例(1)~(3)では映像表示領域と遷移実行領域とを別途指定したが、これらの領域が同じ位置及び同じサイズである場合には、同じ領域が2か所で定義されることになり非効率である。そこで、本変形例に係るファイル生成装置1は、遷移実行領域が映像表示領域と同じであることを示すフラグを用いて領域を流用する。以下に、本変形例における遷移実行領域の格納方法の詳細について説明する。
 前記メタデータ生成部103は、OMAFのオーバーレイにおける映像表示領域と遷移実行領域とが同一になるように遷移実行領域を決定する。そして、メタデータ生成部103は、映像表示領域と遷移実行領域とが一致することを示すフラグを生成する。そして、メタデータ生成部103は、映像表示領域と遷移実行領域とが一致することを示すフラグを含む遷移実行領域情報をファイル生成部104へ出力する。
 ファイル生成部104は、映像表示領域と遷移実行領域とが一致することを示すフラグを含む遷移実行領域情報の入力をメタデータ生成部103から受ける。そして、ファイル生成部104は、ShereRalativeOverlay()において映像表示領域を指定する。次に、ファイル生成部104は、遷移実行領域情報を格納するAssociatedSphereRegion()を生成する。さらに、ファイル生成部104は、図19のシンタックス251で示すように、AssociatedSphereRegion()を拡張して、遷移実行領域が映像表示領域と同じであることを示すフラグを設定する。図19は、映像表示領域を遷移実行領域に流用する場合のAssociatedSphereRegion()の一例を表す図である。ファイル生成部104は、AssociatedSphereRegion()に設定したフラグを用いて遷移実行領域が映像表示領域と一致することを示すことで、遷移実行領域の情報を格納せずに映像表示領域の情報を遷移実行領域に流用させる。
 ここで、本変形例では、AssociatedSphereRegion()を使用する場合で説明したが、ファイル生成部104は、遷移実行領域を示すためにAssociatedViewpointRegion()を使用することも可能である。その場合も、ファイル生成部104は、AssociatedViewpointRegion()に遷移実行領域が映像表示領域と同じであることを示すフラグを設定することで、映像表示領域の情報を遷移実行領域に流用することができる。
 以上に説明したように、本変形例ではAssociatedSphereRegion()に新たに設けたフラグを用いて映像表示領域の情報を遷移実行領域に流用する。これにより、データの削減を図ることが可能となる。
[第2の実施形態の変形例(4)]
 上述した第2の実施形態では遷移実行領域情報が常に3DoF画像である全天球映像上に表示される。そのため、ビューポイントの遷移に興味のない利用者には不要な情報が提示されることとなり、利用者の視聴体験の品質が低下するおそれがある。そこで、本変形例に係るファイル生成装置1は、遷移実行領域を含む同じ全天球画像を利用者が一定時間見ている場合に遷移実行領域情報を全天球映像上に表示する。以下に、本変形例における遷移実行領域情報の格納方法の詳細について説明する。
 メタデータ生成部103は、遷移実行領域情報を算出する。また、メタデータ生成部103は、全天球映像上への遷移実行領域の表示を制御する時間情報を生成する。例えば、メタデータ生成部103は、表示した全天球映像に紐づく遷移実行領域情報が表示されるまでの時間を表す時間情報を生成する。そして、メタデータ生成部103は、遷移実行領域情報とともに時間情報をファイル生成部104へ出力する。
 ファイル生成部104は、遷移実行領域情報及び時間情報の入力をメタデータ生成部103から受ける。そして、ファイル生成部104は、SphereRegionStruct()及び遷移識別情報を格納するRegionForViewpoint()を新たに定義する。さらに、ファイル生成部104は、RegionForViewpoint()に時間情報を格納する。
 例えば、ファイル生成部104は、図20のシンタックス261で示すように、表示した全天球映像に紐づく遷移実行領域情報が表示されるまでの時間をRegionForViewpoint()に格納する。図20は、一定時間後に遷移実行領域情報を表示する場合のRegionForViewpoint()の一例を表す図である。シンタックス261におけるtime_to_ovelayが、遷移実行領域情報を表示するまでの時間である。
 クライアント装置2のファイル処理部203は、RegionForViewpoint()に含まれる遷移実行領域情報が表示されるまでの時間を取得する。そして、ファイル処理部203は、3DoF画像の表示を表示情報生成部205に行わせてからその3DoF画像が表示された状態で指定された時間が経過すると、実行領域の表示を表示情報生成部205に指示する。これにより、クライアント装置2では3DoF画像の表示から一定時間経過後に遷移実行領域が表示され、ビューポイントの遷移が可能となる。
 以上に説明したように、本変形例では、全天球映像上の遷移実行領域情報を最初は表示させずに一定時間経過後に表示させる。これにより、利用者が遷移実行領域に対して興味があり、ビューポイントの遷移を行う可能性が高い場合に遷移実行領域情報が表示されることになる。したがって、不要な情報の表示を削減でき、利用者の視聴体験の質を向上させることができる。
[3.第3の実施形態]
 本実施形態では、ビューポイントを遷移させる場合の操作の情報である遷移トリガ情報の生成について詳細に説明する。本実施例に係るファイル生成装置1は、ビューポイントを遷移させる際の、領域に対する操作(ユーザインタラクション)を切り替える情報をクライアント装置2に提供する。本実施例に係るファイル生成装置1も図2のブロック図で表される。以下の説明では、第1の実施形態と同様の各部の処理については説明を省略する場合がある。
 メタデータ生成部103は、操作者から指定されたユーザインタラクションの情報にしたがって、ユーザインタラクションを示す遷移トリガ情報を生成する。指定されたユーザインタラクションが複数の場合、メタデータ生成部103は、各ユーザインタラクションの間で切り替えが可能なことを示す遷移トリガ情報を生成する。例えば、ユーザインタラクションとしてクリックとズームとが指定された場合、メタデータ生成部103は、クリックとズームとが切り替え可能であることを含む遷移トリガ情報を生成する。また、メタデータ生成部103は、例えば、ユーザインタラクションとしてズームを使用する場合には、遷移が起こるズームの閾値を設定して遷移トリガ情報に加えてもよい。その後、メタデータ生成部103は、生成した遷移トリガ情報をファイル生成部104へ出力する。
 ファイル生成部104は、遷移トリガ情報の入力をメタデータ生成部103から受ける。次に、ファイル生成部104は、SphereRegionStruct()及び遷移識別情報を格納するRegionForViewpoint()を新たに定義する。さらに、ファイル生成部104は、図21のシンタックス311で示すように、領域に対するユーザインタラクションを切り替えるための情報をRegionForViewpoint()に格納する。図21は、ユーザインタラクションを切り替える場合のRegionForViewpoint()の一例を表す図である。
 シンタックス311におけるaction_control_flagが、遷移実行領域に対するユーザインタラクションを切り替えるためのフラグである。例えば、ファイル生成部104は、次のようにaction_control_flagを定義する。action_control_flagの値が0の場合、遷移実行領域をクリックすることでviewpoint_idにより指定されたビューポイントから見た全天球映像に切り替わる。また、action_control_flagの値が1の場合、遷移実行領域に対するズームを行うことでviewpoint_idにより指定されたビューポイントから見た全天球映像に切り替わる。
 また、ファイル生成部104は、ユーザインタラクションがズームの場合には、シンタックス311に示すように遷移が起こるズームの閾値を設定する。シンタックス311におけるZoom_thresholdは、遷移のトリガとなるユーザインタラクションがズームの場合の遷移を実行する閾値である。例えば、ファイル生成部104は、次のようにZoom_thresholdを規定する。Zoom_threshold>1と定義された場合、遷移可能領域へのズームインのズーム率が1より大きい場合に遷移を実行する。また、Zoom_threshold<1と定義された場合、遷移可能領域へのズームアウトのズーム率が1より大きい場合に遷移を実行する。
 このユーザインタラクションの切り替えの情報の設定及び遷移を発生させる閾値の設定は、第2の実施形態の変形例(2)などのAssociatedSphereRegion()に適用することも可能である。また、本実施例では、クリック及びズームをユーザインタラクションとして使用する場合で説明したが、他の操作でも同様に設定することが可能である。
[4.第4の実施形態]
 以上の各実施形態及びそれらの各変形例ではISOBMFFに格納する場合を説明した。ただし、図22に示すMatroska Media Container(http://www.matroska.org/)を用いて伝送する場合でも遷移識別情報、遷移実行領域情報及び遷移トリガ情報を提供することが可能である。図22は、Matroska Media Containerのフォーマットを表す図である。その場合、ファイル生成部104は、Track Entry elementに新しく定義したelementに遷移識別情報、遷移実行領域情報及び遷移トリガ情報を格納する。
[ハードウェア構成]
 図23は、コンピュータのハードウェア構成図である。ファイル生成装置1及びクライアント装置2は、図23に示すコンピュータ90によって実現可能である。コンピュータ90において、プロセッサ91、メモリ92、ネットワークインタフェース93、不揮発性ストレージ94、入出力インタフェース95及びディスプレイインタフェース86は、バスを介して相互に接続される。
 入出力インタフェース95には、例えば、入力装置、出力装置、記憶装置及びドライブといった外部デバイスが接続される。入力装置は、例えば、キーボード、マウス、マイクロホン、タッチパネル、入力端子などである。出力装置は、例えば、スピーカ、出力端子などである。記憶装置は、例えば、ハードディスク、RAM(Random Access Memory)ディスクなどである。ドライブは、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディアを駆動する。また、ディスプレインタフェース96には、表示装置であるディスプレイ98が接続される。
 ネットワークインタフェース93は、外部のネットワークに接続される。ファイル生成装置1及びクライアント装置2は、ネットワークインタフェース93を介して相互に接続される。また、ファイル生成装置1及びクライアント装置2は、ネットワークインタフェース93を介してWebサーバ3に接続する。不揮発性ストレージ94は、ハードディスクやSSD(Solid State Drive)などの内蔵の補助記憶装置である。
 以上のように構成されるコンピュータ90では、プロセッサ91が、例えば、不揮発性ストレージ94に記憶されているプログラムを、バスを介して、メモリ92にロードして実行することにより、上述した一連の処理が行われる。メモリ92にはまた、プロセッサ91が各種の処理を実行する上において必要なデータなども適宜記憶される。
 プロセッサ91が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディアに記録して適用することができる。その場合、プログラムは、リムーバブルメディアを外部デバイス97であるドライブに装着することにより、入出力インタフェース95を介して、不揮発性ストレージ94にインストールすることができる。
 また、このプログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することもできる。その場合、プログラムは、ネットワークインタフェース93で受信し、不揮発性ストレージ94にインストールすることができる。
 その他、このプログラムは、不揮発性ストレージ94に、予めインストールしておくこともできる。
 以上、本開示の実施形態について説明したが、本開示の技術的範囲は、上述の実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、異なる実施形態及び変形例にわたる構成要素を適宜組み合わせてもよい。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また他の効果があってもよい。
 なお、本技術は以下のような構成を取ることもできる。
(1)第1ビューポイントを視点位置とする第1映像から遷移可能な第2映像における視点位置である第2ビューポイントを識別するための遷移識別情報を生成するメタデータ生成部と、
 前記第1映像のデータ及び前記遷移識別情報を含むファイルを生成するファイル生成部と
 を備えた情報処理装置。
(2)前記メタデータ生成部は、前記第2ビューポイントを特定するための識別情報を含む前記遷移識別情報を生成する付記(1)に記載の情報処理装置。
(3)前記メタデータ生成部は、前記第2ビューポイントを複数含むビューポイントグループの識別情報を含む前記遷移識別情報を生成する付記(1)又は(2)に記載の情報処理装置。
(4)前記メタデータ生成部は、URL(Uniform Resource Locator)で指定される他の映像へのアクセス情報を含む前記遷移識別情報を生成する付記(1)~(3)のいずれか一つに記載の情報処理装置。
(5)前記ファイル生成部は、前記識別情報をISOBMFFファイルのTrackBoxにおけるViewpointTrackGroupBoxに格納する付記(1)~(4)のいずれか一つに記載の情報処理装置。
(6)前記ファイル生成部は、前記識別情報をMPD(Media Presentation Description)ファイルのVWPT descriptorに格納する付記(1)~(4)のいずれか一つに記載の情報処理装置。
(7)前記メタデータ生成部は、前記第1ビューポイントから前記第2ビューポイントへ遷移させるための操作を受け付ける前記第1映像上の遷移実行領域を示す遷移実行領域情報を生成し、
 前記ファイル生成部は、前記ファイルに前記遷移実行領域情報を含ませる
 付記(1)に記載の情報処理装置。
(8)前記メタデータ生成部は、前記遷移実行領域のサイズ及び前記第1映像における表示位置を含む前記遷移実行領域情報を生成する付記(7)に記載の情報処理装置。
(9)前記ファイル生成部は、ISOBMFFファイルのTrackBoxにおけるViewpointTrackGroupBoxに前記遷移実行領域情報を格納する付記(7)又は(8)に記載の情報処理装置。
(9)前記メタデータ生成部は、OMAFにおけるオーバーレイにより前記遷移実行領域情報を示す付記(7)又は(8)に記載の情報処理装置。
(11)前記メタデータ生成部は、前記遷移実行領域が前記オーバーレイにおける映像表示領域と同じであることを示すフラグを含む前記遷移実行領域情報を生成する付記(10)に記載の情報処理装置。
(12)前記メタデータ生成部は、前記第1映像上への前記遷移実行領域の表示を制御する時間情報が含まれる付記(7)~(11)のいずれか一つに記載の情報処理装置。
(13)前記メタデータ生成部は、前記第1ビューポイントから前記第2ビューポイントへの遷移を発生させる操作を示す遷移トリガ情報を生成し、
 前記ファイル生成部は、前記ファイルに前記遷移実行領域情報を含ませる
 付記(1)に記載の情報処理装置。
(14)前記メタデータ生成部は、クリックによって前記遷移を発生させることを示す前記遷移トリガ情報を生成する付記(13)に記載の情報処理装置。
(15)前記メタデータ生成部は、ズームによって前記遷移を発生させることを示す前記遷移トリガ情報を生成する付記(13)又は(14)に記載の情報処理装置。
(16)前記メタデータ生成部は、前記遷移を発生させる前記ズームの閾値を含む前記遷移トリガ情報を生成する付記(15)に記載の情報処理装置。
(17)第1ビューポイントを視点位置とする第1映像から遷移可能な第2映像における視点位置である第2ビューポイントを識別するための遷移識別情報を生成し、
 前記第1映像のデータ及び前記遷移識別情報を含むファイルを生成する
 処理をコンピュータに実行させる情報処理方法。
(18)第1ビューポイントを視点位置とする第1映像から遷移可能な第2映像における視点位置である第2ビューポイントを識別するための遷移識別情報を含むファイルを取得するファイル取得部と、
 前記ファイル取得部により取得された前記ファイルから前記遷移識別情報を取得し、取得した前記遷移識別情報を基に、前記第1ビューポイントから遷移可能な前記第2ビューポイントを特定するファイル処理部と、
 前記第1映像を再生し、且つ、前記ファイル処理部により特定された前記第2ビューポイントの情報を出力する再生部と
 を備えた再生処理装置。
(19)第1ビューポイントを視点位置とする第1映像から遷移可能な第2映像における視点位置である第2ビューポイントを識別するための遷移識別情報を含むファイルを取得し、
 取得した前記ファイルから前記遷移識別情報を取得し、取得した前記遷移識別情報を基に、前記第1ビューポイントから遷移可能な前記第2ビューポイントを特定し、
 前記第1映像を再生し、且つ、特定した前記第2ビューポイントの情報を出力する
 処理をコンピュータに実行させる再生処理方法。
 1 ファイル生成装置
 2 クライアント装置
 3 Webサーバ
 4 ネットワーク
 10 ファイル生成処理部
 11 制御部
 12 通信部
 20 再生処理部
 21 制御部
 22 通信部
 100 配信システム
 101 データ取得部
 102 符号化部
 103 メタデータ生成部
 104 ファイル生成部
 201 ファイル取得部
 202 計測部
 203 ファイル処理部
 204 復号処理部
 205 表示情報生成部
 206 表示部

Claims (19)

  1.  第1ビューポイントを視点位置とする第1映像から遷移可能な第2映像における視点位置である第2ビューポイントを識別するための遷移識別情報を生成するメタデータ生成部と、
     前記第1映像のデータ及び前記遷移識別情報を含むファイルを生成するファイル生成部と
     を備えた情報処理装置。
  2.  前記メタデータ生成部は、前記第2ビューポイントを特定するための識別情報を含む前記遷移識別情報を生成する請求項1に記載の情報処理装置。
  3.  前記メタデータ生成部は、前記第2ビューポイントを複数含むビューポイントグループの識別情報を含む前記遷移識別情報を生成する請求項1に記載の情報処理装置。
  4.  前記メタデータ生成部は、URL(Uniform Resource Locator)で指定される他の映像へのアクセス情報を含む前記遷移識別情報を生成する請求項1に記載の情報処理装置。
  5.  前記ファイル生成部は、前記遷移識別情報をISOBMFFファイルのTrackBoxにおけるViewpointTrackGroupBoxに格納する請求項1に記載の情報処理装置。
  6.  前記ファイル生成部は、前記遷移識別情報をMPD(Media Presentation Description)ファイルのVWPT descriptorに格納する請求項1に記載の情報処理装置。
  7.  前記メタデータ生成部は、前記第1ビューポイントから前記第2ビューポイントへ遷移させるための操作を受け付ける前記第1映像上の遷移実行領域を示す遷移実行領域情報を生成し、
     前記ファイル生成部は、前記遷移実行領域情報を含む前記ファイルを生成する
     請求項1に記載の情報処理装置。
  8.  前記メタデータ生成部は、前記遷移実行領域のサイズ及び前記第1映像における表示位置を含む前記遷移実行領域情報を生成する請求項7に記載の情報処理装置。
  9.  前記ファイル生成部は、ISOBMFFファイルのTrackBoxにおけるViewpointTrackGroupBoxに前記遷移実行領域情報を格納する請求項7に記載の情報処理装置。
  10.  前記メタデータ生成部は、OMAFにおけるオーバーレイにより前記遷移実行領域情報を示す請求項7に記載の情報処理装置。
  11.  前記メタデータ生成部は、前記遷移実行領域と前記オーバーレイにおける映像表示領域とが前記第1映像上の同じ領域であることを示すフラグを含む前記遷移実行領域情報を生成する請求項10に記載の情報処理装置。
  12.  前記メタデータ生成部は、前記第1映像上への前記遷移実行領域の表示を制御する時間情報が含まれる請求項7に記載の情報処理装置。
  13.  前記メタデータ生成部は、前記第1ビューポイントから前記第2ビューポイントへの遷移を発生させる操作を示す遷移トリガ情報を生成し、
     前記ファイル生成部は、前記遷移トリガ情報を含む前記ファイルを生成する
     請求項1に記載の情報処理装置。
  14.  前記メタデータ生成部は、クリックによって前記遷移を発生させることを示す前記遷移トリガ情報を生成する請求項13に記載の情報処理装置。
  15.  前記メタデータ生成部は、ズームによって前記遷移を発生させることを示す前記遷移トリガ情報を生成する請求項13に記載の情報処理装置。
  16.  前記メタデータ生成部は、前記遷移を発生させる前記ズームの閾値を含む前記遷移トリガ情報を生成する請求項15に記載の情報処理装置。
  17.  第1ビューポイントを視点位置とする第1映像から遷移可能な第2映像における視点位置である第2ビューポイントを識別するための遷移識別情報を生成し、
     前記第1映像のデータ及び前記遷移識別情報を含むファイルを生成する
     処理をコンピュータに実行させる情報処理方法。
  18.  第1ビューポイントを視点位置とする第1映像から遷移可能な第2映像における視点位置である第2ビューポイントを識別するための遷移識別情報を含むファイルを取得するファイル取得部と、
     前記ファイル取得部により取得された前記ファイルから前記遷移識別情報を取得し、取得した前記遷移識別情報を基に、前記第1ビューポイントから遷移可能な前記第2ビューポイントを特定するファイル処理部と、
     前記第1映像を再生し、且つ、前記ファイル処理部により特定された前記第2ビューポイントの情報を出力する再生部と
     を備えた再生処理装置。
  19.  第1ビューポイントを視点位置とする第1映像から遷移可能な第2映像における視点位置である第2ビューポイントを識別するための遷移識別情報を含むファイルを取得し、
     取得した前記ファイルから前記遷移識別情報を取得し、取得した前記遷移識別情報を基に、前記第1ビューポイントから遷移可能な前記第2ビューポイントを特定し、
     前記第1映像を再生し、且つ、特定した前記第2ビューポイントの情報を出力する
     処理をコンピュータに実行させる再生処理方法。
PCT/JP2020/025591 2019-07-03 2020-06-29 情報処理装置、情報処理方法、再生処理装置及び再生処理方法 WO2021002338A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202080047166.2A CN114026849A (zh) 2019-07-03 2020-06-29 信息处理装置、信息处理方法、再现处理装置以及再现处理方法
US17/622,880 US11985290B2 (en) 2019-07-03 2020-06-29 Information processing device, information processing method, reproduction processing device, and reproduction processing method
EP20834772.4A EP3996376A4 (en) 2019-07-03 2020-06-29 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, REPRODUCTION PROCESSING DEVICE AND REPRODUCTION PROCESSING METHOD
KR1020217041681A KR20220031560A (ko) 2019-07-03 2020-06-29 정보 처리 장치, 정보 처리 방법, 재생 처리 장치 및 재생 처리 방법
JP2021530025A JPWO2021002338A1 (ja) 2019-07-03 2020-06-29

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201962870507P 2019-07-03 2019-07-03
US62/870,507 2019-07-03

Publications (1)

Publication Number Publication Date
WO2021002338A1 true WO2021002338A1 (ja) 2021-01-07

Family

ID=74100136

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/025591 WO2021002338A1 (ja) 2019-07-03 2020-06-29 情報処理装置、情報処理方法、再生処理装置及び再生処理方法

Country Status (6)

Country Link
US (1) US11985290B2 (ja)
EP (1) EP3996376A4 (ja)
JP (1) JPWO2021002338A1 (ja)
KR (1) KR20220031560A (ja)
CN (1) CN114026849A (ja)
WO (1) WO2021002338A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113949829A (zh) * 2021-10-15 2022-01-18 腾讯科技(深圳)有限公司 媒体文件封装方法、装置、设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021000276A1 (en) * 2019-07-03 2021-01-07 Beijing Xiaomi Mobile Software Co., Ltd. Method, system and apparatus for building virtual reality envioronment

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010117802A (ja) * 2008-11-11 2010-05-27 Sony Computer Entertainment Inc 画像処理装置および画像処理方法
WO2018031827A1 (en) * 2016-08-10 2018-02-15 Google Llc Cooperative immersive live action 360-degree video and virtual reality
WO2018211613A1 (ja) * 2017-05-17 2018-11-22 三菱電機株式会社 符号化映像再生装置および符号化映像再生方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140267600A1 (en) * 2013-03-14 2014-09-18 Microsoft Corporation Synth packet for interactive view navigation of a scene
SG11201600223UA (en) * 2013-07-19 2016-02-26 Sony Corp Information processing device and method
JP2015187797A (ja) * 2014-03-27 2015-10-29 シャープ株式会社 画像データ生成装置および画像データ再生装置
US20160330408A1 (en) * 2015-04-13 2016-11-10 Filippo Costanzo Method for progressive generation, storage and delivery of synthesized view transitions in multiple viewpoints interactive fruition environments
US9858706B2 (en) * 2015-09-22 2018-01-02 Facebook, Inc. Systems and methods for content streaming
US10096130B2 (en) * 2015-09-22 2018-10-09 Facebook, Inc. Systems and methods for content streaming
US20170316806A1 (en) * 2016-05-02 2017-11-02 Facebook, Inc. Systems and methods for presenting content
JP6963399B2 (ja) * 2017-03-16 2021-11-10 株式会社スクウェア・エニックス プログラム、記録媒体、画像生成装置、画像生成方法
US11178377B2 (en) * 2017-07-12 2021-11-16 Mediatek Singapore Pte. Ltd. Methods and apparatus for spherical region presentation
JPWO2019031306A1 (ja) * 2017-08-07 2020-08-06 シャープ株式会社 生成装置、再生装置、生成方法、再生方法、制御プログラム、記録媒体
CN111133763B (zh) * 2017-09-26 2022-05-10 Lg 电子株式会社 360视频系统中的叠加处理方法及其设备
CN111201796A (zh) * 2017-10-04 2020-05-26 Vid拓展公司 定制的360度媒体观看
WO2019141901A1 (en) * 2018-01-17 2019-07-25 Nokia Technologies Oy An apparatus, a method and a computer program for omnidirectional video
WO2019192509A1 (en) * 2018-04-03 2019-10-10 Huawei Technologies Co., Ltd. Media data processing method and apparatus
WO2019194434A1 (ko) * 2018-04-05 2019-10-10 엘지전자 주식회사 복수의 뷰포인트들에 대한 메타데이터를 송수신하는 방법 및 장치
JP7401453B2 (ja) * 2018-04-05 2023-12-19 ヴィド スケール インコーポレイテッド 全方位ビデオに対する視点メタデータ
WO2019203456A1 (ko) * 2018-04-15 2019-10-24 엘지전자 주식회사 복수의 뷰포인트들에 대한 메타데이터를 송수신하는 방법 및 장치
US10999583B2 (en) * 2018-09-14 2021-05-04 Apple Inc. Scalability of multi-directional video streaming
JP2020140285A (ja) * 2019-02-27 2020-09-03 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、及び、プログラム
WO2020184645A1 (en) * 2019-03-14 2020-09-17 Sharp Kabushiki Kaisha Systems and methods for signaling viewpoint information in omnidirectional media
JP2022060816A (ja) * 2020-10-05 2022-04-15 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
EP4254962A1 (en) * 2022-03-31 2023-10-04 Canon Kabushiki Kaisha Image processing apparatus, control method and program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010117802A (ja) * 2008-11-11 2010-05-27 Sony Computer Entertainment Inc 画像処理装置および画像処理方法
WO2018031827A1 (en) * 2016-08-10 2018-02-15 Google Llc Cooperative immersive live action 360-degree video and virtual reality
WO2018211613A1 (ja) * 2017-05-17 2018-11-22 三菱電機株式会社 符号化映像再生装置および符号化映像再生方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MATROSKA MEDIA CONTAINER, 12 March 2020 (2020-03-12), Retrieved from the Internet <URL:https://www.matroscka.org>
See also references of EP3996376A4

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113949829A (zh) * 2021-10-15 2022-01-18 腾讯科技(深圳)有限公司 媒体文件封装方法、装置、设备及存储介质
CN113949829B (zh) * 2021-10-15 2022-09-20 腾讯科技(深圳)有限公司 媒体文件封装及解封装方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US20220150461A1 (en) 2022-05-12
EP3996376A4 (en) 2023-08-09
JPWO2021002338A1 (ja) 2021-01-07
CN114026849A (zh) 2022-02-08
US11985290B2 (en) 2024-05-14
KR20220031560A (ko) 2022-03-11
EP3996376A1 (en) 2022-05-11

Similar Documents

Publication Publication Date Title
US11032588B2 (en) Method and apparatus for spatial enhanced adaptive bitrate live streaming for 360 degree video playback
US20190075148A1 (en) Personalized content streams using aligned encoded content segments
KR102027410B1 (ko) 계층화된 신호 품질 계층에서의 재구성 데이터의 송신
US11178377B2 (en) Methods and apparatus for spherical region presentation
US10931930B2 (en) Methods and apparatus for immersive media content overlays
JP6860485B2 (ja) 情報処理装置、および情報処理方法、並びにプログラム
US20170105034A1 (en) Communication apparatus, communication method, and program
WO2021002338A1 (ja) 情報処理装置、情報処理方法、再生処理装置及び再生処理方法
US11967153B2 (en) Information processing apparatus, reproduction processing apparatus, and information processing method
JP7396267B2 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2021065605A1 (ja) 情報処理装置および情報処理方法
KR20200101349A (ko) 정보 처리 장치, 정보 처리 방법 및 프로그램
JP7314929B2 (ja) 情報処理装置、情報処理方法、及びプログラム
TWI820490B (zh) 利用衍生視訊軌道實現場景描述的方法和系統
US20220239994A1 (en) Information processing apparatus, information processing method, reproduction processing apparatus, and reproduction processing method
WO2021002142A1 (ja) 情報処理装置、情報処理方法、再生処理装置及び再生処理方法
CN111869225A (zh) 信息处理装置、信息处理装置及程序
KR20190061734A (ko) 동영상 콘텐츠 제공 장치 및 방법
JP2024510181A (ja) メディア再生中のプリロールおよびミッドロールコンテンツをサポートするmpeg dashのための方法および装置
KR20230086792A (ko) 미디어 스트리밍 및 재생 동안 프리롤 및 미드롤을 지원하기 위한 방법 및 장치
JP2024515488A (ja) スタッキング特性を有するプレロール、ミッドロールおよびエンドロールをサポートするためのmpeg dash用の補助mpdに関する方法、装置、媒体
JPWO2019138927A1 (ja) 情報処理装置および方法
VRT et al. First Version of Playout Clients

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20834772

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021530025

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020834772

Country of ref document: EP

Effective date: 20220203