WO2019031306A1 - 生成装置、再生装置、生成方法、再生方法、制御プログラム、記録媒体 - Google Patents

生成装置、再生装置、生成方法、再生方法、制御プログラム、記録媒体 Download PDF

Info

Publication number
WO2019031306A1
WO2019031306A1 PCT/JP2018/028655 JP2018028655W WO2019031306A1 WO 2019031306 A1 WO2019031306 A1 WO 2019031306A1 JP 2018028655 W JP2018028655 W JP 2018028655W WO 2019031306 A1 WO2019031306 A1 WO 2019031306A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
partial
image
reproduction
thinned
Prior art date
Application number
PCT/JP2018/028655
Other languages
English (en)
French (fr)
Inventor
徳毛 靖昭
Original Assignee
シャープ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャープ株式会社 filed Critical シャープ株式会社
Priority to CN201880051053.2A priority Critical patent/CN110999309A/zh
Priority to JP2019535125A priority patent/JPWO2019031306A1/ja
Priority to US16/636,617 priority patent/US20200374567A1/en
Publication of WO2019031306A1 publication Critical patent/WO2019031306A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/23439Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • H04N21/2353Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/238Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
    • H04N21/2387Stream processing in response to a playback request from an end-user, e.g. for trick-play
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26258Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists for generating a list of items to be played back in a given order, e.g. playlist, or scheduling item distribution according to such list
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6587Control parameters, e.g. trick play commands, viewpoint selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/78Television signal recording using magnetic recording
    • H04N5/782Television signal recording using magnetic recording on tape
    • H04N5/783Adaptations for reproducing at a rate different from the recording rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback

Definitions

  • One aspect of the present invention is a generation device and generation method for generating data related to images of a plurality of viewpoints or gaze directions, a reproduction device and reproduction method for reproducing the data, and a control program and recording medium for generation or reproduction of the data About.
  • DASH Dynamic Adaptive Streaming over HTTP
  • MPEG Moving Picture Experts Group
  • MPD Media Presentation Description
  • the server side transmits to the client side even data of frame portions which are not necessary for high speed reproduction of the video. Therefore, the network between the server and the client was overloaded.
  • the client side also needs processing to identify frames to be thinned out (frames that are not necessary for reproduction), so the client's CPU is also overloaded.
  • One aspect of the present invention has been made in view of the above problems, and a main object thereof is to realize a generating device and a reproducing device capable of high-speed reproduction of video so as to reduce load on a network and a client. .
  • a generating device generates information for generating meta information related to reproduction of a partial video in an entire video including partial video of each of a plurality of viewpoints or gaze directions.
  • a data generation unit that generates data indicating a thinned-out image in which a part of the frames are thinned out from the partial image.
  • the playback device refers to the partial video or the partial video with reference to meta information related to playback of a partial video in the entire video including the partial video of each of a plurality of viewpoints or gaze directions.
  • a reproduction processing unit is provided which reproduces a thinned-out video in which a part of frames are thinned out from the partial video.
  • FIG. 7 is a diagram showing a process of generating MPD data according to the first embodiment.
  • FIG. 7 is a diagram for describing a part of processing of processing a captured image of a viewpoint P and generating a thinned image according to the first embodiment.
  • FIG. 8 is a diagram for describing a part of processing of generating a thinned-out image by processing a captured image of a viewpoint P according to the first embodiment.
  • 5 is a flowchart illustrating an operation of the generation device according to the first embodiment. 5 is a flowchart showing an operation of the reproduction device according to the first embodiment.
  • FIG. 16 is a diagram for describing a part of processing of processing a captured video of a viewpoint P and generating a thinned video according to a modification of the first embodiment.
  • FIG. 17 is a diagram for describing a part of processing of generating a thinned-out image by processing a captured image of a viewpoint P according to a modification of the first embodiment.
  • FIG. 8 is a diagram showing a process of generating MPD data according to the second embodiment.
  • FIG. 17 is a diagram for describing a part of processing of generating a thinned-out image by processing a captured image of a viewpoint P and a viewpoint Q according to the second embodiment.
  • 15 is a flowchart illustrating an operation of the generation device according to the second embodiment.
  • FIG. 17 is a diagram for describing a part of the process of generating a thinned-out image to which 3D model data is added according to a modification of the second embodiment. It is a figure regarding the process which produces
  • Embodiment 1 A multi-view video system (hereinafter simply referred to as “multi-view video system”) according to an embodiment of the present invention will be described below.
  • the multi-viewpoint video system reproduces at a high speed a certain shot video (a certain viewpoint video) in an entire video (a multi-viewpoint video) in which a plurality of shot video of each of a plurality of viewpoints surrounding a subject in a circle.
  • a viewpoint includes both a meaning corresponding to a virtual standing position of a user and a meaning directed to a gaze direction directed by the user.
  • the generating apparatus processes the captured video, generates a thinned-out video in which a part of the frames are thinned in advance, and the reproducing apparatus having received the high-speed playback operation on the captured video is the thinned-out video Is supposed to play.
  • the thing of the photography picture before processing is also called original picture.
  • the generation device is a server provided with a function (a plurality of cameras) for generating multi-view video itself in addition to the function for generating a thinned-out video from each viewpoint video (original video) constituting multi-view video.
  • the function is not essential in the present invention. It is assumed that the photographed multi-viewpoint image is stored in advance in a generation device (server) not having the function.
  • FIG. 1 is a functional block diagram of a generation device and a reproduction device according to the first embodiment.
  • the generation device 10 includes a control unit 11, a storage unit 12, and a transmission unit 19, and the reproduction device 20 includes a control unit 21, a storage unit 22, a display unit 23, and a reception unit 29.
  • the control unit 11 is a control circuit that controls the entire generation device 10, and functions as an information generation unit 111 and a data generation unit 112.
  • the control unit 21 is a control circuit that controls the entire playback apparatus 20 and functions as a playback processing unit 211.
  • the storage unit 12 is a storage device that holds data to be referred to or generated when, for example, the captured image is processed in the generation device 10.
  • the transmission unit 19 is, for example, a transmission circuit that transmits data to the reproduction device 20.
  • the information generation unit 111 generates meta information on reproduction of a certain captured video in a multi-view video.
  • the data generation unit 112 generates data indicating a thinned image from the original image.
  • the storage unit 22 is a storage device that holds data to be referred to when reproducing a video in the reproduction device 20.
  • the display unit 23 is a display panel on which an image reproduced based on a user operation is displayed.
  • the receiving unit 29 is, for example, a receiving circuit that receives data sent from the generation device 10.
  • the reproduction processing unit 211 reproduces the original video or a thinned video obtained by processing the original video according to the type of reproduction operation by the user (standard speed reproduction or high speed reproduction).
  • the generation apparatus and the reproduction apparatus do not necessarily have to be connected via a network as shown in FIG. 1, and the generation apparatus 10 and the reproduction apparatus 20 may be directly connected.
  • the storage unit 12 may exist outside the generation device 10, and the storage unit 22 and the display unit 23 may exist outside the reproduction device 20.
  • FIG. 2 is a diagram for describing processing for generating MPD data for reproducing the captured video at a certain viewpoint P at high speed and processing for reproducing the captured video at high speed with reference to the MPD data.
  • the shot video of the viewpoint P is one of a plurality of shot videos from a plurality of different viewpoints used to combine multi-view videos.
  • the MPD data is an example of the above-mentioned meta information related to the reproduction of the photographed video.
  • the media segment is a transmission unit of HTTP transmission (for example, data based on ISO Base Media File Format (ISOBMFF)) obtained by time-dividing the original video and the thinned video.
  • Each media segment includes an I (Intra, intra) frame, a P (Predictive, unidirectional prediction) frame, and a B (Bi-directional, bidirectional prediction) frame.
  • the MPD data and media segment will be described in more detail with reference to this figure.
  • the MPD data includes, as shown in FIG. 2, the MPD element 100, the Period element 110, the AdaptationSet element (120, 121), the Representation element (130, 131), the SegmentList element, and the SegmentURL element sequentially from the upper hierarchy element. It has a tree structure. Segment 1 (140-1), Segment n (140-n), Segment (141), etc. in FIG. 2 correspond to n SegmentURL elements included in the SegmentList element, and the SegmentList element is omitted in FIG. It is done.
  • At least two for the standard speed reproduction 120 and the high speed reproduction 121 exist as AdaptationSet elements for reproducing a photographed image of a certain viewpoint P.
  • each hierarchical element immediately below each hierarchical element is not limited to one, and varies depending on the size of video data to be handled and the like.
  • the MPD element may include one Period element as shown in FIG. 2 or may include multiple Period elements.
  • the AdaptationSet element usually includes a plurality of SegmentURL elements via the Representation element and the SegmentList element. That is, each Segment URL element (second information) included in the AdaptationSet element 120 for standard speed reproduction is one of n media segments among the n media segments in which the original video of the period indicated by the Period element, which is the upper layer, is time-divided It includes information (URL) indicating the acquisition destination of one corresponding video.
  • the SegmentURL element 141 (first information) is one of a plurality of media segments obtained by time division of a thinned image during a period indicated by a Period element that is an upper layer. And information (URL) indicating the acquisition destination of one corresponding video.
  • index information for example, index information of sidx box and ssix box included in each media segment will be described.
  • Each media segment of MPEG-DASH internally has information called a box such as styp, sidx, ssix, moof, etc. as meta information.
  • the sidx box stores an index specifying the position of a random access point (for example, an I frame) included in the corresponding media segment.
  • the L0 layer of the ssix box stores an index specifying the position of the I frame contained in the corresponding media segment
  • the L1 layer of the ssix box specifies the position of the P frame contained in the corresponding media segment Is stored. That is, in the case of specifying the position of an I frame included in a media segment, it may refer to the sidx box of the media segment itself or may refer to the L0 layer of the ssix box of the media segment itself.
  • FIG.3 and FIG.4 is a figure for demonstrating the process which processes the imaging
  • FIG. 5 is a flowchart showing the above operation of the generation device.
  • the data generation unit 112 specifies the position of the I frame for each of the n media segments included in the original image of the viewpoint P, which are recorded in the storage unit 12 using the method described above (S51). Then, as shown in FIG. 3, the data generation unit 112 can generate a frame (I frame, for example, I frame in FIG. 3) at a specified position from each of the n media segments (150-1, ..., 150-n). Frames (B frame, P frame) other than 1 and I 10 ) are thinned out (S 52).
  • I frame for example, I frame in FIG. 3
  • the data generation unit 112 generates a media segment 151 which forms a thinned image from n media segments (150-1 ′,..., 151-n ′) in which the B frame and the P frame are thinned. (S53).
  • the thinning video is configured so that the I frame at a position to be presented earlier in n media segments is presented earlier 1 Or generate multiple media segments.
  • the generation device 10 generates the above-described MPD data by performing the following processing in addition to the known MPD data generation processing.
  • the information generation unit 111 generates n SegmentURL elements (140-1,%) Indicating acquisition destinations of n media segments (150-1,..., 150-n) constituting the original image of the viewpoint P. , And 140-n) are described in the MPD data (S54). Further, the information generation unit 111 describes, in the MPD data, an AdaptationSet element 121 including one or more SegmentURL elements 141 indicating acquisition destinations of one or more media segments 151 constituting the thinned image of the viewpoint P (S55) ).
  • the above-described MPD data 100 for high-speed reproduction (and standard-speed reproduction) of the photographed image of the viewpoint P is recorded in the storage unit 12.
  • FIG. 6 is a flowchart showing the above operation of the playback apparatus.
  • the reproduction processing unit 211 determines the type of the received reproduction operation (S61). When the reproduction processing unit 211 determines that the operation of the standard reproduction (second operation) is received, the reproduction processing unit 211 refers to the AdaptationSet element 120 in the MPD data 100 recorded in the storage unit 22.
  • the playback processing unit 211 refers to the n SegmentURL elements (140-1,..., 140-n), and receives the n media segments (150-1,. ⁇ , 150-n) is acquired (S62).
  • the playback processing unit 211 plays back the acquired n media segments (150-1, ..., 150-n) at the standard speed in the order of the media segments 150-1, ..., the media segment 150-n (S63) .
  • the reproduction processing unit 211 determines that the high-speed reproduction operation (first operation) is received, the reproduction set unit 211 refers to the AdaptationSet element 121 (SegmentURL element 141) in the MPD data 100 recorded in the storage unit 22.
  • the segment 151 is acquired (S64).
  • the playback processing unit 211 plays back the acquired media segment 151 (thinning video) at standard speed (S65).
  • the playback device 20 may support low speed playback in addition to standard speed playback and high speed playback.
  • the playback device 20 that supports low-speed playback may execute the process of S62 even when an operation for low-speed playback is received, and may perform low-speed playback on the acquired n media segments.
  • the playback device 20 may execute the process of S64 to perform high-speed playback (thinning-down playback) of the acquired media segment 151 (thinning video).
  • FIG. 7 and FIG. 8 are diagrams for describing a modification of the process of processing the photographed image of the viewpoint P and generating a thinned image.
  • the data generation unit 112 refers to the L0 layer and the L1 layer of the ssix box of the media segment (150-1,..., 150-n) to select the I frame and P frame. Locate the frame.
  • the data generation unit 112 sets the frame (I frame and P frame, for example, I 1 and P 2 in FIG. 7) of the specified position from the n media segments (150-1,..., 150-n). Decimating frames (B frame) other than). As shown in FIG. 8, the data generation unit 112 is a media segment 151a that forms a thinned image from n media segments (150-1 ′ ′,..., 150-n ′ ′) in which B frames are thinned.
  • the amount of data generated is larger than when only I frames are used, but smoother and faster playback is realized compared to when only I frames are used can do.
  • the playback device does not play back the B frame which can not be played back until the bi-directional reference image is decoded at the time of high speed playback of the partial video. Even in the apparatus, the partial video can be reproduced at high speed.
  • the AdaptationSet element 121 may include a descriptor indicating that the AdaptationSet element 121 is information indicating the acquisition destination of the thinned image.
  • an EssentialProperty element or a SupplementalProperty element, or a mimeType attribute can be mentioned.
  • Modification 3 In the case where the generating apparatus 10 performs processing for generating a thinned image for high-speed reproduction and processing for describing an AdaptationSet element 121 for high-speed reproduction in MPD data according to the user's operation There may be cases where these processes are not performed.
  • the generation device 10 may describe an attribute value indicating that the AdaptationSet element 121 for high speed reproduction is included in the MPD data 100 in the Profile attribute of the MPD element. In the latter case, the generation device 10 may describe an attribute value indicating that the AdaptationSet element 121 for high speed reproduction is not included in the MPD data in the Profile attribute of the MPD element.
  • the playback device 20 can set the Profile attribute described in the MPD data corresponding to the multi-view video.
  • the processing may be switched based on the value.
  • the reproduction set 20 refers to the AdaptationSet element 121 and thins out the image generated from the original video. Images may be acquired and reproduced.
  • the reproduction device 20 refers to the AdaptationSet element 120 to acquire the original video and reproduce the high-speed video (between May be played back).
  • the information generation unit 111 generates the MPD data 100 related to reproduction of a certain captured video in a multi-view video including captured videos of a plurality of viewpoints.
  • the data generation unit 112 generates a media segment indicating a thinned-out video thinned out from a captured video (original video) having at least B frames.
  • the MPD data 100 includes an AdaptationSet element 121 (SegmentURL element 141) indicating the acquisition destination of the thinned image, which is referred to in response to the high-speed reproduction operation of the certain captured image, and the standard speed reproduction operation of the certain captured image.
  • An AdaptationSet element 120 (SegmentURL elements 140-1,..., 140-n) indicating the acquisition destination of the original video to be referred to is included.
  • the reproduction processing unit 211 reproduces the original video or the thinned video with reference to the MPD data 100.
  • the reproduction processing unit 211 acquires and reproduces a thinned image based on the AdaptationSet element 121 (Segment URL element 141) according to the high-speed reproduction operation, and is referred to according to the standard-speed reproduction operation. , And acquires and reproduces the original video based on the AdaptationSet element 120 (SegmentURL element 140-1,..., 140-n).
  • the above configuration it is possible to reduce the load on the network because the amount of data to be sent from the generation device 10 as the server to the reproduction device 20 as the client can be reduced by at least the data amount of B frame when performing high speed reproduction. . Furthermore, since it is not necessary to thin out the B frames at the time of high-speed reproduction on the reproducing device 20 side, high-speed reproduction can be performed with a small amount of CPU resources.
  • Second Embodiment Another embodiment of the present invention is described below with reference to FIGS. 1 and 9 to 13.
  • a case will be described in which a video from a viewpoint intermediate between a certain viewpoint P and a viewpoint Q is reproduced at high speed in a multi-viewpoint video system.
  • FIG. 9 illustrates a process of generating MPD data for reproducing an image from a viewpoint between a certain viewpoint P and a viewpoint Q at high speed, and a process of reproducing an imaged video at high speed with reference to the MPD data.
  • the viewpoint P and the viewpoint Q are viewpoints adjacent to the intermediate viewpoint (specific viewpoint).
  • each of the shot images of the viewpoint P and the viewpoint Q is one of a plurality of shot images (that is, original images) from a plurality of different viewpoints used to combine the multi-view images.
  • Segment 1 (240-1), Segment n (240-n), Segment 1 (241-1), Segment n (241-n), Segment (242), etc. correspond to n SegmentURL elements included in the SegmentList element.
  • the SegmentList element is omitted in FIG. 9 as in FIG.
  • AdaptationSet elements for standard speed reproduction AdaptationSets 220 and 221 exist as AdaptationSet elements for reproducing a photographed image of a certain viewpoint P and a viewpoint Q, respectively, and an image from a viewpoint between the viewpoint P and the viewpoint Q
  • AdaptationSet 222 for high speed playback to play back.
  • the MPD element may include one Period element as shown in FIG. 9 or a plurality of Period elements.
  • the AdaptationSet element usually includes a plurality of SegmentURL elements via the Representation element and the SegmentList element. That is, each of the SegmentURL elements (second information) included in the AdaptationSet elements 220 and 221 for normal speed reproduction is one of n media segments obtained by time-dividing the original video in the period indicated by the Period element, which is the upper layer. Information (URL) indicating the acquisition destination of one corresponding video.
  • the Segment URL element 242 (first information) is one or more of the viewpoint P and the viewpoint Q thinned during the period indicated by the Period element that is the upper layer time-divided.
  • Information (URL) indicating the acquisition source of one corresponding video among the media segments of
  • FIG. 10 is a diagram for describing a process of processing a captured image of the viewpoint P and the viewpoint Q to generate a thinned image.
  • FIG. 11 is a flowchart showing the above operation of the generation device.
  • the data generation unit 112 specifies the position of the I frame for each of 2n media segments recorded in the storage unit 12 using the method described above (S71). These 2 n media segments are obtained by referring to AdaptationSet elements 220 and 221 shown in FIG. 9, and 2 n media segments (250-1,..., 250-n, 251-1,... 251-n). Then, as shown in FIG. 10, the data generation unit 112 determines the position specified from the 2n media segments (250-1, ..., 250-n, 251-1, ..., 251-n). Frames (B frame, P frame) other than frames (I frame, for example, I1 and I10 in FIG. 10) are thinned out (S72).
  • the data generation unit 112 thins out some frames (B frames and P frames) from n media segments (250-1,..., 250-n) forming the original image of the viewpoint P. Similarly, the data generation unit 112 generates partial frames (B frames and P frames) generated at the same time as these partial frames into n media segments (251 of the source video of the viewpoint Q). Thinning out from -1, ..., 251-n).
  • the data generation unit 112 calculates 2n media segments (250-1 ', ..., 250-n', 251-1 ', ..., 251-n') in which the B frame and the P frame are thinned out. , To generate a media segment 252 that constitutes a decimated video.
  • one or more of the decimated videos are configured so that I-frames at positions to be presented earlier in n media segments are presented earlier.
  • the I frame (250-1 ',..., 250-n') derived from the media segment of the viewpoint P video in the above generation is an I frame derived from the media segment of the viewpoint Q video on track 1 of the media segment 252 (251-1 ',..., 251-n') are respectively stored in track 2 of the media segment 252 (S73).
  • the storage unit 12 apart from the 2n media segments in which the original images of the viewpoint P and the viewpoint Q are stored, thinned images in which B frames and P frames are thinned out from the original image of the viewpoint P
  • the thinned-out video in which the B-frame and the P-frame are thinned out from the original video of the viewpoint Q is to be recorded on another track of the media segment 252, respectively.
  • the reproducing apparatus 20 combines the viewpoint P and the viewpoint Q by combining the viewpoint P and the viewpoint Q according to a known method and / or a method described later in the specification.
  • a thinned image can be generated from an intermediate viewpoint.
  • the media segment 252 in which the thinned-out video of the viewpoint P and the thinned-out video of the viewpoint Q are stored stores the thinned-out video (a partial video of a specific viewpoint) from the viewpoint intermediate to the viewpoint P and the viewpoint Q It can be said that the media segment is
  • the generation device 10 generates the above-described MPD data by performing the following processing in addition to the known MPD data generation processing.
  • the information generation unit 111 generates n SegmentURL elements (240-1,...,..., Indicating acquisition destinations of n media segments (250-1,..., 250-n) constituting the original image of the viewpoint P. , 240-n) are described in the MPD data (S74) In addition, the information generation unit 111 also selects n SegmentURL elements (241-1) to indicate acquisition destinations of n media segments (251-1 to 251-n) constituting the original image of the viewpoint Q.
  • the information generation unit 111 includes, in the MPD data, an AdaptationSet element 222 including one or more SegmentURL elements 242 indicating acquisition destinations of one or more media segments 252 in which the viewpoint P and the viewpoint Q thinned image are stored. Describe (S76).
  • the above-mentioned MPD data 200 for reproducing the video from the middle viewpoint between the viewpoint P and the viewpoint Q at high speed and reproducing the photographed video of the viewpoint P and the viewpoint Q at standard speed is recorded in the storage unit 12 It becomes.
  • FIG. 12 is a flowchart showing the above operation of the playback apparatus.
  • the reproduction processing unit 211 determines the type of the received reproduction operation (S81).
  • the reproduction processing unit 211 determines that the operation (second operation) for standard reproduction of the video from the viewpoint P is received, the reproduction processing unit 211 refers to the AdaptationSet element 220 in the MPD data 100 recorded in the storage unit 22.
  • the playback processing unit 211 refers to the n SegmentURL elements (240-1,..., 240-n), and receives the n media segments (250-1,. ⁇ , 250-n) is acquired (S82).
  • the playback processing unit 211 plays back the acquired n media segments (250-1, ..., 250-n) at the standard speed in the order of the media segments 250-1, ..., the media segment 250-n (S83) .
  • the reproduction processing unit 211 determines that the operation (second operation) for standard reproduction of the video from the viewpoint Q is received, the reproduction processing unit 211 refers to the AdaptationSet element 221 in the MPD data 100 recorded in the storage unit 22.
  • the playback processing unit 211 refers to the n SegmentURL elements (241-1,..., 241-n), and receives the n media segments (251-1,. ⁇ , 251-n) is obtained (S84).
  • the playback processing unit 211 plays back the acquired n media segments (250-1, ..., 250-n) at the standard speed in the order of the media segments 250-1, ..., the media segment 250-n (S85) .
  • the reproduction processing unit 211 receives an operation (first operation) for reproducing an image from the viewpoint between the viewpoint P and the viewpoint Q at high speed
  • the MPD data 200 recorded in the storage unit 22.
  • the media segment 252 is acquired with reference to the AdaptationSet element 222 (Segment URL element 242) in step S86 (S86).
  • the playback processing unit 211 performs viewpoint synthesis on the thinned-out image of the viewpoint P and the thinned-out image of the viewpoint Q included in the media segment 252.
  • the playback processing unit 211 plays back the thinned video from the intermediate viewpoint generated by this as a standard speed. It will be as follows if these processes (S87) are explained more concretely.
  • the reproduction processing unit 211 generates a stereo image from a pair of I frames generated (photographed) at the same time (I frame included in the thinned image of the viewpoint P and I frame included in the thinned image of the viewpoint Q) By using a depth map (depth information) obtained by an existing method such as matching, an image of an intermediate viewpoint of the viewpoint P and the viewpoint Q is synthesized. As a result, the reproduction processing unit 211 obtains a frame group (image group) forming a thinned image of the intermediate viewpoint of the viewpoint P and the viewpoint Q. The playback processing unit 211 sequentially combines the combined frames (frames forming the thinned image) so that the combined frame (image) from the pair of I frames generated (photographed) earlier can be more quickly reproduced. Reproduce.
  • the reproduction processing unit 211 receives an operation (second operation) to reproduce an image from a viewpoint intermediate between the viewpoint P and the viewpoint Q at standard speed.
  • the AdaptationSet element 220 and the AdaptationSet element 221 in the MPD data 200 recorded in the storage unit 22 are referred to.
  • the playback processing unit 211 refers to the n SegmentURL elements (240-1,..., 240-n), and receives the n media segments (250-1,. .. 250-n) and at the same time refer to the n SegmentURL elements (241-1... 241-n) and receive n media segments (251-1. ⁇ , Acquire 251-n).
  • the playback processing unit 211 performs view synthesis based on the acquired n media segments (250-1, ..., 250-n) and the acquired n media segments (251-1, ..., 251-n). Do to play.
  • FIG. 13 is a view showing an example of a media segment related to high-speed reproduction of an image from a viewpoint intermediate between viewpoints P and Q.
  • viewpoint synthesis process in order to perform viewpoint synthesis with higher accuracy, three-dimensional model data is further used in the viewpoint synthesis process. That is, regarding the image of the subject included in the multi-viewpoint image, the generation device 10 generates a media segment for high-speed reproduction that includes three-dimensional model data indicating the image, and transmits the media segment to the reproduction device 20.
  • the initialization segment may be used as an area for storing three-dimensional model data.
  • the configuration according to the present modification saves the resources of the reproduction device 20 while reproducing the image in which the way of seeing the subject from the intermediate viewpoint is faithfully reproduced, and the time and effort of the user of the reproduction device 20 It can be said that it can be reduced.
  • FIG. 12 is a flowchart showing the above operation of the playback apparatus.
  • step S86 is the same as that of the second embodiment.
  • an image of an intermediate viewpoint between viewpoint P and viewpoint Q (the viewpoint does not change with the passage of time) is synthesized, but in the present embodiment, any image between viewpoint P and viewpoint Q is synthesized.
  • the second embodiment differs from the second embodiment in that images of viewpoints (the viewpoints change as time passes) are synthesized.
  • the reproduction processing unit 211 performs stereo matching or the like from a pair of I frames generated (photographed) at the same time (I frame included in the thinned image of the viewpoint P and I frame included in the thinned image of the viewpoint Q)
  • An image of an arbitrary viewpoint between the viewpoint P and the viewpoint Q is synthesized by using a depth map (depth information) obtained by the existing method.
  • the moving speed is not necessarily limited to be uniform. Even if the time required for moving the viewpoint is the same, for example, the configuration may be such that the video of the viewpoint closer to the viewpoint P is reproduced for a longer time than the video of the viewpoint closer to the viewpoint Q.
  • the reproduction processing unit 211 obtains a frame group (image group) constituting the thinned video.
  • the playback processing unit 211 sequentially combines the combined frames (frames forming the thinned image) so that the combined frame (image) from the pair of I frames generated (photographed) earlier can be more quickly reproduced. Reproduce.
  • the user can view the image of the subject as if the user is browsing the state of the subject while actually moving from the point where the viewpoint P is located to the point where the viewpoint Q is located. It looks as if the viewpoint moved smoothly from the viewpoint P to the viewpoint Q like an animation.
  • the generation device 10 may include information indicating that the data is data for high-speed reproduction in various data constituting the thinned image.
  • a media segment is mentioned as an example of said various data.
  • the generating device 10 may include the above information in the styp box of each media segment.
  • Embodiments 2 and 3 are embodiments according to a multi-viewpoint video system that reproduces a multi-viewpoint image in which captured images of each of a plurality of viewpoints surrounding a subject in a circle are combined.
  • the technical matters disclosed in the second and third embodiments can be applied to a multi-viewpoint video system in which photographed images of each of a plurality of viewpoints which spherically surround a subject are combined.
  • the generation device generates, for example, MPD data and media segment groups for high-speed reproduction of video from a certain viewpoint surrounded by four adjacent viewpoints.
  • the data in each media segment may be a group of frames relating to high-speed reproduction derived from the four viewpoints stored in one to four tracks of the media segment.
  • the playback apparatus acquires the media segment group with reference to the SegmentURL group included in the AdaptationSet used for the high speed playback described in the MPD data.
  • the playback apparatus performs the high-speed playback using frames derived from four viewpoints stored in four tracks of each media segment acquired. ⁇ Other supplementary items>
  • the present invention is not limited to the above-described Embodiments 1 to 3 and each modification.
  • first to third embodiments are embodiments relating to reproduction of a partial image in a multi-view image, but in an entire image (for example, an omnidirectional image) including partial images of each of a plurality of viewing directions.
  • Embodiments relating to playback of partial images are also included in the scope of the present invention.
  • control block in particular, the control unit 11 and the storage unit 12
  • control block in particular, the control unit 21 and the storage unit 22 of the reproduction device 20 are logic circuits (hardware) formed in an integrated circuit (IC chip) or the like. Hardware) or software.
  • the generation device 10 includes a computer that executes instructions of a program that is software that implements each function.
  • the computer includes, for example, at least one processor (control device) and at least one computer readable storage medium storing the program.
  • the processor reads the program from the recording medium and executes the program to achieve the object of the present invention.
  • a CPU Central Processing Unit
  • the above-mentioned recording medium a tape, a disk, a card, a semiconductor memory, a programmable logic circuit or the like can be used besides “a non-temporary tangible medium”, for example, a ROM (Read Only Memory).
  • a RAM Random Access Memory
  • the program may be supplied to the computer via any transmission medium (communication network, broadcast wave, etc.) capable of transmitting the program.
  • any transmission medium communication network, broadcast wave, etc.
  • one aspect of the present invention can also be realized in the form of a data signal embedded in a carrier wave in which the program is embodied by electronic transmission.
  • the generation device 10 includes an information generation unit 111 that generates meta information related to reproduction of a partial video in a whole video including partial video of each of a plurality of viewpoints or gaze directions; A data generation unit 112 for generating data indicating a thinned-out video thinned out from the partial video, and the meta information is referred to in response to a first operation for reproducing the partial video at high speed.
  • the acquisition source of the partial video referred to in accordance with the second information indicating the acquisition source of the thinned video and the second operation for reproducing the partial video at a lower speed than the first operation; And second information indicating.
  • the generation device 10 that enables high-speed reproduction of video that reduces the load on the network and the client.
  • the entire image is a multi-view image obtained by combining photographed images of each of the plurality of viewpoints
  • the partial image is a plurality of the plurality
  • the image may be a captured image captured from a certain viewpoint among the viewpoints of.
  • the entire video is a multi-view video obtained by combining the captured video of each of the plurality of viewpoints
  • the partial video is a specific video
  • the data generation unit 112 includes a part of the frames To thin out the first captured video and include the respective video data obtained by thinning out a part of the frames generated at the same time as the partial frame from the second captured video. May be configured to generate data indicating.
  • the data generation unit 112 further includes three-dimensional model data of the subject with respect to the image of the subject included in the partial video of the specific viewpoint. As described above, the data indicating the thinned image may be generated.
  • At least a B (Bi-Predictive) frame is included in the partial frame. Good.
  • the playback device 20 does not play back the B frame which can not be played back until the bi-directional reference image is decoded at the time of the high speed playback of the partial video.
  • the effect is that even a low-speed playback device can play back partial images at high speed.
  • the metadata is MPD data defined by DASH (Dynamic Adaptive Streaming over HTTP), and the thinned image is
  • the indicated data is one or more DASH-defined media segments
  • the first information is one or more DASH-defined SegmentURL elements included in the DASH-defined AdaptationSet element, wherein the AdaptationSet element
  • the configuration may include a descriptor indicating that the AdaptationSet element is information indicating the acquisition destination of the thinned image.
  • the same effect as that of the aspect 1 can be obtained, and the effect that the AdaptationSet can easily be confirmed as information indicating the acquisition destination of the thinned image is obtained.
  • the playback device 20 refers to the partial video or the partial video with reference to meta information on playback of a partial video in the entire video including the partial video of each of a plurality of viewpoints or gaze directions.
  • a reproduction processing unit 211 for reproducing a thinned-out video thinned out from the partial video, and the meta information includes: first information indicating an acquisition destination of the thinned-out video; The reproduction processing unit 211 acquires the thinning-out image acquired based on the first information in accordance with the first operation for reproducing the partial video at high speed. , And in response to a second operation for reproducing the partial video at a lower speed than the first operation, the partial video acquired based on the second information is reproduced.
  • the whole video is a multi-view video obtained by combining the captured video of each of the plurality of viewpoints, and the certain partial video is the plurality
  • the image may be a captured image captured from a certain viewpoint among the viewpoints of.
  • the entire video is a multi-view video obtained by combining the captured video of each of the plurality of viewpoints
  • the certain partial video is a specific video
  • the reproduction processing unit 211 is configured to Thinning out the first captured video and including each video data obtained by thinning out a part of the frames generated at the same time as the partial frame from the second captured video Data indicating the first video data with reference to the first information
  • the reproduction processing unit 211 is configured to transmit the frame included in one of the video data and the frame included in the other video data at the same time.
  • Raw The image of a particular viewpoint and frame obtained by synthesis is sequentially reproduced, it may be configured.
  • At least a B (Bi-Predictive) frame is included in the part of the frames. Good.
  • the playback device 20 does not play back the B frame which can not be played back until the bi-directional reference image is decoded at the time of the high speed playback of the partial video.
  • the effect is that even a low-speed playback device can play back partial images at high speed.
  • the metadata is MPD data defined by DASH (Dynamic Adaptive Streaming over HTTP), and the thinned image is
  • the indicated data is one or more DASH-defined media segments
  • the first information is one or more DASH-defined SegmentURL elements included in the DASH-defined AdaptationSet element, wherein the AdaptationSet element
  • the configuration may include a descriptor indicating that the AdaptationSet element is information indicating the acquisition destination of the thinned image.
  • the playback device 20 according to the aspect 11 can immediately specify the AdaptationSet indicating the acquisition destination of the thinned image to be acquired and reproduced when the first operation is received. Therefore, the reproduction apparatus 20 according to the eleventh aspect has an advantage that the time lag from the reception of the first operation to the start of reproduction of the thinned image is short.
  • the control program according to aspect 12 of the present invention may be a control program for causing a computer to function as the generation device 10 according to aspect 1 described above, and may be configured to cause the computer to function as the generation device 10.
  • the control program according to aspect 13 of the present invention may be a control program for causing a computer to function as the reproduction device 20 according to aspect 7 and may be configured to cause the computer to function as the reproduction device 20.
  • a generation method is a generation method executed by a device, which generates meta information related to reproduction of a partial video in an entire video including partial video of each of a plurality of viewpoints or gaze directions.
  • the first information indicating the acquisition destination of the thinned image which is referred to in accordance with the operation of 1, and the second operation of causing the partial video to be reproduced at a lower speed than the first operation.
  • a second information indicating an acquisition destination of the certain partial image.
  • a reproduction method is a reproduction method executed by the device, and refers to meta information related to reproduction of a partial video in the entire video including partial video of each of a plurality of viewpoints or gaze directions. And a reproduction step of reproducing a thinned-out video in which the partial video or a part of the frames is thinned out from the partial video, and the meta information indicates a first acquisition destination of the thinned-out video. And the second information indicating the acquisition destination of the certain partial video, and the thinning video is displayed based on the first information in response to the first operation for reproducing the certain partial video at high speed.
  • a second acquisition of acquiring the partial video based on the second information in response to a first acquiring step of acquiring and a second operation of reproducing the partial video at a lower speed than the first operation;
  • a method comprising the steps of:
  • the recording medium according to aspect 16 of the present invention may be a computer readable recording medium having the control program according to aspect 12 recorded thereon.
  • the recording medium according to aspect 17 of the present invention may be a computer readable recording medium having the control program according to aspect 13 recorded thereon.
  • FIG. 14 is a diagram related to a process of generating a thinned image in the embodiment according to such a combination.
  • the system according to this embodiment thins out only the B frame from the captured image of the viewpoint P, and thins out only the B frame from the captured image of the viewpoint Q, thereby adjoining the viewpoint P and the viewpoint Q. It is possible to generate and play back a reduced view image.
  • the system may reproduce each frame of the thinned image without thinning, it is also possible to reproduce only the I frame of the thinned image (that is, to thin the P frame at the time of reproduction). Good.
  • control unit control device
  • storage unit 20
  • playback device 21

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

ネットワークとクライアントに対する負荷を軽減させるような映像の高速再生を可能にする生成装置及び再生装置を実現する。上記の課題を解決するために、本発明の一態様に係る生成装置(10)は、複数の視点又は視線方向の各々の部分映像を含む全体映像における、ある部分映像の再生に関するメタ情報を生成する情報生成部(111)と、一部のフレームが前記ある部分映像から間引かれた間引映像を示すデータを生成するデータ生成部(112)とを備える。また、本発明の一態様に係る再生装置(20)は、複数の視点又は視線方向の各々の部分映像を含む全体映像における、ある部分映像の再生に関するメタ情報を参照して、該ある部分映像、又は、一部のフレームが該ある部分映像から間引かれた間引映像を再生する再生処理部(211)を備える。

Description

生成装置、再生装置、生成方法、再生方法、制御プログラム、記録媒体
 本発明の一態様は、複数の視点又は視線方向の映像に関するデータを生成する生成装置及び生成方法、該データを再生する再生装置及び再生方法、並びに該データの生成又は再生に関する制御プログラム及び記録媒体に関する。
 従来、同じ位置に設置した複数のカメラで撮影した撮影映像を合成することによって上下左右360度の全方位又は全方位に準ずる範囲の映像(全天球映像)を生成する技術がある。類似の技術として、異なる位置に設置した複数のカメラ(視点)で同じ被写体を撮影した撮影映像を合成することによって多視点映像を生成する技術も存在する。
 また、近年、映像を配信するための様々な技術が開発されている。映像を配信するための技術としては、MPEG(Moving Picture Experts Group)にて現在標準化作業が進められているDASH(Dynamic Adaptive Streaming over HTTP)が挙げられる(非特許文献1)。DASHでは、MPD(Media Presentation Description)データ等のメタデータのフォーマットが規定されている。
ISO/IEC 23009-1 Second edition 2014-05-15
 従来、サーバ上に存在する映像であって、多視点映像における特定の視点からの映像をクライアント側の端末が高速再生するケースとして、一部のフレームを間引くことによって高速再生を行うケースがあった。このような高速再生には以下のような問題があった。
 即ち、サーバ側からクライアント側へ該映像の高速再生に必要が無いフレーム部分のデータまで送信していた。そのため、サーバとクライアント間のネットワークに余分な負荷がかかっていた。
 さらに、クライアント側でも、間引くべきフレーム(再生に必要がないフレーム)を特定する処理も必要であったため、クライアントのCPUにも余分な負荷がかかっていた。
 本発明の一様態は以上の課題に鑑みてなされたものであり、ネットワークとクライアントに対する負荷を軽減させるような映像の高速再生を可能にする生成装置及び再生装置を実現することを主たる目的とする。
 上記の課題を解決するために、本発明の一態様に係る生成装置は、複数の視点又は視線方向の各々の部分映像を含む全体映像における、ある部分映像の再生に関するメタ情報を生成する情報生成部と、一部のフレームが前記ある部分映像から間引かれた間引映像を示すデータを生成するデータ生成部とを備える。また、本発明の一態様に係る再生装置は、複数の視点又は視線方向の各々の部分映像を含む全体映像における、ある部分映像の再生に関するメタ情報を参照して、該ある部分映像、又は、一部のフレームが該ある部分映像から間引かれた間引映像を再生する再生処理部を備える。
 本発明の一態様によれば、ネットワークとクライアントに対する負荷を軽減させるような映像の高速再生を可能にする生成装置及び再生装置を実現できる。
本発明の実施形態1に係る生成装置と再生装置の機能ブロック図である。 実施形態1に係るMPDデータを生成する処理等を示す図である。 実施形態1に係る、視点Pの撮影映像を加工して間引映像を生成する処理の一部について、説明するための図である。 実施形態1に係る、視点Pの撮影映像を加工して、間引映像を生成する処理の一部について説明するための図である。 実施形態1に係る生成装置の一動作を示すフローチャートである。 実施形態1に係る再生装置の一動作を示すフローチャートである。 実施形態1の変形例に係る、視点Pの撮影映像を加工して間引映像を生成する処理の一部について、説明するための図である。 実施形態1の変形例に係る、視点Pの撮影映像を加工して、間引映像を生成する処理の一部について説明するための図である。 実施形態2に係るMPDデータを生成する処理等を示す図である。 実施形態2に係る、視点P及び視点Qの撮影映像を加工して、間引映像を生成する処理の一部について説明するための図である。 実施形態2に係る生成装置の一動作を示すフローチャートである。 実施形態2に係る再生装置の一動作を示すフローチャートである。 実施形態2の変形例に係る3次元モデルデータを付加した間引映像を生成する処理の一部について説明するための図である。 その他の実施形態における間引映像を生成する処理に関する図である。
 以下、本発明の実施形態について図1~図14に基づいて説明すれば以下の通りである。
 〔実施形態1〕
 本発明の一実施形態に係る多視点映像システム(以下、単に「多視点映像システム」と称する)について、以下に説明する。
 多視点映像システムは、被写体を円状に取り囲む複数の視点の各々の撮影映像が合成された全体映像(多視点映像)におけるある撮影映像(ある視点映像)を高速再生する。なお、本明細書において視点とはユーザの仮想的な立ち位置に相当する場所という意味と該ユーザが向ける視線方向という意味の両方を包含する。
 本実施形態では、生成装置が、撮影映像を加工して、一部のフレームが予め間引かれた間引映像を生成し、撮影映像に対する高速再生の操作を受け付けた再生装置は、間引映像を再生するようになっている。以下では、加工前の撮影映像のことを元映像とも称する。
 なお、生成装置は、多視点映像を構成する各視点映像(元映像)から間引映像を生成する機能に加え、多視点映像自体を生成する機能(複数台のカメラ)を備えたサーバであってもよい。ただし、該機能(複数台のカメラ)は本発明において必須ではない。該機能を備えていない生成装置(サーバ)には、撮影済の多視点映像を予め保存しておくものとする。
 [1.生成装置10と再生装置20の構成]
 図1は実施形態1に係る生成装置と再生装置の機能ブロック図である。
 生成装置10は制御部11、記憶部12、及び送信部19を備えており、再生装置20は制御部21、記憶部22、表示部23及び受信部29を備えている。制御部11は、生成装置10全体を統括する制御回路であり、情報生成部111とデータ生成部112として機能する。また、制御部21は、再生装置20全体を統括する制御回路であり、再生処理部211として機能する。
 記憶部12は、生成装置10において撮影映像を加工する場合等に参照又は生成するデータを保持する記憶装置である。送信部19は、例えば再生装置20にデータを送信する送信回路である。
 情報生成部111は多視点映像における、ある撮影映像の再生に関するメタ情報を生成する。
 データ生成部112は元映像から間引映像を示すデータを生成する。
 記憶部22は再生装置20において映像を再生する際に参照すべきデータを保持する記憶装置である。表示部23はユーザの操作に基づき再生された映像が表示される表示パネルである。受信部29は例えば生成装置10から送られたデータを受信する受信回路である。
 再生処理部211は、ユーザによる再生操作の種類(標準速再生、又は、高速再生)に応じて、元映像、又は、元映像を加工した間引映像を再生する。なお、必ずしも図1のように生成装置と再生装置の間にネットワークを介しているとは限らず、生成装置10と再生装置20が直接的に接続されていても構わない。また、記憶部12は生成装置10の外部に、記憶部22及び表示部23は再生装置20の外部にそれぞれ存在していても構わない。
 [2.MPDデータ及びメディアセグメントについて]
 図2は、ある視点Pの撮影映像を高速再生するためのMPDデータを生成する処理、及び、MPDデータを参照して撮影映像を高速再生する処理について、説明するための図である。なお、視点Pの撮影映像は、多視点映像を合成するために使用した、異なる複数の視点からの複数の撮影映像のうちの1つである。
 MPDデータは、撮影映像の再生に関する前述のメタ情報の一例である。また、メディアセグメントは、元映像及び間引映像を時分割したHTTP伝送の伝送単位(例えば、ISOBMFF(ISO Base Media File Format)をベースにしたデータ)である。各メディアセグメントは、I(Intra、イントラ)フレーム、P(Predictive、片方向予測)フレーム、及び、B(Bi-directional、双方向予測)フレームを含んでいる。
 この図を参照して、MPDデータ及びメディアセグメントについてもう少し具体的に説明する。MPDデータは、図2のように、上位の階層要素から順に、MPD要素100、Period要素110、AdaptationSet要素(120、121)、Representation要素(130、131)、SegmentList要素、及び、SegmentURL要素を含む木構造となっている。なお、図2におけるSegment 1(140-1)、Segment n(140-n)、Segment(141)等はSegmentList要素に含まれるn個のSegmentURL要素に相当し、SegmentList要素は、図2においては省略されている。
 本実施形態では、ある視点Pの撮影映像を再生するためのAdaptationSet要素として、少なくとも標準速再生用120と高速再生用121との2つが存在する。
 なお、各階層要素が含む直下の階層要素のデータの数は1つとは限らず、扱う映像データサイズ等によって異なる。例えば、MPD要素は、図2のように1つのPeriod要素を含むことも、複数のPeriod要素を含むこともあり得る。AdaptationSet要素はRepresentation要素及びSegmentList要素を介して通常複数のSegmentURL要素を含んでいる。即ち、標準速再生用のAdaptationSet要素120に含まれる各SegmentURL要素(第2の情報)は、上位階層であるPeriod要素が示す期間の元映像が時分割されたn個のメディアセグメントのうちの、対応する1つの映像の取得先を示す情報(URL)を含んでいる。
 また、高速再生用のAdaptationSet要素121においては、SegmentURL要素141(第1の情報)が、上位階層であるPeriod要素が示す期間の間引映像が時分割された1又は複数のメディアセグメントのうちの、対応する1つの映像の取得先を示す情報(URL)を含んでいる。
 以下、各メディアセグメントが有するインデックス情報(例えばsidxボックスやssixボックスのインデックス情報)について説明する。
 MPEG-DASHの各メディアセグメントはメタ情報として内部にstyp,sidx,ssix,moof等のボックスと呼ばれる情報を有している。このうちsidxボックスには対応するメディアセグメントに含まれるランダムアクセスポイント(例えば、Iフレーム)の位置を特定するインデックスが格納されている。ssixボックスのL0レイヤーには対応するメディアセグメントに含まれるIフレームの位置を特定するインデックスが格納されており、ssixボックスのL1レイヤーには対応するメディアセグメントに含まれるPフレームの位置を特定するインデックスが格納されている。即ち、メディアセグメントが含むIフレームの位置を特定する場合には、そのメディアセグメント自身のsidxボックスを参照してもいいし、そのメディアセグメント自身のssixボックスのL0レイヤーを参照しても構わない。
 [3.生成装置10における処理の流れ]
 以下、生成装置10が前述のMPDデータ及び間引映像を生成する動作について、図2~図5を参照しながら説明する。図3及び図4は、視点Pの撮影映像を加工して、間引映像を生成する処理について説明するための図である。図5は、生成装置の上記動作を示すフローチャートである。
 データ生成部112は、記憶部12に記録されている、視点Pの元映像を構成するn個のメディアセグメントの各々について、前述の方法を用いてIフレームの位置を特定する(S51)。そして、図3に示すように、データ生成部112は、n個の各メディアセグメント(150-1、・・、150-n)から、特定した位置のフレーム(Iフレーム、例えば、図3のI1及びI10)以外のフレーム(Bフレーム、Pフレーム)を間引く(S52)。
 そして、データ生成部112は、Bフレーム及びPフレームが間引かれたn個のメディアセグメント(150-1’、・・、151-n’)から、間引映像を構成するメディアセグメント151を生成する(S53)。具体的には、図3及び図4からわかるように、n個のメディアセグメントにおいてより早く提示されるべき位置にあるIフレームがより早い時期に提示されるように、間引映像を構成する1又は複数のメディアセグメントを生成する。
 その結果、記憶部12には、視点Pの元映像とは別に、元映像からBフレーム及びPフレームが間引かれた間引映像が記録されることとなる。
 その後、生成装置10は、公知のMPDデータの生成処理に加えて以下の処理を行うことによって、前述のMPDデータを生成する。
 即ち、情報生成部111は、視点Pの元映像を構成するn個のメディアセグメント(150-1、・・、150-n)の取得先を示すn個のSegmentURL要素(140-1、・・、140-n)を含むAdaptationSet要素120をMPDデータに記述する(S54)。更に、情報生成部111は、視点Pの間引映像を構成する1つ以上のメディアセグメント151の取得先を示す1つ以上のSegmentURL要素141を含むAdaptationSet要素121をMPDデータ内に記述する(S55)。
 その結果、視点Pの撮影映像を高速再生(及び標準速再生)するための前述のMPDデータ100が記憶部12に記録されることとなる。
 [4.再生装置20における処理の流れ]
 以下、前述のMPDデータ100を参照して、ある視点Pの撮影映像を再生する操作を受けつけた場合の再生装置20の動作について、図2及び図6を参照しながら説明する。図6は、再生装置の上記動作を示すフローチャートである。
 まず、再生処理部211は、受け付けた再生操作の種類を判定する(S61)。再生処理部211は、標準再生の操作(第2の操作)を受け付けたと判定した場合、記憶部22に記録されているMPDデータ100におけるAdaptationSet要素120を参照する。
 具体的には、再生処理部211は、n個のSegmentURL要素(140-1、・・、140-n)を参照し、受信部29を介して、n個のメディアセグメント(150-1、・・、150-n)を取得する(S62)。
 再生処理部211は、取得したn個のメディアセグメント(150-1、・・、150-n)を、メディアセグメント150-1、・・、メディアセグメント150-nの順に標準速再生する(S63)。
 一方、再生処理部211は、高速再生の操作(第1の操作)を受け付けたと判定した場合、記憶部22に記録されているMPDデータ100におけるAdaptationSet要素121(SegmentURL要素141)を参照し、メディアセグメント151を取得する(S64)。
 再生処理部211は、取得したメディアセグメント151(間引映像)を標準速再生する(S65)。
 なお、再生装置20は、標準速再生、高速再生に加え、低速再生をサポートしていてもよい。低速再生をサポートする再生装置20では、低速再生の操作を受け付けた場合にもS62の工程を実行し、取得したn個のメディアセグメントを低速再生してもよい。
 また、再生装置20は、高速再生の操作を受け付けた場合に、S64の工程を実行し、取得したメディアセグメント151(間引映像)を高速再生(間引再生)してもよい。
 (変形例1)
 図7及び図8を参照して、本実施形態の変形例について説明する。図7及び図8は、視点Pの撮影映像を加工して、間引映像を生成する処理の変形例について説明するための図である。
 本変形例では、データ生成部112は、図7に示すように、メディアセグメント(150-1、・・、150-n)のssixボックスのL0レイヤー及びL1レイヤーを参照して、Iフレーム及びPフレームの位置を特定する。
 そして、データ生成部112は、n個の各メディアセグメント(150-1、・・、150-n)から、特定した位置のフレーム(Iフレーム及びPフレーム、例えば、図7のI1及びP2)以外のフレーム(Bフレーム)を間引く。データ生成部112は、図8に示すように、Bフレームが間引かれたn個のメディアセグメント(150-1”、・・、150-n”)から、間引映像を構成するメディアセグメント151aを生成する。
 その結果、記憶部12には、視点Pの元映像とは別に、元映像からBフレームのみが間引かれた間引映像が記録されることとなる。
 Pフレームもメディアセグメントの生成に使用した場合、生成したデータ量はIフレームのみを使用した場合と比較して大きくなるが、Iフレームのみを使用した場合と比較してより滑らかな高速再生を実現することができる。いずれにしても、少なくともBフレームを間引くことによって、再生装置側では、部分映像の高速再生の際に、双方向の参照画像を復号するまで再生できないBフレームを再生しないので、デコード能力の低い再生装置であっても部分映像を高速に再生できるという効果を奏する。
 (変形例2)
 AdaptationSet要素121には、AdaptationSet要素121が間引映像の取得先を示す情報であることを示す記述子を含んでいてもよい。
 このような記述子としては、例えば、EssentialProperty要素若しくはSupplementalProperty要素、又は、mimeType属性が挙げられる。
 (変形例3) 生成装置10には、ユーザの操作に応じて、高速再生用の間引映像を生成する処理と、高速再生用のAdaptationSet要素121をMPDデータに記述する処理と、を行う場合と、これらの処理を行わない場合と、があってもよい。
 前者の場合には、生成装置10は、MPD要素のProfile属性に、高速再生用のAdaptationSet要素121がMPDデータ100に含まれていることを示す属性値を記述してもよい。また、後者の場合には、生成装置10は、MPD要素のProfile属性に、高速再生用のAdaptationSet要素121がMPDデータに含まれていないことを示す属性値を記述してもよい。
 そして、再生装置20は、ある多視点映像に含まれるある視点映像(元映像)を高速再生する操作を受け付けた場合に、その多視点映像に対応するMPDデータに記述されている上記Profile属性の値に基づき処理を切り替えてもよい。
 すなわち、再生装置20は、属性値が高速再生用のAdaptationSet要素121がMPDデータ100に含まれていることを示す場合には、AdaptationSet要素121を参照して、前記元映像から生成された間引映像を取得及び再生してもよい。一方、再生装置20は、属性値が高速再生用のAdaptationSet要素121がMPDデータ100に含まれていないことを示す場合には、AdaptationSet要素120を参照して、元映像を取得及び高速再生(間引再生)してもよい。
 なお、上述の変形例1~変形例3は、後述の各実施形態にも適用可能である。
 (本実施形態の利点)
 以上のように、生成装置10では、情報生成部111が、複数の視点の撮影映像を含む多視点映像における、ある撮影映像の再生に関するMPDデータ100を生成する。
 また、データ生成部112が、少なくともBフレームがある撮影映像(元映像)から間引かれた間引映像を示すメディアセグメントを生成する。
 MPDデータ100は、前記ある撮影映像の高速再生操作に応じて参照される、間引映像の取得先を示すAdaptationSet要素121(SegmentURL要素141)と、前記ある撮影映像の標準速再生操作に応じて参照される、元映像の取得先を示すAdaptationSet要素120(SegmentURL要素140-1、・・、140-n)と、を含んでいる。
 また、再生装置20では、再生処理部211が、MPDデータ100を参照し、元映像又は間引映像を再生する。
 具体的には、再生処理部211は、前記高速再生操作に応じて、AdaptationSet要素121(SegmentURL要素141)に基づいて間引映像を取得及び再生し、前記標準速再生操作に応じて参照される、AdaptationSet要素120(SegmentURL要素140-1、・・、140-n)に基づいて元映像を取得及び再生する。
 上記の構成によれば、高速再生を行う場合においてサーバである生成装置10側からクライアントである再生装置20側に送出するデータ量を少なくともBフレームのデータ量だけ削減できるのでネットワークの負荷を軽減できる。更に再生装置20側では、高速再生の際にBフレームを間引く必要がないため、少ないCPUのリソースで高速再生することができる。
 〔実施形態2〕
 本発明の他の実施形態について、図1及び図9~図13に基づいて説明すれば以下のとおりである。本実施形態においては、多視点映像システムにおいて、ある視点Pと視点Qとの中間の視点からの映像を高速再生する場合について説明する。
 [1.生成装置10と再生装置20の構成]
 本実施形態においても実施形態1の場合と同様に図1の構成を用いる。
 [2.MPDデータ及びメディアセグメントについて]
 図9は、ある視点Pと視点Qとの中間の視点からの映像を高速再生するためのMPDデータを生成する処理、及び、MPDデータを参照して撮影映像を高速再生する処理について、説明するための図である。なお、視点P及び視点Q(第1の視点及び第2の視点)は、該中間の視点(特定の視点)に隣接する視点である。また、視点P及び視点Qの撮影映像の各々は、多視点映像を合成するために使用した、異なる複数の視点からの複数の撮影映像(即ち、元映像)のうちの1つである。
 Segment 1(240-1)、Segment n(240-n)、Segment 1(241-1)、Segment n(241-n)及びSegment(242)等はSegmentList要素に含まれるn個のSegmentURL要素に相当し、SegmentList要素は、図2同様、図9においても省略されている。
 本実施形態では、ある視点Pと視点Qとの撮影映像を再生するためのAdaptationSet要素として、標準速再生用AdaptationSet220と221とがそれぞれ存在し、視点Pと視点Qとの中間の視点からの映像を再生するための高速再生用AdaptationSet222が存在する。
 なお、各階層要素が含む直下の階層要素のデータの数は1つとは限らず、扱う映像データサイズ等によって異なる。例えば、MPD要素は、図9のように1つのPeriod要素を含むことも、複数のPeriod要素を含むこともあり得る。AdaptationSet要素はRepresentation要素及びSegmentList要素を介して通常複数のSegmentURL要素を含んでいる。即ち、標準速再生用のAdaptationSet要素220及び221に含まれる各SegmentURL要素(第2の情報)は、上位階層であるPeriod要素が示す期間の元映像が時分割されたn個のメディアセグメントのうちの、対応する1つの映像の取得先を示す情報(URL)を含んでいる。
 また、高速再生用のAdaptationSet要素222においては、SegmentURL要素242(第1の情報)が、上位階層であるPeriod要素が示す期間の視点P及び視点Qの間引映像が時分割された1又は複数のメディアセグメントのうちの、対応する1つの映像の取得先を示す情報(URL)を含んでいる。
 [3.生成装置10における処理の流れ]
 以下、生成装置10が前述のMPDデータ及び間引映像を生成する動作について、図9~図11を参照しながら説明する。図10は、視点P及び視点Qの撮影映像を加工して、間引映像を生成する処理について説明するための図である。図11は、生成装置の上記動作を示すフローチャートである。
 データ生成部112は、記憶部12に記録されている、2n個のメディアセグメントの各々について、前述の方法を用いてIフレームの位置を特定する(S71)。これら2n個のメディアセグメントは、図9に示した、AdaptationSet要素220及び221を参照して取得される2n個のメディアセグメント(250-1、・・、250-n、251-1、・・、251-n)である。そして、図10に示すように、データ生成部112は、2n個の各メディアセグメント(250-1、・・、250-n、251-1、・・、251-n)から、特定した位置のフレーム(Iフレーム、例えば、図10のI1及びI10)以外のフレーム(Bフレーム、Pフレーム)を間引く(S72)。即ち、データ生成部112は、一部のフレーム(Bフレーム、Pフレーム)を、視点Pの元映像を構成するn個のメディアセグメント(250-1、・・、250-n)から間引く。データ生成部112は、同様に、これら一部のフレームと同時刻に生成された一部のフレーム(Bフレーム、Pフレーム)を、視点Qの元映像を構成するn個の各メディアセグメント(251-1、・・、251-n)から間引く。
 そして、データ生成部112は、Bフレーム及びPフレームが間引かれた2n個のメディアセグメント(250-1’、・・、250-n’、251-1’、・・、251-n’)から、間引映像を構成するメディアセグメント252を生成する。
 具体的には、図10からわかるように、n個のメディアセグメントにおいてより早く提示されるべき位置にあるIフレームがより早い時期に提示されるように、間引映像を構成する1又は複数のメディアセグメントを生成する。上記生成において視点Pの映像のメディアセグメントに由来するIフレーム(250-1’、・・、250-n’)はメディアセグメント252のトラック1に、視点Qの映像のメディアセグメントに由来するIフレーム(251-1’、・・、251-n’)はメディアセグメント252のトラック2にそれぞれ格納する(S73)。
 その結果、記憶部12には、視点P及び視点Qの元映像が格納されている2n個のメディアセグメントとは別に、視点Pの元映像からBフレーム及びPフレームが間引かれた間引き映像及び視点Qの元映像からBフレーム及びPフレームが間引かれた間引き映像がメディアセグメント252の別のトラックにそれぞれ記録されることとなる。なお、再生装置20は、視点Pの間引映像と視点Qの間引映像とを公知の方法及び/又は本明細書において後述されている方法で合成することによって、視点Pと視点Qとの中間の視点からの間引映像を生成できる。従って、視点Pの間引映像と視点Qの間引映像とが格納されたメディアセグメント252は、視点Pと視点Qとの中間の視点からの間引映像(特定の視点の部分映像)が格納されたメディアセグメントであるとも言える。
 その後、生成装置10は、公知のMPDデータの生成処理に加えて以下の処理を行うことによって、前述のMPDデータを生成する。
 即ち、情報生成部111は、視点Pの元映像を構成するn個のメディアセグメント(250-1、・・、250-n)の取得先を示すn個のSegmentURL要素(240-1、・・、240-n)を含むAdaptation Set要素220をMPDデータに記述する(S74)
また、情報生成部111は、視点Qの元映像を構成するn個のメディアセグメント(251-1、・・、251-n)の取得先を示すn個のSegmentURL要素(241-1、・・、241-n)を含むAdaptation Set要素221をMPDデータに記述する(S75)
 更に、情報生成部111は、視点P及び視点Qの間引映像が格納された1つ以上のメディアセグメント252の取得先を示す1つ以上のSegmentURL要素242を含むAdaptationSet要素222をMPDデータ内に記述する(S76)。
 その結果、視点Pと視点Qとの中間の視点からの映像を高速再生し、視点P及び視点Qの撮影映像を標準速再生するための前述のMPDデータ200が記憶部12に記録されることとなる。
 [4.再生装置20における処理の流れ]
 以下、前述のMPDデータ200を参照して、ある視点Pの撮影映像を再生する操作を受けつけた場合の再生装置20の動作について、図12を参照しながら説明する。図12は、再生装置の上記動作を示すフローチャートである。
 まず、再生処理部211は、受け付けた再生操作の種類を判定する(S81) 。
 再生処理部211は、視点Pからの映像を標準再生させる操作(第2の操作)を受け付けたと判定した場合、記憶部22に記録されているMPDデータ100におけるAdaptationSet要素220を参照する。
 具体的には、再生処理部211は、n個のSegmentURL要素(240-1、・・、240-n)を参照し、受信部29を介して、n個のメディアセグメント(250-1、・・、250-n)を取得する(S82)。
 再生処理部211は、取得したn個のメディアセグメント(250-1、・・、250-n)を、メディアセグメント250-1、・・、メディアセグメント250-nの順に標準速再生する(S83)。
 再生処理部211は、視点Qからの映像を標準再生させる操作(第2の操作)を受け付けたと判定した場合、記憶部22に記録されているMPDデータ100におけるAdaptationSet要素221を参照する。
 具体的には、再生処理部211は、n個のSegmentURL要素(241-1、・・、241-n)を参照し、受信部29を介して、n個のメディアセグメント(251-1、・・、251-n)を取得する(S84)。
 再生処理部211は、取得したn個のメディアセグメント(250-1、・・、250-n)を、メディアセグメント250-1、・・、メディアセグメント250-nの順に標準速再生する(S85)。
 一方、再生処理部211は、視点Pと視点Qとの中間の視点からの映像を高速再生させる操作(第一の操作)を受け付けたと判定した場合、記憶部22に記録されているMPDデータ200におけるAdaptationSet要素222(SegmentURL要素242)を参照し、メディアセグメント252を取得する(S86)。
 次いで再生処理部211は、メディアセグメント252に含まれる視点Pの間引映像及び視点Qの間引映像を対象として視点合成を行う。再生処理部211は、これにより生成した前記中間の視点からの間引映像を標準速再生する。これらの処理(S87)をより具体的に説明すると以下の通りである。
 即ち、再生処理部211は、同時刻に生成(撮影)されたIフレームのペア(視点Pの間引映像に含まれるIフレーム、及び、視点Qの間引映像に含まれるIフレーム)からステレオマッチング等の既存の方法で求めたデプスマップ(奥行き情報)を用いることによって、視点Pと視点Qの中間視点の映像を合成する。これにより、再生処理部211は、視点Pと視点Qの中間視点の間引映像を構成するフレーム群(画像群)を得る。再生処理部211は、より早い時期に生成(撮影された)Iフレームのペアから合成したフレーム(画像)がより早く再生されるように、合成したフレーム(間引映像を構成するフレーム)を順次再生する。
 また、図12のフローチャートでは省略しているが、再生処理部211は、視点Pと視点Qの中間の視点からの映像を標準速再生させる操作(第2の操作)を受け付けたと判定した場合、記憶部22に記録されているMPDデータ200におけるAdaptationSet要素220、及びAdaptationSet要素221を参照する。
 具体的には、再生処理部211は、n個のSegmentURL要素(240-1、・・、240-n)を参照し、受信部29を介して、n個のメディアセグメント(250-1、・・、250-n)を取得するとともに、n個のSegmentURL要素(241-1、・・、241-n)を参照し、受信部29を介して、n個のメディアセグメント(251-1、・・、251-n)を取得する。
 再生処理部211は、取得したn個のメディアセグメント(250-1、・・、250-n)、及び取得したn個のメディアセグメント(251-1、・・、251-n)に基づき視点合成を行い再生する。
 本実施形態の構成であっても、実施形態1と同様な効果を奏すると共に、撮影時の視点(視点Pや視点Q)ではない視点(視点P及び視点Qに隣接する視点)からの映像を、より少ないCPUの負荷で高速再生することができる、というさらなる効果を奏する。
 (変形例)
 図13を参照して、本実施形態の変形例について説明する。図13は視点P及び視点Qの中間の視点からの映像の高速再生に係るメディアセグメントの一例を示す図である。本変形例では、より高い精度で視点合成を行うために、視点合成の処理に更に3次元モデルデータを利用する。即ち、多視点映像に含まれる被写体の像に関し、生成装置10は、該像を示す3次元モデルデータを含むような高速再生用のメディアセグメントを生成し、再生装置20に送信する。
 3次元モデルデータの格納場所としては、例えば図13で示すように、メディアセグメント252’のトラック3が挙げられる。他の例としては、イニシャライゼーションセグメントを、3次元モデルデータを格納するための領域として使用する態様でも良い。
 上記の構成によると、再生操作の前に3次元モデルデータが再生装置20内に用意されている必要が無い。また、3次元モデルデータを再生装置20内に用意するための、再生操作とは別個の操作も不要になる。従って、本変形例に係る構成は、中間視点からの被写体の見え方をより忠実に再現した映像を再生しつつ、再生装置20のリソースを節約し、且つ、再生装置20の利用者の手間を低減することができる、と言える。
 なお、本変形例は、後述の各実施形態にも適用可能である。
 〔実施形態3〕
 本発明の他の実施形態について、図1、図9、図11及び図12に基づいて説明すれば以下のとおりである。
 本実施形態においては、多視点映像システムにおいて、ある視点Pと視点Qとの間を視点移動した映像を高速再生する場合について説明する。
 [1.生成装置10と再生装置20の構成]
 本実施形態においても実施形態1の場合と同様に図1の構成を用いる。
 [2.MPDデータ及びメディアセグメントについて]
 本実施形態においても実施形態2の場合と同様に、図9に示す構成を用いる。
 [3.生成装置10における処理の流れ]
 本実施形態においても実施形態2の場合と同様に、図11のフローチャートに示す処理を行う。
 [4.再生装置20における処理の流れ]
 以下、前述のMPDデータ200を参照して、ある視点Pと視点Qとの間を視点移動したときの任意の視点の映像を再生する操作を受けつけた場合の再生装置20の動作について、図12を参照しながら説明する。図12は、再生装置の上記動作を示すフローチャートである。
 ステップS86までの処理は実施形態2と同様である。
 続くステップS87においては、実施形態2では視点Pと視点Qの中間視点(時間の経過とともに視点は変化しない)の映像を合成したが、本実施形態は、視点Pと視点Qの間の任意の視点(時間の経過とともに視点が変化)の映像を合成する点で実施形態2の場合と異なる。
 再生処理部211は、同時刻に生成(撮影)されたIフレームのペア(視点Pの間引映像に含まれるIフレーム、及び視点Qの間引映像に含まれるIフレーム)からステレオマッチング等の既存の方法で求めたデプスマップ(奥行き情報)を用いることによって、視点Pと視点Qの間の任意の視点の映像を合成する。
 なお、視点Pから視点Qに視点移動する場合の、移動速度は必ずしも一律であることに限定されない。視点移動に要する時間は同じであっても、例えば視点Pに近い視点の映像が視点Qに近い視点の映像よりもより長い時間再生されるような構成でも構わない。
 これにより、再生処理部211は、間引映像を構成するフレーム群(画像群)を得る。再生処理部211は、より早い時期に生成(撮影された)Iフレームのペアから合成したフレーム(画像)がより早く再生されるように、合成したフレーム(間引映像を構成するフレーム)を順次再生する。上記再生により、ユーザは、視点Pが位置する地点から視点Qが位置する地点へと実際に移動しながら被写体の様子を閲覧しているかのように、被写体の映像を鑑賞することができる。アニメーションのように視点Pから視点Qへスムースに視点が移動したように見える。
 本実施形態の構成であっても、実施形態2と同様な効果を奏する。更に、本実施形態の構成は、視点Pが位置する地点から視点Qが位置する地点へと移動しながら確認できる被写体の様子を、再生装置のCPUの負荷を低減させる本実施形態の高速再生の方法により、より短い期間でユーザに観察させることができる。
<実施形態1~3に係る付記事項>
 生成装置10は、高速再生に係る間引映像を生成する場合、間引映像を構成する各種データに、該データが高速再生用のデータであることを示す情報を含めてもよい。
 上記各種データの一例としてはメディアセグメントが挙げられる。この例において、生成装置10は、各メディアセグメントのstypボックスに上記情報を含めてもよい。
 また、上記各種データの他の例としては、初期化セグメント(Initialization Segment)又は自己初期化(Self-initializing)メディアセグメントが挙げられる。これらの例において、生成装置10は、各セグメントのftypボックス内のcompatible_brandsフィールドに上記情報を含めてもよい。
<実施形態2及び3に係る付記事項>
 実施形態2及び3は、被写体を円状に取り囲む複数の視点の各々の撮影映像が合成された多視点映像を再生する多視点映像システムに係る実施形態である。
 実施形態2及び3に開示されている技術的事項を、被写体を球状に取り囲む複数の視点の各々の撮影映像が合成された多視点映像システムに適用することができる。
 この場合、生成装置は、例えば、隣接する4つの視点に取り囲まれたある視点からの映像を高速再生するためのMPDデータ及びメディアセグメント群を生成することになる。
 なお、各メディアセグメント内のデータは、上記4つの視点に由来する高速再生に係るフレーム群を該メディアセグメントの1~4トラックに格納したものであってもよい。
 この場合、再生装置は、上記MPDデータ内に記述されている、上記高速再生に使用するAdaptationSetが含むSegmentURL群を参照して上記メディアセグメント群を取得することになる。再生装置は、取得した各メディアセグメントの4つのトラックに格納された4つの視点に由来するフレーム群を用いて、上記高速再生を行う。
<その他の付記事項>
 本発明は、上述の実施形態1~3、及び、各変形例には限定されない。
 即ち、上述の実施形態1~3は、多視点映像における、ある部分映像の再生に関する実施形態であるが、複数の視線方向の各々の部分映像を含む全体映像(例えば、全天球映像)における部分映像の再生に関する実施形態も本発明の範疇に含まれる。
 即ち、実施形態1~3で説明した方法を用いて、全天球映像におけるある部分映像を再生するためのMPDデータの生成、元映像から間引映像の生成、及び、部分映像(元映像、間引映像)の再生を行う実施形態も、本発明の範疇に含まれる。
 〔ソフトウェアによる実現例〕
 生成装置10の制御ブロック(特に制御部11及び記憶部12)及び再生装置20の制御ブロック(特に制御部21及び記憶部22)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。
 後者の場合、生成装置10は、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータを備えている。このコンピュータは、例えば少なくとも1つのプロセッサ(制御装置)を備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な少なくとも1つの記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばCPU(Central Processing Unit)を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ROM(Read Only Memory)等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するRAM(Random Access Memory)などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
 〔まとめ〕
 本発明の態様1に係る生成装置10は、複数の視点又は視線方向の各々の部分映像を含む全体映像における、ある部分映像の再生に関するメタ情報を生成する情報生成部111と、一部のフレームが前記ある部分映像から間引かれた間引映像を示すデータを生成するデータ生成部112と、を備え、前記メタ情報は、前記ある部分映像を高速再生させる第1の操作に応じて参照される、前記間引映像の取得先を示す第1の情報と、該ある部分映像を第1の操作よりも低速で再生させる第2の操作に応じて参照される、該ある部分映像の取得先を示す第2の情報と、を含んでいる、構成である。
 上記の構成によれば、ネットワークとクライアントに対する負荷を軽減させるような映像の高速再生を可能にする生成装置10を実現することができる。
 本発明の態様2に係る生成装置10は、上記の態様1において、前記全体映像は、前記複数の視点の各々の撮影映像が合成された多視点映像であり、前記ある部分映像は、前記複数の視点のうちのある視点から撮影された撮影映像である、構成としてもよい。
 本発明の態様3に係る生成装置10は、上記の態様1において、前記全体映像は、前記複数の視点の各々の撮影映像が合成された多視点映像であり、前記ある部分映像は、特定の視点に隣接する2つの視点から撮影された第1の撮影映像及び第2の撮影映像を合成することによって得られる前記特定の視点の部分映像であり、前記データ生成部112は、一部のフレームを第1の撮影映像から間引くとともに、該一部のフレームと同時刻に生成された一部のフレームを第2の撮影映像から間引くことによって得られる各映像データを含むように、前記間引映像を示すデータを生成する、構成としてもよい。
 上記の構成によれば、態様1と同様な効果を奏すると共に、撮影時の視点ではない視点からの映像を、より少ないCPUの負荷で高速再生することができる、というさらなる効果を奏する。
 本発明の態様4に係る生成装置10は、上記の態様3において、前記データ生成部112は、前記特定の視点の部分映像に含まれる被写体の像に関して、該被写体の3次元モデルデータを更に含むように、前記間引映像を示すデータを生成する、構成としてもよい。
 上記の構成によれば、中間視点からの被写体の見え方をより忠実に再現した映像を再生しつつ、視点合成に関わる再生装置20のリソースを節約することができる。
 本発明の態様5に係る生成装置10は、上記の態様1から4の何れか1態様において、前記一部のフレームには、少なくともB(Bi-Predictive)フレームが含まれている、構成としてもよい。
 上記の構成によれば、少なくともBフレームを間引くことによって、再生装置20側では、部分映像の高速再生の際に、双方向の参照画像を復号するまで再生できないBフレームを再生しないので、デコード能力の低い再生装置であっても部分映像を高速に再生できるという効果を奏する。
 本発明の態様6に係る生成装置10は、上記の態様1から5の何れか1態様において、前記メタデータは、DASH(Dynamic Adaptive Streaming over HTTP)規定のMPDデータであり、前記間引映像を示すデータは、1つ以上のDASH規定のメディアセグメントであり、第1の情報は、DASH規定のAdaptationSet要素に含まれる、DASH規定の1つ以上のSegmentURL要素であり、前記AdaptationSet要素には、該AdaptationSet要素が前記間引映像の取得先を示す情報であることを示す記述子が含まれている、構成としてもよい。
 上記の構成によれば、態様1と同様な効果を奏すると共に、該AdaptationSetが前記間引映像の取得先を示す情報であることを簡便に確認できる効果を奏する。
 本発明の態様7に係る再生装置20は、複数の視点又は視線方向の各々の部分映像を含む全体映像における、ある部分映像の再生に関するメタ情報を参照して、該ある部分映像、又は、一部のフレームが該ある部分映像から間引かれた間引映像を再生する再生処理部211を備え、前記メタ情報は、前記間引映像の取得先を示す第1の情報と、前記ある部分映像の取得先を示す第2の情報と、を含み、前記再生処理部211は、前記ある部分映像を高速再生させる第1の操作に応じて、第1の情報に基づいて取得した前記間引映像を再生し、該ある部分映像を第1の操作よりも低速で再生させる第2の操作に応じて、第2の情報に基づいて取得した該ある部分映像を再生する、構成である。
 ネットワークとクライアントに対する負荷を軽減させるような映像の高速再生を可能にする再生装置20を実現することができる。
 本発明の態様8に係る再生装置20は、上記の態様7において、前記全体映像は、前記複数の視点の各々の撮影映像が合成された多視点映像であり、前記ある部分映像は、前記複数の視点のうちのある視点から撮影された撮影映像である、構成としてもよい。
 上記の構成によれば、態様7と同様な効果を奏する。
 本発明の態様9に係る再生装置20は、上記の態様7において、前記全体映像は、前記複数の視点の各々の撮影映像が合成された多視点映像であり、前記ある部分映像は、特定の視点に隣接する2つの視点から撮影された第1の撮影映像及び第2の撮影映像を合成することによって得られる前記特定の視点の部分映像であり、前記再生処理部211は、一部のフレームを第1の撮影映像から間引くとともに、該一部のフレームと同時刻に生成された一部のフレームを第2の撮影映像から間引くことによって得られた各映像データを含んだ、前記間引映像を示すデータを、第1の情報を参照して取得し、前記再生処理部211は、前記各映像データの一方に含まれるフレームと、前記各映像データの他方に含まれる、該フレームと同時刻に生成されたフレームとを合成して得た前記特定の視点の画像を、順次再生する、構成としてもよい。
 上記の構成によれば、態様7と同様な効果を奏すると共に、撮影時の視点ではない視点からの映像を、より少ないCPUの負荷で高速再生することができる、というさらなる効果を奏する。
 本発明の態様10に係る再生装置20は、上記の態様7から9の何れか1態様において、前記一部のフレームには、少なくともB(Bi-Predictive)フレームが含まれている、構成としてもよい。
 上記の構成によれば、少なくともBフレームを間引くことによって、再生装置20側では、部分映像の高速再生の際に、双方向の参照画像を復号するまで再生できないBフレームを再生しないので、デコード能力の低い再生装置であっても部分映像を高速に再生できるという効果を奏する。
 本発明の態様11に係る再生装置20は、上記の態様7から10の何れか1態様において、前記メタデータは、DASH(Dynamic Adaptive Streaming over HTTP)規定のMPDデータであり、前記間引映像を示すデータは、1つ以上のDASH規定のメディアセグメントであり、第1の情報は、DASH規定のAdaptationSet要素に含まれる、DASH規定の1つ以上のSegmentURL要素であり、前記AdaptationSet要素には、該AdaptationSet要素が前記間引映像の取得先を示す情報であることを示す記述子が含まれている、構成としてもよい。
 上記の構成によれば、態様11に係る再生装置20は、第1の操作を受け付けた場合に取得及び再生すべき間引映像の取得先を示すAdaptationSetを即座に特定できる。従って、態様11に係る再生装置20には、第1の操作を受け付けてから間引映像の再生を開始するまでのタイムラグが短いという利点がある。
 本発明の態様12に係る制御プログラムは、上記の態様1に係る生成装置10としてコンピュータを機能させるための制御プログラムであって、上記コンピュータを上記生成装置10として機能させる構成としてもよい。
 本発明の態様13に係る制御プログラムは、上記の態様7に係る再生装置20としてコンピュータを機能させるための制御プログラムであって、上記コンピュータを上記再生装置20として機能させる構成としてもよい。
 本発明の態様14に係る生成方法は、装置により実行される生成方法であって、複数の視点又は視線方向の各々の部分映像を含む全体映像における、ある部分映像の再生に関するメタ情報を生成する情報生成ステップと、一部のフレームが前記ある部分映像から間引かれた間引映像を示すデータを生成するデータ生成ステップと、を含み、前記メタ情報は、前記ある部分映像を高速再生させる第1の操作に応じて参照される、前記間引映像の取得先を示す第1の情報と、該ある部分映像を第1の操作よりも低速で再生させる第2の操作に応じて参照される、該ある部分映像の取得先を示す第2の情報と、を含んでいる、方法である。
 上記の方法によれば、態様1に係る生成装置と同様の作用効果を奏する。
 本発明の態様15に係る再生方法は、装置により実行される再生方法であって、複数の視点又は視線方向の各々の部分映像を含む全体映像における、ある部分映像の再生に関するメタ情報を参照して、該ある部分映像、又は、一部のフレームが該ある部分映像から間引かれた間引映像を再生する再生ステップを含み、前記メタ情報は、前記間引映像の取得先を示す第1の情報と、該ある部分映像の取得先を示す第2の情報と、を含み、該ある部分映像を高速再生させる第1の操作に応じて、第1の情報に基づいて前記間引映像を取得する第1の取得ステップと、該ある部分映像を第1の操作よりも低速で再生させる第2の操作に応じて、第2の情報に基づいて該ある部分映像を取得する第2の取得ステップと、を含んでいる、方法である。
 上記の方法によれば、態様7に係る再生装置と同様の作用効果を奏する。
 本発明の態様16に係る記録媒体は、態様12に係る制御プログラムを記録したコンピュータ読み取り可能な記録媒体であってもよい。同様に、本発明の態様17に係る記録媒体は、態様13に係る制御プログラムを記録したコンピュータ読み取り可能な記録媒体であってもよい。
 本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
 例えば、実施形態1の変形例1に開示された技術手段と、実施形態2に開示された技術的手段との組み合わせが考えられる。図14は、そのような組み合わせに係る実施形態における間引映像を生成する処理に関する図である。
 図14に示すように、該実施形態に係るシステムは、視点Pの撮影映像からBフレームのみを間引き、視点Qの撮影映像からBフレームのみを間引くことによって、視点Pと視点Qとに隣り合う視点の間引映像を生成・再生することができる。なお、該システムは、間引映像の各フレームを間引かずに再生してもよいが、間引映像のうちのIフレームのみを再生する(即ち、再生時にPフレームを間引く)ようにしてもよい。
 〔関連出願の相互参照〕
 本出願は、2017年8月7日に出願された出願番号2017-152321号の出願に関するものであって上記出願を基礎として優先権を主張するものである。上記出願の内容は、参照により本明細書に含まれる。
 10 生成装置
 11 制御部(制御装置)
 12 記憶部
 20 再生装置
 21 制御部
 22 記憶部
 23 表示部

Claims (17)

  1.  複数の視点又は視線方向の各々の部分映像を含む全体映像における、ある部分映像の再生に関するメタ情報を生成する情報生成部と、
     一部のフレームが前記ある部分映像から間引かれた間引映像を示すデータを生成するデータ生成部と、を備え、
     前記メタ情報は、前記ある部分映像を高速再生させる第1の操作に応じて参照される、前記間引映像の取得先を示す第1の情報と、該ある部分映像を第1の操作よりも低速で再生させる第2の操作に応じて参照される、該ある部分映像の取得先を示す第2の情報と、を含んでいる、ことを特徴とする生成装置。
  2.  前記全体映像は、前記複数の視点の各々の撮影映像が合成された多視点映像であり、
     前記ある部分映像は、前記複数の視点のうちのある視点から撮影された撮影映像である、ことを特徴とする請求項1に記載の生成装置。
  3.  前記全体映像は、前記複数の視点の各々の撮影映像が合成された多視点映像であり、
     前記ある部分映像は、特定の視点に隣接する2つの視点から撮影された第1の撮影映像及び第2の撮影映像を合成することによって得られる前記特定の視点の部分映像であり、
     前記データ生成部は、一部のフレームを第1の撮影映像から間引くとともに、該一部のフレームと同時刻に生成された一部のフレームを第2の撮影映像から間引くことによって得られる各映像データを含むように、前記間引映像を示すデータを生成する、ことを特徴とする請求項1に記載の生成装置。
  4.  前記データ生成部は、前記特定の視点の部分映像に含まれる被写体の像に関して、該被写体の3次元モデルデータを更に含むように、前記間引映像を示すデータを生成する、ことを特徴とする請求項3に記載の生成装置。
  5.  前記一部のフレームには、少なくともB(Bi-Predictive)フレームが含まれている、ことを特徴とする請求項1から4の何れか1項に記載の生成装置。
  6.  前記メタ情報は、DASH(Dynamic Adaptive Streaming over HTTP)規定のMPDデータであり、
     前記間引映像を示すデータは、1つ以上のDASH規定のメディアセグメントであり、
     第1の情報は、DASH規定のAdaptationSet要素に含まれる、DASH規定の1つ以上のSegmentURL要素であり、
     前記AdaptationSet要素には、該AdaptationSet要素が前記間引映像の取得先を示す情報であることを示す記述子が含まれている、ことを特徴とする請求項1から5の何れか1項に記載の生成装置。
  7.  複数の視点又は視線方向の各々の部分映像を含む全体映像における、ある部分映像の再生に関するメタ情報を参照して、該ある部分映像、又は、一部のフレームが該ある部分映像から間引かれた間引映像を再生する再生処理部を備え、
     前記メタ情報は、前記間引映像の取得先を示す第1の情報と、前記ある部分映像の取得先を示す第2の情報と、を含み、
     前記再生処理部は、前記ある部分映像を高速再生させる第1の操作に応じて、第1の情報に基づいて取得した前記間引映像を再生し、該ある部分映像を第1の操作よりも低速で再生させる第2の操作に応じて、第2の情報に基づいて取得した該ある部分映像を再生する、ことを特徴とする再生装置。
  8.  前記全体映像は、前記複数の視点の各々の撮影映像が合成された多視点映像であり、
     前記ある部分映像は、前記複数の視点のうちのある視点から撮影された撮影映像である、ことを特徴とする請求項7に記載の再生装置。
  9.  前記全体映像は、前記複数の視点の各々の撮影映像が合成された多視点映像であり、
     前記ある部分映像は、特定の視点に隣接する2つの視点から撮影された第1の撮影映像及び第2の撮影映像を合成することによって得られる前記特定の視点の部分映像であり、
     前記再生処理部は、一部のフレームを第1の撮影映像から間引くとともに、該一部のフレームと同時刻に生成された一部のフレームを第2の撮影映像から間引くことによって得られた各映像データを含んだ、前記間引映像を示すデータを、第1の情報を参照して取得し、
     前記再生処理部は、前記各映像データの一方に含まれるフレームと、前記各映像データの他方に含まれる、該フレームと同時刻に生成されたフレームとを合成して得た前記特定の視点の画像を、順次再生する、ことを特徴とする請求項7に記載の再生装置。
  10.  前記一部のフレームには、少なくともB(Bi-Predictive)フレームが含まれている、ことを特徴とする請求項7から9の何れか1項に記載の再生装置。
  11.  前記メタ情報は、DASH(Dynamic Adaptive Streaming over HTTP)規定のMPDデータであり、
     前記間引映像を示すデータは、1つ以上のDASH規定のメディアセグメントであり、
     第1の情報は、DASH規定のAdaptationSet要素に含まれる、DASH規定の1つ以上のSegmentURL要素であり、
     前記AdaptationSet要素には、該AdaptationSet要素が前記間引映像の取得先を示す情報であることを示す記述子が含まれている、ことを特徴とする請求項7から10の何れか1項に記載の再生装置。
  12.  請求項1に記載の生成装置としてコンピュータを機能させるための制御プログラムであって、上記コンピュータを上記生成装置として機能させることを特徴とする制御プログラム。
  13.  請求項7に記載の再生装置としてコンピュータを機能させるための制御プログラムであって、上記コンピュータを上記再生装置として機能させることを特徴とする制御プログラム。
  14.  装置により実行される生成方法であって、
     複数の視点又は視線方向の各々の部分映像を含む全体映像における、ある部分映像の再生に関するメタ情報を生成する情報生成ステップと、
     一部のフレームが前記ある部分映像から間引かれた間引映像を示すデータを生成するデータ生成ステップと、を含み、
     前記メタ情報は、前記ある部分映像を高速再生させる第1の操作に応じて参照される、前記間引映像の取得先を示す第1の情報と、該ある部分映像を第1の操作よりも低速で再生させる第2の操作に応じて参照される、該ある部分映像の取得先を示す第2の情報と、を含んでいる、ことを特徴とする生成方法。
  15.  装置により実行される再生方法であって、
     複数の視点又は視線方向の各々の部分映像を含む全体映像における、ある部分映像の再生に関するメタ情報を参照して、該ある部分映像、又は、一部のフレームが該ある部分映像から間引かれた間引映像を再生する再生ステップを含み、
     前記メタ情報は、前記間引映像の取得先を示す第1の情報と、該ある部分映像の取得先を示す第2の情報と、を含み、
     該ある部分映像を高速再生させる第1の操作に応じて、第1の情報に基づいて前記間引映像を取得する第1の取得ステップと、
     該ある部分映像を第1の操作よりも低速で再生させる第2の操作に応じて、第2の情報に基づいて該ある部分映像を取得する第2の取得ステップと、を含んでいる、ことを特徴とする再生方法。
  16.  請求項12に記載の制御プログラムを記録したコンピュータ読み取り可能な記録媒体。
  17.  請求項13に記載の制御プログラムを記録したコンピュータ読み取り可能な記録媒体。
PCT/JP2018/028655 2017-08-07 2018-07-31 生成装置、再生装置、生成方法、再生方法、制御プログラム、記録媒体 WO2019031306A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201880051053.2A CN110999309A (zh) 2017-08-07 2018-07-31 生成装置、再现装置、生成方法、再现方法、控制程序、记录介质
JP2019535125A JPWO2019031306A1 (ja) 2017-08-07 2018-07-31 生成装置、再生装置、生成方法、再生方法、制御プログラム、記録媒体
US16/636,617 US20200374567A1 (en) 2017-08-07 2018-07-31 Generation apparatus, reproduction apparatus, generation method, reproduction method, control program, and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-152321 2017-08-07
JP2017152321 2017-08-07

Publications (1)

Publication Number Publication Date
WO2019031306A1 true WO2019031306A1 (ja) 2019-02-14

Family

ID=65271143

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/028655 WO2019031306A1 (ja) 2017-08-07 2018-07-31 生成装置、再生装置、生成方法、再生方法、制御プログラム、記録媒体

Country Status (4)

Country Link
US (1) US20200374567A1 (ja)
JP (1) JPWO2019031306A1 (ja)
CN (1) CN110999309A (ja)
WO (1) WO2019031306A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114026849A (zh) * 2019-07-03 2022-02-08 索尼集团公司 信息处理装置、信息处理方法、再现处理装置以及再现处理方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7170441B2 (ja) * 2018-07-12 2022-11-14 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006140553A (ja) * 2004-11-10 2006-06-01 Canon Inc 立体画像生成プログラム、立体画像生成装置および立体画像生成方法
WO2014007083A1 (ja) * 2012-07-02 2014-01-09 ソニー株式会社 送信装置、送信方法およびネットワーク装置
JP2017108217A (ja) * 2015-12-07 2017-06-15 日本放送協会 受信装置、再生時刻制御方法、及びプログラム
WO2017123474A1 (en) * 2016-01-15 2017-07-20 Vid Scale, Inc. System and method for operating a video player displaying trick play videos

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090118019A1 (en) * 2002-12-10 2009-05-07 Onlive, Inc. System for streaming databases serving real-time applications used through streaming interactive video
US8315307B2 (en) * 2004-04-07 2012-11-20 Qualcomm Incorporated Method and apparatus for frame prediction in hybrid video compression to enable temporal scalability
CN100588250C (zh) * 2007-02-05 2010-02-03 北京大学 一种多视点视频流的自由视点视频重建方法及系统
CN102348117A (zh) * 2010-08-03 2012-02-08 深圳Tcl新技术有限公司 低带宽传输数字高清信号的系统、方法及网络多媒体电视
CN102075739B (zh) * 2010-09-15 2013-01-02 深圳市九洲电器有限公司 网络视频快进退平稳播放的方法和装置
KR101946019B1 (ko) * 2014-08-18 2019-04-22 삼성전자주식회사 파노라믹 동영상을 생성하는 동영상 처리 장치 및 그 방법
CN105430376B (zh) * 2015-11-12 2018-03-09 深圳进化动力数码科技有限公司 一种全景相机一致性的检测方法及装置
CN105847777B (zh) * 2016-03-24 2018-04-17 湖南拓视觉信息技术有限公司 一种传输三维深度图像的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006140553A (ja) * 2004-11-10 2006-06-01 Canon Inc 立体画像生成プログラム、立体画像生成装置および立体画像生成方法
WO2014007083A1 (ja) * 2012-07-02 2014-01-09 ソニー株式会社 送信装置、送信方法およびネットワーク装置
JP2017108217A (ja) * 2015-12-07 2017-06-15 日本放送協会 受信装置、再生時刻制御方法、及びプログラム
WO2017123474A1 (en) * 2016-01-15 2017-07-20 Vid Scale, Inc. System and method for operating a video player displaying trick play videos

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114026849A (zh) * 2019-07-03 2022-02-08 索尼集团公司 信息处理装置、信息处理方法、再现处理装置以及再现处理方法

Also Published As

Publication number Publication date
US20200374567A1 (en) 2020-11-26
JPWO2019031306A1 (ja) 2020-08-06
CN110999309A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
US11381739B2 (en) Panoramic virtual reality framework providing a dynamic user experience
KR102246002B1 (ko) 가상 현실 미디어 콘텐트의 스트리밍을 개선하는 방법, 디바이스, 및 컴퓨터 프로그램
JP6384480B2 (ja) 情報処理装置および情報処理方法
US11539983B2 (en) Virtual reality video transmission method, client device and server
KR20220031894A (ko) 데이터 스트림을 동기화하기 위한 시스템 및 방법
US11252397B2 (en) File generation apparatus and file generation method as well as reproduction apparatus and reproduction method
US10911809B2 (en) Communication apparatus, communication method, and program
EP3422731B1 (en) File generation device, file generation method, reproduction device, and reproduction method
KR20210019017A (ko) 컨텐츠의 처리 방법 및 장치
WO2019031306A1 (ja) 生成装置、再生装置、生成方法、再生方法、制御プログラム、記録媒体
KR101944601B1 (ko) 기간들에 걸쳐 오브젝트들을 식별하기 위한 방법 및 이에 대응하는 디바이스
KR101843025B1 (ko) 카메라워크 기반 영상합성 시스템 및 영상합성방법
WO2020137876A1 (ja) 生成装置、3次元データ送信装置、及び3次元データ再生装置
US20230217047A1 (en) Method, system, and computer-readable recording medium for implementing fast-switching mode between channels in multi-live transmission environment
US11677978B2 (en) Omnidirectional video processing method and device, related apparatuses and storage medium
JP2021033354A (ja) 通信装置およびその制御方法
KR20200135324A (ko) 정보 처리 장치, 정보 처리 장치 및 프로그램
US20230043591A1 (en) Information processing apparatus and method
KR102465403B1 (ko) 2d영상 및 360도 영상이 조합된 동영상 콘텐츠를 제공하는 방법 및 장치
Seo et al. Bandwidth-Efficient Transmission Method for User View-Oriented Video Services
Seo et al. Implementation Method for DASH-based Free-viewpoint Video Streaming System
Seo et al. A Proposal for Zoom-in/out View Streaming based on Object Information of Free Viewpoint Video
CN117255233A (zh) 媒体信息处理方法、媒体信息播放方法、装置及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18843528

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2019535125

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18843528

Country of ref document: EP

Kind code of ref document: A1