WO2022014369A1 - 画像処理装置、画像処理方法、及びプログラム - Google Patents

画像処理装置、画像処理方法、及びプログラム Download PDF

Info

Publication number
WO2022014369A1
WO2022014369A1 PCT/JP2021/025088 JP2021025088W WO2022014369A1 WO 2022014369 A1 WO2022014369 A1 WO 2022014369A1 JP 2021025088 W JP2021025088 W JP 2021025088W WO 2022014369 A1 WO2022014369 A1 WO 2022014369A1
Authority
WO
WIPO (PCT)
Prior art keywords
viewpoint
image
information
viewpoint image
image processing
Prior art date
Application number
PCT/JP2021/025088
Other languages
English (en)
French (fr)
Inventor
翔 小倉
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to JP2022536261A priority Critical patent/JPWO2022014369A1/ja
Priority to EP21841658.4A priority patent/EP4184444A4/en
Priority to US18/013,968 priority patent/US20230298260A1/en
Publication of WO2022014369A1 publication Critical patent/WO2022014369A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/10Constructive solid geometry [CSG] using solid primitives, e.g. cylinders, cubes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23412Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs for generating or manipulating the scene composition of objects, e.g. MPEG-4 objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23614Multiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4348Demultiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6587Control parameters, e.g. trick play commands, viewpoint selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video

Definitions

  • the present technology relates to an image processing device, an image processing method, and a program, and more particularly to an image processing device, an image processing method, and a program that enable more appropriate viewpoint switching.
  • Patent Document 1 discloses a technique relating to a reproduction device for reproducing free viewpoint image data that enables reproduction of an image from an arbitrary viewpoint.
  • This technology was made in view of such a situation, and makes it possible to switch viewpoints more appropriately.
  • the image processing device of one aspect of the present technology is a virtual image based on the viewpoint image related information related to the first viewpoint image and the model data corresponding to the subject of the viewpoint image according to the band information related to the transmission of the viewpoint image.
  • This is an image processing device including a virtual image generation unit that generates a virtual image and a display control unit that controls to display the generated virtual image before displaying the first viewpoint image.
  • the image processing apparatus uses the viewpoint image-related information related to the first viewpoint image and the model data corresponding to the subject of the viewpoint image according to the band information related to the transmission of the viewpoint image.
  • This is an image processing method for generating a virtual image based on the above and controlling the generated virtual image to be displayed before displaying the first viewpoint image.
  • the program of one aspect of the present technology makes the computer virtual based on the viewpoint image-related information related to the first viewpoint image and the model data corresponding to the subject of the viewpoint image according to the band information related to the transmission of the viewpoint image. It is a program that functions as a virtual image generation unit that generates an image and a display control unit that controls to display the generated virtual image before displaying the first viewpoint image.
  • the viewpoint image-related information related to the first viewpoint image and the subject of the viewpoint image are supported according to the band information related to the transmission of the viewpoint image.
  • a virtual image based on the model data is generated, and the generated virtual image is controlled to be displayed before the first viewpoint image is displayed.
  • the image processing device on one side of the present technology may be an independent device or an internal block constituting one device.
  • FIG. 1 shows a configuration example of a content distribution system to which the present technology is applied.
  • the content distribution system 1 is a system that distributes content (VR content) such as VR video and provides a service for users to view.
  • content such as VR video
  • the content distribution system 1 is composed of cameras 10-1 to 10-N, a metadata server 20, a sensor 21, a distribution server 30, and playback devices 40-1 to 40-M.
  • N and M are integers of 1 or more.
  • the cameras 10-1 to 10-N and various sensors 21 are installed in an event venue such as a music concert venue.
  • Each of the cameras 10-1 to 10-N is installed in a place where the performer on the stage can be photographed from various angles.
  • various sensors 21 are installed in a place where the detection target can be detected and are connected to the metadata server 20.
  • Camera 10-1 is composed of an optical system, an image sensor, a signal processing circuit, and the like. Camera 10-1 is installed at a predetermined place in the event venue and photographs the performers on the stage. It can be said that the captured image taken by the camera 10-1 is a viewpoint image taken from the first viewpoint position.
  • Each of the cameras 10-2 to 10-N is configured in the same manner as the camera 10-1, and by taking a picture of the performer on the stage from a predetermined place where each is installed, a viewpoint image from a different viewpoint position is taken. Will be done.
  • the sensor 21 includes a sensor such as a physical sensor or a distance measuring sensor.
  • a physical sensor is a sensor that detects an electrical or magnetic quantity, a mechanical quantity, and a physical quantity such as light or temperature.
  • the distance measuring sensor is a sensor that measures the distance to an object by a method such as ToF (Time of Flight).
  • the metadata server 20 generates metadata related to the viewpoint image based on the sensor data detected by various sensors 21 and the viewpoint image data captured by the cameras 10-1 to 10-N.
  • This metadata includes meta information such as information about the viewpoint position of the viewpoint image and information about the subject in the viewpoint image.
  • the viewpoint image data taken by the cameras 10-1 to 10-N and the data such as the metadata generated by the metadata server 20 are transmitted to the distribution server 30 via the network 50-1.
  • the network 50-1 includes a communication network such as the Internet, an intranet, or a mobile phone network, and may be a dedicated line.
  • the distribution server 30 is a server (cloud server) that distributes content, and is installed in a data center or the like.
  • the distribution server 30 receives data such as viewpoint image data and metadata via the network 50-1, and performs processing for enabling distribution of VR contents such as music concerts.
  • the playback device 40-1 is a device that can play back content such as a head-mounted display (HMD: Head Mounted Display).
  • the playback device 40-1 transmits a distribution request for VR content to the distribution server 30 via the network 50-2 according to an operation from the user.
  • Network 50-2 includes communication networks such as the Internet, intranets, or mobile phone networks.
  • the distribution server 30 When the distribution server 30 receives the distribution request from the reproduction device 40-1, the distribution server 30 transmits the VR content data corresponding to the distribution request to the reproduction device 40-1 via the network 50-2.
  • VR content data includes viewpoint image data, metadata, and the like.
  • the playback device 40-1 reproduces VR content such as a music concert and is viewed by the user.
  • the reproduction devices 40-2 to 40-M are configured in the same manner as the reproduction device 40-1, and can reproduce the VR content distributed from the distribution server 30. In the following description, when it is not necessary to particularly distinguish the reproduction devices 40-1 to 40-M, it is referred to as a reproduction device 40. Further, the network 50-1 and the network 50-2 are not limited to different networks and may be the same network, and will be described below with reference to the network 50.
  • VR content such as a music concert is reproduced.
  • performers corresponding to various viewpoints can be displayed as subjects in the viewpoint image.
  • the camera 10-1 is installed on the left side
  • the camera 10-2 is installed on the front side
  • the camera 10-3 is installed on the right side toward the stage ST.
  • the angle of view A1 of the camera 10-1 includes three performers as subjects, but since the camera 10-1 is installed on the left side when facing the stage ST, the captured image thereof is, for example, FIG.
  • the viewpoint image PI1 as shown in is obtained.
  • the angle of view A3 of the camera 10-3 includes three performers as subjects, but since the camera 10-3 is installed on the right side of the stage ST, the captured image thereof is, for example, FIG.
  • the viewpoint image PI3 as shown in is obtained.
  • the captured image is a viewpoint image of three performers taken from the front within the range of the angle of view A2. Is obtained.
  • the reproducing apparatus 40 the user viewing the VR content of music concerts, its own viewpoint, from the viewpoint P C in accordance with the angle A2 of the front of the camera 10-2, the left side of the camera 10-1 when performing the operation for switching to the angle A1 viewpoint P N in accordance with the transition of the viewpoint from the current viewpoint P C to the new viewpoint P N is performed (viewpoint transition TR11 in Figure 2).
  • the user in view VR content reproduction apparatus 40 a self perspective, from the viewpoint P C in accordance with the angle A2 of the front of the camera 10-2, depending on the angle A3 of the right camera 10 - when performing the operation for switching the view point P N and the transition of the viewpoint is performed from the current viewpoint P C to the new viewpoint P N (viewpoint transition TR12 in Figure 2).
  • the reproducing apparatus 40 when the user in view VR content is selectable plurality of viewpoints, from before switching of the viewpoint P C, the transition of the viewpoint to the viewpoint P N after the switching (viewpoint transition in Figure 2 When TR11, TR12) are performed, at present, there is a certain waiting time until the viewpoint image (viewpoint image PI3 in FIG. 3 and viewpoint image PI3 in FIG. 4) corresponding to the viewpoint PN after switching becomes reproducible. After that, the viewpoint image is switched.
  • the playback device 40 when the user who is viewing the VR content can select a plurality of viewpoints, it may take time to complete the viewpoint switching due to the viewpoint transition, or a new viewpoint after the viewpoint is switched may be obtained. There is a problem that it is difficult to grasp somewhere.
  • the content distribution system 1 solves such a problem so that when the user can select a plurality of viewpoints, the viewpoints can be switched more appropriately.
  • the content distribution system 1 when transmitting the viewpoint image, metadata including meta information such as information on the viewpoint position of the viewpoint image and information on the subject in the viewpoint image, and model data corresponding to the subject in the viewpoint image. Is generated and transmitted to the reproduction device 40.
  • the playback device 40 generates a virtual image based on the metadata and the model data, and displays the virtual image until the viewpoint image is ready to be played back at the new viewpoint after the viewpoint is switched. To.
  • FIG. 5 shows an example of a virtual image displayed when switching between a plurality of viewpoints.
  • the reproducing apparatus 40 the user in view VR content, its own viewpoint, from the viewpoint P C corresponding to the angle A1 of the left side of the camera 10-1, the angle of view of the right camera 10 - when performing the operation for switching the view point P N corresponding to A3, from before switching of the viewpoint P C, the transition of the viewpoint to viewpoint P N after switching is performed (viewpoint transition TR21 in Figure 5).
  • the reproducing apparatus 40 while being conducted in the reproducing apparatus 40, the transition of the viewpoint, i.e., from being carried out the operation of switching the viewpoint P C before switching, the viewpoint image (FIG. 4 in the switched viewpoint P N viewpoints
  • the virtual image VI is displayed until the image PI3) is ready for reproduction.
  • the reproducing apparatus 40, the switching front perspective P C it is possible to display the virtual image VI corresponding to the viewpoint (position of the virtual camera) to transition between viewpoints to the viewpoint P N after switching.
  • the virtual image VI includes the character PV1, the character PV2, and the character PV3 corresponding to the performer PR1, the performer PR2, and the performer PR3 on the stage ST. That is, since the metadata includes the generation information of the subject in the viewpoint image PI and the model data includes the image related to the specific character associated with the subject, it corresponds to the performer PR as the subject.
  • a 3D character PV can be generated.
  • FIG. 5 illustrates a case where a 3D character PV corresponding to the performer PR is displayed as the virtual image VI, but the virtual image VI is not limited to the 3D character, and the viewpoint is, for example, a live-action 3D model. Any image may be used as long as it is an image associated with the subject of the image PI.
  • the virtual image VI is not limited to a three-dimensional image such as a 3D character, but may be a two-dimensional image such as a 2D character.
  • displaying the three-dimensional virtual image VI has a higher load than displaying the two-dimensional virtual image VI, so that the processing capacity of the playback device 40 (processor).
  • a two-dimensional virtual image VI or a three-dimensional virtual image VI can be displayed depending on the performance and the like.
  • a virtual image based on metadata and model data is generated according to the band information related to the transmission of the viewpoint image. That is, when the network 50 is a best effort type network or the like, the band of the network 50 differs depending on the environment in which the user uses the playback device 40, and the time required for switching the viewpoint changes. Therefore, the band information is used. To be able to.
  • the virtual image VI corresponding to the viewpoint (position of the virtual camera) transitioning between the viewpoints before and after the switching can be displayed.
  • the transition path and transition speed of the viewpoint can be adjusted according to the band information.
  • the reproducing apparatus 40 the viewpoint data related to the viewpoint position before the viewpoint P C switch, based on the viewpoint data related to the viewpoint position of the viewpoint P N after switching, before switching of the viewpoint P C and after the switching when generating the virtual image VI in accordance with the trajectory information by the view point P N, it is possible to determine the trajectory information using band information.
  • This locus information includes information on the transition path between viewpoints before and after switching and information on the transition speed.
  • the reproducing apparatus 40 based on the bandwidth information of the network 50, the time from before switching of the viewpoint P C to transition to the viewpoint P N after switching (time to complete from the start of the switching of the viewpoint)
  • the transition path can be set as the shortest path, and when the transition time is longer than the predetermined value, the detour path can be set as the transition path.
  • the bandwidth indicated by the bandwidth information and the transition path indicated by the locus information It has a negative correlation with the length of (trajectory distance).
  • FIG. 6 shows an example of setting a transition path according to a band when switching between a plurality of viewpoints.
  • the transition time in accordance with the band is shorter than a predetermined value, as the shortest path between the pre-switching viewpoint P C and after switching the viewpoint P N, the viewpoint transition TR31 is set.
  • the viewpoint transition TR32 is set as a more detour route. Regardless of whether the viewpoint transition TR31 or the viewpoint transition TR32 is set, the virtual image VI corresponding to the viewpoint transitioning between the viewpoints before and after switching is displayed.
  • the transition speed of the viewpoints transitioning between the viewpoints may be changed. That is, when the viewpoint transition path is the same and the transition time according to the band is shorter than the predetermined value, the transition speed of the viewpoint is set to a faster speed, while the transition time according to the band is shorter than the predetermined value. If it is long, you can make a difference in speed, such as setting the transition speed of the viewpoint to a slower speed.
  • both the length of the transition path and the speed of the transition speed may be adjusted by determining the threshold value of the transition time according to the band. Further, the processing capacity of the reproduction device 40 may be taken into consideration when determining the threshold value of the transition time according to the band.
  • This processing power includes processor performance, memory capacity, display resolution, and the like.
  • the viewpoint transition is stopped and the viewpoint is changed to the viewpoint after switching according to the operation. It may be switched. Further, by darkening the periphery of the visual field of the user using the reproduction device 40 according to the transition speed of the viewpoint, so-called VR sickness can be suppressed.
  • the virtual image VI may be hidden by instantly switching the viewpoint image PI before and after the viewpoint is switched according to the viewpoint switching operation.
  • the case where the virtual image VI is hidden corresponds to the case where the bandwidth amount is larger than a predetermined value based on the bandwidth information of the network 50.
  • the user is presented with information regarding the transition of the viewpoint.
  • the reproducing apparatus 40 based on the viewpoint data and viewpoint data related to the viewpoint position before the viewpoint P C switch, related to the viewpoint position of the viewpoint P N after switching on the map of the event venue An image containing information indicating the viewpoint transition TR21 is displayed in.
  • the display example of FIG. 7 is an example, and for example, a character corresponding to the performer on the stage ST may be displayed together with information on the transition of the viewpoint on the map of the event venue.
  • the user can enjoy watching the virtual image even during the waiting time until the switching of viewpoints is completed. Further, by displaying the virtual image corresponding to the viewpoint transitioning between the viewpoints before and after switching, the user can grasp where the next viewpoint will be.
  • the metadata includes meta information such as information on the viewpoint position of the viewpoint image and information on the subject in the viewpoint image, but more specifically, the viewpoint image related to the viewpoint image.
  • the following information is included as related information.
  • the metadata includes information on the position, posture, angle of view, and the like of the camera 10 that captures the viewpoint image as information on the viewpoint position of the viewpoint image. Further, the metadata includes information on the position, posture, time, etc. corresponding to the subject (performer) as information on the subject in the viewpoint image.
  • the information about the subject may include information that identifies the subject, such as the name of the performer.
  • the metadata may include information about a space where a subject (performer) such as an event venue exists, and information about various objects existing in the space.
  • the information about the event venue can include control information such as spotlights and lighting.
  • control information such as spotlights and lighting.
  • information about various objects information about the clothes of the performer, the type and position of the musical instrument, and the like can be included.
  • Metadata are generated by the metadata server 20, but the information that can be analyzed by the analysis process such as the information about the object is based on the result of the analysis process on the distribution server 30 or the external server (not shown). You may give it.
  • the reproduction device 40 there are the following timings as the timing for acquiring metadata. That is, the reproduction device 40 always acquires the metadata that is repeatedly transmitted from the distribution server 30 at predetermined intervals. By always acquiring the metadata in this way, when the viewpoint switching operation is performed by the user, the processing can be started instantly using the acquired metadata.
  • the playback device 40 acquires the metadata transmitted from the distribution server 30 by requesting the distribution server 30 for the metadata when the viewpoint switching operation (for example, pressing the switching button) is performed by the user. can do. At this time, by including the information for specifying the viewpoint to be switched in the request of the metadata, only the necessary information about the camera 10 may be acquired.
  • the viewpoint switching operation for example, pressing the switching button
  • the metadata may include meta information that is constantly acquired and meta information that starts acquisition at the timing when the viewpoint switching operation is performed. That is, the acquisition timing can be different for each meta information included in the metadata.
  • network slicing technology can be used when transmitting data via the network 50.
  • Network slicing is a technology that virtually divides network resources and controls communication according to each application. Applications here include high reliability, low latency, high speed and large capacity.
  • Metadata including information on the position, posture, and angle of the camera 10 and meta information such as information on the position, posture, etc. of the subject (performer) in the viewpoint image can be sent in a highly reliable slice.
  • the metadata server 20 associates each metadata with slice-related information for identifying a highly reliable slice to be assigned for each metadata contained in the metadata.
  • a base station (not shown) that passes through to connect the metadata server 20 and the distribution server 30, by assigning each meta information to the slice specified based on the slice-related information, a highly reliable slice is used.
  • Each meta information is transmitted to the distribution server 30.
  • the slice-related information is not particularly limited as long as the slice to be assigned can be specified.
  • the naming of each meta information and the ID corresponding to the slice to be assigned are given to each meta information. And so on.
  • the slice high reliability and low delay and high speed and large capacity are exemplified, but the slice is not limited to this, and any of slices set by virtually dividing may be used.
  • the network slicing technique can be used.
  • slice-related information is associated with each meta information, as in the case of transmitting various meta information from the metadata server 20 to the distribution server 30.
  • each meta information is transmitted using the slice specified by the slice-related information associated with each meta information. ..
  • all meta information may be used as a highly reliable slice, but for example, only the minimum required meta information (for example, information regarding the position and posture of the subject and the position of the viewpoint after switching) may be used as a highly reliable slice. It may be controlled to send. Alternatively, in the case where the metadata is constantly sent, the meta information may be controlled to always be sent in a highly reliable slice. Furthermore, it may be controlled to send in a highly reliable slice only when the viewpoint switching instruction is given by the user.
  • the playback device 40 can reliably transmit the metadata. Can be received.
  • the reproduction device 40 can reduce the processing load when displaying the virtual image at the time of switching the viewpoint. Since the amount of metadata is smaller than that of viewpoint image data, it is easier to secure a band than other data.
  • the distribution server 30 may be configured as a device on the RAN (Radio Access Network) side. I do not care.
  • FIG. 8 shows a configuration example of each device of the content distribution system to which the present technology is applied.
  • the camera system 100 includes cameras 10-1 to 10-N, a 3D model generation unit 101, and a communication unit 102.
  • Cameras 10-1 to 10-N are installed at predetermined locations in the event venue, respectively. Each of the cameras 10-1 to 10-N photographs the performer on the stage from the place where the camera 10-1 to 10-N is installed, and supplies the viewpoint image data from different viewpoint positions to the 3D model generation unit 101 and the communication unit 102. ..
  • the 3D model generation unit 101 generates 3D model data corresponding to the subject (performer) in the viewpoint image based on the viewpoint image data supplied from the cameras 10-1 to 10-N, and supplies the 3D model data to the communication unit 102. ..
  • This 3D model data is taken as the data of a live-action 3D model.
  • the communication unit 102 transmits the viewpoint image data supplied from the cameras 10-1 to 10-N and the 3D model data supplied from the 3D model generation unit 101 to the distribution server 30 via the network 50.
  • the metadata server 20 is composed of an analysis unit 201, a metadata generation unit 202, and a communication unit 203.
  • the physical sensor 21-1 is installed at a predetermined place in the event venue, detects a physical quantity such as an electrical or magnetic quantity, and supplies sensor data according to the detection result to the metadata generation unit 202.
  • the distance measuring sensor 21-2 is installed at a predetermined place in the event venue, and supplies sensor data according to the measurement result of the distance to the object to the metadata generation unit 202.
  • the analysis unit 201 analyzes the viewpoint image data supplied from the camera 10 and supplies the analysis data according to the analysis result to the metadata generation unit 202.
  • the camera 10 is not limited to the cameras 10-1 to 10-N shown in FIG. 1 and the like, and may be cameras installed at other places in the event venue.
  • the metadata generation unit 202 generates metadata based on the sensor data supplied from the physical sensor 21-1 and the distance measuring sensor 21-2, and the analysis data supplied from the analysis unit 201, and generates metadata in the communication unit 203. Supply.
  • the metadata generated by the metadata generation unit 202 includes meta information such as information on the viewpoint position of the viewpoint image and information on the subject in the viewpoint image.
  • the information regarding the viewpoint position of the viewpoint image includes information regarding the position, posture, angle of view, and the like of the camera 10.
  • the information about the subject in the viewpoint image includes information about the position and posture corresponding to the subject (performer).
  • the communication unit 203 transmits the metadata supplied from the metadata generation unit 202 to the distribution server 30 via the network 50.
  • the viewpoint image data and 3D model data transmitted from the camera system 100 and the metadata transmitted from the metadata server 20 are transmitted by the distribution server 30 to the playback device 40 via the network 50.
  • a distribution server 30, an external server (not shown), or the like may execute a part of the processing executed by the camera system 100 and the metadata server 20.
  • the process of generating 3D model data may be executed by the distribution server 30 or an external server.
  • the reproduction device 40 is composed of a communication unit 401, an image processing unit 402, a display unit 403, an input unit 404, and a detection unit 405.
  • the communication unit 401 is a communication module that supports wireless communication such as wireless LAN (Local Area Network) and cellular communication (for example, LTE-Advanced, 5G, etc.) or wired communication.
  • wireless LAN Local Area Network
  • cellular communication for example, LTE-Advanced, 5G, etc.
  • the communication unit 401 receives the viewpoint image data, the 3D model data, and the metadata distributed from the distribution server 30 via the network 50, and supplies the data to the image processing unit 402. Further, the communication unit 401 receives the band information of the network 50 from the measurement server (not shown) or the like and supplies it to the image processing unit 402. The band information is acquired periodically because the band of the network 50 is not always the same band.
  • the measurement server is a server that measures the bandwidth of the network 50 at that time and provides it as bandwidth information in response to a request from a device connected to the network 50.
  • the image processing unit 402 is a player that reproduces content such as VR content.
  • the image processing unit 402 includes a viewpoint image processing unit 411, a transition calculation unit 412, a virtual image generation unit 413, a storage unit 414, a switching unit 415, and a reproduction unit 416.
  • the display control unit 410 is configured by the viewpoint image processing unit 411, the virtual image generation unit 413, and the switching unit 415.
  • the viewpoint image processing unit 411 processes the viewpoint image data supplied from the communication unit 401, and supplies the viewpoint image data according to the user's viewpoint to the switching unit 415.
  • the transition calculation unit 412 is based on the metadata and band information supplied from the communication unit 401 and the terminal position information supplied from the detection unit 405, such as the transition path and transition speed of the viewpoints transitioning between the viewpoints before and after switching. Is calculated, and the locus information including the calculation result is supplied to the virtual image generation unit 413.
  • the virtual image generation unit 413 generates virtual image data based on the 3D model data and metadata supplied from the communication unit 401 and the trajectory information supplied from the transition calculation unit 412, and supplies the virtual image data to the switching unit 415.
  • the virtual image generation unit 413 can use data such as a 3D character and a stage map recorded in the storage unit 414 when generating virtual image data.
  • the storage unit 414 is an auxiliary storage device including a semiconductor memory such as a non-volatile memory.
  • the storage unit 414 may be configured as an internal storage or may be an external storage such as a memory card.
  • the switching unit 415 is supplied with the viewpoint image data from the viewpoint image processing unit 411 and the virtual image data from the virtual image generation unit 413.
  • the switching unit 415 switches between the viewpoint image data and the virtual image data, and supplies either image data to the reproduction unit 416.
  • the reproduction unit 416 performs reproduction processing using the viewpoint image data or virtual image data supplied from the switching unit 415 based on the user's viewpoint information supplied from the detection unit 405, and displays the viewpoint image or virtual image. Display on 403.
  • the display unit 403 is a display including an OLED (Organic Light Emitting Diode) panel, a liquid crystal panel, and the like.
  • the input unit 404 is composed of physical buttons, touch sensors, and the like.
  • the input unit 404 supplies the operation data corresponding to the operation to the image processing unit 402.
  • the viewpoint switching process is performed according to the operation data supplied from the input unit 404.
  • the detection unit 405 has a sensing function by various sensors such as a gyro sensor and an eye tracking function.
  • the detection unit 405 detects information regarding the position of the reproduction device 40 (terminal position information) and information regarding the location of the user's viewpoint (viewing location) (viewpoint information) and supplies the information to the image processing unit 402.
  • FIG. 9 shows the flow of data between each device in the content distribution system 1 configured as described above.
  • the viewpoint image data taken by the plurality of cameras 10, the 3D model data thereof, and the metadata generated by the metadata server 20 are transmitted to the distribution server 30 via the network 50 (S11, S12).
  • the distribution server 30 transmits the viewpoint image data to the reproduction device 40 via the network 50 in response to the request from the reproduction device 40 (S13, S14). As a result, the reproduction device 40 displays the viewpoint image corresponding to the viewpoint image data.
  • the metadata and the 3D model data are transmitted at arbitrary timings, such as being repeatedly transmitted at predetermined intervals or being transmitted when requested by the reproduction device 40.
  • the reproduction device 40 it is determined whether or not to switch the viewpoint based on the operation data from the input unit 404 (S15). For example, when the viewpoint switching operation is performed by the user and it is determined that the viewpoint is switched (“Yes” in S15), the process proceeds to step S16.
  • step S16 the viewpoint switching process is executed by the reproduction device 40.
  • the details of this viewpoint switching process will be described later with reference to the flowcharts of FIGS. 10 and 11.
  • step S101 the transition calculation unit 412 determines whether the bandwidth amount indicated by the bandwidth information of the network 50 is equal to or less than a predetermined value.
  • the predetermined value may be a predetermined fixed value or a variable value according to the processing capacity (processor performance, etc.) of the reproduction device 40.
  • step S101 If it is determined in the determination process of step S101 that the bandwidth amount is equal to or less than the predetermined value, the process proceeds to step S102.
  • step S102 the transition calculation unit 412 calculates the transition path and transition speed of the viewpoint moving between the viewpoints before and after switching based on the metadata, the band information, and the terminal position information. For example, as shown in FIG. 6 described above, the viewpoint transition TR31 or the viewpoint transition TR32 is calculated based on the band information of the network 50.
  • step S103 the virtual image generation unit 413 generates virtual image data based on the 3D model data, metadata, and trajectory information. For example, as shown in FIG. 6 described above, a virtual image VI corresponding to a viewpoint transitioning between viewpoints before and after switching is generated according to the viewpoint transition TR31 or the viewpoint transition TR32.
  • the metadata used when generating this virtual image data includes both the meta information related to the viewpoint image after switching and the meta information related to the viewpoint image before switching, as well as after switching. It suffices if at least the meta information related to the viewpoint image is included.
  • step S104 the switching unit 415 supplies the virtual image data generated by the virtual image generation unit 413 to the reproduction unit 416, and controls the display unit 403 to display the virtual image corresponding to the virtual image data. do.
  • step S105 the switching unit 415 determines whether or not the switching preparation is completed. For example, by monitoring the processing status of the viewpoint image data in the viewpoint image processing unit 411, it is possible to determine whether or not the switching preparation is completed.
  • step S105 If it is determined in the determination process of step S105 that the switching preparation is not completed, the process returns to step S102, and the subsequent processes are repeated. That is, by repeating the processes of steps S102 to S105, the reproduction device 40 continues to display the virtual image.
  • step S105 if it is determined in the determination process of step S105 that the switching preparation is completed, the process proceeds to step S106.
  • the switching unit 415 switches the image data supplied to the reproduction unit 416 from the virtual image data from the virtual image generation unit 413 to the viewpoint image data from the viewpoint image processing unit 411.
  • the viewpoint image corresponding to the viewpoint image data is displayed, and the virtual image can be switched to the viewpoint image after switching.
  • step S101 when the band amount exceeds a predetermined value in the determination process of step S101, the process of steps S102 to S105 is skipped because the band amount is sufficiently secured, and the process proceeds to step S106.
  • the reproduction device 40 does not display the virtual image and immediately switches from the viewpoint image before switching to the viewpoint image after switching. At this time, information regarding the transition of the viewpoint shown in FIG. 7 described above (for example, information superimposed on the map of the event venue) may be presented.
  • step S106 When the process of step S106 is completed, the viewpoint switching process is completed.
  • the metadata is not always acquired as in the first example, but the metadata is acquired when the viewpoint switching operation is performed by the user.
  • step S201 as in step S101 of FIG. 10, it is determined whether the bandwidth of the network 50 is equal to or less than the predetermined value, and if the bandwidth is equal to or less than the predetermined value (“Yes” in S201), the process is performed. , Step S202.
  • step S202 the communication unit 401 receives the metadata transmitted from the distribution server 30 by requesting the metadata from the distribution server 30 via the network 50. As a result, the transition calculation unit 412 acquires the metadata from the communication unit 401.
  • step S203 the transition calculation unit 412 calculates the transition path and transition speed of the viewpoints transitioning between the viewpoints before and after switching, and the metadata used at the time of calculation is the metadata acquired in the process of the immediately preceding step S202. It becomes.
  • steps S204 to S207 similarly to steps S103 to S106 of FIG. 10, the generated virtual image is displayed until the switching preparation is completed, and when the switching preparation is completed, the virtual image is switched to the viewpoint image after switching. Be done.
  • a virtual image based on metadata and 3D model data is generated according to the band information of the network 50, and the generated virtual image is displayed before the viewpoint image after switching is displayed. Is controlled.
  • a virtual image corresponding to the band information of the network 50 is displayed from the time when the user performs the viewpoint switching operation until the viewpoint image after switching can be displayed. It is possible to control the display of the virtual image more accurately at the timing when the virtual image should be displayed.
  • the band of the network 50 differs depending on the environment in which the user uses the playback device 40, the time required for switching the viewpoint changes, but by generating the virtual image according to the band information, the virtual image can be generated more accurately. You can control the display. As a result, when the user performs the viewpoint switching operation, the viewpoint can be switched more appropriately.
  • the user can grasp where the viewpoint will be after switching. Further, the user can view the virtual image without being aware of the time until the switching of the viewpoint is completed.
  • the head-mounted display has been described as an example of the playback device 40, but it may be a mobile device such as a smartphone or a tablet terminal, a wearable device, or the like. Since the reproduction device 40 has the image processing unit 402, it may be regarded as an image processing device. Further, the VR content reproduced by the reproduction device 40 is an example of the content, and may be another content.
  • the metadata server 20 may be provided on the network 50 so that the sensor data from the sensor 21 can be received by the metadata server 20 via the network 50.
  • the sensor 21, the physical sensor 21-1 and the distance measuring sensor 21-2 have been described as an example, but other sensors may be used as long as they can sense the spatial information and the time information in the event venue. I do not care.
  • an example of distributing VR contents taken at an event venue such as a music concert venue is shown, but if the environment is such that a plurality of cameras 10 can be installed, the building is not limited to the event venue. It may be in another environment such as inside an object or in the city.
  • the event venue is not limited to the venue of a music concert, and may be, for example, a venue where a competition such as sports is performed.
  • the series of processes described above can be executed by hardware or software.
  • the programs constituting the software are installed in the computer of each device.
  • FIG. 12 is a block diagram showing a configuration example of computer hardware that executes the above-mentioned series of processes programmatically.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 1005 is further connected to the bus 1004.
  • An input unit 1006, an output unit 1007, a storage unit 1008, a communication unit 1009, and a drive 1010 are connected to the input / output interface 1005.
  • the input unit 1006 includes a microphone, a keyboard, a mouse, and the like.
  • the output unit 1007 includes a speaker, a display, and the like.
  • the storage unit 1008 includes a hard disk, a non-volatile memory, and the like.
  • the communication unit 1009 includes a network interface and the like.
  • the drive 1010 drives a removable recording medium 1011 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 1001 loads the program recorded in the ROM 1002 and the storage unit 1008 into the RAM 1003 via the input / output interface 1005 and the bus 1004 and executes the above-mentioned series. Is processed.
  • the program executed by the computer (CPU1001) can be recorded and provided on the removable recording medium 1011 as a package medium or the like, for example.
  • the program can also be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the storage unit 1008 via the input / output interface 1005 by mounting the removable recording medium 1011 in the drive 1010. Further, the program can be received by the communication unit 1009 via a wired or wireless transmission medium and installed in the storage unit 1008. In addition, the program can be pre-installed in the ROM 1002 or the storage unit 1008.
  • the processes performed by the computer according to the program do not necessarily have to be performed in chronological order in the order described as the flowchart. That is, the processing performed by the computer according to the program includes processing executed in parallel or individually (for example, processing by parallel processing or processing by an object). Further, the program may be processed by one computer (processor) or may be distributed processed by a plurality of computers.
  • each step of the viewpoint switching process shown in FIGS. 10 and 11 can be executed by one device or shared by a plurality of devices. Further, when a plurality of processes are included in one step, the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and one device in which a plurality of modules are housed in one housing are both systems.
  • a virtual image generation unit that generates a virtual image based on the viewpoint image-related information related to the first viewpoint image and the model data corresponding to the subject of the viewpoint image according to the band information related to the transmission of the viewpoint image.
  • An image processing device including a display control unit that controls to display the generated virtual image before displaying the first viewpoint image.
  • the viewpoint image-related information includes information on the viewpoint position of the viewpoint image and information on a subject in the viewpoint image.
  • the virtual image generation unit generates the virtual image when the band amount indicated by the band information is equal to or less than a predetermined value.
  • the image processing apparatus (4) The image processing apparatus according to (3) above, wherein the predetermined value is a predetermined fixed value or a variable value according to the processing capacity of the device for displaying the virtual image.
  • the virtual image generation unit generates the virtual image based on the viewpoint image-related information related to the second viewpoint image displayed before switching to the first viewpoint image (1) to (1).
  • the image processing apparatus according to any one of 4).
  • the virtual image generation unit has a first viewpoint position information regarding a first viewpoint position corresponding to the first viewpoint image and a second viewpoint position information regarding a second viewpoint position corresponding to the second viewpoint image.
  • the image processing apparatus according to (5), wherein the virtual image is generated according to the locus information determined by the first viewpoint position and the second viewpoint position.
  • the image processing device according to any one of (1) to (10), wherein the display control unit switches from the virtual image to the first viewpoint image when the preparation for displaying the first viewpoint image is completed. .. (12)
  • the viewpoint image-related information includes the generated information of the subject.
  • the image processing apparatus according to any one of (1) to (11), wherein the model data is an image relating to a specific character associated with the subject.
  • the virtual image generation unit generates a two-dimensional or three-dimensional virtual image according to the processing capacity of the device that displays the virtual image.
  • the image processing apparatus according to any one of (1) to (13), wherein the viewpoint image-related information is acquired at a predetermined interval or in response to a viewpoint switching instruction by a user.
  • the image processing apparatus differs depending on the information included in the viewpoint image-related information.
  • the information regarding the viewpoint position of the viewpoint image includes information regarding the position, posture, and angle of view of the camera that captures the viewpoint image.
  • the image processing apparatus according to (2), wherein the information about the subject in the viewpoint image includes information about a position and a posture corresponding to the subject.
  • the viewpoint image-related information further includes information about a space in which the subject exists and information about an object existing in the space.
  • the image processing apparatus according to any one of (1) to (17), wherein the viewpoint image-related information is transmitted in a band that ensures higher reliability than the viewpoint image.
  • the image processing device A virtual image based on the viewpoint image-related information related to the first viewpoint image and the model data corresponding to the subject of the viewpoint image is generated according to the band information related to the transmission of the viewpoint image.
  • Computer A virtual image generation unit that generates a virtual image based on the viewpoint image-related information related to the first viewpoint image and the model data corresponding to the subject of the viewpoint image according to the band information related to the transmission of the viewpoint image.
  • a program that functions as a display control unit that controls to display the generated virtual image before displaying the first viewpoint image.
  • the first viewpoint image is an image processing device displayed after displaying a virtual image based on the viewpoint image-related information and model data corresponding to the subject of the viewpoint image according to the band information related to the transmission of the viewpoint image. ..
  • the information regarding the viewpoint position of the viewpoint image includes information regarding the position, posture, and angle of view of the camera that captures the viewpoint image.
  • the image processing apparatus according to (22), wherein the information about the subject in the viewpoint image includes information about a position and a posture corresponding to the subject.
  • 1 Content distribution system 10, 10-1 to 10-N cameras, 20 metadata servers, 21 sensors, 21-1 physical sensors, 21-2 ranging sensors, 30 distribution servers, 40 playback devices, 50, 50-1 , 50-2 network, 100 camera system, 101 3D model generation unit, 102 communication unit, 201 analysis unit, 202 metadata generation unit, 203 communication unit, 401 communication unit, 402 image processing unit, 403 display unit, 404 input unit , 405 detection unit, 410 display control unit, 411 viewpoint image processing unit, 412 transition calculation unit, 413 virtual image generation unit, 414 storage unit, 416 playback unit, 1001 CPU

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Geometry (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Processing Or Creating Images (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本技術は、より適切に視点の切り替えを行うことができるようにする画像処理装置、画像処理方法、及びプログラムに関する。 視点画像の送信に関する帯域情報に応じて、第1の視点画像に関連する視点画像関連情報と視点画像の被写体に対応するモデルデータに基づいた仮想画像を生成する仮想画像生成部と、第1の視点画像を表示する前に、生成した仮想画像を表示するように制御する表示制御部とを備える画像処理装置が提供される。例えば、本技術は、VRコンテンツを再生する再生装置に適用することができる。

Description

画像処理装置、画像処理方法、及びプログラム
 本技術は、画像処理装置、画像処理方法、及びプログラムに関し、特に、より適切に視点の切り替えを行うことができるようにした画像処理装置、画像処理方法、及びプログラムに関する。
 近年、VR(Virtual Reality)等のコンピュータにより作り出された空間を現実として知覚させて新しい体験を提供するための研究開発が盛んに行われている。
 例えば、特許文献1には、任意の視点からの画像の再生を可能にした自由視点画像データを再生する再生装置に関する技術が開示されている。
特開2015-187797号公報
 ところで、任意の視点を選択可能な場合に、ユーザにより新しい視点が選択されたとき、新しい視点の画像を再生できる状態になるまで待ち時間が発生するため、その待ち時間を考慮してより適切に視点の切り替えが行われることが求められる。
 本技術はこのような状況に鑑みてなされたものであり、より適切に視点の切り替えを行うことができるようにするものである。
 本技術の一側面の画像処理装置は、視点画像の送信に関する帯域情報に応じて、第1の視点画像に関連する視点画像関連情報と前記視点画像の被写体に対応するモデルデータに基づいた仮想画像を生成する仮想画像生成部と、前記第1の視点画像を表示する前に、生成した前記仮想画像を表示するように制御する表示制御部とを備える画像処理装置である。
 本技術の一側面の画像処理方法は、画像処理装置が、視点画像の送信に関する帯域情報に応じて、第1の視点画像に関連する視点画像関連情報と前記視点画像の被写体に対応するモデルデータに基づいた仮想画像を生成し、前記第1の視点画像を表示する前に、生成した前記仮想画像を表示するように制御する画像処理方法である。
 本技術の一側面のプログラムは、コンピュータを、視点画像の送信に関する帯域情報に応じて、第1の視点画像に関連する視点画像関連情報と前記視点画像の被写体に対応するモデルデータに基づいた仮想画像を生成する仮想画像生成部と、前記第1の視点画像を表示する前に、生成した前記仮想画像を表示するように制御する表示制御部として機能させるプログラムである。
 本技術の一側面の画像処理装置、画像処理方法、及びプログラムにおいては、視点画像の送信に関する帯域情報に応じて、第1の視点画像に関連する視点画像関連情報と前記視点画像の被写体に対応するモデルデータに基づいた仮想画像が生成され、前記第1の視点画像が表示される前に、生成された前記仮想画像が表示されるように制御される。
 本技術の一側面の画像処理装置は、独立した装置であってもよいし、1つの装置を構成している内部ブロックであってもよい。
本技術を適用したコンテンツ配信システムの構成例を示す図である。 複数視点の切り替えの例を示す図である。 第1の視点に応じた視点画像の例を示す図である。 第2の視点に応じた視点画像の例を示す図である。 複数視点の切り替え時に表示される仮想画像の例を示す図である。 複数視点の切り替え時における帯域に応じた遷移経路の設定の例を示す図である。 イベント会場のマップ上に表示された遷移経路の例を示す図である。 本技術を適用したコンテンツ配信システムの各装置の構成例を示す図である。 コンテンツ配信システムにおける各装置間のデータの流れを示す図である。 視点切り替え処理の流れの第1の例を示すフローチャートである。 視点切り替え処理の流れの第2の例を示すフローチャートである。 コンピュータの構成例を示す図である。
<1.本技術の実施の形態>
(システムの構成例)
 図1は、本技術を適用したコンテンツ配信システムの構成例を示している。
 コンテンツ配信システム1は、VR映像等のコンテンツ(VRコンテンツ)を配信して、ユーザに視聴させるサービスを提供するシステムである。
 図1において、コンテンツ配信システム1は、カメラ10-1乃至10-N、メタデータサーバ20、センサ21、配信サーバ30、及び再生装置40-1乃至40-Mから構成される。ただし、N,Mは、1以上の整数である。
 例えば、音楽コンサート等のVRコンテンツを配信する場合、カメラ10-1乃至10-Nと各種のセンサ21は、音楽コンサートの会場等のイベント会場内に設置される。カメラ10-1乃至10-Nのそれぞれは、ステージ上の演者を様々な角度から撮影可能な場所に設置される。また、各種のセンサ21は、検出対象を検出可能な場所に設置され、メタデータサーバ20に接続される。
 カメラ10-1は、光学系やイメージセンサ、信号処理回路等から構成される。カメラ10-1は、イベント会場内の所定の場所に設置され、ステージ上の演者を撮影する。カメラ10-1により撮影される撮影画像は、第1の視点位置から撮影された視点画像であると言える。
 カメラ10-2乃至10-Nのそれぞれは、カメラ10-1と同様に構成され、それぞれが設置された所定の場所からステージ上の演者を撮影することで、異なる視点位置からの視点画像が撮影される。
 センサ21は、物理センサや測距センサなどのセンサを含む。物理センサは、電気的又は磁気的な量、機械的な量、及び光や温度などの物理量を検出するセンサである。測距センサは、ToF(Time of Flight)等の方式により、対象物までの距離を測定するセンサである。
 メタデータサーバ20は、各種のセンサ21により検出されたセンサデータと、カメラ10-1乃至10-Nにより撮影された視点画像データに基づいて、視点画像に関連するメタデータを生成する。このメタデータは、視点画像の視点位置に関する情報や、視点画像内の被写体に関する情報などのメタ情報を含む。
 カメラ10-1乃至10-Nにより撮影された視点画像データと、メタデータサーバ20により生成されたメタデータなどのデータは、ネットワーク50-1を介して配信サーバ30に送信される。ネットワーク50-1は、インターネット、イントラネット、又は携帯電話網などの通信網を含み、専用線であってもよい。
 配信サーバ30は、コンテンツの配信を行うサーバ(クラウドサーバ)であり、データセンタ等に設置される。配信サーバ30は、ネットワーク50-1を介して視点画像データやメタデータ等のデータを受信して、音楽コンサート等のVRコンテンツを配信可能にするための処理を行う。
 再生装置40-1は、ヘッドマウントディスプレイ(HMD:Head Mounted Display)等のコンテンツを再生可能な機器である。再生装置40-1は、ユーザからの操作に従い、ネットワーク50-2を介して配信サーバ30に、VRコンテンツの配信要求を送信する。ネットワーク50-2は、インターネット、イントラネット、又は携帯電話網などの通信網を含む。
 配信サーバ30は、再生装置40-1からの配信要求を受信した場合、当該配信要求に応じたVRコンテンツデータを、ネットワーク50-2を介して再生装置40-1に送信する。VRコンテンツデータには、視点画像データやメタデータ等が含まれる。これにより、再生装置40-1では、音楽コンサート等のVRコンテンツが再生され、ユーザにより視聴される。
 再生装置40-2乃至40-Mは、再生装置40-1と同様に構成され、配信サーバ30から配信されるVRコンテンツを再生することができる。以下の説明で、再生装置40-1乃至40-Mを特に区別する必要がない場合には、再生装置40と称する。また、ネットワーク50-1とネットワーク50-2は、異なるネットワークに限らず、同一のネットワークであってもよく、以下、ネットワーク50と称して説明する。
 以上のように構成されるコンテンツ配信システム1では、イベント会場内のステージ上で演じている演者を、複数のカメラ10により様々な角度から撮影しているため、音楽コンサート等のVRコンテンツを再生する再生装置40では、視点画像内の被写体として様々な視点に応じた演者を表示することができる。
 例えば、図2に示すように、イベント会場内のステージSTで、演者PR1,演者PR2,演者PR3の3人グループが楽曲を演じている場面を想定する。図2の例では、ステージSTに向かって、左側にカメラ10-1が設置され、正面にカメラ10-2が設置され、右側にカメラ10-3が設置されている。
 カメラ10-1の画角A1には、被写体として3人の演者が含まれるが、カメラ10-1がステージSTに向かって左側に設置されているため、その撮影画像としては、例えば、図3に示すような視点画像PI1が得られる。
 カメラ10-3の画角A3には、被写体として3人の演者が含まれるが、カメラ10-3がステージSTに向かって右側に設置されているため、その撮影画像としては、例えば、図4に示すような視点画像PI3が得られる。
 図示はしていないが、カメラ10-2は、ステージSTに向かって正面に設置されているため、その撮影画像としては、画角A2の範囲内で3人の演者を正面から写した視点画像が得られる。
 このとき、再生装置40で、音楽コンサートのVRコンテンツを視聴しているユーザが、自己の視点を、正面のカメラ10-2の画角A2に応じた視点Pから、左側のカメラ10-1の画角A1に応じた視点Pに切り替える操作を行った場合、現在の視点Pから新しい視点Pに視点の遷移が行われる(図2の視点遷移TR11)。
 また、再生装置40でVRコンテンツを視聴中のユーザが、自己の視点を、正面のカメラ10-2の画角A2に応じた視点Pから、右側のカメラ10-3の画角A3に応じた視点Pに切り替える操作を行った場合、現在の視点Pから新しい視点Pに視点の遷移が行われる(図2の視点遷移TR12)。
 このように、再生装置40で、VRコンテンツを視聴中のユーザが複数視点を選択可能な場合に、切り替え前の視点Pから、切り替え後の視点Pに視点の遷移(図2の視点遷移TR11,TR12)が行われるとき、現状では、切り替え後の視点Pに応じた視点画像(図3の視点画像PI1,図4の視点画像PI3)が再生可能な状態になるまで一定の待ち時間が経過してから、視点画像の切り替わりが行われる。
 そのため、再生装置40では、VRコンテンツを視聴中のユーザが複数視点を選択可能な場合に、視点の遷移によって、視点の切り替わりの完了までに時間がかかったり、視点が切り替わった後の新しい視点がどこか把握し難かったりするという問題が発生してしまう。
 そこで、コンテンツ配信システム1では、このような問題を解決して、ユーザが複数視点を選択可能な場合に、より適切に視点の切り替えを行うことができるようにしている。
 すなわち、コンテンツ配信システム1では、視点画像を送信するに際して、視点画像の視点位置に関する情報や視点画像内の被写体に関する情報などのメタ情報を含むメタデータと、視点画像内の被写体に対応するモデルデータが生成され、再生装置40に送信される。再生装置40では、メタデータとモデルデータに基づいた仮想画像を生成して、視点が切り替わった後の新しい視点での視点画像の再生準備が完了するまでの間、当該仮想画像が表示されるようにする。
(仮想画像の表示例)
 図5は、複数視点の切り替え時に表示される仮想画像の例を示している。
 図5において、再生装置40では、VRコンテンツを視聴中のユーザが、自己の視点を、左側のカメラ10-1の画角A1に応じた視点Pから、右側のカメラ10-3の画角A3に応じた視点Pに切り替える操作を行った場合、切り替え前の視点Pから、切り替え後の視点Pに視点の遷移が行われる(図5の視点遷移TR21)。
 このとき、再生装置40では、視点の遷移が行われている間、すなわち、切り替え前の視点Pを切り替える操作が行われてから、切り替え後の視点Pでの視点画像(図4の視点画像PI3)の再生準備ができるまでの間、仮想画像VIが表示される。例えば、再生装置40では、切り替え前の視点Pから、切り替え後の視点Pまでの視点間を遷移する視点(仮想カメラの位置)に応じた仮想画像VIを表示することができる。
 仮想画像VI内には、ステージST上の演者PR1,演者PR2,演者PR3に対応したキャラクタPV1,キャラクタPV2,キャラクタPV3が含まれる。すなわち、メタデータには、視点画像PI内の被写体の生成情報が含まれ、モデルデータには、当該被写体と対応付けられた特定のキャラクタに関する画像が含まれるので、被写体としての演者PRに対応した3DキャラクタPVを生成することができる。
 図5では、仮想画像VIとして、演者PRに対応した3DキャラクタPVが表示される場合を例示しているが、仮想画像VIとしては、3Dキャラクタに限らず、例えば、実写の3Dモデルなど、視点画像PIの被写体と対応付けられた画像であればよい。
 仮想画像VIは、3Dキャラクタ等の3次元の画像に限らず、2Dキャラクタ等の2次元の画像であってもよい。例えば、再生装置40の処理負荷を考慮すれば、2次元の仮想画像VIを表示するよりも、3次元の仮想画像VIを表示するほうが、負荷が高いため、再生装置40の処理能力(プロセッサの性能等)に応じて、2次元の仮想画像VI又は3次元の仮想画像VIを表示することができる。
 また、コンテンツ配信システム1では、視点画像の送信に関する帯域情報に応じて、メタデータとモデルデータに基づいた仮想画像が生成されるようにする。すなわち、ネットワーク50が、ベストエフォート型のネットワークなどである場合、ユーザが再生装置40を使用する環境によって、ネットワーク50の帯域が異なることで、視点の切り替えにかかる時間が変わるため、帯域情報が用いられるようにする。
 例えば、再生装置40では、ユーザによる視点の切り替え操作に応じて視点の遷移を行う際に、切り替え前後の視点間を遷移する視点(仮想カメラの位置)に応じた仮想画像VIを表示することができるが、当該視点の遷移経路と遷移速度を、帯域情報に応じて調整することができる。
 具体的には、再生装置40では、切り替え前の視点Pの視点位置に関する視点位置情報と、切り替え後の視点Pの視点位置に関する視点位置情報に基づき、切り替え前の視点Pと切り替え後の視点Pによる軌跡情報に応じた仮想画像VIを生成する際に、帯域情報を用いて軌跡情報を決定することができる。この軌跡情報には、切り替え前後の視点間の遷移経路に関する情報と遷移速度に関する情報を含む。
 また、再生装置40では、ネットワーク50の帯域情報に基づき、切り替え前の視点Pから切り替え後の視点Pに遷移するまでの時間(視点の切り替えを開始してから完了するまでの時間)を算出し、この遷移時間が所定値よりも短いときは遷移経路を最短経路に設定し、所定値よりも長いときには遷移経路として遠回りした経路を設定することができる。
 すなわち、帯域量が大きいほど遷移経路の長さが短くなり、帯域量が小さいほど遷移経路の長さが長くなるような関係があるため、帯域情報が示す帯域量と、軌跡情報が示す遷移経路(軌跡距離)の長さとは、負の相関関係を有している。
 図6は、複数視点の切り替え時における帯域に応じた遷移経路の設定の例を示している。
 図6においては、帯域に応じた遷移時間が所定値よりも短い場合には、切り替え前の視点Pと切り替え後の視点Pとの間の最短経路として、視点遷移TR31が設定される。一方で、帯域に応じた遷移時間が所定値よりも長い場合には、より遠回りした経路として、視点遷移TR32が設定される。視点遷移TR31と視点遷移TR32のいずれが設定された場合でも、切り替え前後の視点間を遷移する視点に応じた仮想画像VIが表示される。
 図6の例では、帯域に応じた遷移時間の閾値判定より、遷移経路の長さを変更する例を示したが、視点間を遷移する視点の遷移速度などを変更しても構わない。すなわち、視点遷移の経路を同じ経路として、帯域に応じた遷移時間が所定値よりも短い場合に、視点の遷移速度をより速い速度に設定する一方で、帯域に応じた遷移時間が所定値よりも長い場合に、視点の遷移速度をより遅い速度に設定するなど、速度に差をつけることができる。
 また、帯域に応じた遷移時間の閾値判定よって、遷移経路の長さと遷移速度の速さの両方を調整しても構わない。さらに、帯域に応じた遷移時間の閾値判定に際しては、再生装置40の処理能力を加味してもよい。この処理能力としては、プロセッサの性能や、メモリの容量、ディスプレイの解像度などを含む。
 なお、再生装置40では、視点の切り替え操作に応じた視点の遷移の途中で、ユーザにより所定の操作が行われた場合、視点の遷移を中止して、当該操作に応じた切り替え後の視点に切り替えられてもよい。また、再生装置40を使用しているユーザの視野の周囲を、視点の遷移速度に応じて暗くすることで、いわゆるVR酔いを抑制することができる。
 また、再生装置40では、視点の切り替え操作に応じて視点の切り替え前と切り替え後の視点画像PIが瞬時に切り替わるようにして、仮想画像VIを非表示としても構わない。例えば、仮想画像VIを非表示とする場合としては、ネットワーク50の帯域情報に基づき、帯域量が所定値よりも大きい場合などが該当する。ただし、仮想画像VIを非表示にする場合でも、ユーザに対して、視点の遷移に関する情報が提示されるようにする。
 例えば、図7に示すように、再生装置40において、切り替え前の視点Pの視点位置に関する視点位置情報と、切り替え後の視点Pの視点位置に関する視点位置情報に基づき、イベント会場のマップ上に視点遷移TR21を示す情報を含む画像が表示される。これにより、ユーザは、表示されたマップを確認して、どのような視点の移動が行われたかを認識することができる。なお、図7の表示例は一例であり、例えば、イベント会場のマップ上に、視点の遷移に関する情報とともに、ステージST上の演者に応じたキャラクタなどが表示されてもよい。
 このように、複数視点の切り替え時に、仮想画像が表示されるようにすることで、ユーザは、視点の切り替わりの完了までの待ち時間の間も、仮想画像を見ることで楽しむことができる。また、切り替え前後の視点間を遷移する視点に応じた仮想画像が表示されることで、ユーザは、次の視点がどこになるかを把握することができる。
(メタデータの構成例)
 メタデータには、視点画像の視点位置に関する情報や、視点画像内の被写体に関する情報などのメタ情報を含むことは先に述べた通りであるが、より詳細には、視点画像に関連する視点画像関連情報として、次のような情報が含まれる。
 すなわち、メタデータには、視点画像の視点位置に関する情報として、視点画像を撮影するカメラ10の位置、姿勢、画角に関する情報などが含まれる。また、メタデータには、視点画像内の被写体に関する情報として、被写体(演者)に対応した位置、姿勢、時間に関する情報などが含まれる。被写体に関する情報には、演者の名前などの被写体を特定する情報を含んでもよい。
 メタデータは、イベント会場等の被写体(演者)が存在する空間に関する情報や、当該空間に存在する各種のオブジェクトに関する情報を含んでもよい。例えば、イベント会場に関する情報としては、スポットライトや照明などの制御情報を含めることができる。また、各種のオブジェクトに関する情報としては、演者の服装、楽器の種類や位置などに関する情報を含めることができる。
 これらのメタデータは、メタデータサーバ20により生成されるが、オブジェクトに関する情報などの解析処理で解析可能な情報については、配信サーバ30又は外部サーバ(不図示)側での解析処理の結果に基づき付与しても構わない。
 再生装置40において、メタデータを取得するタイミングとしては、例えば、次のようなタイミングがある。すなわち、再生装置40は、配信サーバ30から所定の間隔で繰り返して送信されてくるメタデータを常に取得するようにする。このように、メタデータを常に取得しておくことで、ユーザにより視点の切り替え操作が行われたとき、取得しておいたメタデータを用いて、瞬時に処理を開始することができる。
 また、再生装置40は、ユーザにより視点の切り替え操作(例えば切り替えボタンの押下)が行われたとき、配信サーバ30にメタデータを要求することで、配信サーバ30から送信されてくるメタデータを取得することができる。このとき、メタデータの要求に、切り替えの対象となる視点を特定する情報を含めることで、必要なカメラ10に関する情報だけを取得するようにしてもよい。
 なお、これらの取得タイミングは組み合わせてもよく、例えば、メタデータとして、常時取得するメタ情報と、視点の切り替え操作が行われたタイミングで取得を開始するメタ情報とが含まれてもよい。つまり、メタデータに含まれるメタ情報ごとに、取得タイミングを異ならせることができる。
(ネットワークスライシングの適用例)
 コンテンツ配信システム1では、ネットワーク50を介してデータを送信する際に、ネットワークスライシングの技術を用いることができる。ネットワークスライシングとは、ネットワークリソースを仮想的に分割して、それぞれの用途に合わせた通信制御を行う技術である。ここでの用途には、高信頼低遅延や高速大容量などが含まれる。
 例えば、コンテンツ配信システム1において、カメラ10の位置、姿勢、画角に関する情報と、視点画像の被写体(演者)の位置、姿勢等に関する情報などのメタ情報を含むメタデータを高信頼のスライスで送れるように、メタデータサーバ20が、メタデータに含まれる各メタ情報に対し、割り当てられるべき高信頼スライスを特定するためのスライス関連情報を各メタ情報に関連付ける。そして、メタデータサーバ20と配信サーバ30を接続するために経由する基地局(不図示)において、スライス関連情報に基づいて特定されたスライスに各メタ情報を割当てることで、高信頼スライスを用いて各メタ情報を配信サーバ30に送信する。
 ここで、スライス関連情報とは、割り当てられるべきスライスが特定できるものであれば特に限定はされず、例えば各メタ情報の名称付けや、割り当てられるべきスライスに対応するIDを各メタ情報に付与することなどが挙げられる。また、スライスとしては、高信頼低遅延と高速大容量を例示したが、これに限定されず、仮想的に分割して設定されたスライスのいずれであっても構わない。
 また、配信サーバ30から再生装置40に各種メタデータを送る場合も同様に、ネットワークスライシングの技術を用いることができる。この場合はメタデータサーバ20から配信サーバ30に各種メタ情報を送信する場合と同様に、各メタ情報に対してスライス関連情報を関連付ける。そして、配信サーバ30と再生装置40を接続するために経由する基地局(不図示)において、各メタ情報に関連付けられたスライス関連情報により特定されるスライスを用いて、各メタ情報が送信される。
 ここでは、全てのメタ情報を高信頼のスライスとしてもよいが、例えば、最低限必要となるメタ情報(例えば被写体の位置及び姿勢と切り替え後の視点の位置に関する情報)だけを高信頼のスライスで送るように制御してもよい。あるいは、メタデータを常に送り続けるケースでは、メタ情報を常に高信頼のスライスで送り続けるように制御してもよい。さらには、ユーザによって視点切り替え指示があった場合にのみ、高信頼のスライスで送るように制御してもよい。
 このように、ネットワークスライシングの技術を用いて、メタデータを送信する帯域を高信頼性で確保した状態で、視点画像データ等のデータを送信することで、再生装置40では、確実にメタデータを受信することができる。これにより、再生装置40では、視点切り替え時に仮想画像を表示させるに際して、処理負荷を低減させることができる。なお、メタデータは、視点画像データなどよりもデータ量が小さいため、他のデータと比べて帯域を確保しやすいデータとなる。
 なお、ネットワーク50が、第5世代移動通信システム(5G:5th Generation)等の無線通信ネットワークを含んで構成される場合、配信サーバ30は、RAN(Radio Access Network)側の機器として構成されても構わない。
(各装置の構成)
 図8は、本技術を適用したコンテンツ配信システムの各装置の構成例を示している。
 カメラシステム100は、カメラ10-1乃至10-N、3Dモデル生成部101、及び通信部102から構成される。
 カメラ10-1乃至10-Nは、イベント会場内の所定の場所にそれぞれ設置される。カメラ10-1乃至10-Nのそれぞれは、自己が設置された場所からステージ上の演者を撮影して、異なる視点位置からの視点画像データを、3Dモデル生成部101及び通信部102に供給する。
 3Dモデル生成部101は、カメラ10-1乃至10-Nから供給される視点画像データに基づいて、視点画像内の被写体(演者)に対応する3Dモデルデータを生成し、通信部102に供給する。この3Dモデルデータは、実写の3Dモデルのデータとされる。
 通信部102は、カメラ10-1乃至10-Nから供給される視点画像データと、3Dモデル生成部101から供給される3Dモデルデータを、ネットワーク50を介して配信サーバ30に送信する。
 メタデータサーバ20は、解析部201、メタデータ生成部202、及び通信部203から構成される。
 物理センサ21-1は、イベント会場内の所定の場所に設置され、電気的又は磁気的な量などの物理量を検出し、その検出結果に応じたセンサデータをメタデータ生成部202に供給する。測距センサ21-2は、イベント会場内の所定の場所に設置され、対象物までの距離の測定結果に応じたセンサデータをメタデータ生成部202に供給する。
 解析部201は、カメラ10から供給される視点画像データを解析し、その解析結果に応じた解析データをメタデータ生成部202に供給する。なお、カメラ10は、図1等に示したカメラ10-1乃至10-Nに限らず、イベント会場内の他の場所に設置されたカメラであってもよい。
 メタデータ生成部202は、物理センサ21-1と測距センサ21-2から供給されるセンサデータ、及び解析部201から供給される解析データに基づいて、メタデータを生成し、通信部203に供給する。
 メタデータ生成部202により生成されるメタデータとしては、視点画像の視点位置に関する情報や、視点画像内の被写体に関する情報などのメタ情報を含む。視点画像の視点位置に関する情報には、カメラ10の位置、姿勢、画角に関する情報などが含まれる。視点画像内の被写体に関する情報には、被写体(演者)に対応した位置、姿勢に関する情報などが含まれる。
 通信部203は、メタデータ生成部202から供給されるメタデータを、ネットワーク50を介して配信サーバ30に送信する。
 カメラシステム100から送信される視点画像データ及び3Dモデルデータと、メタデータサーバ20から送信されるメタデータは、配信サーバ30によって、ネットワーク50を介して再生装置40に送信される。
 なお、カメラシステム100とメタデータサーバ20で実行される処理の一部を、配信サーバ30や外部サーバ(不図示)などが実行してもよい。例えば、3Dモデルデータを生成する処理が、配信サーバ30又は外部サーバにより実行されても構わない。
 再生装置40は、通信部401、画像処理部402、表示部403、入力部404、及び検出部405から構成される。
 通信部401は、無線LAN(Local Area Network)や、セルラー方式の通信(例えばLTE-Advancedや5G等)などの無線通信又は有線通信に対応した通信モジュールである。
 通信部401は、配信サーバ30からネットワーク50を介して配信される視点画像データ、3Dモデルデータ、及びメタデータを受信し、画像処理部402に供給する。また、通信部401は、測定サーバ(不図示)等からネットワーク50の帯域情報を受信し、画像処理部402に供給する。帯域情報は、ネットワーク50の帯域が常に同じ帯域ではないため、定期的に取得されるようにする。測定サーバは、ネットワーク50に接続された機器からの要求に応じて、その時点でのネットワーク50の帯域を測定し、帯域情報として提供するサーバである。
 画像処理部402は、VRコンテンツ等のコンテンツを再生するプレイヤである。画像処理部402は、視点画像処理部411、遷移計算部412、仮想画像生成部413、記憶部414、切替部415、及び再生部416を有する。視点画像処理部411、仮想画像生成部413、及び切替部415により、表示制御部410が構成される。
 視点画像処理部411は、通信部401から供給される視点画像データを処理して、ユーザの視点に応じた視点画像データを切替部415に供給する。
 遷移計算部412は、通信部401から供給されるメタデータ及び帯域情報と、検出部405から供給される端末位置情報に基づいて、切り替え前後の視点間を遷移する視点の遷移経路や遷移速度などを算出し、その算出結果を含む軌跡情報を仮想画像生成部413に供給する。
 仮想画像生成部413は、通信部401から供給される3Dモデルデータ及びメタデータと、遷移計算部412から供給される軌跡情報に基づいて、仮想画像データを生成し、切替部415に供給する。
 また、仮想画像生成部413は、仮想画像データを生成するに際して、記憶部414に記録された3Dキャラクタやステージマップなどのデータを用いることができる。記憶部414は、不揮発性メモリ等の半導体メモリを含む補助記憶装置である。記憶部414は、内部ストレージとして構成されてもよいし、メモリカード等の外部ストレージであってもよい。
 切替部415には、視点画像処理部411からの視点画像データと、仮想画像生成部413からの仮想画像データが供給される。切替部415は、視点画像データと仮想画像データを切り替えて、いずれか一方の画像データを再生部416に供給する。
 再生部416は、検出部405から供給されるユーザの視点情報に基づいて、切替部415から供給される視点画像データ又は仮想画像データを用いた再生処理を行い、視点画像又は仮想画像を表示部403に表示させる。表示部403は、OLED(Organic Light Emitting Diode)パネルや液晶パネル等を含むディスプレイである。
 入力部404は、物理的なボタンやタッチセンサなどから構成される。入力部404は、ユーザにより視点の切り替え操作が行われた場合、当該操作に応じた操作データを画像処理部402に供給する。画像処理部402では、入力部404から供給される操作データに応じて、視点切り替え処理が行われる。
 検出部405は、ジャイロセンサ等の各種センサによるセンシング機能や、アイトラッキング機能を有する。検出部405は、再生装置40の位置に関する情報(端末位置情報)や、ユーザの視点の場所(見ている場所)に関する情報(視点情報)を検出し、画像処理部402に供給する。
 以上のように構成されるコンテンツ配信システム1における各装置間のデータの流れを、図9に示している。
 複数のカメラ10により撮影された視点画像データ及びその3Dモデルデータと、メタデータサーバ20により生成されたメタデータは、ネットワーク50を介して配信サーバ30に送信される(S11,S12)。
 配信サーバ30は、再生装置40からの要求に応じて、視点画像データを、ネットワーク50を介して再生装置40に送信する(S13,S14)。これにより、再生装置40では、視点画像データに応じた視点画像が表示される。メタデータと3Dモデルデータは、所定の間隔で繰り返して送信したり、あるいは再生装置40から要求されたときに送信したりするなど、任意のタイミングで送信される。
 再生装置40では、入力部404からの操作データに基づき、視点の切り替えを行うかどうかが判定される(S15)。例えば、ユーザにより視点の切り替え操作が行われ、視点の切り替えを行うと判定された場合(S15の「Yes」)、処理は、ステップS16に進められる。
 ステップS16では、再生装置40によって、視点切り替え処理が実行される。この視点切り替え処理の詳細は、図10,図11のフローチャートを参照して後述する。
(視点切り替え処理の流れ)
 まず、図10のフローチャートを参照して、図9のステップS16に対応した視点切り替え処理の第1の例を説明する。ただし、この第1の例では、配信サーバ30から所定の間隔で送信されるメタデータ等が取得済みであるとする。
 ステップS101において、遷移計算部412は、ネットワーク50の帯域情報が示す帯域量が所定値以下であるかを判定する。所定値は、予め定められた固定値、又は再生装置40の処理能力(プロセッサの性能等)に応じた可変値とすることができる。
 ステップS101の判定処理で帯域量が所定値以下であると判定された場合、処理は、ステップS102に進められる。
 ステップS102において、遷移計算部412は、メタデータ、帯域情報、及び端末位置情報に基づいて、切り替え前後の視点間を移動する視点の遷移経路と遷移速度を算出する。例えば、上述した図6に示したように、ネットワーク50の帯域情報に基づき、視点遷移TR31又は視点遷移TR32などが算出される。
 ステップS103において、仮想画像生成部413は、3Dモデルデータ、メタデータ、及び軌跡情報に基づいて、仮想画像データを生成する。例えば、上述した図6に示したように、視点遷移TR31又は視点遷移TR32に従い、切り替え前後の視点間を遷移する視点に応じた仮想画像VIが生成される。
 なお、この仮想画像データを生成する際に用いるメタデータとしては、切り替え後の視点画像に関連するメタ情報と、切り替え前の視点画像に関連するメタ情報の両方を含めることは勿論、切り替え後の視点画像に関連するメタ情報が少なくとも含まれていればよい。
 ステップS104において、切替部415は、仮想画像生成部413により生成された仮想画像データを再生部416に供給して、表示部403に、仮想画像データに応じた仮想画像が表示されるように制御する。
 ステップS105において、切替部415は、切り替え準備が完了したかどうかを判定する。例えば、視点画像処理部411における視点画像データの処理状況などを監視することで、切り替え準備が完了したかどうかの判定を行うことができる。
 ステップS105の判定処理で切り替え準備が完了していないと判定された場合、処理は、ステップS102に戻り、それ以降の処理が繰り返される。すなわち、ステップS102乃至S105の処理が繰り返されることで、再生装置40では仮想画像の表示が継続される。
 一方、ステップS105の判定処理で切り替え準備が完了したと判定された場合、処理は、ステップS106に進められる。ステップS106において、切替部415は、再生部416に供給される画像データを、仮想画像生成部413からの仮想画像データから、視点画像処理部411からの視点画像データに切り替える。
 これにより、再生装置40では、視点画像データに応じた視点画像が表示され、仮想画像から切り替え後の視点画像に切り替えられる。
 また、ステップS101の判定処理で帯域量が所定値を超える場合には、帯域量を十分に確保できているため、ステップS102乃至S105の処理はスキップされ、処理は、ステップS106に進められる。この場合、再生装置40では、仮想画像は表示されずに、直ちに、切り替え前の視点画像から、切り替え後の視点画像に切り替えられる。このとき、上述した図7に示した視点の遷移に関する情報(例えばイベント会場のマップ上に重畳された情報)が提示されてもよい。
 ステップS106の処理が終了すると、視点切り替え処理は終了する。
 次に、図11のフローチャートを参照して、図9のステップS16に対応した視点切り替え処理の第2の例を説明する。ただし、この第2の例では、第1の例のようにメタデータを常に取得するのではなく、ユーザにより視点切り替え操作が行われたときにメタデータを取得するもとする。
 ステップS201においては、図10のステップS101と同様に、ネットワーク50の帯域量が所定値以下であるかが判定され、当該帯域量が所定値以下である場合(S201の「Yes」)、処理は、ステップS202に進められる。
 ステップS202において、通信部401は、ネットワーク50を介して配信サーバ30にメタデータを要求することで、配信サーバ30から送信されてくるメタデータを受信する。これにより、遷移計算部412は、通信部401からのメタデータを取得する。
 ステップS203において、遷移計算部412は、切り替え前後の視点間を遷移する視点の遷移経路と遷移速度を算出するが、算出時に用いられるメタデータが、直前のステップS202の処理で取得されたメタデータとなる。
 ステップS204乃至S207においては、図10のステップS103乃至S106と同様に、生成された仮想画像が切り替え準備を完了するまで表示され、切り替え準備が完了したときに仮想画像から切り替え後の視点画像に切り替えられる。
 以上、視点切り替え処理の流れを説明した。この視点切り替え処理では、ネットワーク50の帯域情報に応じて、メタデータと3Dモデルデータに基づいた仮想画像が生成され、切り替え後の視点画像を表示する前に、生成された仮想画像が表示されるように制御される。
 このような処理が行われることで、ユーザが視点の切り替え操作を行ってから、切り替え後の視点画像が表示できる状態になるまで、ネットワーク50の帯域情報に応じた仮想画像が表示されるため、仮想画像を表示すべきタイミングで、より正確に仮想画像を表示する制御を行うことができる。
 すなわち、ユーザが再生装置40を使用する環境によって、ネットワーク50の帯域が異なるため、視点の切り替えに要する時間が変わるが、仮想画像を帯域情報に応じて生成することで、より正確に仮想画像を表示する制御を行うことができる。これにより、ユーザが視点の切り替え操作を行った場合に、より適切に視点の切り替えを行うことができる。
 また、ユーザは、仮想画像を視聴することで、切り替え後の視点がどこになるかを把握することできる。さらに、ユーザは、視点の切り替わりが完了するまでの時間を意識することなく、仮想画像を視聴することができる。
<2.変形例>
 上述した説明では、再生装置40として、ヘッドマウントディスプレイを一例に説明したが、スマートフォンやタブレット端末などのモバイル機器や、ウェアラブル機器などであってもよい。なお、再生装置40は、画像処理部402を有することから、画像処理装置であると捉えても構わない。また、再生装置40で再生されるVRコンテンツは、コンテンツの一例であり、他のコンテンツであってもよい。
 上述した説明では、説明の都合上、メタデータサーバ20がイベント会場側に設置される場合を例示したが、他の場所に設置されても構わない。例えば、メタデータサーバ20をネットワーク50上に設けて、センサ21からのセンサデータが、ネットワーク50を介してメタデータサーバ20に受信されるようにしてもよい。
 また、センサ21として、物理センサ21-1と測距センサ21-2を一例に説明したが、イベント会場内の空間情報や時間情報をセンシング可能なセンサであれば、他のセンサを用いても構わない。なお、上述した説明では、音楽コンサートの会場等のイベント会場で撮影されたVRコンテンツを配信する例を示したが、複数のカメラ10を設置可能な環境であれば、イベント会場に限らず、建築物の内部や街中などの他の環境であってもよい。また、イベント会場は、音楽コンサートの会場に限らず、例えば、スポーツ等の競技を行う会場であってもよい。
<3.コンピュータの構成>
 上述した一連の処理(図10,図11に示した視点切り替え処理)は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、各装置のコンピュータにインストールされる。
 図12は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)1001、ROM(Read Only Memory)1002、RAM(Random Access Memory)1003は、バス1004により相互に接続されている。バス1004には、さらに、入出力インタフェース1005が接続されている。入出力インタフェース1005には、入力部1006、出力部1007、記憶部1008、通信部1009、及び、ドライブ1010が接続されている。
 入力部1006は、マイクロフォン、キーボード、マウスなどよりなる。出力部1007は、スピーカ、ディスプレイなどよりなる。記憶部1008は、ハードディスクや不揮発性のメモリなどよりなる。通信部1009は、ネットワークインタフェースなどよりなる。ドライブ1010は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体1011を駆動する。
 以上のように構成されるコンピュータでは、CPU1001が、ROM1002や記憶部1008に記録されているプログラムを、入出力インタフェース1005及びバス1004を介して、RAM1003にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU1001)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体1011に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体1011をドライブ1010に装着することにより、入出力インタフェース1005を介して、記憶部1008にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部1009で受信し、記憶部1008にインストールすることができる。その他、プログラムは、ROM1002や記憶部1008に、予めインストールしておくことができる。
 ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。
 また、図10,図11に示した視点切り替え処理の各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれもシステムである。
 なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
 なお、本技術は、以下のような構成をとることができる。
(1)
 視点画像の送信に関する帯域情報に応じて、第1の視点画像に関連する視点画像関連情報と前記視点画像の被写体に対応するモデルデータに基づいた仮想画像を生成する仮想画像生成部と、
 前記第1の視点画像を表示する前に、生成した前記仮想画像を表示するように制御する表示制御部と
 を備える画像処理装置。
(2)
 前記視点画像関連情報は、前記視点画像の視点位置に関する情報と、前記視点画像内の被写体に関する情報を含む
 前記(1)に記載の画像処理装置。
(3)
 前記仮想画像生成部は、前記帯域情報が示す帯域量が所定値以下となる場合、前記仮想画像を生成する
 前記(1)又は(2)に記載の画像処理装置。
(4)
 前記所定値は、予め定められた固定値、又は前記仮想画像を表示する機器の処理能力に応じた可変値である
 前記(3)に記載の画像処理装置。
(5)
 前記仮想画像生成部は、前記第1の視点画像への切り替え前に表示されていた第2の視点画像に関連する視点画像関連情報に基づいて、前記仮想画像を生成する
 前記(1)乃至(4)のいずれかに記載の画像処理装置。
(6)
 前記仮想画像生成部は、前記第1の視点画像に応じた第1の視点位置に関する第1の視点位置情報と前記第2の視点画像に応じた第2の視点位置に関する第2の視点位置情報に基づいて、前記第1の視点位置と前記第2の視点位置により定められる軌跡情報に応じた前記仮想画像を生成する
 前記(5)に記載の画像処理装置。
(7)
 前記仮想画像生成部は、前記帯域情報に基づいて、前記軌跡情報を決定する
 前記(6)に記載の画像処理装置。
(8)
 前記帯域情報が示す帯域量と、前記軌跡情報が示す軌跡距離の長さとは、負の相関関係を有する
 前記(7)に記載の画像処理装置。
(9)
 前記表示制御部は、前記帯域情報に基づいて、前記仮想画像に応じた視点位置が、前記軌跡情報が示す軌跡上を移動する速度を調整する
 前記(7)又は(8)に記載の画像処理装置。
(10)
 前記表示制御部は、前記帯域情報が示す帯域量が所定値を超える場合、前記仮想画像を非表示にして、前記第1の視点位置情報と前記第2の視点位置情報に応じたマップを表示する
 前記(6)に記載の画像処理装置。
(11)
 前記表示制御部は、前記第1の視点画像の表示の準備が完了した場合、前記仮想画像から前記第1の視点画像に切り替える
 前記(1)乃至(10)のいずれかに記載の画像処理装置。
(12)
 前記視点画像関連情報は、前記被写体の生成情報を含み、
 前記モデルデータは、前記被写体と対応付けられた特定のキャラクタに関する画像である
 前記(1)乃至(11)のいずれかに記載の画像処理装置。
(13)
 前記仮想画像生成部は、前記仮想画像を表示する機器の処理能力に応じて2次元又は3次元の前記仮想画像を生成する
 前記(12)に記載の画像処理装置。
(14)
 前記視点画像関連情報は、所定の間隔又はユーザによる視点の切り替え指示に応じて取得される
 前記(1)乃至(13)のいずれかに記載の画像処理装置。
(15)
 前記視点画像関連情報に含まれる情報ごとに取得タイミングが異なる
 前記(14)に記載の画像処理装置。
(16)
 前記視点画像の視点位置に関する情報は、前記視点画像を撮影するカメラの位置、姿勢、及び画角に関する情報を含み、
 前記視点画像内の被写体に関する情報は、前記被写体に対応した位置及び姿勢に関する情報を含む
 前記(2)に記載の画像処理装置。
(17)
 前記視点画像関連情報は、前記被写体が存在する空間に関する情報、及び前記空間に存在するオブジェクトに関する情報をさらに含む
 前記(16)に記載の画像処理装置。
(18)
 前記視点画像関連情報は、前記視点画像よりも高い信頼性を確保した帯域で送信される
 前記(1)乃至(17)のいずれかに記載の画像処理装置。
(19)
 画像処理装置が、
 視点画像の送信に関する帯域情報に応じて、第1の視点画像に関連する視点画像関連情報と前記視点画像の被写体に対応するモデルデータに基づいた仮想画像を生成し、
 前記第1の視点画像を表示する前に、生成した前記仮想画像を表示するように制御する
 画像処理方法。
(20)
 コンピュータを、
 視点画像の送信に関する帯域情報に応じて、第1の視点画像に関連する視点画像関連情報と前記視点画像の被写体に対応するモデルデータに基づいた仮想画像を生成する仮想画像生成部と、
 前記第1の視点画像を表示する前に、生成した前記仮想画像を表示するように制御する表示制御部と
 して機能させるプログラム。
(21)
 視点画像を撮影するカメラと前記視点画像の被写体に関する検出結果に応じたセンサデータに基づいて、第1の視点画像に関連する視点画像関連情報を生成する生成部を備え、
 前記第1の視点画像は、前記視点画像の送信に関する帯域情報に応じて前記視点画像関連情報と前記視点画像の被写体に対応するモデルデータに基づいた仮想画像を表示した後に表示される
 画像処理装置。
(22)
 前記視点画像関連情報は、前記視点画像の視点位置に関する情報と、前記視点画像内の被写体に関する情報を含む
 前記(21)に記載の画像処理装置。
(23)
 前記視点画像の視点位置に関する情報は、前記視点画像を撮影するカメラの位置、姿勢、及び画角に関する情報を含み、
 前記視点画像内の被写体に関する情報は、前記被写体に対応した位置及び姿勢に関する情報を含む
 前記(22)に記載の画像処理装置。
 1 コンテンツ配信システム, 10,10-1乃至10-N カメラ, 20 メタデータサーバ, 21 センサ, 21-1 物理センサ, 21-2 測距センサ, 30 配信サーバ, 40 再生装置, 50,50-1,50-2 ネットワーク, 100 カメラシステム, 101 3Dモデル生成部, 102 通信部, 201 解析部, 202 メタデータ生成部, 203 通信部, 401 通信部, 402 画像処理部, 403 表示部, 404 入力部, 405 検出部, 410 表示制御部, 411 視点画像処理部, 412 遷移計算部, 413 仮想画像生成部, 414 記憶部, 416 再生部, 1001 CPU

Claims (20)

  1.  視点画像の送信に関する帯域情報に応じて、第1の視点画像に関連する視点画像関連情報と前記視点画像の被写体に対応するモデルデータに基づいた仮想画像を生成する仮想画像生成部と、
     前記第1の視点画像を表示する前に、生成した前記仮想画像を表示するように制御する表示制御部と
     を備える画像処理装置。
  2.  前記視点画像関連情報は、前記視点画像の視点位置に関する情報と、前記視点画像内の被写体に関する情報を含む
     請求項1に記載の画像処理装置。
  3.  前記仮想画像生成部は、前記帯域情報が示す帯域量が所定値以下となる場合、前記仮想画像を生成する
     請求項1に記載の画像処理装置。
  4.  前記所定値は、予め定められた固定値、又は前記仮想画像を表示する機器の処理能力に応じた可変値である
     請求項3に記載の画像処理装置。
  5.  前記仮想画像生成部は、前記第1の視点画像への切り替え前に表示されていた第2の視点画像に関連する視点画像関連情報に基づいて、前記仮想画像を生成する
     請求項1に記載の画像処理装置。
  6.  前記仮想画像生成部は、前記第1の視点画像に応じた第1の視点位置に関する第1の視点位置情報と前記第2の視点画像に応じた第2の視点位置に関する第2の視点位置情報に基づいて、前記第1の視点位置と前記第2の視点位置により定められる軌跡情報に応じた前記仮想画像を生成する
     請求項5に記載の画像処理装置。
  7.  前記仮想画像生成部は、前記帯域情報に基づいて、前記軌跡情報を決定する
     請求項6に記載の画像処理装置。
  8.  前記帯域情報が示す帯域量と、前記軌跡情報が示す軌跡距離の長さとは、負の相関関係を有する
     請求項7に記載の画像処理装置。
  9.  前記表示制御部は、前記帯域情報に基づいて、前記仮想画像に応じた視点位置が、前記軌跡情報が示す軌跡上を移動する速度を調整する
     請求項7に記載の画像処理装置。
  10.  前記表示制御部は、前記帯域情報が示す帯域量が所定値を超える場合、前記仮想画像を非表示にして、前記第1の視点位置情報と前記第2の視点位置情報に応じたマップを表示する
     請求項6に記載の画像処理装置。
  11.  前記表示制御部は、前記第1の視点画像の表示の準備が完了した場合、前記仮想画像から前記第1の視点画像に切り替える
     請求項1に記載の画像処理装置。
  12.  前記視点画像関連情報は、前記被写体の生成情報を含み、
     前記モデルデータは、前記被写体と対応付けられた特定のキャラクタに関する画像である
     請求項1に記載の画像処理装置。
  13.  前記仮想画像生成部は、前記仮想画像を表示する機器の処理能力に応じて2次元又は3次元の前記仮想画像を生成する
     請求項12に記載の画像処理装置。
  14.  前記視点画像関連情報は、所定の間隔又はユーザによる視点の切り替え指示に応じて取得される
     請求項1に記載の画像処理装置。
  15.  前記視点画像関連情報に含まれる情報ごとに取得タイミングが異なる
     請求項14に記載の画像処理装置。
  16.  前記視点画像の視点位置に関する情報は、前記視点画像を撮影するカメラの位置、姿勢、及び画角に関する情報を含み、
     前記視点画像内の被写体に関する情報は、前記被写体に対応した位置及び姿勢に関する情報を含む
     請求項2に記載の画像処理装置。
  17.  前記視点画像関連情報は、前記被写体が存在する空間に関する情報、及び前記空間に存在するオブジェクトに関する情報をさらに含む
     請求項16に記載の画像処理装置。
  18.  前記視点画像関連情報は、前記視点画像よりも高い信頼性を確保した帯域で送信される
     請求項14に記載の画像処理装置。
  19.  画像処理装置が、
     視点画像の送信に関する帯域情報に応じて、第1の視点画像に関連する視点画像関連情報と前記視点画像の被写体に対応するモデルデータに基づいた仮想画像を生成し、
     前記第1の視点画像を表示する前に、生成した前記仮想画像を表示するように制御する
     画像処理方法。
  20.  コンピュータを、
     視点画像の送信に関する帯域情報に応じて、第1の視点画像に関連する視点画像関連情報と前記視点画像の被写体に対応するモデルデータに基づいた仮想画像を生成する仮想画像生成部と、
     前記第1の視点画像を表示する前に、生成した前記仮想画像を表示するように制御する表示制御部と
     して機能させるプログラム。
PCT/JP2021/025088 2020-07-17 2021-07-02 画像処理装置、画像処理方法、及びプログラム WO2022014369A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2022536261A JPWO2022014369A1 (ja) 2020-07-17 2021-07-02
EP21841658.4A EP4184444A4 (en) 2020-07-17 2021-07-02 IMAGE PROCESSING DEVICE, IMAGE PROCESSING METHOD AND PROGRAM
US18/013,968 US20230298260A1 (en) 2020-07-17 2021-07-02 Image processing device, image processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-123092 2020-07-17
JP2020123092 2020-07-17

Publications (1)

Publication Number Publication Date
WO2022014369A1 true WO2022014369A1 (ja) 2022-01-20

Family

ID=79555345

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/025088 WO2022014369A1 (ja) 2020-07-17 2021-07-02 画像処理装置、画像処理方法、及びプログラム

Country Status (4)

Country Link
US (1) US20230298260A1 (ja)
EP (1) EP4184444A4 (ja)
JP (1) JPWO2022014369A1 (ja)
WO (1) WO2022014369A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220295139A1 (en) * 2021-03-11 2022-09-15 Quintar, Inc. Augmented reality system for viewing an event with multiple coordinate systems and automatically generated model

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001078231A (ja) * 1999-09-02 2001-03-23 Mixed Reality Systems Laboratory Inc 空間描画方法、仮想空間描画装置、画像処理装置および記憶媒体
JP2015187797A (ja) 2014-03-27 2015-10-29 シャープ株式会社 画像データ生成装置および画像データ再生装置
WO2018030206A1 (ja) * 2016-08-10 2018-02-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ カメラワーク生成方法及び映像処理装置
WO2019031005A1 (ja) * 2017-08-08 2019-02-14 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP2019149122A (ja) * 2018-02-28 2019-09-05 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
JP2020507239A (ja) * 2017-01-04 2020-03-05 アイディーエーシー ホールディングス インコーポレイテッド 無線システムにおける受信機フィードバック

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2017159063A1 (ja) * 2016-03-14 2019-01-17 ソニー株式会社 表示装置並びに情報処理端末装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001078231A (ja) * 1999-09-02 2001-03-23 Mixed Reality Systems Laboratory Inc 空間描画方法、仮想空間描画装置、画像処理装置および記憶媒体
JP2015187797A (ja) 2014-03-27 2015-10-29 シャープ株式会社 画像データ生成装置および画像データ再生装置
WO2018030206A1 (ja) * 2016-08-10 2018-02-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ カメラワーク生成方法及び映像処理装置
JP2020507239A (ja) * 2017-01-04 2020-03-05 アイディーエーシー ホールディングス インコーポレイテッド 無線システムにおける受信機フィードバック
WO2019031005A1 (ja) * 2017-08-08 2019-02-14 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP2019149122A (ja) * 2018-02-28 2019-09-05 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4184444A4

Also Published As

Publication number Publication date
JPWO2022014369A1 (ja) 2022-01-20
EP4184444A1 (en) 2023-05-24
EP4184444A4 (en) 2023-12-20
US20230298260A1 (en) 2023-09-21

Similar Documents

Publication Publication Date Title
US11265603B2 (en) Information processing apparatus and method, display control apparatus and method, reproducing apparatus and method, and information processing system
US10863159B2 (en) Field-of-view prediction method based on contextual information for 360-degree VR video
US20210026518A1 (en) Continuation of playback of media content by different output devices
JP6558587B2 (ja) 情報処理装置、表示装置、情報処理方法、プログラム、および情報処理システム
US8867886B2 (en) Surround video playback
CN110213616B (zh) 视频提供方法、获取方法、装置及设备
WO2022121558A1 (zh) 一种直播演唱方法、装置、设备和介质
CN110213636B (zh) 在线视频的视频帧生成方法、装置、存储介质及设备
US20130129304A1 (en) Variable 3-d surround video playback with virtual panning and smooth transition
US10778905B2 (en) Surround video recording
US20190045228A1 (en) Video content distribution system and content management server
JP2022536182A (ja) データストリームを同期させるシステム及び方法
CN110958465A (zh) 视频流推送方法、装置及存储介质
US20170188066A1 (en) Technologies for immersive user sensory experience sharing
WO2022014369A1 (ja) 画像処理装置、画像処理方法、及びプログラム
CN108833970B (zh) 直播录制的方法、装置、计算机设备及存储介质
CN111131272B (zh) 流服务器的调度方法、装置及系统、计算设备、存储介质
CN113556481A (zh) 视频特效的生成方法、装置、电子设备及存储介质
CN113141538B (zh) 媒体资源播放方法、装置、终端、服务器及存储介质
WO2021258608A1 (zh) 带宽确定方法、装置、终端及存储介质
US10419671B2 (en) System, method, and program for displaying omnidirectional camera image
CN113518235B (zh) 直播视频数据生成方法、装置及存储介质
WO2022244364A1 (ja) 情報処理装置、情報処理方法、プログラム
WO2014037604A1 (en) Multisource media remixing
CN113709524A (zh) 选择音视频流的比特率的方法及其装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21841658

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022536261

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021841658

Country of ref document: EP

Effective date: 20230217