WO2023026519A1 - 情報処理装置、情報処理端末、情報処理方法、および記憶媒体 - Google Patents

情報処理装置、情報処理端末、情報処理方法、および記憶媒体 Download PDF

Info

Publication number
WO2023026519A1
WO2023026519A1 PCT/JP2022/007277 JP2022007277W WO2023026519A1 WO 2023026519 A1 WO2023026519 A1 WO 2023026519A1 JP 2022007277 W JP2022007277 W JP 2022007277W WO 2023026519 A1 WO2023026519 A1 WO 2023026519A1
Authority
WO
WIPO (PCT)
Prior art keywords
viewpoint
image
virtual space
information processing
user
Prior art date
Application number
PCT/JP2022/007277
Other languages
English (en)
French (fr)
Inventor
孝悌 清水
伸明 泉
徹 増田
隆 今村
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023026519A1 publication Critical patent/WO2023026519A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk

Definitions

  • the present disclosure relates to an information processing device, an information processing terminal, an information processing method, and a storage medium.
  • Patent Document 1 describes a technology for synthesizing free-viewpoint video at high speed using a simple model with no thickness called a billboard.
  • the texture of the object to be modeled is cut out from the image, and a thin billboard model is made to stand on the ground in the virtual space to create a free-viewpoint image.
  • Japanese Patent Application Laid-Open No. 2002-200000 the orientation of the subject image included in the image combined with the billboard is appropriately expressed by deforming the billboard according to the virtual viewpoint.
  • Patent Document 1 above does not consider the case where a three-dimensional model is constructed in a virtual space.
  • the present disclosure proposes an information processing device, an information processing terminal, an information processing method, and a storage medium that enable viewing, with low delay, a video of a user's viewpoint in a virtual space in which a 3D model is arranged.
  • a control unit that performs control for outputting information about an image of a user's viewpoint in a virtual space is provided, and the control unit converts a three-dimensional model arranged in the virtual space to a user's viewpoint acquired in real time.
  • a transmission unit that transmits information of a user's viewpoint to a distribution server;
  • the present invention proposes an information processing terminal that controls a receiving unit that receives a two-dimensional image of a dimensional model and arranges the two-dimensional image at a position facing the user's viewpoint in a local virtual space.
  • the processor performs control to output information about an image of a user's viewpoint in a virtual space, and the control acquires a three-dimensional model arranged in the virtual space in real time.
  • a program is stored that causes a computer to function as a control unit that controls output of information about an image of a user's viewpoint in a virtual space, and the control unit outputs a three-dimensional model arranged in the virtual space.
  • a storage medium that controls transmission of a two-dimensional image captured by a virtual camera corresponding to a user's viewpoint acquired in real time to a viewer terminal.
  • FIG. 1 is a diagram describing an overview of an information processing system according to an embodiment of the present disclosure
  • FIG. It is a block diagram which shows an example of a structure of the delivery server by this embodiment. It is a block diagram which shows an example of a structure of the viewer terminal by this embodiment by this embodiment.
  • 4 is a flow chart showing an example of the flow of operation processing of the distribution server according to the present embodiment
  • FIG. 4 is a diagram illustrating an example of generating a 2D image for a stereo billboard according to the present embodiment
  • FIG. 4 is a diagram for explaining billboard rotation control according to the present embodiment
  • FIG. 4 is a diagram illustrating an example of viewing positions of N patterns according to the present embodiment
  • FIG. 11 is a diagram showing an example of a system configuration in which N patterns of viewpoints are prepared in advance according to a modification of the present embodiment
  • FIG. 11 is a diagram illustrating billboard rotation control during warp movement according to a modification of the present embodiment
  • It is a flow chart which shows an example of the flow of operation processing of a viewer terminal by a modification of this embodiment.
  • It is a figure which shows the other example of the system configuration
  • FIG. 11 is a diagram illustrating display of multiple viewpoints according to a modification of the embodiment;
  • Configuration example 2-1 Distribution server 20 2-2. Viewer terminal 30 3. Operation processing 3-1. Operation processing of distribution server 20 3-2. Operation processing of viewer terminal 30 4 . Modification 4-1. Warp movement 4-2. Improvement of occlusion system using depth information 4-3. Generation of stereo 2D image with shadow 4-4. Realization of two-way interaction5. supplement
  • FIG. 1 is a diagram illustrating an overview of an information processing system according to an embodiment of the present disclosure.
  • the information processing system according to the present embodiment includes a multi-view imaging system 10 that images a subject using a plurality of cameras, a distribution server 20 (information processing device), and one or more viewer terminals 30 (information processing terminal), and
  • a multi-viewpoint imaging system 10 includes a plurality of cameras 11 (11-1 to 11-n) that capture images of a subject simultaneously, and a multi-viewpoint image generation device 12 that acquires captured images from the plurality of cameras 11 and generates a multi-viewpoint image. and including.
  • a plurality of cameras 11 (11-1 to 11-n) are installed in a studio or the like so as to surround a subject (performer). Several tens of cameras 11 may be installed, for example.
  • the multi-view image generation device 12 transmits the multi-view images to the distribution server 20 .
  • the distribution server 20 creates a 3D image of the subject (performer) based on the multi-viewpoint image, which is a live-action video, and generates a 3D model of the performer.
  • the distribution server 20 arranges the generated 3D model of the performer in the virtual space, and distributes the video of the 3D model of the performer to the viewer terminal 30 in real time (so-called live distribution). Concerts, lectures, plays, festivals, and other various events can be held in the virtual space. In this embodiment, as an example, it is assumed that a performer performs a concert in a virtual space and many viewers watch the concert in real time.
  • Volumetric Capture technology for example, is used for 3D visualization of the subject (performer).
  • a high-quality, realistic 3D model can be generated in real time and placed in the virtual space.
  • various 2D images and 3D model information (hereinafter referred to as virtual objects) such as backgrounds, stages, CG characters, effects, etc. are arranged in addition to actual 3D models.
  • a live-action 3D model is used as an example of a virtual object that is the alter ego of a performer, but the present embodiment is not limited to this. may be used as a virtual object of In that case, for example, motion capture technology may be used.
  • a viewer avatar which is a virtual object that acts as the alter ego of the viewer, may be placed.
  • the viewer avatar may be, for example, a CG character operated by the viewer.
  • the viewer's operation can be input by a controller held in the viewer's hand or a sensor of a wearable device worn on the body (for example, HMD; Head Mounted Display), and reflected in the virtual avatar in the virtual space in real time.
  • the user's viewpoint in the virtual space may be the viewer's avatar's viewpoint, or may be behind the viewer's avatar (that is, the viewer's own avatar is included in the field of view).
  • viewer avatars other than oneself that is, avatars operated by other viewers
  • the viewer terminal 30 is an information processing terminal that is used by the viewer to view the video from the user's viewpoint in the virtual space.
  • the viewer terminal 30 may be an HMD worn on the user's (viewer's) head, or may be a display device such as a smartphone, a tablet terminal, a television device, or a projector. Also, the viewer terminal 30 may be a PC, a smartphone, a game machine, or the like, which is connected for communication with the display device.
  • a display device is installed in a studio or the like where the camera 11 is arranged. (images of audience seats where viewer avatars are arranged) may be displayed in real time. This also makes it possible to provide the audience's reaction to the performer.
  • a billboard that is placed in the virtual space so as to face the virtual camera corresponding to the user's viewpoint is used.
  • a billboard is a virtual object such as a plate-shaped screen having a planar area.
  • the distribution server 20 streams a stereo 2D image captured by a stereo virtual camera corresponding to a user viewpoint in a virtual space (server-side virtual space) in which a live-action 3D model of an actor is arranged to a viewer terminal 30 in real time.
  • a stereo 2D image is an image including a left-eye image and a right-eye image generated based on a preset amount of binocular parallax, and is also called a stereoscopic image.
  • the viewer terminal 30 constructs a virtual space (viewer-side virtual space) by arranging a stage or the like based on pre-obtained virtual space information.
  • virtual space information includes, for example, images and parameters of various virtual objects arranged in the virtual space, such as background data (background CG group), other viewer avatars, effect data, and lighting data.
  • Information on the virtual space can be received in advance from, for example, a content storage server (not shown).
  • a virtual space may be constructed using virtual space information (background data, etc.) included in the application.
  • the viewer terminal 30 places a stereo billboard on the stage of the constructed virtual space, and renders a stereo 2D image on the stereo billboard.
  • the viewer terminal 30 acquires a stereoscopic image with a stereo virtual camera corresponding to the user's viewpoint in the virtual space (viewer's side virtual space), and performs control to display the stereoscopic image.
  • the viewer terminal 30 controls the rotation of the billboard placed in the virtual space so that it faces the virtual camera (user viewpoint), thereby providing an image at an angle expected when the viewer can move freely in the virtual space. can be realized. More specifically, viewpoint information (viewpoint direction, viewpoint movement information) of the user (viewer) is transmitted to the distribution server 20 in real time and reflected in the stereo virtual camera controlled by the distribution server 20 . Then, a stereo 2D image corresponding to the user's viewpoint is transmitted from the distribution server 20 to the viewer terminal 30 and rendered on a billboard whose rotation is controlled so as to face the user's viewpoint.
  • viewpoint information viewpoint direction, viewpoint movement information
  • This system can be used not only for live distribution of concerts held in virtual space, but also for realization of low latency in live distribution for various purposes such as lectures and games.
  • this system does not refer to sound, when implementing this system, the sound of the performer and the concert venue can be processed separately and transmitted to the viewer terminal 30 as appropriate.
  • FIG. 2 is a block diagram showing an example of the configuration of the distribution server 20 according to this embodiment. As shown in FIG. 2 , the distribution server 20 has a communication section 210 , a control section 220 and a storage section 230 .
  • the communication unit 210 communicates with an external device to transmit and receive data.
  • the communication unit 210 communicates with the multi-view image generation device 12 included in the multi-view imaging system 10 and receives the multi-view images of the performer.
  • the communication unit 210 is connected for communication with one or more viewer terminals 30, and transmits a stereo 2D image or the like of the user's viewpoint and receives viewpoint information.
  • control unit 220 functions as an arithmetic processing device and a control device, and controls overall operations within the distribution server 20 according to various programs.
  • the control unit 220 is implemented by an electronic circuit such as a CPU (Central Processing Unit), a microprocessor, or the like.
  • the control unit 220 may also include a ROM (Read Only Memory) that stores programs to be used, calculation parameters, and the like, and a RAM (Random Access Memory) that temporarily stores parameters that change as appropriate.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • control unit 220 functions as a virtual space generation unit 221, a 3D model generation unit 222, a stereo virtual camera control unit 223, and a stereo 2D image generation unit 224.
  • the virtual space generation unit 221 generates a virtual space (server-side virtual space) in which the 3D model of the performer is placed. Specifically, the virtual space generator 221 arranges a background CG group, a stage, and other virtual objects, and appropriately sets parameters for each virtual object. In addition, the virtual space generation unit 221 can acquire information on the pre-generated virtual space from the content storage server and generate the virtual space.
  • the 3D model generation unit 222 generates a 3D model (also referred to as live-action 3D) of the performer using, for example, volumetric capture technology, based on the multi-view image of the performer received from the multi-view image generation device 12 . Specifically, the 3D model generation unit 222 acquires three-dimensional information of the performer (subject) based on the multi-view image, and generates depth maps and textures.
  • the camera 11 used to capture the image of the performer may be provided with a depth sensor (for example, a sensor using infrared rays). information may be obtained. Also, in volumetric capture technology, machine learning can be used as appropriate in the generation of depth maps and textures.
  • the stereo virtual camera control unit 223 adjusts the position and orientation of the stereo virtual camera in the server-side virtual space in real time according to viewpoint information (including at least one of viewpoint direction information and viewpoint movement information) transmitted from the viewer terminal 30. to control.
  • viewpoint information including at least one of viewpoint direction information and viewpoint movement information
  • a stereo virtual camera is defined to acquire (generate) a stereoscopic image.
  • the left-eye virtual camera and the right-eye virtual camera are spaced apart based on a preset amount of binocular parallax.
  • the stereo 2D image generation unit 224 generates a stereo 2D image based on the position and orientation of the stereo virtual camera. Such stereo 2D images correspond to the viewer's view in virtual space. Also, the stereo 2D image is a left-eye image and a right-eye image generated based on a preset amount of binocular parallax.
  • the control unit 220 controls transmission of the stereo 2D image generated by the stereo 2D image generation unit 224 to the viewer terminal 30 . Transmission control means various controls for transmitting stereo 2D images to the viewer terminal 30 .
  • the stereo 2D image may be transmitted from the communication unit 210 to the viewer terminal 30, or the stereo 2D image may be transmitted to the viewer terminal 30 via another device.
  • the transmission of the stereo 2D image to the viewer terminal 30 may be performed by streaming delivery.
  • a stereo 2D image of the 3D model of the performer can be generated in real time during the live broadcast and continuously transmitted to the viewer terminal 30 .
  • the storage unit 230 is implemented by a ROM (Read Only Memory) that stores programs and calculation parameters used in the processing of the control unit 220, and a RAM (Random Access Memory) that temporarily stores parameters that change as appropriate. According to this embodiment, the storage unit 230 stores information on the virtual space.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • distribution server 20 may be realized by a plurality of devices.
  • FIG. 3 is a block diagram showing an example of the configuration of the viewer terminal 30 according to this embodiment.
  • the viewer terminal 30 has a communication section 310 , a control section 320 , a display section 330 , a sensor section 340 , an operation input section 350 and a storage section 360 .
  • the viewer terminal 30 according to the present embodiment may be implemented by, for example, a non-transmissive HMD that covers the entire field of view of the viewer.
  • the viewer terminal 30 may be realized by various devices such as a smart phone, a tablet terminal, a PC, a projector, a game machine, a television device, and a wearable device.
  • the communication unit 310 communicates with the distribution server 20 to transmit and receive data.
  • the communication unit 310 continuously receives 3D model images (stereo 2D images) of the performer from the distribution server 20 .
  • the communication unit 310 may receive virtual space information, which is information for virtual space generation, from the content storage server.
  • the virtual space information includes background CG groups, data of each viewer avatar (3D model data, etc.), stage and effect data, etc. (virtual object data). Information on the virtual space can be transmitted in advance from the content storage server before live distribution by the distribution server 20 .
  • the communication unit 310 transmits sensing data and the like acquired by the sensor unit 340 to the distribution server 20 as viewpoint information.
  • the viewpoint information includes at least information on viewpoint direction or viewpoint movement (change in viewpoint position).
  • An example of the viewpoint direction information is the orientation of the viewer terminal 30 (HMD) mounted on the user's head (that is, the orientation of the head).
  • viewpoint movement information include movement of the viewer terminal 30 (that is, movement of the user's body), operation information from the controller held by the user (button operation, shaking operation, pointing operation pointing to the destination). etc.).
  • control unit 320 functions as an arithmetic processing device and a control device, and controls overall operations within the viewer terminal 30 according to various programs.
  • the control unit 320 is realized by an electronic circuit such as a CPU (Central Processing Unit), a microprocessor, or the like.
  • the control unit 220 may also include a ROM (Read Only Memory) that stores programs to be used, calculation parameters, and the like, and a RAM (Random Access Memory) that temporarily stores parameters that change as appropriate.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the control unit 320 also functions as a virtual space generation unit 321, a drawing processing unit 322, a billboard control unit 323, and a viewpoint information transmission control unit 324.
  • the virtual space generation unit 321 generates a local virtual space (viewer terminal side virtual space) corresponding to the server side virtual space. Specifically, the virtual space generator 321 generates the virtual space based on the virtual space information transmitted from the content storage server before the start of the live distribution.
  • the drawing processing unit 322 performs drawing processing for images displayed on the display unit 330 .
  • the drawing processing unit 322 generates an image captured by a virtual camera corresponding to the user viewpoint in the generated local virtual space, and controls the display unit 330 to display the image.
  • the "user viewpoint” here includes viewpoint position and viewpoint direction.
  • the virtual camera may be a stereo virtual camera that acquires stereoscopic images. Thereby, a stereoscopic image can be displayed on the display unit 330 .
  • the virtual camera can move freely within the virtual space according to the movement of the user's head and body.
  • the drawing processing unit 322 controls the position and orientation of the virtual camera based on sensing data (for example, movement of the user's head or body) acquired by the sensor unit 340 .
  • the billboard control unit 323 controls the rotation of billboards placed in the local virtual space.
  • a virtual object corresponding to the actual stage floor is generated, and a billboard is placed at the local coordinate origin of the virtual object. That is, the bottom of the billboard is arranged so as to be in contact with the floor defined in the virtual space.
  • the billboard control unit 323 rotates the billboard by Pitch (rotation on the x-axis in local coordinates) or Yaw rotation (on local coordinates) so that it faces the line-of-sight direction (orientation of the virtual camera) of the user who freely moves in the virtual space. rotate about the y-axis in ). Details will be described later with reference to FIG.
  • a stereo billboard is used that renders a left-eye image and a right-eye image, respectively, to enable stereoscopic viewing.
  • the viewpoint information transmission control unit 324 performs control to transmit the sensing data acquired by the sensor unit 340 to the distribution server 20 as the user's viewpoint information.
  • the viewpoint information transmission control unit 324 may transmit sensing data as it is, or may transmit coordinate position information (for example, global coordinates) calculated based on sensing data.
  • the viewpoint information also includes viewpoint position (three-dimensional coordinate values) and line-of-sight direction information.
  • the viewpoint information transmission control unit 324 may continuously transmit viewpoint information to the distribution server 20 .
  • the display unit 330 has a function of presenting an image of the virtual space to the viewer.
  • display 330 may be a display device having a 3D display.
  • the display device may be an HMD worn on the user's head.
  • the display unit 330 may be realized by a display device having a 2D display, a projector, or a 3D hologram presentation device. Examples of 3D or 2D compatible display devices include smart phones, tablet terminals, PCs, television devices, and game machines.
  • the sensor unit 340 detects movements of the head and body of the user (viewer) who possesses the viewer terminal 30 .
  • the movement of the head is assumed to mainly move the head back and forth, left and right, and tilt it (three movements around the x-axis, y-axis, and z-axis).
  • the sensor unit 340 is implemented by, for example, an acceleration sensor, an angular velocity sensor, and a geomagnetic sensor, and detects movement of the head of the user wearing it.
  • the viewer terminal 30 may be implemented by, for example, a so-called 3DoF (degree of freedom) compatible HMD.
  • body movement is mainly assumed to be movement of the body (walking in the room, etc.).
  • the sensor unit 340 is realized by, for example, an acceleration sensor, an angular velocity sensor, and a geomagnetic sensor, and detects movements of the waist and legs of the user wearing it. Also, body movements may be detected by various sensors provided in an HMD worn on the user's head (for example, position tracking).
  • control unit 320 may detect the movement of the user's body (position tracking) using cameras and sensors installed in the room. For example, the position of the HMD (an example of the viewer terminal 30) worn on the user's head and the position of the controller held by the user are detected by cameras and sensors installed in the room, and the detection results are displayed in real time. may be input to the viewer terminal 30 by .
  • HMD capable of detecting the motion (movement) of the user's body in combination with such an external sensor
  • 6 DoF degree of freedom
  • 6DoF means that in addition to the three movements around the x, y, and z axes that corresponded to 3DoF, there are also three movements in the x, y, and z axis directions. It means responding to movement.
  • the sensor unit 340 may include a camera, an IR sensor, a microphone, a biosensor, and the like.
  • the sensor unit 340 may be provided in the viewer terminal 30 (HMD, smartphone, etc.), or may be installed in a room or attached to the user's body separately from the viewer terminal 30. Alternatively, it may be provided in a controller held by the user (an example of the operation input unit 350).
  • the sensor unit 150 may have a plurality of types of sensors.
  • the operation input unit 350 receives an operation input to the viewer terminal 30 by the user and outputs input information to the control unit 320 .
  • the operation input unit 350 is implemented by, for example, buttons, switches, joysticks, keyboards, mice, touch pads, and the like.
  • the operation input unit 350 may be a controller held by the user. The user can move in the virtual space by actually moving the head and body, and can also input movement operation information from the operation input unit 350 .
  • the storage unit 360 is implemented by a ROM (Read Only Memory) that stores programs and calculation parameters used in the processing of the control unit 320, and a RAM (Random Access Memory) that temporarily stores parameters that change as appropriate.
  • the storage unit 360 according to the present embodiment stores, for example, virtual space information.
  • the configuration of the viewer terminal 30 has been specifically described above. Note that the configuration of the viewer terminal 30 is not limited to the example shown in FIG.
  • the viewer terminal 30 may consist of multiple devices.
  • the viewer terminal 30 includes a control device having at least a communication unit 310 and a control unit 320 that communicate with the distribution server 20, a display device having at least a display unit 330 and a sensor unit 340, and a display device held by a user. and an operation input unit 350 that Moreover, the sensor unit 340 is appropriately provided in various places such as the display unit 330, the operation input unit 350, and the room (around the user).
  • the viewer terminal 30 is composed of a display device having at least the display unit 330 and a control device having at least the control unit 320, at least part of the processing of the control unit 320 is performed on the display device side. may
  • FIG. 4 is a flow chart showing an example of the flow of operation processing of the distribution server 20 according to this embodiment.
  • the control unit 220 of the distribution server 20 determines whether or not the conditions for live distribution are satisfied (step S103). Satisfaction of live distribution conditions includes, for example, generation of a server-side virtual space, communication connection with the multi-view imaging system 10, and a start instruction by the distributor.
  • the distribution server 20 starts distribution. Specifically, first, the distribution server 20 acquires the multi-viewpoint images shot in the studio from the multi-viewpoint imaging system 10 (step S106). A large number of cameras 11 are installed in the studio, and green screen photography of the performer is simultaneously performed from multiple directions.
  • the distribution server 20 acquires the user's viewpoint information from the viewer terminal 30 (step S109).
  • the 3D model generation unit 222 of the distribution server 20 generates a texture and a depth map as a live-action 3D model of the performer based on the multi-view image of the performer (step S112).
  • the 3D model generation unit 222 performs rendering correction of the photographed 3D model (step S115).
  • edge noise removal is performed, for example.
  • the actual 3D model is generated.
  • the generated live-action 3D model is arranged on the stage of the virtual space on the server side.
  • the viewpoint at the start of distribution may be set to a predetermined default position.
  • a change in viewpoint is assumed to be, for example, that the user moves the head up, down, left, or right, or tilts the head.
  • the stereo virtual camera control unit 223 changes the position and orientation of the stereo virtual camera in the server-side virtual space according to the viewpoint information (step S121). Thereby, the viewpoint information of the user can be reflected in the viewpoint change of the stereo virtual camera in real time.
  • step S118/No if there is no change in the viewpoint (step S118/No), the position and orientation of the stereo virtual camera are not changed.
  • the stereo 2D image generation unit 224 generates a stereo 2D image of the actual 3D model for the billboard from the user's viewpoint (step S124). That is, the stereo 2D image generation unit 224 generates a user-viewpoint 2D image of a live-action 3D model that is placed in the server-side virtual space and that reflects the actor's video in real time, which is acquired by a stereo virtual camera that reflects viewpoint information in real time. , a 2D image for the right eye and a 2D image for the left eye in the virtual space are generated. The 2D image for the right eye and the 2D image for the left eye are data to be respectively drawn on a stereo billboard arranged in the local virtual space on the viewer terminal 30 side.
  • an example of generating a 2D image for stereo billboards according to the present embodiment will be described with reference to FIG.
  • the virtual space generated on the server 20 side is the original stage, and the live-action 3D model 40 of the performer generated in real time based on the multi-view images of the performer is arranged. be.
  • a stereo virtual camera VC is placed at a constant distance d from the actual 3D model 40, and the position and orientation of the stereo virtual camera VC reflect viewpoint information in real time.
  • the local virtual space generated on the viewer terminal 30 side is a mirroring stage corresponding to the original stage, and the stereo billboard 500 is placed on the mirroring stage (local coordinate origin of the stage object). is placed.
  • a stereo 2D image captured by the stereo virtual camera VC on the original stage is drawn on the stereo billboard 500 .
  • the stereo billboard 500 consists of a billboard for rendering a 2D image for the right eye and a billboard for rendering a 2D image for the left eye.
  • a stereoscopic image is obtained by viewing the stereo billboard 500 with a stereo virtual camera UC corresponding to the user's viewpoint (UV) (a user-viewpoint stereo camera that reflects the movement of the HMD worn by the user on the head). is obtained.
  • UV user's viewpoint
  • the live-action 3D model is placed on the server side, but a low delay can be achieved by delivering stereo 2D images for billboards to the viewer terminal 30 as video of the live-action 3D model.
  • a stereoscopic image can be realized by using a stereo billboard.
  • the server side controls the position and orientation of the stereo virtual camera VC so as to correspond to the user's viewpoint UV. That is, camera work is given to the stereo virtual camera VC so as to achieve the positional relationship between the stereo virtual camera UC and the billboard 500 .
  • the stereo virtual camera control unit 223 always maintains a constant distance d between the stereo virtual camera VC and the photographed 3D model 40, as shown in the upper part of FIG. control to maintain In other words, the stereo virtual camera control unit 223 maintains the fixed distance d, and the positional relationship (angle, orientation) between the stereo virtual camera VC and the real-life 3D model 40 is adjusted to match the user viewpoint UV (stereo virtual camera UC) and the billboard.
  • the position and orientation of the stereo virtual camera VC are controlled so as to be similar to the positional relationship (angle, orientation) of 500 . Therefore, in the mirroring stage, the shortest distance d' at which the user's viewpoint UV (stereo virtual camera UC) approaches the billboard 500 may be set to the same distance as the constant distance d.
  • the control unit 220 transmits (distributes) the 2D stereo stream of the live-action 3D model to the viewer terminal 30 (step S127).
  • a 2D stereo stream is data obtained by synchronizing stereo 2D images (a 2D image for the right eye and a 2D image for the left eye) of a photographed 3D model and performing stream data processing. Note that the data distribution method is an example, and the present disclosure is not limited to this.
  • the distribution server 20 repeats the processes shown in steps S106 to S127 until the live distribution ends (step S130).
  • the control unit 220 of the distribution server 20 can stream stereo 2D images of an actual 3D model corresponding to each user's viewpoint in real time according to the viewpoint information received from each viewer terminal 30 . Also, the control unit 220 transmits update information of the virtual space to the viewer terminal 30 for each frame, for example, even during streaming delivery of stereo 2D images.
  • the update information includes, for example, information on the positions and orientations of other viewer avatars, information on changes in the background and lighting, and the like.
  • the operation processing shown in FIG. 4 is an example, and the steps do not necessarily have to be performed in the order shown in FIG. Each step may be performed in parallel or in reverse order as appropriate.
  • the distribution of stereo 2D images according to viewpoint information in steps S109 and S118-S127 and the generation of the live-action 3D model in steps S106, S112 and S115 may be continuously performed in parallel.
  • FIG. 6 is a flowchart showing an example of the flow of operation processing of the viewer terminal 30 according to this embodiment.
  • the viewer terminal 30 receives virtual space information from the content storage server, and the virtual space generator 321 generates a virtual space based on the received virtual space information (step S143).
  • the viewer terminal 30 receives the 2D stereo stream from the distribution server 20 (step S146).
  • the drawing processing unit 322 of the viewer terminal 30 generates a stereo 2D image for billboard drawing from the received 2D stereo stream (step S149).
  • the drawing processing unit 322 removes the green screen background of the stereo 2D image, and completes drawing on the billboard placed in the virtual space (step S152). More specifically, the drawing processing unit 322 draws the right-eye 2D image and the left-eye 2D image on stereo billboards arranged in the virtual space. As a result, a stereoscopic 2D image of a live-action 3D model of the performer is drawn on a billboard placed on a mirroring stage in the virtual space, and a stereoscopic image synthesized with the background CG of the virtual space by a stereo virtual camera corresponding to the user's viewpoint is displayed. is obtained. The stereoscopic image is displayed on the display unit 330, and it is possible to provide the user with a stereoscopic image (free viewpoint video) of the virtual space with low delay.
  • the billboard control unit 323 moves the billboard 500 so as to face the user viewpoint UV while keeping the base of the billboard 500 in contact with the floor surface. Control is performed to rotate the orientation to Yaw rotation or Pitch rotation (step S158).
  • the user viewpoint UV includes three-dimensional position information and direction information (line-of-sight direction). The user's viewpoint UV in the virtual space changes according to, for example, the movement of the user's head detected by the sensor unit 340 (forward/backward/leftward/rightward/upward/downward movement, tilting movement).
  • the billboard control unit 323 controls the billboard 500 to face the user's viewpoint UV (line-of-sight direction, head direction) in the virtual space, so that the thin billboard 500 can be viewed obliquely. It is possible to avoid an unnatural viewing state such as At this time, the billboard control unit 323 rotates the billboard 500 in Yaw or Pitch while grounding the base of the billboard 500 on the floor surface.
  • FIG. 7 shows a diagram for explaining the rotation control of the billboard 500. As shown in FIG.
  • FIG. 7 As shown on the left side of FIG. 7, in this embodiment, it is assumed that a user wearing an HMD 330a (an example of the display unit 330) on his/her head is viewing a virtual space while sitting on a chair or the like.
  • the user's viewpoint UV in the virtual space moves according to the movement of the user's head, so the user can view the virtual space from a free viewpoint.
  • a billboard 500 (a screen object on which a 2D image of a live-action 3D model of an actor is drawn) placed on the floor 511 of the virtual space is controlled by the billboard control unit 323 so that it always faces the user's viewpoint UV. .
  • the viewpoint information transmission control unit 324 transmits the viewpoint information to the distribution server 20 (step S161).
  • Viewpoint information is information indicating the position and orientation of the user's head detected by the sensor unit 340 .
  • the viewpoint information transmission control unit 324 may transmit sensing data detected by the sensor unit 340 as viewpoint information, or information of the user viewpoint in the virtual space (global coordinate position and line of sight) calculated based on the sensing data. information including direction) may be transmitted as viewpoint information. Transmission of viewpoint information may occur continuously.
  • a stereo 2D image of the real-time 3D model corresponding to the user's viewpoint in real time is transmitted from the distribution server 20 (step S146 above), and can be drawn on the billboard 500 facing the user's viewpoint (step S152 above). ).
  • a low delay is achieved by using 2D image distribution, and two-way data communication in which viewpoint information is transmitted from the viewer terminal 30 side allows the performer to be seen from above or from the left and right. It enables free-viewpoint viewing such as peeping. Furthermore, by distributing stereo 2D images and using stereo billboards, it is possible to provide users with stereoscopic images with low delay.
  • the control unit 320 of the viewer terminal 30 repeats the processing described above until the end of the live distribution.
  • steps S146 to S152, the billboard rotation control process in steps S155 to S158, and the information transmission process in S161 may be continuously performed in parallel.
  • FIG. 8 is a diagram illustrating an example of N patterns of viewing positions. As shown in FIG.
  • a P1 viewpoint in the front area for example, a P1 viewpoint in the front area, a P2 viewpoint in the side area, a P3 viewpoint in the distant side (second floor seat), and a P4 viewpoint in the oblique rear are prepared. good too.
  • a viewer who has purchased a ticket that allows viewing from multiple Pn viewpoints may be allowed to move to any Pn viewpoint.
  • the system may also allow all viewers to move to any Pn viewpoint.
  • movement between viewpoints of N patterns prepared in advance is referred to as warp movement.
  • FIG. 9 is a diagram showing an example of a system configuration in which N patterns of viewpoints are prepared in advance according to a modification of this embodiment.
  • distribution servers 20 (20A, 20B, 20C, . Connecting.
  • Each distribution server 20 generates a virtual space, and transmits stereo 2D images reflecting the user's viewpoint in real time to the viewer terminal 30 in each Pn viewpoint (small area).
  • the configuration of the Pn viewpoint distribution servers 20A, 20B, 20C, . . . is the same as the configuration shown in FIG.
  • each viewer terminal 30 switches the distribution server 20 to which it is connected for communication. For example, first, when the viewer terminal 30B performs viewing from the P1 viewpoint in the front area (movement of the viewpoint in a small area), communication connection is established with the P1 viewpoint distribution server 20A. Next, when warping to the P2 viewpoint in the side area, the viewer terminal 30 switches to communication connection with the P2 viewpoint distribution server 20B, as shown in FIG. As a result, a stereo 2D image of the actual 3D model at the P2 viewpoint in the side area can be obtained from the P2 viewpoint distribution server 20B.
  • warp movement operation may be performed by a controller held by the user, buttons, switches, etc. provided on the HMD.
  • Warp movement is discrete movement with a long movement distance, but it is also possible to support viewing with countless discrete viewpoint movements with small movement distances.
  • the drawing processing unit 322 of the viewer terminal 30 moves the virtual camera in the virtual space from the current position (for example, the front of the stage) to the warp destination (for example, diagonally behind the stage) at a myriad of discrete points with small movement distances. It may be reached by moving the target viewpoint.
  • FIG. 10 is a diagram for explaining billboard rotation control during warp movement according to a modification of the present embodiment.
  • the drawing processing unit 322 controls the billboard 500 (stereo billboard) so that it faces the stereo virtual camera UC corresponding to the user viewpoint UV only by Yaw rotation with the Y axis as the rotation axis. .
  • FIG. 11 is a flowchart showing an example of the flow of operation processing of the viewer terminal 30 according to the modified example of this embodiment.
  • Steps S183 to S195 shown in FIG. 11 are the same as steps S143 to S155 shown in FIG. 6, so description thereof will be omitted here.
  • step S195/Yes it is determined whether or not the movement of the user viewpoint is warp movement (discrete movement with a large movement distance) (step S198).
  • the billboard control unit 323 causes the billboard 500 to face the user's viewpoint UV while grounding the bottom of the billboard 500 to the floor surface, as in step 158 shown in FIG. Control is performed to rotate the billboard 500 in a yaw direction or a pitch direction (step S201).
  • the viewpoint information transmission control unit 324 transmits the viewpoint information to the distribution server 20 (step S204).
  • the billboard control unit 323 causes the billboard 500 to yaw rotate so that the bottom side of the billboard 500 is in contact with the floor surface and the billboard 500 faces the user's viewpoint UV. (step S207).
  • the viewpoint information transmission control unit 324 transmits the viewpoint information to the distribution server 20 corresponding to the warp destination (step S210).
  • the viewpoint information transmission control unit 324 distributes the stereo 2D image of the Pn viewpoint of the warp movement destination. It communicates with the server 20 and transmits the viewpoint information of the user.
  • the viewer terminal 30 can acquire information of the distribution server 20 corresponding to each Pn viewpoint (for example, information required for communication connection) from any of the distribution servers 20 in advance before starting the live distribution.
  • FIG. 12 is a diagram showing another example of the system configuration of a modified example of this embodiment.
  • the viewer terminal 30 can view from any viewpoint. It becomes possible to The configuration of the multi-viewpoint distribution server 20M is the same as the configuration shown in FIG.
  • the control unit 220 performs control to reflect the stereo virtual camera at each Pn viewpoint to the movement of each user viewpoint in real time, and controls transmission of a stereo 2D image corresponding to each user viewpoint to each viewer terminal 30. conduct. Viewpoint selection information can also be transmitted from each viewer terminal 30 .
  • the distribution server 20M may transmit stereo 2D images of a photographed 3D model at a plurality of Pn viewpoints to one viewer terminal 30.
  • the viewer terminal 30 can generate virtual spaces corresponding to a plurality of Pn viewpoints, draw the received stereo 2D images on billboards in each virtual space, and generate a plurality of display images. This enables the viewer terminal 30 to simultaneously output stereoscopic images from a plurality of viewpoints to the display unit 330 as shown in FIG. 13, for example.
  • the user may select one viewing viewpoint from the display images 332a to 332d displayed on the display unit 330, or may view multiple viewpoints at the same time.
  • the stereo 2D image generation unit 224 of the distribution server 20 may calculate stereo depth information when generating the stereo 2D image, and transmit the stereo depth information together in the 2D stereo stream to the viewer terminal 30 .
  • the drawing processing unit 322 of the viewer terminal 30 draws a billboard image (image of the actual 3D model) to be placed in the local virtual space based on the depth information of the stereo 2D image of the actual 3D model. It is possible to correct the position of the anteroposterior relationship of other virtual objects. More specifically, it can be used for rendering placement of shadows. In other words, it is possible to avoid the situation where the feet of the performer (image of the billboard) are separated from the shadow placed on the floor, and the performer appears to be floating.
  • the distribution server 20 generates a stereo 2D image of only the live-action 3D model (performer). and shadows" may be generated for rendering on a stereo billboard and streamed to the viewer terminal 30.
  • the estimation of the studio lighting angle may be performed based on preset values, or may be performed based on information obtained from the multi-viewpoint imaging system 10 .
  • the 3D model generation unit 222 of the distribution server 20 estimates the lighting direction of the studio and also models the shadow of the subject (performer) on the floor when generating the live-action 3D model.
  • the floor on which the shadow falls is flat.
  • the stereo 2D image generation unit 224 of the distribution server 20 performs position estimation of the performer's face and hands reflected in the 2D image, pose estimation from bone detection of the whole body (recognition of spatial position), and transmits 2D to the viewer terminal 30 In the stereo stream, it may be transmitted together as modal information of the performer (subject). More specifically, the control unit 220 of the distribution server 20 adds modal information (spatial coordinate values of the performer's hands, face, whole body, etc.) as metadata to the 2D stereo billboard streaming packet with parallax of the performer.
  • modal information spatial coordinate values of the performer's hands, face, whole body, etc.
  • the viewer terminal 30 superimposes spatial coordinate values (modal information) such as the face, hands, and whole body pose of the live-action 3D model (performer) on each image frame at the location of the billboard 500 where the stereo 2D image is drawn. It is also possible to realize two-way interaction between the performer (distributor) and the audience. For example, the viewer terminal 30 estimates the pointing zone of the performer (the place pointed by the performer) from the spatial coordinate values of the pose of the performer's face and hands, the pose of the whole body, etc., and cheers stereophonically from the pointed area. You may perform effects such as causing a spring up or illuminating the area pointed to by a spotlight.
  • modal information such as the face, hands, and whole body pose of the live-action 3D model (performer)
  • the viewer terminal 30 may change the color of the psyllium possessed by the viewer (spectator) avatar located in the pointed area. Also, the viewer terminal 30 may change the motion of the crowd of NPCs (non-player characters) located in the pointed area (for example, change from clapping to cheering).
  • the viewer terminal 30 can also superimpose (arrange) a predetermined effect (virtual object) on the spatial coordinate values of the hands, head, and body in accordance with the performer's body movements such as poses.
  • a predetermined effect virtual object
  • the viewer terminal 30 is configured to operate when the spatial coordinate position of the performer's hand and the position of the viewer's hand (specifically, the spatial coordinate position of the controller held in the hand) approach each other (below a predetermined distance). It is also possible to provide the viewer with the experience of high-five with the performer by, for example, vibrating the controller (tactile sensation).
  • the 3D model of the performer is not limited to a live-action 3D model, and may be a 3DCG character that reflects the performer's movements obtained by motion capture.
  • the viewer terminal 30 may detect the user's viewpoint direction according to the orientation of the mobile terminal (orientation in three axial directions). . Also, the viewer terminal 30 may accept the operation of viewpoint movement (including warp movement) by a touch operation (touch point) on the display. In addition, the viewer terminal 30 may estimate viewpoint movement by SLAM (Simultaneous Localization and Mapping) technology using captured images acquired by an outward facing camera provided in the mobile terminal. In addition, the viewer terminal 30 may vibrate a vibrating unit provided in the mobile terminal in accordance with a touch operation on the display to realize bi-directional interaction such as a high touch with the performer.
  • SLAM Simultaneous Localization and Mapping
  • the stereo virtual camera control unit 223 of the distribution server 20 may control the stereo virtual camera by camera work prepared in advance. Also, as a modification of this system, it is possible to replace the monocular virtual camera with a single billboard.
  • the virtual space information is received in advance from the content storage server and the local virtual space is generated, but the present invention is not limited to this.
  • the server that generates and transmits virtual space information and the server that performs live distribution may be the same.
  • the viewer terminal 30 may receive virtual space update information from a virtual space control server (not shown) during live distribution and reflect it in the local virtual space.
  • the virtual space control server is a server that performs real-time control of each virtual object placed in the virtual space. Real-time control of virtual objects includes, for example, position and orientation control of each viewer avatar, background data switching control, effect and lighting control, and the like.
  • the "performer” is described as an example of the subject, but the subject is not limited to humans, and may be an animal, an object, or the like.
  • one or more computer programs for causing the hardware such as the CPU, ROM, and RAM incorporated in the distribution server 20 or the viewer terminal 30 described above to exhibit the function of processing by the distribution server 20 or the viewer terminal 30 can also be created. Also provided is a computer-readable storage medium storing the one or more computer programs.
  • the present technology can also take the following configuration.
  • a control unit that performs control to output information about the image of the user's viewpoint in the virtual space
  • the control unit An information processing device that controls transmission of a two-dimensional image captured by a virtual camera corresponding to a user's viewpoint obtained in real time to a viewer terminal of the three-dimensional model arranged in the virtual space.
  • the two-dimensional image is a stereo image including a left-eye image and a right-eye image generated based on a preset amount of binocular parallax.
  • the stereo image is drawn on a billboard arranged in a virtual space generated by the viewer terminal.
  • the information processing apparatus according to any one of items 1 and 2.
  • a transmission unit that transmits information from a user's point of view to a distribution server; a receiving unit that receives, from the distribution server, a two-dimensional image of the three-dimensional model captured by a virtual camera corresponding to the user's viewpoint in a virtual space where the three-dimensional model is arranged; a control unit that controls placement of the two-dimensional image at a position facing the user viewpoint in a local virtual space;
  • An information processing terminal a transmission unit that transmits information from a user's point of view to a distribution server; a receiving unit that receives, from the distribution server, a two-dimensional image of the three-dimensional model captured by a virtual camera corresponding to the user's viewpoint in a virtual space where the three-dimensional model is
  • the information processing terminal according to (8), wherein the two-dimensional image is a stereo image including a left-eye image and a right-eye image generated based on a preset amount of binocular parallax.
  • the control unit draws the two-dimensional image on a billboard whose rotation is controlled so as to face the user's viewpoint in a local virtual space. terminal.
  • the billboard is a stereo billboard on which a left-eye image and a right-eye image included in the two-dimensional image are respectively drawn;
  • the information processing terminal according to (10), wherein the control unit obtains an image of the user's viewpoint in the local virtual space using a stereo virtual camera, and performs control to display the image on a display unit.
  • the controller according to (10) or (11) above, wherein the bottom side of the billboard is in contact with a floor surface defined in the local virtual space, and rotates to face the user's viewpoint.
  • Information processing terminal (13)
  • the receiving unit receives depth information of an image of a subject appearing in the two-dimensional image, (8) to (12), wherein the control unit corrects a positional relationship between an image of a subject appearing in the two-dimensional image and a peripheral virtual object in the local virtual space based on the depth information;
  • the information processing terminal according to any one of the above.
  • the receiving unit receives the recognition result of the spatial position of the head, hands, or body of the image of the subject appearing in the two-dimensional image, The information processing according to any one of (8) to (13), wherein the control unit performs control to generate a predetermined event in the local virtual space based on the recognition result of the spatial position. terminal.
  • the control unit estimates a pointing zone by the subject in the local virtual space based on the recognition result of the spatial position, and performs control to cause a predetermined event to occur in an area corresponding to the pointing zone. , the information processing terminal according to (14) above.
  • the control unit Based on the recognition result of the spatial position, when the position of the subject's hand and the position of the viewer's hand are close to each other in the local virtual space, the control unit causes a controller held by the viewer to perform tactile sensation stimulation.
  • the viewpoint direction corresponds to an orientation of the information processing terminal.
  • the processor Including controlling output of information about the image of the user's viewpoint in the virtual space, Further, in the control, the information processing method transmits to the viewer terminal a two-dimensional image of the three-dimensional model arranged in the virtual space captured by a virtual camera corresponding to a user's viewpoint obtained in real time.
  • the computer storing a program that functions as a control unit that controls output of information about an image of a user's viewpoint in a virtual space;
  • the control unit A storage medium for controlling transmission of a two-dimensional image captured by a virtual camera corresponding to a user's point of view acquired in real time to a viewer terminal of the three-dimensional model arranged in the virtual space.
  • multi-view imaging system 11 camera 12 multi-view image generation device 20 distribution server 210 communication unit 220 control unit 221 virtual space generation unit 222 3D model generation unit 223 stereo virtual camera control unit 224 stereo 2D image generation unit 230 storage unit 30 viewer terminal 310 communication unit 320 control unit 321 virtual space generation unit 322 drawing processing unit 323 billboard control unit 324 viewpoint information transmission control unit 330 display unit 340 sensor unit 350 operation input unit 360 storage unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Graphics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】3次元モデルが配置された仮想空間におけるユーザ視点の映像を低遅延で視聴することが可能な情報処理装置、情報処理端末、情報処理方法、および記憶媒体を提供する。 【解決手段】仮想空間におけるユーザ視点の画像に関する情報を出力する制御を行う制御部を備え、前記制御部は、前記仮想空間に配置される3次元モデルをリアルタイムで取得されるユーザ視点に対応する仮想カメラで撮像した2次元画像を視聴者端末に送信する制御を行う、情報処理装置。

Description

情報処理装置、情報処理端末、情報処理方法、および記憶媒体
 本開示は、情報処理装置、情報処理端末、情報処理方法、および記憶媒体に関する。
 近年、実空間を多数のカメラで同時に撮影して得られる多視点映像に基づいてカメラ視点以外の自由な視点からの映像を生成する技術が提案されている。
 自由視点映像を合成する技術に関し、例えば下記特許文献1では、ビルボードと称される厚みのない簡易なモデルを利用して高速に自由視点映像を合成する技術について説明されている。かかるビルボードを利用した技術では、映像からモデル化対象のオブジェクトのテクスチャを切り出し、それを厚みのないビルボードモデルとして仮想空間の地面に立たせることで、自由視点映像を生み出す。また下記特許文献1では、仮想視点に応じてビルボードを変形することで、ビルボードに合成される画像に含まれる被写体の像の姿勢を適切に表現している。
特開2017-156880号公報
 しかしながら、上記特許文献1では、仮想空間に3次元モデルを構築した場合については考慮されていない。
 そこで、本開示では、3次元モデルが配置された仮想空間におけるユーザ視点の映像を低遅延で視聴することを可能とする情報処理装置、情報処理端末、情報処理方法、および記憶媒体を提案する。
 本開示によれば、仮想空間におけるユーザ視点の画像に関する情報を出力する制御を行う制御部を備え、前記制御部は、前記仮想空間に配置される3次元モデルをリアルタイムで取得されるユーザ視点に対応する仮想カメラで撮像した2次元画像を視聴者端末に送信する制御を行う、情報処理装置を提案する。
 本開示によれば、ユーザ視点の情報を配信サーバに送信する送信部と、前記配信サーバから、3次元モデルが配置される仮想空間において、前記ユーザ視点に対応する仮想カメラで撮像された前記3次元モデルの2次元画像を受信する受信部と、前記2次元画像を、ローカルの仮想空間において、前記ユーザ視点に正対する位置に配置する制御を行う、情報処理端末を提案する。
 本開示によれば、プロセッサが、仮想空間におけるユーザ視点の画像に関する情報を出力する制御を行うことを含み、さらに、前記制御では、前記仮想空間に配置される3次元モデルをリアルタイムで取得されるユーザ視点に対応する仮想カメラで撮像した2次元画像を視聴者端末に送信する、情報処理方法を提案する。
 本開示によれば、コンピュータを、仮想空間におけるユーザ視点の画像に関する情報を出力する制御を行う制御部として機能させるプログラムを記憶し、前記制御部は、前記仮想空間に配置される3次元モデルをリアルタイムで取得されるユーザ視点に対応する仮想カメラで撮像した2次元画像を視聴者端末に送信する制御を行う、記憶媒体を提案する。
本開示の一実施形態による情報処理システムの概要について説明する図である。 本実施形態による配信サーバの構成の一例を示すブロック図である。 本実施形態による本実施形態による視聴者端末の構成の一例を示すブロック図である。 本実施形態による配信サーバの動作処理の流れの一例を示すフローチャートである。 本実施形態による本ステレオビルボード用2D画像の生成の一例について説明する図である。 本実施形態による視聴者端末の動作処理の流れの一例を示すフローチャートである。 本実施形態によるビルボードの回転制御について説明する図である。 本実施形態によるNパターンの視聴位置の一例について説明する図である。 本実施形態の変形例によるNパターンの視点を事前に用意する場合のシステム構成の一例を示す図である。 本実施形態の変形例によるワープ移動の際のビルボードの回転制御について説明する図である。 本実施形態の変形例による視聴者端末の動作処理の流れの一例を示すフローチャートである。 本実施形態の変形例のシステム構成の他の例を示す図である。 本実施形態の変形例による複数視点の表示について説明する図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、説明は以下の順序で行うものとする。
 1.本開示の一実施形態による情報処理システムの概要
 2.構成例
  2-1.配信サーバ20
  2-2.視聴者端末30
 3.動作処理
 3-1.配信サーバ20の動作処理
 3-2.視聴者端末30の動作処理
 4.変形例
  4-1.ワープ移動
  4-2.デプス情報を用いたオクルージョン制度の向上
  4-3.影付きのステレオ2D画像の生成
  4-4.双方向インタラクションの実現
 5.補足
 <<1.本開示の一実施形態による情報処理システムの概要>>
 図1は、本開示の一実施形態による情報処理システムの概要について説明する図である。図1に示すように、本実施形態による情報処理システムは、複数のカメラにより被写体を撮像する多視点撮像システム10と、配信サーバ20(情報処理装置)と、1以上の視聴者端末30(情報処理端末)と、を含む。
 多視点撮像システム10は、被写体を同時に撮像する複数のカメラ11(11-1~11-n)と、複数のカメラ11から撮像画像を取得して多視点画像を生成する多視点画像生成装置12と、を含む。複数のカメラ11(11-1~11-n)は、スタジオ等で被写体(演者)の周囲を取り囲むように設置されている。カメラ11は、例えば数十台設置され得る。多視点画像生成装置12は、多視点画像を配信サーバ20に送信する。
 配信サーバ20は、実写映像である多視点画像に基づいて被写体(演者)を3D映像化し、演者の3Dモデルを生成する。また、配信サーバ20は、生成した演者の3Dモデルを仮想空間に配置し、演者の3Dモデルの映像をリアルタイムで視聴者端末30に配信(所謂ライブ配信)する。仮想空間では、コンサートや講演会、演劇、祭り、その他各種の催し物(イベント)が実施され得る。本実施形態では、一例として、仮想空間内において演者によりコンサートが行われ、多数の視聴者がリアルタイムでコンサートを視聴する場合を想定する。
 被写体(演者)の3D映像化には、例えばVolumetric Capture技術が用いられる。これにより高品質で不自然さの無い実写3Dモデルがリアルタイムに生成され、仮想空間に配置され得る。なお仮想空間には、実写3Dモデルの他、背景やステージ、CGキャラクタ、エフェクト等、様々な2D画像や3Dモデルの情報(以下、仮想オブジェクトと称する)が配置される。なお、本実施形態では演者の分身となる仮想オブジェクトの一例として実写3Dモデルを用いているが、本実施形態はこれに限定されず、例えば演者の動きが反映される3DCGキャラクタを生成し、演者の仮想オブジェクトとして用いてもよい。その際は例えばモーションキャプチャ技術が用いられてもよい。
 また、仮想空間には、視聴者の分身となる仮想オブジェクトである視聴者アバターが配置されてもよい。視聴者アバターは、例えば視聴者により操作されるCGキャラクタであってもよい。視聴者による操作は、視聴者が手に持つコントローラや身体に装着するウェアラブルデバイス(例えばHMD;Head Mounted Display)のセンサ等により入力され、リアルタイムに仮想空間の仮想アバターに反映され得る。仮想空間におけるユーザ視点は、視聴者アバターの視点であってもよいし、視聴者アバターの背後(すなわち視聴者自身のアバターを視界に含む視点)であってもよい。また、仮想空間内に自分以外の視聴者アバター(すなわち他の視聴者により操作されるアバター)が表示されることで、よりリアルに他者と空間を共有する体験を得ることができる。
 視聴者端末30は、仮想空間におけるユーザ視点の映像を視聴者が視聴するために用いられる情報処理端末である。視聴者端末30は、ユーザ(視聴者)の頭部に装着されるHMDであってもよいし、スマートフォンやタブレット端末、テレビ装置、プロジェクタ等の表示装置であってもよい。また、視聴者端末30は、表示装置と通信接続するPCやスマートフォン、ゲーム機等であってもよい。
 なお、図1には図示していないが、カメラ11が配置されているスタジオ等に表示装置を設置し、配信サーバ20から仮想空間の会場全体の映像や、仮想空間における演者視点から見える視聴者の映像(視聴者アバターが配置されている観客席の映像)をリアルタイムに表示してもよい。これにより、視聴者の反応を演者に提供することも可能となる。
 (課題の整理)
 ここで、仮想空間に3Dモデルを構築する場合、ユーザ視点に対応した立体視視聴が可能となるが、配信サーバ20から視聴者端末30に送信する3Dモデルのデータ量は膨大であり、リアルタイムで低遅延の配信を行うことが困難であった。3Dモデルが配置される仮想空間の仮想視点における2D映像を配信する2Dストリーミング配信も可能であるが、その場合は従来の2D映像配信との顕著な差別化が難しい。また、従来の2D映像配信では、仮想空間を視聴者が自由に移動できる場合に期待するアングルの映像を見ることが困難である。すなわち、側面から2D映像を覗き込んでも、演者の側面は見えない。
 そこで、本開示による実施形態では、演者の3Dモデルの映像を配信することで、3Dモデルが構築された仮想空間におけるユーザ視点のより自然な映像を低遅延で視聴することを可能とする。
 具体的には、本実施形態では、ユーザ視点に対応する仮想カメラに対して正対するよう仮想空間に配置されるビルボードを用いる。ビルボードとは、平面領域を有する板状のスクリーンのような仮想オブジェクトである。配信サーバ20は、演者の実写3Dモデルを配置した仮想空間(サーバ側仮想空間)におけるユーザ視点に対応するステレオ仮想カメラで撮像したステレオ2D画像を、リアルタイムで視聴者端末30にストリーミング配信する。ステレオ2D画像とは、予め設定された両眼視差量に基づいて生成された左目用画像および右目用画像を含む画像であり、立体視画像とも称される。視聴者端末30は、予め取得した仮想空間の情報に基づいて、ステージ等を配置して仮想空間(視聴者側仮想空間)を構築している。かかる仮想空間の情報とは、例えば、背景データ(背景CG群)や他の視聴者アバター、エフェクトデータ、ライティングデータ等、仮想空間に配置される各種仮想オブジェクトの画像やパラメータを含む。仮想空間の情報は、例えばコンテンツ格納サーバ(不図示)から予め受信し得る。また、視聴者端末30にダウンロードされたアプリケーションを実行することで、アプリケーションに含まれた仮想空間の情報(背景データ等)を用いた仮想空間が構築されてもよい。次いで視聴者端末30は、構築した仮想空間のステージ上にステレオビルボードを配置し、当該ステレオビルボードにステレオ2D画像をレンダリングする。そして、視聴者端末30は、仮想空間(視聴者側仮想空間)において、ユーザ視点に対応するステレオ仮想カメラで立体視画像を取得し、表示する制御を行う。
 視聴者端末30は、仮想空間に配置したビルボードを仮想カメラ(ユーザ視点)に正対するよう回転制御を行うことで、仮想空間を視聴者が自由に移動できる場合に期待するアングルの映像を提供することを実現し得る。より具体的には、ユーザ(視聴者)の視点情報(視点方向、視点移動の情報)がリアルタイムで配信サーバ20に送信され、配信サーバ20が制御するステレオ仮想カメラに反映される。そして、ユーザ視点に対応したステレオ2D画像が配信サーバ20から視聴者端末30に送信され、ユーザ視点に正対するよう回転制御されるビルボードにレンダリングされる。
 以上、本開示の一実施形態による情報処理システムの概要について説明した。なお、本システムは仮想空間で行われるコンサートのライブ配信に限らず、講演やゲーム等、多様な用途でのライブ配信における低遅延の実現に利用され得る。また、本システムでは音声については言及しないが、本システムを実施する際には、演者やコンサート会場の音声が別途処理され、適宜、視聴者端末30に送信され得る。
 続いて、本実施形態による情報処理システムに含まれる各装置の具体的な構成について図面を参照して説明する。
 <<2.構成例>>
 <2-1.配信サーバ20>
 図2は、本実施形態による配信サーバ20の構成の一例を示すブロック図である。図2に示すように、配信サーバ20は、通信部210と、制御部220と、記憶部230と、を有する。
 (通信部210)
 通信部210は、外部装置と通信接続し、データの送受信を行う。例えば通信部210は、多視点撮像システム10に含まれる多視点画像生成装置12と通信接続し、演者の多視点画像を受信する。また、通信部210は、1以上の視聴者端末30と通信接続し、ユーザ視点のステレオ2D画像等を送信したり、視点情報を受信したりする。
 (制御部220)
 制御部220は、演算処理装置および制御装置として機能し、各種プログラムに従って配信サーバ20内の動作全般を制御する。制御部220は、例えばCPU(Central Processing Unit)、マイクロプロセッサ等の電子回路によって実現される。また、制御部220は、使用するプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、及び適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)を含んでいてもよい。
 また、本実施形態による制御部220は、仮想空間生成部221、3Dモデル生成部222、ステレオ仮想カメラ制御部223、およびステレオ2D画像生成部224として機能する。
 仮想空間生成部221は、演者の3Dモデルを配置する仮想空間(サーバ側仮想空間)を生成する。具体的には、仮想空間生成部221は、背景CG群や、ステージその他の仮想オブジェクトを配置し、各仮想オブジェクトのパラメータを適宜設定する。また、仮想空間生成部221は、予め生成された仮想空間の情報をコンテンツ格納サーバから取得し、仮想空間を生成し得る。
 3Dモデル生成部222は、多視点画像生成装置12から受信した演者の多視点画像に基づいて、例えばVolumetric Capture技術が用いて演者の3Dモデル(実写3Dとも称される)を生成する。具体的には、3Dモデル生成部222は、多視点画像に基づいて演者(被写体)の三次元情報を取得し、デプスマップとテクスチャの生成を行う。演者の撮像に用いられるカメラ11には深度センサ(例えば赤外線を用いたセンサ)が設けられていてもよく、3Dモデル生成部222は、深度センサにより得られた深度情報と組み合わせて演者の三次元情報を取得してもよい。また、Volumetric Capture技術では、デプスマップ、テクスチャの生成において、適宜、機械学習が用いられ得る。
 ステレオ仮想カメラ制御部223は、視聴者端末30から送信される視点情報(視点方向情報または視点移動情報の少なくともいずれかを含む)に応じて、サーバ側仮想空間におけるステレオ仮想カメラの位置姿勢をリアルタイムに制御する。本実施形態では、立体視画像を取得(生成)するためにステレオ仮想カメラを定義する。左目用仮想カメラと右目用仮想カメラの間は、予め設定された両眼視差量に基づいて離隔して配置される。
 ステレオ2D画像生成部224は、ステレオ仮想カメラの位置姿勢に基づいてステレオ2D画像を生成する。かかるステレオ2D画像は、仮想空間における視聴者の視界に対応する。また、ステレオ2D画像は、予め設定された両眼視差量に基づいて生成される左目用画像および右目用画像である。制御部220は、ステレオ2D画像生成部224により生成されたステレオ2D画像を視聴者端末30に送信する制御を行う。送信する制御とは、ステレオ2D画像を視聴者端末30に送信するための各種の制御を意味する。例えば、通信部210から視聴者端末30にステレオ2D画像を送信する制御であってもよいし、他の装置を介してステレオ2D画像を視聴者端末30に送信する制御であってもよい。また、ステレオ2D画像の視聴者端末30への送信は、ストリーミング配信によって行われてもよい。演者の3Dモデルのステレオ2D画像は、ライブ配信中にリアルタイムで生成され、視聴者端末30に継続的に送信され得る。
 (記憶部230)
 記憶部230は、制御部220の処理に用いられるプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、および適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)により実現される。本実施形態により記憶部230は、仮想空間の情報を格納する。
 以上、配信サーバ20の構成について具体的に説明したが、本開示による配信サーバ20の構成は図2に示す例に限定されない。例えば、配信サーバ20は、複数の装置により実現されてもよい。
 <2-2.視聴者端末30>
 図3は、本実施形態による視聴者端末30の構成の一例を示すブロック図である。図3に示すように、視聴者端末30は、通信部310と、制御部320と、表示部330と、センサ部340と、操作入力部350と、記憶部360と、を有する。なお、本実施形態による視聴者端末30は、例えば、視聴者の視界全体を覆う非透過型のHMDにより実現されてもよい。また、視聴者端末30は、スマートフォン、タブレット端末、PC、プロジェクタ、ゲーム機、テレビ装置、ウェアラブルデバイス等の各種装置により実現されてもよい。
 (通信部310)
 通信部310は、配信サーバ20と通信接続し、データの送受信を行う。例えば通信部310は、配信サーバ20から、継続的に演者の3Dモデルの映像(ステレオ2D画像)を受信する。また、通信部310は、コンテンツ格納サーバから、仮想空間生成用の情報である仮想空間の情報を受信してもよい。仮想空間の情報とは、背景CG群、各視聴者アバターのデータ(3Dモデルデータ等)、ステージやエフェクトのデータ等(仮想オブジェクトのデータ)を含む。仮想空間の情報は、配信サーバ20によるライブ配信前に、コンテンツ格納サーバから予め送信され得る。
 また、通信部310は、センサ部340により取得されたセンシングデータ等を、視点情報として配信サーバ20に送信する。視点情報には、視点方向または視点移動(視点位置の変化)の情報が少なくとも含まれる。視点方向の情報の一例として、例えば、ユーザの頭部に装着された視聴者端末30(HMD)の姿勢(すなわち頭部の向き)が挙げられる。また、視点移動の情報の一例として、例えば、視聴者端末30の移動(すなわちユーザの身体の動き)や、ユーザが把持するコントローラからの操作情報(ボタン操作、振る操作、移動先を指し示すポインティング操作等)が挙げられる。
 (制御部320)
 制御部320は、演算処理装置および制御装置として機能し、各種プログラムに従って視聴者端末30内の動作全般を制御する。制御部320は、例えばCPU(Central Processing Unit)、マイクロプロセッサ等の電子回路によって実現される。また、制御部220は、使用するプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、及び適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)を含んでいてもよい。
 また、本実施形態による制御部320は、仮想空間生成部321、描画処理部322、ビルボード制御部323、および視点情報送信制御部324としても機能する。
 仮想空間生成部321は、サーバ側仮想空間に対応するローカルの仮想空間(視聴者端末側仮想空間)を生成する。具体的には、仮想空間生成部321は、ライブ配信が開始される前にコンテンツ格納サーバから送信された仮想空間の情報に基づいて、仮想空間を生成する。
 描画処理部322は、表示部330に表示する画像の描画処理を行う。具体的には、描画処理部322は、生成されたローカルの仮想空間においてユーザ視点に対応する仮想カメラにより撮像される画像を生成し、表示部330に表示する制御を行う。ここでの「ユーザ視点」には、視点位置および視点方向が含まれる。仮想カメラは立体視画像を取得するステレオ仮想カメラであってもよい。これにより、表示部330に立体視画像が表示され得る。また、仮想カメラは、ユーザの頭部や身体の動きに応じて仮想空間内を自由移動し得る。具体的には、描画処理部322は、センサ部340により取得されたセンシングデータ(例えばユーザ頭部の動きや身体の動き)に基づいて、仮想カメラの位置姿勢を制御する。
 ビルボード制御部323は、ローカルの仮想空間に配置したビルボードの回転制御を行う。本実施形態では、実際のステージ床面に相当する仮想オブジェクトを生成し、当該仮想オブジェクトのローカル座標原点にビルボードを配置する。すなわち、ビルボードの底辺が仮想空間内で定義される床面に接するよう配置される。また、ビルボード制御部323は、仮想空間内において自由移動するユーザの視線方向(仮想カメラの向き)に正対するようビルボードをPitch回転(ローカル座標におけるx軸で回転)またはYaw回転(ローカル座標におけるy軸で回転)させる。詳細については図7を参照して後述する。また、本実施形態では、一例として、左目用画像と右目用画像を各々描画して立体視を可能とするステレオビルボードを用いる。
 視点情報送信制御部324は、センサ部340により取得されたセンシングデータをユーザの視点情報として配信サーバ20に送信する制御を行う。視点情報送信制御部324は、センシングデータをそのまま送信してもよいし、センシングデータに基づいて算出した座標位置情報(例えばグローバル座標)を送信してもよい。また、視点情報には、視点位置(三次元座標値)および視線方向の情報が含まれる。視点情報送信制御部324は、視点情報を配信サーバ20に継続的に送信してもよい。
 (表示部330)
 表示部330は、仮想空間の映像を視聴者に呈示する機能を有する。例えば表示部330は、3Dディスプレイを有する表示装置であってもよい。表示装置は、ユーザの頭部に装着されるHMDであってもよい。また、表示部330は、2Dディスプレイを有する表示装置、プロジェクタ、若しくは、立体ホログラムの呈示装置等により実現されてもよい。3Dまたは2D対応の表示装置として、スマートフォン、タブレット端末、PC、テレビ装置、ゲーム機等も挙げられる。
 (センサ部340)
 センサ部340は、視聴者端末30を所持するユーザ(視聴者)の頭部や身体の動きを検出する。頭部の動きとは、主に頭部を前後左右に動かす動きと傾ける動き(x軸、y軸、z軸周りの3つの動き)を想定する。センサ部340は、例えば、加速度センサ、角速度センサ、地磁気センサにより実現され、装着されたユーザの頭部の動きを検出する。視聴者端末30は、例えば、所謂3DoF(degree of freedom)対応のHMDにより実現されてもよい。
 また、身体の動きとは、主に身体の移動(部屋の中で歩いて移動等)を想定する。センサ部340は、例えば、加速度センサ、角速度センサ、地磁気センサにより実現され、装着されたユーザの腰や足の動きを検出する。また、身体の動きは、ユーザの頭部に装着されるHMDに設けられる各種センサにより検出されてもよい(例えば位置トラッキング)。
 なお、制御部320は、部屋に設置されたカメラやセンサを併用してユーザの身体の動きを検出(位置トラッキング)してもよい。例えば、部屋に設置されたカメラやセンサでユーザの頭部に装着しているHMD(視聴者端末30の一例)の位置や、ユーザが把持しているコントローラの位置を検出し、検出結果をリアルタイムで視聴者端末30に入力するようにしてもよい。このような外部センサとの組み合わせでユーザの身体の動き(移動)を検出することも可能なHMDとして、所謂6DoF(degree of freedom)対応のHMDが挙げられる。6DoFとは、3DoFで対応していたx軸、y軸、z軸周りの3つの動きに加えて、x軸、y軸、z軸軸方向の「移動」という3つの動きを加えた6つの動きに対応することを意味する。
 なお、センサ部340は、上記の他、カメラ、IRセンサ、マイクロフォン、生体センサ等を含んでいてもよい。センサ部340は、視聴者端末30(HMDや、スマートフォン等)に設けられていてもよいし、視聴者端末30とは別体で部屋に設置されたりユーザの身体に装着されたりしていてもよいし、ユーザが把持するコントローラ(操作入力部350の一例)に設けられていてもよい。センサ部150は、複数個、複数種類のセンサを有していてもよい。
 (操作入力部350)
 操作入力部350は、ユーザによる視聴者端末30に対する操作入力を受け付け、入力情報を制御部320に出力する。操作入力部350は、例えば、ボタン、スイッチ、ジョイスティック、キーボード、マウス、タッチパッド等により実現される。また、操作入力部350は、ユーザに把持されるコントローラであってもよい。ユーザは、仮想空間内での移動を実際の頭部や身体を動かすことで操作する他、操作入力部350から移動操作情報を入力することも可能である。
 (記憶部360)
 記憶部360は、制御部320の処理に用いられるプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、および適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)により実現される。本実施形態による記憶部360は、例えば、仮想空間の情報を格納する。
 以上、視聴者端末30の構成について具体的に説明した。なお、視聴者端末30の構成は図3に示す例に限定されない。例えば、視聴者端末30は、複数の装置から構成されてもよい。具体的には、視聴者端末30は、配信サーバ20と通信を行う通信部310および制御部320を少なくとも有する制御装置と、表示部330およびセンサ部340を少なくとも有する表示装置と、ユーザに把持される操作入力部350と、から構成されてもよい。また、センサ部340は、表示部330、操作入力部350、部屋(ユーザの周囲)等の様々な場所に適宜設けられ、また、センサ部340単体でユーザの身体に装着されていてもよい。また、視聴者端末30が、表示部330を少なくとも有する表示装置と、制御部320を少なくとも有する制御装置とから構成される際、制御部320の少なくとも一部の処理を表示装置側で行うようにしてもよい。
 <<3.動作処理>>
 続いて、本実施形態による動作処理について具体的に説明する。以下では、配信サーバ20の動作処理と視聴者端末30の動作処理について順次説明する。
 <3-1.配信サーバ20の動作処理>
 図4は、本実施形態による配信サーバ20の動作処理の流れの一例を示すフローチャートである。
 図4に示すように、まず、配信サーバ20の制御部220は、ライブで配信する条件が成立したか否かを判断する(ステップS103)。ライブ配信条件の成立とは、例えばサーバ側仮想空間の生成や、多視点撮像システム10との通信接続、配信者による開始指示等が挙げられる。
 次に、ライブ配信条件が成立すると(ステップS103/Yes)、配信サーバ20は配信を開始する。具体的には、まず、配信サーバ20は、スタジオで撮影された多視点画像を多視点撮像システム10から取得する(ステップS106)。スタジオには多数のカメラ11が設置され、演者のグリーンバック撮影が多方向から同時に行われる。
 次いで、配信サーバ20は、視聴者端末30から、ユーザの視点情報を取得する(ステップS109)。
 次に、配信サーバ20の3Dモデル生成部222は、演者の多視点画像に基づき、演者の実写3Dモデルの生成として、テクスチャおよびデプスマップを生成する(ステップS112)。
 次いで、3Dモデル生成部222は、実写3Dモデルのレンダリング補正を行う(ステップS115)。レンダリング補正では、例えばエッジのノイズ除去が行われる。以上により、実写3Dモデルの生成が行われる。生成された実写3Dモデルは、サーバ側仮想空間のステージ上に配置される。
 続いて、視聴者端末30から取得した視点に変化があるか否かを判断する(ステップS118)。なお、配信開始時の視点は所定のデフォルト位置に設定されていてもよい。視点の変化とは、例えばユーザが頭部を上下左右に動かしたり、頭を傾けたりといったことが想定される。
 次に、視点に変化がある場合(ステップS118/Yes)、ステレオ仮想カメラ制御部223は、視点情報に応じて、サーバ側仮想空間におけるステレオ仮想カメラの位置姿勢を変更させる(ステップS121)。これにより、ユーザの視点情報を、ステレオ仮想カメラの視点変更にリアルタイムで反映させることができる。
 一方、視点に変化がない場合は(ステップS118/No)、ステレオ仮想カメラの位置姿勢の変更は行われない。
 次に、ステレオ2D画像生成部224は、ユーザ視点におけるビルボード用の実写3Dモデルのステレオ2D画像を生成する(ステップS124)。すなわち、ステレオ2D画像生成部224は、視点情報がリアルタイムに反映されるステレオ仮想カメラで取得される、サーバ側仮想空間に配置されリアルタイムで演者の映像が反映される実写3Dモデルのユーザ視点2D画像として、仮想空間の右目用2D画像と左目用2D画像を生成する。かかる右目用2D画像と左目用2D画像は、視聴者端末30側のローカル仮想空間に配置されるステレオビルボードに各々描画されるためのデータである。ここで、図5を参照して本実施形態によるステレオビルボード用2D画像の生成の一例について説明する。
 図5上段に示すように、本実施形態では、サーバ20側で生成される仮想空間がオリジナルステージであり、演者の多視点画像に基づいてリアルタイムに生成される演者の実写3Dモデル40が配置される。そして、かかる仮想空間では、実写3Dモデル40から一定距離dに、ステレオ仮想カメラVCが配置され、ステレオ仮想カメラVCの位置姿勢は、視点情報がリアルタイムに反映される。
 一方、図5下段で示すように、視聴者端末30側で生成されるローカルの仮想空間は、オリジナルステージに対応するミラーリングステージであり、ミラーリングステージ(ステージオブジェクトのローカル座標原点)にステレオビルボード500が配置される。そして、ステレオビルボード500には、オリジナルステージのステレオ仮想カメラVCで撮像されたステレオ2D画像が描画される。ステレオビルボード500は右目用2D画像を描画するビルボードと、左目用2D画像を描画するビルボードから成る。かかるステレオビルボード500を、ユーザ視点(UV)に対応するステレオ仮想カメラUC(ユーザが頭部に装着するHMDの動きが反映されるユーザ視点のステレオカメラ)で見た映像として、立体視映像が取得される。
 これにより、サーバ側では実写3Dモデルを配置するが、視聴者端末30には、実写3Dモデルの映像としてビルボード用のステレオ2D画像の配信を行うことで低遅延を実現し得る。視聴者端末30側では、ステレオビルボードを用いることで、立体視映像を実現し得る。なお、サーバ側では、ユーザ視点UVに対応するようステレオ仮想カメラVCの位置姿勢を制御する。すなわち、ステレオ仮想カメラUCとビルボード500との位置関係になるよう、ステレオ仮想カメラVCにカメラワークを与える。しかし、ビルボード500に映る実写3Dモデルのサイズが変わらないよう、ステレオ仮想カメラ制御部223は、図5上段に示すように、ステレオ仮想カメラVCと実写3Dモデル40との間が常に一定距離dを維持するよう制御する。つまり、ステレオ仮想カメラ制御部223は、一定距離dを維持した上で、ステレオ仮想カメラVCと実写3Dモデル40の位置関係(角度、向き)が、ユーザ視点UV(ステレオ仮想カメラUC)とビルボード500の位置関係(角度、向き)と同様になるようステレオ仮想カメラVCの位置姿勢を制御する。このため、ミラーリングステージにおいて、ユーザ視点UV(ステレオ仮想カメラUC)がビルボード500に近付ける最短距離d’を、一定距離dと同じ距離に設定してもよい。
 次いで、制御部220は、実写3Dモデルの2Dステレオストリームを視聴者端末30に送信(配信)する(ステップS127)。2Dステレオストリームとは、実写3Dモデルのステレオ2D画像(右目用2D画像と左目用2D画像)を同期してストリームデータ処理したデータである。なお、データの配信方法は一例であって、本開示はこれに限定されない。
 そして、配信サーバ20は、上記ステップS106~S127に示す処理を、ライブ配信終了まで繰り返す(ステップS130)。
 配信サーバ20の制御部220は、各視聴者端末30から受信した視点情報に応じて、各ユーザ視点にリアルタイムに対応する実写3Dモデルのステレオ2D画像をストリーミング配信し得る。また、制御部220は、ステレオ2D画像のストリーミング配信中も、例えば1フレーム毎に仮想空間の更新情報を視聴者端末30に送信する。更新情報には、例えば他の視聴者アバターの位置姿勢の情報や、背景やライティングの変化に関する情報等が含まれる。
 また、図4に示す動作処理は一例であって、各ステップが必ずしも図4に示す順番で行われる必要はない。各ステップは適宜並列または逆の順で行われてもよい。例えば、ステップS109、およびS118~S127による視点情報に応じたステレオ2D画像の配信と、ステップS106、S112、およびS115による実写3Dモデルの生成は、継続的に並列して行われてもよい。
 <3-2.視聴者端末30の動作処理>
 続いて、視聴者端末30の動作処理について図6を参照して説明する。図6は、本実施形態による視聴者端末30の動作処理の流れの一例を示すフローチャートである。
 まず、視聴者端末30は、コンテンツ格納サーバから仮想空間の情報を受信し、受信した仮想空間の情報に基づいて仮想空間生成部321により仮想空間を生成する(ステップS143)。
 次に、視聴者端末30は、2Dステレオストリームを配信サーバ20から受信する(ステップS146)。
 次いで、視聴者端末30の描画処理部322は、受信した2Dステレオストリームから、ビルボード描画用のステレオ2D画像を生成する(ステップS149)。
 次に、描画処理部322は、ステレオ2D画像のグリーンバック背景を除去し、仮想空間に配置されたビルボードへの描画を完了する(ステップS152)。より具体的には、描画処理部322は、右目用2D画像と左目用2D画像を、仮想空間に配置されたステレオビルボードに各々描画する。これにより、演者の実写3Dモデルのステレオ2D画像が仮想空間のミラーリングステージに配置されたビルボードに描画され、ユーザ視点に対応するステレオ仮想カメラにより仮想空間の背景CGと合成された立体視画像が取得される。立体視画像は表示部330に表示され、ユーザに低遅延で仮想空間の立体視画像(自由視点映像)を提供することが可能となる。
 続いて、仮想空間におけるユーザ視点UVが移動した場合(ステップS155/Yes)、ビルボード制御部323は、ビルボード500の底辺を床面に接地させながらユーザ視点UVに正対するようビルボード500の向きをYaw回転またはPitch回転させる制御を行う(ステップS158)。本実施形態において、ユーザ視点UVには、三次元位置情報および方向情報(視線方向)が含まれる。仮想空間におけるユーザ視点UVは、例えばセンサ部340により検出されるユーザ頭部の動き(前後左右や上下への動き、傾く動き)に追随して変化する。この場合、ビルボード制御部323は、仮想空間においてユーザ視点UV(視線方向、頭部の向き)に正対するようビルボード500を制御することで、厚さの無いビルボード500が斜めから視聴されるといった不自然な視聴状態を回避し得る。また、この際、ビルボード制御部323は、ビルボード500の底辺を床面に接地させながらYaw回転またはPitch回転させる。ここで、図7に、ビルボード500の回転制御について説明する図を示す。
 図7左に示すように、本実施形態では、例えばHMD330a(表示部330の一例)を頭部に装着したユーザが椅子等に座った状態で仮想空間を視聴している場合を想定する。この場合、ユーザ頭部の動きに応じて、仮想空間内のユーザ視点UVも移動するため、ユーザは仮想空間を自由視点で視聴することができる。そして、仮想空間の床面511に配置されるビルボード500(演者の実写3Dモデルの2D画像が描画されるスクリーンオブジェクト)は、常にユーザ視点UVに正対するようビルボード制御部323により制御される。具体的には、上述したように、ビルボード500の底辺をミラーリングステージの床面511に接地させた状態で、床面511に対して垂直なY軸を回転軸としたYaw回転制御、または、床面511と水平のx軸を回転軸としたPitch回転制御される。このように、回転制御中にビルボード500が床面から離れないようにすることで、ビルボード500に描画される演者(実写3Dモデルの2D画像)の足元と床面が接地する状態を回転制御中も維持し、演者の足元が不自然に床面(ステージ)から離れるといった不自然な見え方を回避することができる。
 そして、視点情報送信制御部324は、視点情報を配信サーバ20へ送信する(ステップS161)。視点情報とは、センサ部340により検出されるユーザの頭部の位置姿勢を示す情報である。視点情報送信制御部324は、センサ部340により検出されたセンシングデータを視点情報として送信してもよいし、センシングデータに基づいて算出された仮想空間におけるユーザ視点の情報(グローバル座標位置、および視線方向を含む情報)を視点情報として送信してもよい。視点情報の送信は継続的に行われ得る。これにより、リアルタイムのユーザ視点に対応する実写3Dモデルのステレオ2D画像が配信サーバ20から送信され(上記ステップS146)、ユーザ視点に正対するビルボード500に描画することが可能となる(上記ステップS152)。本実施形態によれば、2D画像の配信を用いることで低遅延を実現し、かつ、視聴者端末30側からは視点情報を送信するという双方向データ通信により、演者を上から見たり左右から覗き込んだりする自由視点視聴を可能とする。またさらに、ステレオ2D画像を配信し、ステレオビルボードを用いることで、立体視画像を低遅延でユーザに提供することが可能となる。
 視聴者端末30の制御部320は、以上説明した処理をライブ配信終了まで繰り返す。
 なお、図6に示す動作処理は一例であって、各ステップが必ずしも図6に示す順番で行われる必要はない。各ステップは適宜並列または逆の順で行われてもよい。例えば、ステップS146~S152による描画処理と、ステップS155~S158によるビルボード回転制御処理と、S161による情報送信処理は、継続的に並列して行われてもよい。
 <<4.変形例>>
 続いて、本実施形態の変形例について説明する。
 <4-1.ワープ移動>
 上述した実施形態では、小エリアでの視点移動を想定している。推奨される視聴状態としては、ユーザが歩き回ったりせずに座った状態で視聴する座位視聴である。ユーザは座った状態で頭部を上下左右に動かしたり、傾けたりして自由視点視聴し得る。上述した実施形態の変形例として、このような小エリアでの視点移動に限定されるNパターンの視点を事前に用意し、ユーザが任意に移動できるようにしてもよい。Nパターンの視聴位置としては、例えば仮想空間がライブ会場の場合、アリーナ席、2階席、遠方から俯瞰できる席、真正面の最前席、サイドの最前席等が挙げられる。図8は、Nパターンの視聴位置の一例について説明する図である。図8に示すように、例えば中央のステージ410に対して、正面エリアのP1視点や、サイドエリアのP2視点、サイド遠方(2階席)のP3視点、斜め後方のP4視点等を用意してもよい。本システムでは、チケット購入したPn視点のみから視聴できるようにしてもよい。多数のPn視点から視聴できるチケットを購入した視聴者に対しては、任意のPn視点に移動できるようにしてもよい。また、本システムでは、視聴者全員が任意のPn視点に移動できるようにしてもよい。本明細書では、事前に用意されたNパターンの視点間の移動を、ワープ移動と称する。
 (システム構成)
 図9は、本実施形態の変形例によるNパターンの視点を事前に用意する場合のシステム構成の一例を示す図である。図9に示すように、用意するNパターンの視点毎に配信サーバ20(20A、20B、20C・・・)を設け、各視聴者端末30は、選択したPn視点に対応する配信サーバ20と通信接続する。各配信サーバ20では、仮想空間を生成し、各Pn視点(小エリア)において、ユーザ視点をリアルタイムに反映させたステレオ2D画像を視聴者端末30に送信する。Pn視点配信サーバ20A、20B、20C・・・の構成は、図2に示す構成と同様である。
 Pn視点間の移動、すなわちワープ移動を行う際は、各視聴者端末30は通信接続する配信サーバ20の切り替えを行う。例えば、まず、視聴者端末30Bが、正面エリアのP1視点での視聴(小エリアでの視点移動)を行う場合、P1視点配信サーバ20Aと通信接続する。次いで、サイドエリアのP2視点にワープ移動する場合、図9に示すように、視聴者端末30は、P2視点配信サーバ20Bと通信接続に切り替える。これにより、P2視点配信サーバ20Bから、サイドエリアのP2視点における実写3Dモデルのステレオ2D画像を取得し得る。
 なお、ワープ移動の操作は、ユーザが把持するコントローラや、HMDに設けられるボタン、スイッチ等により行われてもよい。また、ワープ移動は、移動距離が大きい離散的な移動であるが、移動距離が小さい無数の離散的視点移動の視聴に対応することも可能である。具体的には、視聴者端末30の描画処理部322は、現在位置(例えばステージ正面)からワープ移動先(例えばステージ斜め後ろ)まで、仮想空間内の仮想カメラを、移動距離が小さい無数の離散的視点の移動により到達させてもよい。この際、ビルボード制御部323は、ビルボード500の回転制御をYaw回転のみに限定することで、上下方向の視点移動量を微小量とし、立体視歪みの発生を低減する。図10は、本実施形態の変形例によるワープ移動の際のビルボードの回転制御について説明する図である。描画処理部322は、図10に示すように、Y軸を回転軸とするYaw回転のみで、ユーザ視点UVに対応するステレオ仮想カメラUCに正対するようビルボード500(ステレオビルボード)を制御する。
 (動作処理)
 図11は、本実施形態の変形例による視聴者端末30の動作処理の流れの一例を示すフローチャートである。
 図11に示すステップS183~S195は、図6に示すステップS143~S155と同様であるため、ここでの説明を省略する。
 次に、ユーザ視点が移動した場合(ステップS195/Yes)、ユーザ視点の移動がワープ移動(移動距離が大きな離散的な移動)であるか否かの判断を行う(ステップS198)。
 次いで、ワープ移動ではない場合(ステップS198/No)、図6に示すステップ158と同様に、ビルボード制御部323は、ビルボード500の底辺を床面に接地させながらユーザ視点UVに正対するようビルボード500の向きをYaw回転またはPitch回転させる制御を行う(ステップS201)。
 次に、視点情報送信制御部324は、視点情報を配信サーバ20へ送信する(ステップS204)。
 一方、ワープ移動の場合(ステップS198/Yes)、ビルボード制御部323は、ビルボード500の底辺を床面に接地させながらユーザ視点UVに正対するようビルボード500の向きをYaw回転させる制御を行う(ステップS207)。
 そして、視点情報送信制御部324は、視点情報をワープ移動先に対応する配信サーバ20へ送信する(ステップS210)。図9を参照して説明したように、Pn視点毎に配信サーバ20が用意されている場合、視点情報送信制御部324は、ワープ移動先のPn視点のステレオ2D画像を配信ししている配信サーバ20と通信接続し、ユーザの視点情報を送信する。なお、視聴者端末30は、各Pn視点と対応する配信サーバ20の情報(例えば通信接続に必要な情報)を、ライブ配信開始前に予めいずれかの配信サーバ20から取得し得る。
 (システム構成の他の例)
 上述した変形例では、小エリアでの視点移動に限定されるNパターンの各Pn視点と対応する配信サーバ20を各々用意したが、本変形例はこれに限定されず、複数視点を同時配信する配信サーバ20を用いてもよい。図12は、本実施形態の変形例のシステム構成の他の例を示す図である。
 図12に示すように、仮想空間における各Pn視点での各ユーザ視点に対応するステレオ2D画像を配信可能な複数視点配信サーバ20Mを用いることで、視聴者端末30では、各々任意の視点から視聴することが可能となる。複数視点配信サーバ20Mの構成は、図2に示す構成と同様である。制御部220は、各Pn視点におけるステレオ仮想カメラを各ユーザ視点の動きにリアルタイムに反映させる制御を行い、各視聴者端末30に対して、各ユーザ視点に対応するステレオ2D画像を送信する制御を行う。また、各視聴者端末30からは、視点選択情報が送信され得る。
 これにより、ワープ移動する際に、視聴者端末30は、別視点の2Dステレオストリームに切り替える(他の配信サーバ20に切り替える)必要が無くなる。
 また、配信サーバ20Mは、一の視聴者端末30に、複数のPn視点における実写3Dモデルのステレオ2D画像を送信してもよい。視聴者端末30では、複数のPn視点に対応する仮想空間を生成し、受信したステレオ2D画像を各仮想空間のビルボードに描画し、複数の表示用画像を生成し得る。これにより、視聴者端末30は、例えば図13に示すように、表示部330に複数視点からの立体視画像を同時出力することが可能となる。ユーザは、表示部330に表示された表示画像332a~332dから一の視聴視点を選択してもよいし、複数視点を同時に視聴してもよい。
 <4-2.デプス情報を用いたオクルージョン制度の向上>
 配信サーバ20のステレオ2D画像生成部224は、ステレオ2D画像生成時に、ステレオデプス情報を算出し、視聴者端末30への2Dステレオストリームにおいて、併せてステレオデプス情報を送信してもよい。視聴者端末30の描画処理部322は、実写3Dモデルのステレオ2D画像のデプス情報に基づいて、ローカル仮想空間に配置するビルボードの画像(実写3Dモデルの像)と、当該空間に配置される他の仮想オブジェクトの前後関係の位置補正を行うことが可能となる。より具体的には、影のレンダリング配置に利用することが可能である。すなわち、演者(ビルボードの画像)の足元と、床面に配置する影が離れ、演者が浮いてるように見えてしまうことを回避できる。
 これにより、演者(ビルボードの画像)と、床面の影との位置関係(仮想オブジェクトの前後関係)を正しく表現することが可能となる。
 <4-3.影付きのステレオ2D画像の生成>
 上述した実施形態では、配信サーバ20は、実写3Dモデル(演者)のみのステレオ2D画像を生成しているが、さらに、スタジオのライティング角度を推定し、仮想のライティング処理を行うことで、「演者および影のステレオ2D画像」をステレオビルボードへの描画用に生成し、視聴者端末30にストリーミング配信してもよい。スタジオのライティング角度の推定は、予め設定された値に基づいて行ってもよいし、多視点撮像システム10から取得した情報に基づいて行ってもよい。
 より具体的には、配信サーバ20の3Dモデル生成部222は、実写3Dモデル生成の際に、スタジオの照明方向を推定し、被写体(演者)の床面への影を併せてモデリングする。なお、ここでは、影が落ちる床面が平面であることを前提とする。
 これにより、視聴者端末30の描画処理部322において、仮想空間のライティングによる演者の床面への影の演算処理負荷や描画を大幅に低減することが可能となる。
 <4-4.双方向インタラクションの実現>
 配信サーバ20のステレオ2D画像生成部224は、2D画像に映る演者の顔や手の位置推定や、全身のボーン検出からポーズ推定等を行い(空間位置の認識)、視聴者端末30への2Dステレオストリームにおいて、演者(被写体)のモーダル情報として併せて送信してもよい。より具体的には、配信サーバ20の制御部220は、演者の視差付き2Dステレオビルボードストリーミングパケットに、メタデータとしてモーダル情報(演者の手、顔、全身などの空間座標値)を付与する。
 視聴者端末30では、ステレオ2D画像が描画されるビルボード500の配置箇所において、実写3Dモデル(演者)の顔、手、全身のポーズなどの空間座標値(モーダル情報)を画像フレーム毎に重畳し、演者(配信者)と視聴者の双方向インタラクションを実現してもよい。例えば、視聴者端末30は、演者の顔や手の向き、全身のポーズなどの空間座標値から、演者のポインティングゾーン(演者が指し示す場所)を推定し、ポインティングした先のエリアから立体音響で歓声が湧き起こしたり、ポインティングした先のエリアをスポットライトで照らしたりする演出を行ってもよい。また、視聴者端末30は、ポインティングした先のエリアに位置する視聴者(観客)アバターが所持するサイリウムの色を変化させてもよい。また、視聴者端末30は、ポインティングした先のエリアに位置するNPC(non player character)群衆のモーションを変えてもよい(例えば手拍子から声援に変える)。
 また、視聴者端末30は、演者のポーズなど身体の動作に応じて、手や頭、身体の空間座標値に、所定のエフェクト(仮想オブジェクト)を重畳(配置)することも可能である。
 また、視聴者端末30は、演者の手の空間座標位置と、視聴者が手の位置(具体的には、手に把持するコントローラの空間座標位置)とが近付いた際(所定の距離以下となった場合)に、コントローラに振動(触覚刺激)を与える等して演者とハイタッチしているような体験を視聴者に提供することも可能である。
 このように、演者のモーダル情報を用いることで、演者と視聴者の双方向のインタラクションが実現される。
 <<5.補足>>
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、演者の3Dモデルは実写3Dモデルに限定されず、モーションキャプチャにより得た演者の動きを反映する3DCGキャラクタであってもよい。
 また、表示部330がスマートフォンやタブレット等のモバイル端末に設けられるディスプレイの場合、視聴者端末30は、モバイル端末の姿勢(3軸方向における向き)に応じてユーザの視点方向を検出してもよい。また、視聴者端末30は、視点移動の操作(ワープ移動を含む)を、ディスプレイへのタッチ操作(タッチポイント)により受け付けてもよい。また、視聴者端末30は、モバイル端末に設けられる外向きカメラにより取得される撮像画像を用いるSLAM(Simultaneous Localization and Mapping)技術により、視点移動を推定してもよい。また、視聴者端末30は、ディスプレイへのタッチ操作に応じてモバイル端末に設けられる振動部を振動させ、演者とのハイタッチ等の双方向インタラクションを実現してもよい。
 また、配信サーバ20のステレオ仮想カメラ制御部223は、事前に用意したカメラワークによりステレオ仮想カメラを制御してもよい。また、本システムの変形例として、単眼の仮想カメラとシングルのビルボードに置き換えることも可能である。
 上述した実施形態では、コンテンツ格納サーバから予め仮想空間の情報を受信してローカルの仮想空間を生成する旨を説明したが、本発明はこれに限定されない。例えば、仮想空間の情報を生成、送信するサーバと、ライブ配信するサーバは同一であってもよい。
 また、視聴者端末30は、ライブ配信中に、仮想空間の更新情報を仮想空間制御サーバ(不図示)から受信し、ローカルの仮想空間に反映させてもよい。仮想空間制御サーバは、仮想空間に配置される各仮想オブジェクトのリアルタイム制御を行うサーバである。仮想オブジェクトのリアルタイム制御とは、例えば、各視聴者アバターの位置姿勢の制御、背景データの切り替え制御、エフェクトやライティングの制御等が挙げられる。
 また、上述した実施形態では、被写体の一例として「演者」と記載したが、被写体は人間に限定されず、動物や物体等であってもよい。
 また、上述した配信サーバ20または視聴者端末30に内蔵されるCPU、ROM、およびRAM等のハードウェアに、配信サーバ20または視聴者端末30による処理の機能を発揮させるための1以上のコンピュータプログラムも作成可能である。また、当該1以上のコンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、本技術は以下のような構成も取ることができる。
(1)
 仮想空間におけるユーザ視点の画像に関する情報を出力する制御を行う制御部を備え、
 前記制御部は、
  前記仮想空間に配置される3次元モデルをリアルタイムで取得されるユーザ視点に対応する仮想カメラで撮像した2次元画像を視聴者端末に送信する制御を行う、情報処理装置。
(2)
 前記2次元画像は、予め設定された両眼視差量に基づいて生成された左目用画像および右目用画像を含むステレオ画像である、前記(1)に記載の情報処理装置。
(3)
 前記ステレオ画像は、前記視聴者端末で生成される仮想空間に配置されるビルボードに描画される、前記(2)に記載の情報処理装置。
(4)
 前記3次元モデルは、実空間において被写体を複数の視点から同時に撮像して得られる多視点撮像画像に基づいて生成される、前記(1)~(3)のいずれか1に記載の情報処理装置。
(5)
 前記制御部は、前記2次元画像に映る被写体の像のデプス情報を併せて前記視聴者端末に送信する制御を行う、前記(4)に記載の情報処理装置。
(6)
 前記制御部は、前記被写体の影を含む前記2次元画像を生成し、前記視聴者端末に送信する制御を行う、前記(4)または(5)に記載の情報処理装置。
(7)
 前記制御部は、前記2次元画像に映る被写体の像の頭、手、または身体の空間位置の認識結果を併せて前記視聴者端末に送信する制御を行う、前記(4)~(6)のいずれか1項に記載の情報処理装置。
(8)
 ユーザ視点の情報を配信サーバに送信する送信部と、
 前記配信サーバから、3次元モデルが配置される仮想空間において、前記ユーザ視点に対応する仮想カメラで撮像された前記3次元モデルの2次元画像を受信する受信部と、
 前記2次元画像を、ローカルの仮想空間において、前記ユーザ視点に正対する位置に配置する制御を行う制御部と、
を備える、情報処理端末。
(9)
 前記2次元画像は、予め設定された両眼視差量に基づいて生成された左目用画像および右目用画像を含むステレオ画像である、前記(8)に記載の情報処理端末。
(10)
 前記制御部は、前記2次元画像を、ローカルの仮想空間において、前記ユーザ視点に正対するよう回転制御されるビルボードに描画する処理を行う、前記(8)または(9)に記載の情報処理端末。
(11)
 前記ビルボードは、前記2次元画像に含まれる左目用画像および右目用画像が各々描画されるステレオビルボードであり、
 前記制御部は、前記ローカルの仮想空間における前記ユーザ視点の画像をステレオ仮想カメラにより取得し、表示部に表示する制御を行う、前記(10)に記載の情報処理端末。
(12)
 前記制御部は、前記ビルボードの底辺が前記ローカルの仮想空間で定義された床面に接地した状態で、前記ユーザ視点に正対するよう回転制御する、前記(10)または(11)に記載の情報処理端末。
(13)
 前記受信部は、前記2次元画像に映る被写体の像のデプス情報を受信し、
 前記制御部は、前記デプス情報に基づいて、前記ローカルの仮想空間において、前記2次元画像に映る被写体の像と、周辺の仮想オブジェクトとの位置関係を補正する、前記(8)~(12)のいずれか1項に記載の情報処理端末。
(14)
 前記受信部は、前記2次元画像に映る被写体の像の頭、手、または身体の空間位置の認識結果を受信し、
 前記制御部は、前記空間位置の認識結果に基づいて、前記ローカルの仮想空間において、所定の事象を発生させる制御を行う、前記(8)~(13)のいずれか1項に記載の情報処理端末。
(15)
 前記制御部は、前記空間位置の認識結果に基づいて、前記ローカルの仮想空間において、前記被写体によるポインティングゾーンを推定し、当該ポインティングゾーンに相当するエリアに対して所定の事象を発生させる制御を行う、前記(14)に記載の情報処理端末。
(16)
 前記制御部は、前記空間位置の認識結果に基づいて、前記ローカルの仮想空間において、前記被写体の手の位置と視聴者の手の位置が近付いた場合、前記視聴者が把持するコントローラにより触覚刺激を呈示する制御を行う、前記(14)に記載の情報処理端末。
(17)
 前記ユーザ視点の情報は、ユーザの視点方向または視点移動の情報を少なくとも含む、前記(8)~(16)のいずれか1項に記載の情報処理端末。
(18)
 前記視点方向は、前記情報処理端末の向きに対応する、前記(17)に記載の情報処理端末。
(19)
 プロセッサが、
 仮想空間におけるユーザ視点の画像に関する情報を出力する制御を行うことを含み、
 さらに、前記制御では、前記仮想空間に配置される3次元モデルをリアルタイムで取得されるユーザ視点に対応する仮想カメラで撮像した2次元画像を視聴者端末に送信する、情報処理方法。
(20)
 コンピュータを、
 仮想空間におけるユーザ視点の画像に関する情報を出力する制御を行う制御部として機能させるプログラムを記憶し、
 前記制御部は、
  前記仮想空間に配置される3次元モデルをリアルタイムで取得されるユーザ視点に対応する仮想カメラで撮像した2次元画像を視聴者端末に送信する制御を行う、記憶媒体。
 10 多視点撮像システム
 11 カメラ
 12 多視点画像生成装置
 20 配信サーバ
  210 通信部
  220 制御部
   221 仮想空間生成部
   222 3Dモデル生成部
   223 ステレオ仮想カメラ制御部
   224 ステレオ2D画像生成部
  230 記憶部
 30 視聴者端末
  310 通信部
  320 制御部
   321 仮想空間生成部
   322 描画処理部
   323 ビルボード制御部
   324 視点情報送信制御部
  330 表示部
  340 センサ部
  350 操作入力部
  360 記憶部

Claims (20)

  1.  仮想空間におけるユーザ視点の画像に関する情報を出力する制御を行う制御部を備え、
     前記制御部は、
      前記仮想空間に配置される3次元モデルをリアルタイムで取得されるユーザ視点に対応する仮想カメラで撮像した2次元画像を視聴者端末に送信する制御を行う、情報処理装置。
  2.  前記2次元画像は、予め設定された両眼視差量に基づいて生成された左目用画像および右目用画像を含むステレオ画像である、請求項1に記載の情報処理装置。
  3.  前記ステレオ画像は、前記視聴者端末で生成される仮想空間に配置されるビルボードに描画される、請求項2に記載の情報処理装置。
  4.  前記3次元モデルは、実空間において被写体を複数の視点から同時に撮像して得られる多視点撮像画像に基づいて生成される、請求項1に記載の情報処理装置。
  5.  前記制御部は、前記2次元画像に映る被写体の像のデプス情報を併せて前記視聴者端末に送信する制御を行う、請求項4に記載の情報処理装置。
  6.  前記制御部は、前記被写体の影を含む前記2次元画像を生成し、前記視聴者端末に送信する制御を行う、請求項4に記載の情報処理装置。
  7.  前記制御部は、前記2次元画像に映る被写体の像の頭、手、または身体の空間位置の認識結果を併せて前記視聴者端末に送信する制御を行う、請求項4に記載の情報処理装置。
  8.  ユーザ視点の情報を配信サーバに送信する送信部と、
     前記配信サーバから、3次元モデルが配置される仮想空間において、前記ユーザ視点に対応する仮想カメラで撮像された前記3次元モデルの2次元画像を受信する受信部と、
     前記2次元画像を、ローカルの仮想空間において、前記ユーザ視点に正対する位置に配置する制御を行う制御部と、
    を備える、情報処理端末。
  9.  前記2次元画像は、予め設定された両眼視差量に基づいて生成された左目用画像および右目用画像を含むステレオ画像である、請求項8に記載の情報処理端末。
  10.  前記制御部は、前記2次元画像を、ローカルの仮想空間において、前記ユーザ視点に正対するよう回転制御されるビルボードに描画する処理を行う、請求項8に記載の情報処理端末。
  11.  前記ビルボードは、前記2次元画像に含まれる左目用画像および右目用画像が各々描画されるステレオビルボードであり、
     前記制御部は、前記ローカルの仮想空間における前記ユーザ視点の画像をステレオ仮想カメラにより取得し、表示部に表示する制御を行う、請求項10に記載の情報処理端末。
  12.  前記制御部は、前記ビルボードの底辺が前記ローカルの仮想空間で定義された床面に接地した状態で、前記ユーザ視点に正対するよう回転制御する、請求項10に記載の情報処理端末。
  13.  前記受信部は、前記2次元画像に映る被写体の像のデプス情報を受信し、
     前記制御部は、前記デプス情報に基づいて、前記ローカルの仮想空間において、前記2次元画像に映る被写体の像と、周辺の仮想オブジェクトとの位置関係を補正する、請求項8に記載の情報処理端末。
  14.  前記受信部は、前記2次元画像に映る被写体の像の頭、手、または身体の空間位置の認識結果を受信し、
     前記制御部は、前記空間位置の認識結果に基づいて、前記ローカルの仮想空間において、所定の事象を発生させる制御を行う、請求項8に記載の情報処理端末。
  15.  前記制御部は、前記空間位置の認識結果に基づいて、前記ローカルの仮想空間において、前記被写体によるポインティングゾーンを推定し、当該ポインティングゾーンに相当するエリアに対して所定の事象を発生させる制御を行う、請求項14に記載の情報処理端末。
  16.  前記制御部は、前記空間位置の認識結果に基づいて、前記ローカルの仮想空間において、前記被写体の手の位置と視聴者の手の位置が近付いた場合、前記視聴者が把持するコントローラにより触覚刺激を呈示する制御を行う、請求項14に記載の情報処理端末。
  17.  前記ユーザ視点の情報は、ユーザの視点方向または視点移動の情報を少なくとも含む、請求項8に記載の情報処理端末。
  18.  前記視点方向は、前記情報処理端末の向きに対応する、請求項17に記載の情報処理端末。
  19.  プロセッサが、
     仮想空間におけるユーザ視点の画像に関する情報を出力する制御を行うことを含み、
     さらに、前記制御では、前記仮想空間に配置される3次元モデルをリアルタイムで取得されるユーザ視点に対応する仮想カメラで撮像した2次元画像を視聴者端末に送信する、情報処理方法。
  20.  コンピュータを、
     仮想空間におけるユーザ視点の画像に関する情報を出力する制御を行う制御部として機能させるプログラムを記憶し、
     前記制御部は、
      前記仮想空間に配置される3次元モデルをリアルタイムで取得されるユーザ視点に対応する仮想カメラで撮像した2次元画像を視聴者端末に送信する制御を行う、記憶媒体。
PCT/JP2022/007277 2021-08-27 2022-02-22 情報処理装置、情報処理端末、情報処理方法、および記憶媒体 WO2023026519A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021138867 2021-08-27
JP2021-138867 2021-08-27

Publications (1)

Publication Number Publication Date
WO2023026519A1 true WO2023026519A1 (ja) 2023-03-02

Family

ID=85322598

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/007277 WO2023026519A1 (ja) 2021-08-27 2022-02-22 情報処理装置、情報処理端末、情報処理方法、および記憶媒体

Country Status (1)

Country Link
WO (1) WO2023026519A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS623346B2 (ja) * 1983-11-29 1987-01-24 Kayaba Industry Co Ltd
WO2015029318A1 (ja) * 2013-08-26 2015-03-05 パナソニックIpマネジメント株式会社 3次元表示装置および3次元表示方法
WO2019012817A1 (ja) * 2017-07-14 2019-01-17 ソニー株式会社 画像処理装置、画像処理装置の画像処理方法、プログラム
JP2020173726A (ja) * 2019-04-12 2020-10-22 日本放送協会 仮想視点変換装置及びプログラム
JP2021056679A (ja) * 2019-09-27 2021-04-08 Kddi株式会社 画像処理装置、方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS623346B2 (ja) * 1983-11-29 1987-01-24 Kayaba Industry Co Ltd
WO2015029318A1 (ja) * 2013-08-26 2015-03-05 パナソニックIpマネジメント株式会社 3次元表示装置および3次元表示方法
WO2019012817A1 (ja) * 2017-07-14 2019-01-17 ソニー株式会社 画像処理装置、画像処理装置の画像処理方法、プログラム
JP2020173726A (ja) * 2019-04-12 2020-10-22 日本放送協会 仮想視点変換装置及びプログラム
JP2021056679A (ja) * 2019-09-27 2021-04-08 Kddi株式会社 画像処理装置、方法及びプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ANONYMOUS: "How to use the VR controller "Oculus Touch"? Oculus engineers give advice on how to operate without discomfort", INSIDE, 10 July 2016 (2016-07-10), XP093038531, Retrieved from the Internet <URL:https://www.inside-games.jp/article/2016/07/10/100226.html> [retrieved on 20230412] *
ANONYMOUS: "Research and Development of Ultra-Real Communication Technology Using Innovative 3D Video Technology", NAGOYA UNIVERSITY, 2013 R&D PROGRESS REPORT, 1 January 2013 (2013-01-01), XP093038529, Retrieved from the Internet <URL:https://www2.nict.go.jp/commission/seika/h25/143ka2_gaiyo.pdf> [retrieved on 20230412] *
YUDAI MASE, KAZUYOSHI SUZUKI, MEHRDAD PANAHPOUR TEHRANI, KEITA TAKAHASHI, TOSHIAKI FUJII: " I-1-15 A Foreground Extraction Method Suitable for Free-Viewpoint Video System for Soccer Games", IMAGE MEDIA PROCESSING SYMPOSIUM 2014, IMPS, JP, 1 January 2014 (2014-01-01) - 14 November 2014 (2014-11-14), JP, pages 1 - 2, XP009543999 *

Similar Documents

Publication Publication Date Title
JP7041253B2 (ja) 現実世界空間の仮想現実提示
US10078917B1 (en) Augmented reality simulation
JP6725038B2 (ja) 情報処理装置及び方法、表示制御装置及び方法、プログラム、並びに情報処理システム
JP6575974B2 (ja) ヘッドマウントディスプレイの追跡システム
JP6511386B2 (ja) 情報処理装置および画像生成方法
KR102077108B1 (ko) 콘텐츠 체험 서비스 제공 장치 및 그 방법
US9779538B2 (en) Real-time content immersion system
US8928659B2 (en) Telepresence systems with viewer perspective adjustment
US20170150108A1 (en) Autostereoscopic Virtual Reality Platform
US20050264858A1 (en) Multi-plane horizontal perspective display
JP7263451B2 (ja) レイヤ化拡張型エンターテインメント体験
JP2023139098A (ja) 画像生成装置および画像生成方法
WO2021246183A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
JP2012223357A (ja) ビデオゲーム装置およびビデオゲーム制御方法
US11187895B2 (en) Content generation apparatus and method
WO2023026519A1 (ja) 情報処理装置、情報処理端末、情報処理方法、および記憶媒体
WO2020017435A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2021200494A1 (ja) 仮想空間における視点変更方法
JP2022043909A (ja) コンテンツ提示装置、及びプログラム
WO2015196877A1 (en) Autostereoscopic virtual reality platform
WO2018173206A1 (ja) 情報処理装置
US20240153226A1 (en) Information processing apparatus, information processing method, and program
JP6601392B2 (ja) 表示制御装置、表示制御方法、及び、プログラム
JP7044149B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US20240114181A1 (en) Information processing device, information processing method, and program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22860817

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE