WO2023047637A1 - 情報処理装置およびプログラム - Google Patents

情報処理装置およびプログラム Download PDF

Info

Publication number
WO2023047637A1
WO2023047637A1 PCT/JP2022/009842 JP2022009842W WO2023047637A1 WO 2023047637 A1 WO2023047637 A1 WO 2023047637A1 JP 2022009842 W JP2022009842 W JP 2022009842W WO 2023047637 A1 WO2023047637 A1 WO 2023047637A1
Authority
WO
WIPO (PCT)
Prior art keywords
virtual camera
information
subject
virtual
camera
Prior art date
Application number
PCT/JP2022/009842
Other languages
English (en)
French (fr)
Inventor
真人 島川
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023047637A1 publication Critical patent/WO2023047637A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects

Definitions

  • the present disclosure relates to an information processing device and program, and more particularly to an information processing device and program capable of informing a subject (performer) of the position of a virtual camera observing itself.
  • Patent Document 1 since the subject cannot know the installation position of the virtual camera, when performing a performance such as singing or dancing, there is a problem that the performance cannot be performed with the position of the virtual camera in mind. rice field.
  • This disclosure proposes an information processing device and a program capable of informing the subject of the position of the virtual camera observing itself.
  • an information processing apparatus includes a first acquisition unit that acquires a plurality of actual images respectively captured by a plurality of first imaging devices arranged around a subject. and a generation unit that generates a 3D model of the subject from the plurality of real images, and presents to the subject information related to a virtual viewpoint when rendering the 3D model into an image having a form corresponding to a viewing device. and a presentation unit for displaying information.
  • FIG. 1 is a system configuration diagram showing an overview of a video processing system according to a first embodiment
  • FIG. FIG. 4 is a diagram showing an overview of the flow of generating a 3D model of a subject
  • FIG. 4 is a diagram showing the content of data required to represent a 3D model
  • FIG. It is a figure which shows schematic structure of the imaging display apparatus installed in the studio.
  • FIG. 4 is a diagram showing an example of timing control of ON/OFF of a display panel and ON/OFF of a camera
  • FIG. 5 is a diagram showing an example of virtual camera presentation information displayed on the display panel
  • FIG. 10 is a first diagram showing a specific example of virtual camera presentation information
  • FIG. 11 is a second diagram showing a specific example of virtual camera presentation information
  • FIG. 10 is a diagram showing typical variations of virtual camera presentation information
  • FIG. 10 is a diagram showing an example of virtual camera presentation information indicating that a virtual camera is set at a position where there is no display panel
  • FIG. 10 is a diagram showing an example in which virtual camera presentation information displays camerawork of a virtual camera
  • FIG. 10 is a diagram showing an example of virtual camera presentation information when setting positions of a plurality of virtual cameras overlap
  • It is a functional block diagram showing an example of functional composition of a picture processing system of a 1st embodiment.
  • FIG. 10 is a diagram showing typical variations of virtual camera presentation information
  • FIG. 10 is a diagram showing an example of virtual camera presentation information indicating that a virtual camera is set at a position where there is no display panel
  • FIG. 10 is a diagram showing an example in which virtual camera presentation information displays camerawork of a virtual camera
  • FIG. 10 is a diagram showing an example of virtual camera presentation information when setting positions of a plurality of virtual cameras overlap
  • It is a functional block diagram showing an
  • FIG. 5 is a diagram showing an example of input/output information of a virtual camera information generation unit; 4 is a flow chart showing an example of the flow of processing performed by the video processing system of the first embodiment; 16 is a flowchart showing an example of the flow of virtual camera information generation processing in FIG. 15; FIG. 16 is a flowchart showing an example of the flow of virtual camera presentation information generation processing in FIG. 15; FIG. FIG. 18 is a flowchart showing an example of the flow of virtual camera group display type determination processing in FIG. 17; FIG. 18 is a flowchart showing an example of the flow of virtual camera group priority determination processing in FIG. 17; FIG. 18 is a flowchart showing an example of the flow of virtual camera group presentation information generation processing in FIG. 17; FIG. FIG. FIG.
  • 21 is a flowchart showing an example of the flow of virtual camera presentation information generation processing (normal) in FIG. 20;
  • FIG. 21 is a flowchart showing an example of the flow of virtual camera presentation information generation processing (position correction) in FIG. 20;
  • 21 is a flow chart showing an example of the flow of virtual camera group presentation information generation processing (normal) in FIG. 20;
  • 21 is a flowchart showing an example of the flow of virtual camera group presentation information generation processing (position correction) in FIG. 20;
  • 21 is a flowchart showing an example of the flow of camerawork display processing in FIG. 20;
  • FIG. 18 is a flowchart showing an example of the flow of virtual camera group audio generation processing in FIG. 17;
  • FIG. 16 is a flowchart showing an example of the flow of virtual camera presentation information output processing in FIG. 15;
  • FIG. 16 is a flow chart showing an example of the flow of volumetric video generation processing in FIG. 15.
  • FIG. 16 is a flow chart showing an example of the flow of superimposition processing of the volumetric image and the background image in FIG. 15.
  • FIG. FIG. 2 is a system configuration diagram showing an overview of a video processing system according to a second embodiment;
  • FIG. FIG. 11 is a functional block diagram showing an example of the functional configuration of a video processing system according to a second embodiment;
  • FIG. FIG. 11 is a system configuration diagram showing an overview of a video processing system according to a third embodiment;
  • FIG. 11 is a functional block diagram showing an example of the functional configuration of a video processing system according to a third embodiment
  • FIG. FIG. 10 is a diagram showing how a user sets camerawork information using a viewing device
  • FIG. 10 illustrates how a user uses a viewing device to set operator video, operator audio, and operator messages
  • FIG. 11 is a diagram showing an example of virtual camera group presentation information according to the number of viewing users
  • FIG. 10 is a diagram showing an example of virtual camera group presentation information when a viewing user changes an observation position
  • FIG. 4 is a diagram showing an example of a function for communication between a viewing user and a performer
  • 10 is a flow chart showing an example of the flow of processing performed by the video processing system of the third embodiment
  • FIG. 40 is a flowchart showing an example of the flow of communication video/audio generation processing in FIG. 39
  • FIG. 40 is a flowchart showing an example of the flow of communication video/audio generation processing in FIG. 39
  • FIG. 40 is a flowchart showing
  • First Embodiment 1-1 Schematic Configuration of Video Processing System of First Embodiment 1-2. Explanation of Assumptions-Generation of 3D Model 1-3. Explanation of Assumptions-Data Structure of 3D Model 1-4. Schematic configuration of imaging display device 1-5. Description of virtual camera presentation information 1-6. Variation of virtual camera presentation information 1-7. Functional Configuration of Video Processing System of First Embodiment 1-8. Overall Flow of Processing Performed by Video Processing System of First Embodiment 1-9. Flow of Virtual Camera Information Generation Processing 1-10. Flow of virtual camera presentation information generation processing 1-10-1. Flow of virtual camera group display type determination processing 1-10-2.
  • FIG. 1 is a system configuration diagram showing an overview of a video processing system according to the first embodiment.
  • the video processing system 10a includes a volumetric studio 14a and a video processing device 12a.
  • the video processing device 12a is preferably installed in the volumetric studio 14a in order to process the video shot in the volumetric studio 14a with a short delay time.
  • the volumetric studio 14a is a studio that takes images of the subject 22 in order to generate a 3D model 22M of the subject 22.
  • An imaging display device 13 is installed in the volumetric studio 14a.
  • the imaging display device 13 images the subject 22 with a plurality of cameras 16 arranged so as to surround the subject 22 on the inner wall surface 15 of the volumetric studio 14a.
  • the imaging display device 13 renders the 3D model 22M of the subject 22 on the display panel 17 arranged so as to surround the subject 22 on the inner wall surface 15 of the volumetric studio 14a into an image of a form corresponding to the viewing device of the user. It presents information related to the virtual viewpoint at the time of viewing.
  • Information related to the virtual viewpoint is, for example, information indicating the position where the virtual camera is set, the observation direction, and the like.
  • the image processing device 12a generates a 3D model 22M of the subject 22 based on the real camera image I acquired from the camera 16.
  • the video processing device 12a also generates information (virtual camera presentation information 20) relating to a virtual viewpoint when rendering the 3D model 22M of the subject 22 into an image having a form corresponding to the viewing device of the user. Then, the video processing device 12 a outputs the generated virtual camera presentation information 20 to the display panel 17 .
  • the video processing device 12a generates a volumetric video 24 by rendering an image of the 3D model 22M of the subject 22 viewed from the set virtual viewpoint in a form corresponding to the viewing device.
  • the video processing device 12a when the user's viewing device is a two-dimensional display such as a tablet terminal or a smartphone, the video processing device 12a renders the 3D model 22M of the subject 22 into a two-dimensional image. Also, if the user's viewing device is a viewing device capable of displaying three-dimensional information, such as an HMD (Head Mount Display), the video processing device 12a renders the 3D model 22M of the subject 22 into a 3D image.
  • HMD Head Mount Display
  • the image processing device 12a superimposes the generated volumetric image 24 on the acquired background image 26a to generate an image observed from the set virtual viewpoint.
  • the generated video is delivered, for example, to the user's viewing environment and displayed on the user's viewing device.
  • the video processing device 12a is an example of an information processing device in the present disclosure.
  • FIG. 2 is a diagram showing an overview of the flow of generating a 3D model of a subject.
  • a 3D model 22M of the subject 22 is generated by imaging the subject 22 with a plurality of cameras 16 (16a, 16b, 16c) and 3D modeling to generate a 3D model 22M having 3D information of the subject 22. and through
  • the plurality of cameras 16 are arranged facing the subject 22 outside the subject 22 so as to surround the subject 22 .
  • FIG. 2 shows an example in which the number of cameras is three, and cameras 16a, 16b, and 16c are arranged around the subject 22.
  • the subject 22 is a person in FIG. 2, the subject 22 is not limited to a person. Also, the number of cameras 16 is not limited to three, and a larger number of cameras may be provided.
  • Three cameras 16a, 16b, and 16c from different viewpoints perform 3D modeling using a plurality of viewpoint images (actual camera images I) that are synchronously volumetrically captured (hereinafter referred to as volumetric).
  • a 3D model 22M of the subject 22 is generated for each image frame of the cameras 16a, 16b, and 16c.
  • the 3D model 22M is a model having 3D information of the subject 22.
  • the 3D model 22M has shape information representing the surface shape of the subject 22, for example, in the form of mesh data called polygon mesh, which is represented by connections between vertices.
  • the 3D model 22M also has texture information representing the surface state of the subject 22 corresponding to each polygon mesh. It should be noted that the format of information possessed by the 3D model 22M is not limited to these, and information of other formats may be used.
  • texture mapping In which textures representing the colors, patterns, and textures of the mesh are pasted according to the position of the mesh.
  • VD View Dependent: hereinafter referred to as VD
  • VI Line-of-sight position
  • the volumetric image 24 including the read 3D model 22M is superimposed on the background image 26a, transmitted to, for example, the mobile terminal 80, which is a playback device, and played.
  • the mobile terminal 80 which is a playback device, and played.
  • FIG. 3 is a diagram showing the contents of data required to represent a 3D model.
  • the 3D model 22M of the subject 22 is represented by mesh information M indicating the shape of the subject 22 and texture information T indicating the texture (color, pattern, etc.) of the surface of the subject 22.
  • the mesh information M expresses the shape of the 3D model 22M by connecting vertices of some parts on the surface of the 3D model 22M (polygon mesh).
  • depth information Dp (not shown) representing the distance from the viewpoint position where the subject 22 is observed to the surface of the subject 22 may be used.
  • the depth information Dp of the subject 22 is calculated, for example, based on the parallax for the same area of the subject 22 detected from the images captured by the adjacent imaging devices.
  • a sensor with a distance measuring mechanism for example, a TOF (Time Of Flight) camera) or an infrared (IR) camera may be installed to obtain the distance to the subject 22 .
  • the texture information Ta is data that stores the texture of the surface of the 3D model 22M in the form of a developed view such as the UV texture map shown in FIG. 3, for example. That is, the texture information Ta is data that does not depend on the viewpoint position.
  • a UV texture map including the pattern of the clothes and the skin and hair of the person is prepared as the texture information Ta.
  • the 3D model 22M can be drawn by pasting the texture information Ta corresponding to the mesh information M on the surface of the mesh information M representing the 3D model 22M (VI rendering).
  • the same texture information Ta is attached to the mesh representing the same area.
  • the VI rendering using the texture information Ta is executed by pasting the texture information Ta of the clothes worn by the 3D model 22M to all meshes representing parts of the clothes.
  • the size is small and the computational load of rendering processing is light.
  • the pasted texture information Ta is uniform and the texture does not change even if the observation position is changed, the quality of the texture is generally low.
  • the other texture information T is (VD) texture information Tb that depends on the viewpoint position from which the 3D model 22M is observed.
  • the texture information Tb is represented by a set of images obtained by observing the subject 22 from multiple viewpoints. That is, the texture information Tb is data corresponding to the viewpoint position.
  • the texture information Tb is represented by N images captured simultaneously by each camera.
  • the texture information Tb is rendered on an arbitrary mesh of the 3D model 22M, all areas corresponding to the mesh are detected from among the N images. Then, the textures reflected in each of the plurality of detected areas are weighted and pasted on the corresponding meshes.
  • VD rendering using texture information Tb generally has a large data size and a heavy calculation load for rendering processing.
  • texture quality is generally high.
  • FIG. 4 is a diagram showing a schematic configuration of an imaging display device installed in a studio.
  • FIG. 5 is a diagram showing an example of timing control of ON/OFF of the display panel and ON/OFF of the camera.
  • a plurality of cameras 16 (16a, 16b, 16c...) are arranged around the subject 22 so as to surround the subject 22.
  • a plurality of display panels 17 (17a, 17b, 17c, . . . ) are arranged so as to fill the gaps between adjacent cameras 16 .
  • the display panel 17 is, for example, an LED panel, a liquid crystal panel, an organic EL panel, or the like.
  • the plurality of cameras 16 and the plurality of display panels 17 constitute an imaging display device 13a. In FIG. 4, the camera 16 and the display panel 17 are arranged in a row around the subject 22, but the camera 16 and the display panel 17 are arranged in a plurality of rows in the vertical direction of the volumetric studio 14a. may be
  • a plurality of cameras 16 capture images of the subject 22 at the same time in order to generate a 3D model 22M of the subject 22. That is, the imaging timings of the plurality of cameras 16 are synchronously controlled.
  • virtual camera presentation information 20 is displayed on a plurality of display panels 17 in the imaging display device 13a. Details of the virtual camera presentation information 20 will be described later (see FIG. 7).
  • imaging timing of the camera 16 and the display timing of the display panel 17 are controlled so as not to overlap. Details will be described later (see FIG. 5).
  • the configuration of the imaging display device 13 is not limited to the imaging display device 13a.
  • the imaging display device 13b shown in FIG. 4 includes a projector 28 (28a, 28b, 28c, . . . ) instead of the display panel 17 (17a, 17b, 17c, .
  • a screen 18 (18a, 18b, 18c, . . . ) is provided.
  • the projector 28 projects the virtual camera presentation information 20 from the rear side of the transmissive screen 18 .
  • the image information projected by the projectors 29 (29a, 29b, 29c, . . . ) is projected instead of the display panel 17 (17a, 17b, 17c, . . . ). and a reflective screen 19 (19a, 19b, 19c).
  • the projector 28 projects the virtual camera presentation information 20 from the front side of the reflective screen 19 .
  • a projection device such as a laser pointer capable of projecting a laser beam over the entire circumference is used to generate a virtual image.
  • the position of the viewpoint may be presented as a bright spot.
  • the imaging of the subject 22 by the camera 16 and the display of the virtual camera presentation information 20 on the display panel 17 (or the projectors 28 and 29) are controlled based on the timing chart shown in FIG.
  • the imaging display device 13 temporally alternates between the imaging operation of the camera 16 and the presentation of visual information to the display panel 17 (or the projectors 28 and 29). That is, when the camera 16 takes an image of the subject 22, presentation of visual information (display of the virtual camera presentation information 20) to the display panel 17 (or the projectors 28 and 29) is not performed. On the other hand, when presenting the virtual camera presentation information 20 on the display panel 17 (or the projectors 28 and 29), the subject 22 is not imaged by the camera 16. FIG. This prevents the virtual camera presentation information 20 from appearing in the background when the camera 16 captures an image of the subject 22 .
  • the time during which the camera 16 takes an image and the time during which visual information (virtual camera presentation information 20) is presented on the display panel 17 (or the projectors 28 and 29) are shown to be substantially equal. is set so that the movement of the subject 22 can be captured reliably and the subject 22 can sufficiently visually recognize the virtual camera presentation information 20 .
  • the video processing device 12a performs processing for separating the subject 22 from the captured image including the subject 22 . Therefore, the virtual camera presentation information 20 may be displayed on the display panel 17 (or the projectors 28 and 29) while the processing is being performed. In addition, an IR camera and IR light may be used to image the object 22 in order to separate it reliably and easily.
  • FIG. 6 is a diagram showing an example of virtual camera presentation information displayed on the display panel.
  • FIG. 7 is a first diagram showing a specific example of virtual camera presentation information.
  • FIG. 8 is a second diagram showing a specific example of virtual camera presentation information.
  • the inner wall surface 15 of the volumetric studio 14a is covered with a plurality of display panels 17 in the vertical direction along the H-axis and in the horizontal direction along the ⁇ -axis.
  • a camera 16 is installed at a position adjacent to the four display panels 17 .
  • the video processing device 12a shown in FIG. 1 displays an image frame 21 at a position corresponding to the virtual viewpoint.
  • virtual camera presentation information 20 shown in FIG. 7 is displayed in the image frame 21 .
  • the image frame 21 has, for example, a rectangular shape, and is set at the upper left vertex ( ⁇ o, ho), width Wa, and height Ha indicated by the video processing device 12a. Then, the virtual camera presentation information 20 is displayed inside the set image frame 21 .
  • the set image frame 21 may overlap with a plurality of display panels 17 .
  • a plurality of image frames 21 are generally set on the inner wall surface 15 of the volumetric studio 14a.
  • the virtual camera presentation information 20 shown in FIG. 7 is displayed in the image frame 21 set in this manner.
  • the virtual camera presentation information 20a (20) is information for notifying the subject 22 of the position of the virtual viewpoint set by the video processing device 12a.
  • the virtual camera presentation information 20 is an example of information related to a virtual viewpoint in the present disclosure.
  • the camera icon 30 is an icon simulating a virtual camera placed at the position of the virtual viewpoint set by the video processing device 12a.
  • the camera icon 30 is displayed in a form simulating the distance between the subject 22 and the virtual viewpoint and the line-of-sight direction at the virtual viewpoint. Also, the camera icon 30 is displayed in such a manner that the subject 22 is viewed from the other side of the inner wall surface 15 of the volumetric studio 14a.
  • the tally lamp 31 indicates the operating state of the virtual camera placed at the position of the virtual viewpoint. For example, when the virtual camera is imaging and delivering (On Air state), the tally lamp 31 lights up in red. Also, when the virtual camera is only taking an image, the tally lamp 31 lights up in green.
  • the cameraman icon 32 is an icon that is uniquely associated with the operator who controls the virtual viewpoint, and an arbitrary preset icon is displayed. By checking the cameraman icon 32, the subject 22 can recognize who is the operator setting the position of the virtual viewpoint. Note that the size of the cameraman icon 32 may be changed according to the distance between the subject 22 and the virtual viewpoint. For example, the closer the subject 22 is to the virtual viewpoint, the larger the cameraman icon 32 may be displayed. Also, the cameraman icon 32 may be an image of the operator himself.
  • the camera name 33 is identification information uniquely associated with the virtual camera, and an arbitrary preset name is displayed.
  • the virtual camera presentation information 20 changes its form according to the state of the set virtual viewpoint.
  • the virtual camera presentation information 20b (20) shown in FIG. 7 displays information related to a virtual viewpoint different from the virtual camera presentation information 20a. More specifically, the virtual camera presentation information 20b (20) is virtual camera information different from the virtual camera presentation information 20a (20). Also, the line-of-sight direction at the virtual viewpoint is different from that of the virtual camera presentation information 20a.
  • the camera icon 30 and the cameraman icon 32 displayed in the virtual camera presentation information 20b are drawn larger than the camera icon 30 and the cameraman icon 32 in the virtual camera presentation information 20a. This indicates that the position of the virtual viewpoint indicated by the virtual camera presentation information 20b is closer to the subject 22 than the position of the virtual viewpoint indicated by the virtual camera presentation information 20a.
  • the virtual camera presentation information 20c (20) shown in FIG. 8 is an example of displaying a message to the subject 22 by the operator who controls the virtual viewpoint using the video processing device 12a. That is, the virtual camera presentation information 20c (20) includes message information 37.
  • FIG. 8 is an example of displaying a message to the subject 22 by the operator who controls the virtual viewpoint using the video processing device 12a. That is, the virtual camera presentation information 20c (20) includes message information 37.
  • FIG. 9 is a diagram showing typical variations of virtual camera presentation information.
  • the virtual camera presentation information 20d (20) indicates that the virtual camera faces the subject 22.
  • the video processing device 12a presents the virtual camera presentation information 20e (20).
  • the virtual camera presentation information 20e (20) indicates that "1 Turtle” and "2 Turtle” are close to each other. Note that the virtual camera presentation information 20 displayed in a state in which a plurality of cameras are grouped in this way is particularly referred to as virtual camera group presentation information 200 .
  • the virtual camera presentation information 20f(20) is presented.
  • the virtual camera presentation information 20f(20) indicates that the virtual camera has approached the subject 22 by drawing the camera icon 30 in a larger size. At this time, the image frame 21 may be rendered larger. Also, although not shown in FIG. 9, when the virtual camera moves away from the subject 22, the camera icon 30 is rendered smaller.
  • the virtual camera presentation information 20g (20) is information presented when the orientation of the virtual camera changes from the state in which the virtual camera presentation information 20d (20) is presented.
  • the virtual camera presentation information 20g (20) in FIG. 9 indicates that the virtual camera has turned to the right.
  • the virtual camera presentation information 20h (20) indicates that the virtual camera placed at the virtual viewpoint has actually started shooting. In this case, the display form of the tally lamp 31 is changed to indicate that the image is being captured.
  • FIG. 10 is a diagram showing an example of virtual camera presentation information indicating that the virtual camera is set at a position where there is no display panel.
  • a virtual viewpoint can be installed at any position surrounding the subject 22 . Therefore, the virtual camera can be installed even in a position where the display panel 17 cannot be installed or is difficult to install, such as the ceiling or floor of the volumetric studio 14a.
  • the video processing device 12a displays, in the virtual camera presentation information 20, a camera position display icon 34 indicating that the virtual camera is outside the installation position of the display panel 17.
  • FIG. 1 A virtual viewpoint (virtual camera) can be installed at any position surrounding the subject 22 . Therefore, the virtual camera can be installed even in a position where the display panel 17 cannot be installed or is difficult to install, such as the ceiling or floor of the volumetric studio 14a.
  • the video processing device 12a displays, in the virtual camera presentation information 20, a camera position display icon 34 indicating that the virtual camera is outside the installation position of the display panel 17.
  • the virtual camera presentation information 20i (20) shown in FIG. 10 includes a camera position display icon 34a (34).
  • the camera position display icon 34a (34) indicates that the virtual camera is set on the ceiling of the inner wall surface 15 of the volumetric studio 14a.
  • the virtual camera presentation information 20j (20) also includes a camera position display icon 34b (34).
  • the camera position display icon 34b (34) indicates that the virtual camera is set on the floor surface of the inner wall surface 15 of the volumetric studio 14a.
  • the virtual camera presentation information 20k (20) shown in FIG. 10 includes a camera position display icon 34c (34).
  • the camera position display icon 34c (34) is a modified version of the camera position display icon 34a (34).
  • the camera position display icon 34c (34) indicates where on the ceiling the virtual camera is set.
  • a rectangular area included in the camera position display icon 34c (34) indicates the set position of the virtual camera. When the virtual camera is set at the top (ceiling) on the side where the virtual camera presentation information 20k (20) is displayed, the rectangular area included in the camera position display icon 34c (34) is the camera position display icon 34c. (34) is displayed at the bottom.
  • the rectangular area included in the camera position display icon 34c (34) is It is displayed at the top of the camera position display icon 34c (34). Also, when the virtual camera is installed directly above the subject 22, the rectangular area included in the camera position display icon 34c (34) is displayed in the center of the camera position display icon 34c (34).
  • the virtual camera presentation information 20l (20) also includes a camera position display icon 34d (34).
  • the camera position display icon 34d (34) is a modified version of the camera position display icon 34b (34).
  • the camera position display icon 34d (34) indicates where on the floor the virtual camera is set.
  • a rectangular area included in the camera position display icon 34d (34) indicates the set position of the virtual camera.
  • the rectangular area included in the camera position display icon 34d (34) is the camera position display icon Displayed at the top of 34d (34).
  • the rectangular area included in the camera position display icon 34d (34) is displayed at the bottom of the camera position display icon 34c (34). Also, when the virtual camera is installed directly below the subject 22, the rectangular area included in the camera position display icon 34d (34) is displayed in the center of the camera position display icon 34d (34).
  • FIG. 11 is a diagram showing an example in which the virtual camera presentation information displays the camerawork of the virtual camera.
  • the camerawork 36 is an arrow that indicates the direction of the actual movement of the virtual camera. By representing the movement of the virtual camera with arrows, the subject 22 can perform performance by predicting the movement of the virtual camera. Note that, as shown in FIG. 11, the direction of the camerawork may be emphasized by displaying the front of the arrow indicating the camerawork 36 darker and gradually displaying the rearward of the arrow indicating the camerawork 36 lighter. .
  • the current position of the virtual camera may be superimposed on the camera work 36 and displayed sequentially as shown in FIG. , the position of the virtual camera may be displayed at the end point of the camerawork 36 .
  • FIG. 12 is a diagram showing an example of virtual camera presentation information when the set positions of a plurality of virtual cameras overlap.
  • the video processing device 12a sets a plurality of virtual cameras on the inner wall surface 15 of the volumetric studio 14a.
  • a plurality of set virtual cameras move freely. Therefore, the positions of multiple virtual cameras may be close to each other.
  • FIG. 12 shows how the two virtual cameras that have been set move toward each other as time t elapses, then pass each other and move away.
  • virtual camera presentation information 20n1 (20) and virtual camera presentation information 20n2 (20) corresponding to each virtual camera are displayed. Then, when the positions of the two virtual cameras are close to each other, the virtual camera presentation information 20n3 (20), that is, the virtual camera group presentation information 200 is displayed in one image frame 21.
  • FIG. The virtual camera group presentation information 200 includes virtual camera presentation information 20 of a plurality of virtual cameras positioned close to each other in one divided image frame 21 .
  • the virtual camera presentation information 20n1 (20) and the virtual camera presentation information 20n2 (20) corresponding to each virtual camera are displayed again.
  • FIG. 13 is a functional block diagram illustrating an example of the functional configuration of the video processing system according to the first embodiment
  • FIG. FIG. 14 is a diagram illustrating an example of input/output information of a virtual camera information generation unit
  • the video processing system 10a includes a video processing device 12a, and a camera 16 and a display panel 17 that constitute an imaging display device 13. As shown in FIG. The video processing system 10a also includes a remote controller 54, an intercom 55, a microphone 56, a speaker 57, and a viewing device 53a, which are peripheral devices. Note that the functions of the camera 16 and the display panel 17 are the same as described above, so description thereof will be omitted.
  • the image processing device 12a includes a controller 40, a virtual camera information generation unit 41, a virtual camera presentation information generation unit 42, a UI unit 43, an in-studio image display unit 44, an audio output unit 45, and a volumetric image capturing unit. 46 , a volumetric video generation unit 47 , a master audio output unit 48 , an audio recording unit 49 , a CG background generation unit 50 , a volumetric video/CG superimposition/audio MUX unit 51 , and a distribution unit 52 . These functional units are realized by the CPU of the video processing device 12a having a computer configuration executing a control program (not shown) for controlling the operation of the video processing device 12a. Also, all or part of the functions of the video processing device 12a may be realized by hardware.
  • the controller 40 generates information related to the virtual camera.
  • the controller 40 is, for example, an information input device equipped with operation devices such as a joystick and selection buttons, and sets the position of the virtual viewpoint, camerawork information, and the like in accordance with user's operation instructions.
  • the image processing device 12 a can set a plurality of virtual viewpoints by including a plurality of controllers 40 .
  • the controller 40 also includes a camera and a microphone (not shown).
  • a camera provided in the controller 40 captures an image of an operator controlling the virtual viewpoint.
  • the microphone provided in the controller 40 acquires the utterance (voice) of the operator who controls the virtual viewpoint.
  • the controller 40 further includes operation devices such as selection buttons for selecting and transmitting operator messages for controlling the virtual viewpoint.
  • the virtual camera information generation unit 41 acquires information on the virtual viewpoint and information on the operator from the controller 40 .
  • Information related to the virtual viewpoint includes, for example, virtual camera position information Fa, camerawork information Fb, and camera information Ff shown in FIG.
  • the information related to the operator includes, for example, an operator image Fc, an operator voice Fd, and an operator message Fe shown in FIG.
  • the virtual camera information generation unit 41 is an example of a second acquisition unit in the present disclosure.
  • the virtual camera position information Fa includes the position coordinates of the virtual camera, the orientation of the virtual camera, the angle of view of the virtual camera, and the like.
  • the virtual camera position information Fa is set by operating an operating device such as a joystick included in the controller 40 .
  • the camerawork information Fb is information related to the movement trajectory of the virtual camera.
  • the camerawork information Fb specifically includes a camerawork start position, a camerawork end position, a trajectory between the start position and the end position, the moving speed of the virtual camera, the name of the camerawork, and the like.
  • the camerawork information Fb is set by operating an operation device such as a selection button provided on the controller 40 .
  • the camera information Ff includes information such as the camera number, camera name, camera state, camera icon/image, camera priority, etc., related to the virtual viewpoint.
  • the operator image Fc is a captured image of the operator who controls the virtual viewpoint.
  • the image processing device 12a may display the operator image Fc in the virtual camera presentation information 20 instead of the cameraman icon 32 (see FIG. 7).
  • the operator voice Fd is a voice message transmitted to the subject 22 by the operator who controls the virtual viewpoint.
  • the operator message Fe is a text message sent to the subject 22 by the operator who controls the virtual viewpoint.
  • the operator message Fe is set by operating an operation device such as a selection button provided on the controller 40 .
  • the virtual camera information generation unit 41 generates virtual camera information F (see FIG. 14) in which various types of acquired information are compiled for each virtual camera.
  • the virtual camera information generator 41 then sends the generated virtual camera information F to the virtual camera presentation information generator 42 .
  • the virtual camera information generation unit 41 manages the reproduction state of the camerawork, and sequentially updates the position information of the virtual camera when the camerawork is being reproduced.
  • the virtual camera presentation information generation unit 42 generates virtual camera presentation information 20 to be presented on the display panel 17 . More specifically, the virtual camera presentation information generation unit 42 generates information regarding a virtual viewpoint when rendering the 3D model 22M of the subject 22 into an image having a form corresponding to the user's viewing device. More specifically, based on the position coordinates of the virtual camera and the camera information included in the virtual camera information F, the display color of the tally lamp 31 and the plurality of pieces of virtual camera presentation information 20 are changed as needed.
  • the virtual camera presentation information 20 is generated by synthesizing, generating a camera position display icon 34 indicating that the virtual camera is on the ceiling or on the floor, and the like. Furthermore, the virtual camera presentation information generation unit 42 generates audio output from the audio output unit 45 .
  • the UI unit 43 changes the settings of various parameters used by the video processing device 12a from the remote control 54 possessed by the subject 22 or the director. By operating the UI unit 43, the subject 22 selects a specific operator who controls the virtual viewpoint, and conducts voice conversation with the selected operator. Note that the UI unit 43 is an example of a selection unit in the present disclosure.
  • the in-studio video display unit 44 displays the virtual camera presentation information 20 received from the virtual camera presentation information generation unit 42 at corresponding positions of the plurality of display panels 17 .
  • the in-studio video display unit 44 is an example of a presentation unit in the present disclosure.
  • the audio output unit 45 outputs the audio data received from the virtual camera information F to the intercom 55. As a result, various instructions of the operator who controls the virtual viewpoint are transmitted to the subject 22 .
  • the volumetric image capturing unit 46 captures real images of the subject 22 simultaneously captured from multiple directions using a plurality of cameras 16 arranged around the subject 22 and externally synchronized. Also, the volumetric image capturing unit 46 sends the actual camera image I obtained by imaging to the volumetric image generating unit 47 as volumetric camera image data including a frame number and identification information for specifying the camera 16 that captured the image. Note that the volumetric image capturing unit 46 is an example of a first acquisition unit in the present disclosure.
  • the volumetric image generation unit 47 receives volumetric camera image data from the volumetric image capturing unit 46 and performs volumetric image generation processing. Note that the volumetric image generation unit 47 holds calibration data obtained by performing internal calibration for correcting distortion of the cameras 16 and external calibration for obtaining the relative positions of the cameras 16. The calibration data is used to correct the captured real camera image I. Then, the volumetric image generation unit 47 performs modeling processing of the subject 22, that is, generation of the 3D model 22M, based on the volumetric camera image data acquired by the volumetric image capturing unit 46. FIG. After that, the volumetric image generation unit 47 renders a volumetric image of the 3D model 22M of the subject 22 viewed from the virtual viewpoint based on the acquired virtual camera position information.
  • the volumetric video generation unit 47 sends the rendered volumetric video, the frame number, and the virtual camera information F to the volumetric video/CG superimposition/audio MUX unit 51 .
  • the volumetric video generation unit 47 is an example of a generation unit in the present disclosure.
  • the master audio output unit 48 outputs music from the speaker 57 when the subject 22 sings or performs a dance performance. Also, the master audio output unit 48 sends the audio data of the song to the audio recording unit 49 .
  • the audio recording unit 49 generates audio data by mixing audio data from the master audio output unit 48 and audio data input from the microphone 56 (for example, singing data of the subject 22), and superimposes volumetric video/CG. /Send to the audio MUX unit 51.
  • the CG background generation unit 50 generates background CG data with frame numbers based on background CG data prepared in advance. The CG background generation unit 50 then sends the generated background CG data to the volumetric video/CG superimposition/audio MUX unit 51 .
  • the volumetric video/CG superimposition/audio MUX unit 51 renders and superimposes the acquired volumetric video data and background CG data based on the virtual camera position information included in the volumetric video data, thereby rendering the data as viewed from the virtual viewpoint. Also, for example, a 2D image is generated. Then, the volumetric video/CG superimposing/audio MUX unit 51 sends the distribution content obtained by multiplexing (MUXing) the generated 2D video and audio information to the distribution unit 52 . Note that when the user's viewing device 53a is a device capable of displaying three-dimensional information, the volumetric video/CG superimposition/audio MUX unit 51 renders the 3D model 22M of the subject 22 into a 3D image to render the 3D video. Generate.
  • the distribution unit 52 distributes the content received from the volumetric video/CG superimposition/audio MUX unit 51 to the viewing device 53a.
  • a remote controller 54 prepared as a peripheral device changes the settings of various parameters used by the video processing device 12a.
  • the intercom 55 is worn by the subject 22 and listens to the voice of the operator who controls the virtual viewpoint.
  • a microphone 56 records the singing voice and conversation of the subject 22 .
  • the speaker 57 outputs music that the subject 22 listens to during shooting.
  • the viewing device 53a is a device used by the user to view the content distributed from 12a.
  • the viewing device 53a is, for example, a tablet terminal, a smartphone, or the like.
  • the virtual camera information generation unit 41 performs virtual camera information generation processing for generating virtual camera information F (step S11). Details of the virtual camera information generation process will be described later (see FIG. 16).
  • the virtual camera presentation information generation unit 42 performs virtual camera presentation information generation processing for generating the virtual camera presentation information 20 (step S12). Details of the virtual camera presentation information generation processing will be described later (see FIG. 17).
  • the in-studio video display unit 44 generates a video that presents the virtual camera presentation information 20 at a corresponding position on the display panel 17, and performs virtual camera presentation information output processing for outputting the generated video to the display panel 17 (step S13). Details of the virtual camera presentation information output processing will be described later (see FIGS. 17 and 27).
  • the volumetric image generation unit 47 performs volumetric image generation processing for generating a volumetric image based on the volumetric camera image data received from the volumetric image capturing unit 46 (step S14). The flow of volumetric image generation processing will be described later (see FIG. 28).
  • the volumetric video/CG superimposition/audio MUX unit 51 superimposes the volumetric video and the background video (step S15).
  • the flow of processing for superimposing the volumetric image and the background image will be described later (see FIG. 29).
  • the distribution unit 52 performs distribution processing for distributing the content received from the volumetric video/CG superimposition/audio MUX unit 51 to the viewing device 53a (step S16).
  • FIG. 16 is a flow chart showing an example of the flow of virtual camera information generation processing in FIG.
  • the virtual camera information generation unit 41 acquires the virtual camera position information Fa and camera work information Fb from the controller 40 (step S21).
  • the virtual camera information generation unit 41 updates the camerawork queue based on the camerawork information Fb (step S22).
  • the virtual camera information generation unit 41 determines whether or not there is camera work being played back in the camera work queue (step S23). If it is determined that there is camera work being reproduced (step S23: Yes), the process proceeds to step S24. On the other hand, if it is not determined that there is camerawork being reproduced (step S23: No), the process proceeds to step S26.
  • step S23 when it is determined that there is camerawork being reproduced, the virtual camera information generation unit 41 updates the virtual camera position information Fa based on the frame number of the camerawork currently being reproduced and the camerawork information Fb. (Step S24).
  • the virtual camera information generation unit 41 generates virtual camera information F and sets a camerawork name and a playback frame number based on the current camerawork (step S25). After that, it returns to the main routine (FIG. 15).
  • step S23 if it is determined in step S23 that there is no camera work being played back, the virtual camera information generator 41 clears the camera work name and playback frame number to maintain the position of the virtual camera at that time (step S26). After that, it returns to the main routine (FIG. 15).
  • FIG. 17 is a flowchart showing an example of the flow of virtual camera presentation information generation processing in FIG.
  • the virtual camera presentation information generation unit 42 acquires all virtual camera information F of the current frame number (step S31).
  • the virtual camera presentation information generation unit 42 generates the virtual camera presentation information 20 (step S32).
  • the virtual camera presentation information generation unit 42 groups nearby cameras to generate virtual camera group presentation information 200 (step S33).
  • the virtual camera presentation information generation unit 42 performs virtual camera group display type determination processing based on the virtual camera group presentation information 200 (step S34). Details of the virtual camera group display type determination processing will be described later (see FIG. 18).
  • the virtual camera presentation information generation unit 42 performs virtual camera group priority determination processing for sorting the virtual camera information F included in the same group based on the camera state and camera priority (step S35). Details of the virtual camera group priority determination process will be described later (see FIG. 19).
  • the virtual camera presentation information generation unit 42 performs virtual camera group presentation information generation processing for generating the virtual camera group presentation information 200 (step S36). Details of the virtual camera group presentation information generation processing will be described later (see FIG. 20).
  • the virtual camera presentation information generation unit 42 performs virtual camera group sound generation processing for generating sound output to be presented to the subject 22 (step S37). Details of the virtual camera group sound generation processing will be described later (see FIG. 26). After that, it returns to the main routine (FIG. 15).
  • FIG. 18 is a flowchart showing an example of the flow of virtual camera group display type determination processing in FIG.
  • the virtual camera presentation information generation unit 42 determines whether the number of virtual cameras is 2 or more and the maximum number of divisions when displaying the virtual cameras in groups is 2 or more (step S41). If the conditions are satisfied (step S41: Yes), the process proceeds to step S42. On the other hand, if the conditions are not satisfied (step S41: No), the process proceeds to step S43.
  • step S41 determines whether the number of virtual cameras is 4 or more and the maximum number of divisions for group display of the virtual cameras is 4 or more. (step S42). If the condition is satisfied (step S42: Yes), the number of virtual cameras and the maximum number of divisions for group display of the virtual cameras are increased, and determinations similar to steps S41 and S42 are continued. On the other hand, if the conditions are not satisfied (step S42: No), the process proceeds to step S45.
  • step S44 determines that the number of virtual cameras is seven or more, and the maximum division of virtual cameras for group display is performed. It is determined whether the number is 7 or more (step S44). If the conditions are satisfied (step S44: Yes), the process proceeds to step S47. On the other hand, if the conditions are not satisfied (step S44: No), the process proceeds to step S46.
  • step S41 If it is determined in step S41 that the condition is not satisfied (step S41: No), the virtual camera presentation information generation unit 42 sets the virtual camera display type to 1, that is, sets the virtual camera display division number to 1 (step S43). ). Then, it returns to the flowchart of FIG.
  • step S42 If it is determined in step S42 that the condition is not satisfied (step S42: No), the virtual camera presentation information generation unit 42 sets the virtual camera display type to 2, that is, sets the virtual camera display division number to 2 (step S43). ). Then, it returns to the flowchart of FIG.
  • step S44 If it is determined in step S44 that the condition is not satisfied (step S44: Yes), the virtual camera presentation information generation unit 42 sets the virtual camera display type to 64, that is, sets the virtual camera display division number to 64 (step S43). ). Then, it returns to the flowchart of FIG.
  • step S44 If it is determined in step S44 that the condition is not satisfied (step S44: No), the virtual camera presentation information generation unit 42 sets the virtual camera display type to 49, that is, sets the virtual camera display division number to 49 (step S43). ). Then, it returns to the flowchart of FIG.
  • FIG. 19 is a flowchart showing an example of the flow of virtual camera group priority determination processing in FIG.
  • the virtual camera presentation information generation unit 42 sorts the virtual camera information F included in the same group according to camera state and camera priority (step S51). Then, it returns to the flowchart of FIG.
  • FIG. 20 is a flowchart showing an example of the flow of virtual camera group presentation information generation processing in FIG.
  • the virtual camera presentation information generation unit 42 determines whether the group includes one virtual camera (step S61). If it is determined that one virtual camera is included in the group (step S61: Yes), the process proceeds to step S62. On the other hand, if it is not determined that the number of virtual cameras included in the group is one (step S61: No), the process proceeds to step S68.
  • step S61 When it is determined in step S61 that one virtual camera is included in the group, the virtual camera presentation information generation unit 42 determines whether the image frame is at a displayable position (step S62). If it is determined that the image frame is at a displayable position (step S62: Yes), the process proceeds to step S63. On the other hand, if it is determined that the image frame is not at a displayable position (step S62: No), the process proceeds to step S64.
  • step S62 When it is determined in step S62 that the image frame is at a displayable position, the virtual camera presentation information generation unit 42 generates normal virtual camera presentation information 20 (step S63). After that, the process proceeds to step S65. A detailed flow of the processing performed in step S63 will be described later (see FIG. 21).
  • step S62 If it is determined in step S62 that the image frame is not at a displayable position, the virtual camera presentation information generation unit 42 generates position-corrected virtual camera presentation information 20 (step S64). After that, the process proceeds to step S65. A detailed flow of the processing performed in step S64 will be described later (see FIG. 22).
  • step S65 the virtual camera presentation information generation unit 42 determines whether camera work is being reproduced. If it is determined that the camerawork is being reproduced (step S65: Yes), the process proceeds to step S66. On the other hand, if it is not determined that the camerawork is being reproduced, the flow returns to the flowchart of FIG.
  • step S65 When it is determined in step S65 that the camerawork is being reproduced, the virtual camera presentation information generation unit 42 determines whether the camerawork display setting is turned on (step S66). If it is determined that the camerawork display setting is ON (step S66: Yes), the process proceeds to step S67. On the other hand, if it is not determined that the camerawork display setting is turned on (step S66: No), the process returns to the flowchart of FIG.
  • step S66 When it is determined in step S66 that the camerawork display setting is turned on, the virtual camera presentation information generation unit 42 performs camerawork display processing (step S67). Then, it returns to the flowchart of FIG. A detailed flow of the processing performed in step S67 will be described later (see FIG. 25).
  • step S68 determines whether the image frame is at a displayable position. ). If it is determined that the image frame is at a displayable position (step S68: Yes), the process proceeds to step S69. On the other hand, if it is determined that the image frame is not at a displayable position (step S68: No), the process proceeds to step S70.
  • step S68 When it is determined in step S68 that the image frame is at a displayable position, the virtual camera presentation information generation unit 42 generates normal virtual camera group presentation information 200 (step S69). Then, it returns to the flowchart of FIG. A detailed flow of the processing performed in step S68 will be described later (see FIG. 23).
  • step S70 If it is not determined in step S68 that the image frame is at a displayable position, the virtual camera presentation information generation unit 42 generates position-corrected virtual camera group presentation information 200 (step S70). Then, it returns to the flowchart of FIG. A detailed flow of the processing performed in step S70 will be described later (see FIG. 24).
  • FIG. 21 is a flowchart showing an example of the flow of virtual camera presentation information generation processing (normal) in FIG.
  • the virtual camera presentation information generation unit 42 determines whether the display mode of the virtual camera presentation information 20 is normal (step S71). If it is determined that the display mode of the virtual camera presentation information 20 is normal (step S71: Yes), the process proceeds to step S72. On the other hand, if the display mode of the virtual camera presentation information 20 is not determined to be normal (step S71: No), the process proceeds to step S73.
  • the virtual camera presentation information generation unit 42 When it is determined in step S71 that the display mode of the virtual camera presentation information 20 is normal, the virtual camera presentation information generation unit 42 generates the virtual camera presentation information 20 based on the virtual camera information F (step S72 ). Then, it returns to the flowchart of FIG.
  • the virtual camera presentation information 20p1 (20) shown in FIG. 21 is an example of the virtual camera presentation information generated in step S72.
  • the virtual camera presentation information generation unit 42 generates the virtual camera presentation information 20 in which particles 38 imitating a virtual camera are drawn. (step S73). Then, it returns to the flowchart of FIG.
  • the virtual camera presentation information 20p2 (20) shown in FIG. 21 is an example of the virtual camera presentation information generated in step S73.
  • FIG. 22 is a flowchart showing an example of the flow of virtual camera presentation information generation processing (position correction) in FIG.
  • the virtual camera presentation information generation unit 42 determines whether the display mode of the virtual camera presentation information 20 is normal (step S81). If it is determined that the display mode of the virtual camera presentation information 20 is normal (step S81: Yes), the process proceeds to step S82. On the other hand, if the display mode of the virtual camera presentation information 20 is not determined to be normal (step S81: No), the process proceeds to step S83.
  • step S81 when it is determined that the display mode of the virtual camera presentation information 20 is normal, the virtual camera presentation information generation unit 42 updates the angle of view information based on the virtual camera information F to generate the virtual camera presentation information. 20 is generated (step S82). Then, it returns to the flowchart of FIG.
  • the virtual camera presentation information 20q1(20) and 20q2(20) shown in FIG. 22 is an example of the virtual camera presentation information generated in step S82 and displayed on the inner wall surface 15.
  • the virtual camera presentation information generation unit 42 generates virtual camera presentation information 20 in which particles imitating a virtual camera are drawn. (Step S83). Then, it returns to the flowchart of FIG.
  • the virtual camera presentation information 20q3(20) and 20q4(20) shown in FIG. 22 is an example of the virtual camera presentation information generated in step S83 and displayed on the inner wall surface 15.
  • FIG. 23 is a flowchart showing an example of the flow of virtual camera group presentation information generation processing (normal) in FIG.
  • the virtual camera presentation information generation unit 42 determines whether the display mode of the virtual camera presentation information 20 is normal (step S91). If it is determined that the display mode of the virtual camera presentation information 20 is normal (step S91: Yes), the process proceeds to step S92. On the other hand, if the display mode of the virtual camera presentation information 20 is not determined to be normal (step S91: No), the process proceeds to step S96.
  • step S91 When it is determined in step S91 that the display mode of the virtual camera presentation information 20 is normal, the virtual camera presentation information generation unit 42 determines whether there are remaining divided display frames of the image frame 21 (step S92). . If it is determined that there are remaining split display frames of the image frame 21 (step S92: Yes), the process proceeds to step S93. On the other hand, if it is not determined that there are remaining split display frames of the image frame 21 (step S92: No), the flow returns to the flowchart of FIG.
  • step S92 determines whether there are remaining split display frames in the image frame 21.
  • step S93 determines whether there is a virtual camera to be displayed. If it is determined that there is a virtual camera to be displayed (step S93: Yes), the process proceeds to step S94. On the other hand, if it is not determined that there is a virtual camera to be displayed (step S93: No), the process returns to the flowchart of FIG.
  • step S93 when it is determined that there is a virtual camera to be displayed, the virtual camera presentation information generation unit 42 performs normal virtual camera presentation information 20 generation processing by executing the flowchart of FIG. S94).
  • the virtual camera presentation information generation unit 42 draws the virtual camera presentation information 20 generated in step S94 in the split display frame (step S95). After that, the process returns to step S92 and repeats the above-described processing.
  • the virtual camera presentation information 200a (200) shown in FIG. 23 is an example of information generated in step S95.
  • step S91 determines whether the display mode of the virtual camera presentation information 20 is normal. If it is not determined in step S91 that the display mode of the virtual camera presentation information 20 is normal, the virtual camera presentation information generation unit 42 creates the virtual camera group presentation information 200 in which particles 38 imitating virtual cameras are drawn. Generate (step S96). Then, it returns to the flowchart of FIG. Note that the virtual camera presentation information 200b (200) shown in FIG. 23 is an example of information generated in step S96.
  • FIG. 24 is a flowchart showing an example of the flow of virtual camera group presentation information generation processing (position correction) in FIG.
  • the virtual camera presentation information generation unit 42 determines whether the display mode of the virtual camera presentation information 20 is normal (step S101). If it is determined that the display mode of the virtual camera presentation information 20 is normal (step S101: Yes), the process proceeds to step S102. On the other hand, if the display mode of the virtual camera presentation information 20 is not determined to be normal (step S101: No), the process proceeds to step S107.
  • step S101 When it is determined in step S101 that the display mode of the virtual camera presentation information 20 is normal, the virtual camera presentation information generation unit 42 determines whether or not there are remaining split display frames of the image frame 21 (step S102). . If it is determined that there are remaining split display frames of the image frame 21 (step S102: Yes), the process proceeds to step S103. On the other hand, if it is not determined that there are remaining split display frames of the image frame 21 (step S102: No), the process proceeds to step S106.
  • step S103 determines whether there is a virtual camera to be displayed. If it is determined that there is a virtual camera to be displayed (step S103: Yes), the process proceeds to step S104. On the other hand, if it is not determined that there is a virtual camera to be displayed (step S103: No), the process proceeds to step S106.
  • step S104 When it is determined in step S103 that there is a virtual camera to be displayed, the virtual camera presentation information generation unit 42 executes the flowchart of FIG. step S104).
  • the virtual camera presentation information generation unit 42 draws the virtual camera presentation information 20 generated in step S104 in the split display frame (step S105). Then, it returns to step S102 and repeats the above-described processing.
  • the virtual camera presentation information 200c (200) shown in FIG. 24 is an example of the virtual camera group presentation information generated in step S105.
  • step S102 if it is determined in step S102 that there is no remaining split display frame of the image frame 21 or if it is determined in step S103 that there is a virtual camera to be displayed, the virtual camera presentation information generating unit 42 creates a split display frame. is corrected and displayed (step S106). Then, it returns to the flowchart of FIG.
  • step S101 if the display mode of the virtual camera presentation information 20 is not determined to be normal, the virtual camera presentation information generation unit 42 generates virtual camera group presentation information 200 in which particles imitating a virtual camera are drawn. (step S107). Then, it returns to the flowchart of FIG.
  • the virtual camera presentation information 200d (200) shown in FIG. 24 is an example of the virtual camera group presentation information generated in step S107.
  • FIG. 25 is a flow chart showing an example of the flow of camerawork display processing in FIG.
  • the virtual camera presentation information generation unit 42 acquires image frame information, camera work name, and camera work frame number from the generated virtual camera presentation information 20 (step S111).
  • the image frame information is information including the display position of the image frame, the size of the image frame, and the like.
  • the virtual camera presentation information generation unit 42 generates camerawork presentation information based on the image frame information, camerawork name, and camerawork frame number (step S112).
  • the camerawork presentation information is, for example, the camerawork information 35 shown in FIG.
  • the virtual camera presentation information generation unit 42 superimposes the camerawork presentation information on the virtual camera presentation information 20 (step S113). Then, it returns to the flowchart of FIG.
  • FIG. 26 is a flowchart showing an example of the flow of virtual camera group audio generation processing in FIG.
  • the virtual camera presentation information generation unit 42 determines whether the virtual camera audio output mode is ALL, that is, whether the audio data of all the virtual camera information F is mixed and output (step S121). If it is determined that the virtual camera audio output mode is ALL (step S121: Yes), the process proceeds to step S122. On the other hand, if it is not determined that the virtual camera audio output mode is ALL (step S121: No), the process proceeds to step S123.
  • step S121 when it is determined that the virtual camera audio output mode is ALL, the virtual camera presentation information generation unit 42 supplies audio frame data (video frame data) of all virtual camera information F to the audio output unit 45. audio data corresponding to ) are mixed to generate audio output data (step S122). After that, return to FIG.
  • step S121 determines that the virtual camera audio output mode is ALL.
  • the virtual camera presentation information generation unit 42 determines that the virtual camera audio output mode is an On Air camera, that is, the virtual camera that is performing image capturing and distribution. It is determined whether the mode is for outputting the audio data contained in the virtual camera information F (step S123). If it is determined that the virtual camera audio output mode is the On Air camera (step S123: Yes), the process proceeds to step S124. On the other hand, if it is not determined that the virtual camera audio output mode is the On Air camera (step S123: No), the process proceeds to step S125.
  • step S123 when it is determined that the virtual camera audio output mode is the On Air camera, the virtual camera presentation information generation unit 42 generates audio output data from the audio frame data of the virtual camera information F whose camera state is On Air. Generate (step S124). After that, return to FIG.
  • step S123 determines that the virtual camera audio output mode is the On Air camera. It is determined whether the mode is for outputting the audio data of F (step S125). If it is determined that the virtual camera audio output mode is the Target camera (step S125: Yes), the process proceeds to step S126. On the other hand, if it is not determined that the virtual camera audio output mode is the Target camera (step S125: No), the process proceeds to step S127.
  • step S125 When it is determined in step S125 that the virtual camera audio output mode is the Target camera, the virtual camera presentation information generation unit 42 generates audio output data from the audio frame data of the virtual camera information F corresponding to the specified camera number. Generate (step S126). After that, return to FIG.
  • the virtual camera presentation information generation unit 42 generates silent audio output data (step S127). After that, return to FIG.
  • FIG. 27 is a flowchart showing an example of the flow of virtual camera presentation information output processing in FIG.
  • the in-studio video display unit 44 acquires the virtual camera presentation information 20 from the virtual camera presentation information generation unit 42 (step S131). Note that the in-studio video display unit 44 may acquire the virtual camera group presentation information 200 from the virtual camera presentation information generation unit 42 .
  • the in-studio image display unit 44 generates an image to be displayed on the inner wall surface 15 from the virtual camera presentation information 20 (step S132).
  • the in-studio video display unit 44 outputs the video generated in step S132 to each display panel 17 (step S133).
  • the in-studio image display unit 44 outputs the images generated in step S132 to the projectors 28 and 29, respectively. After that, return to FIG.
  • FIG. 28 is a flow chart showing an example of the flow of volumetric video generation processing in FIG.
  • the volumetric image generation unit 47 acquires image data (actual camera image I) captured by the camera 16 from the volumetric image capturing unit 46 (step S141).
  • the volumetric image generation unit 47 performs modeling processing to generate a 3D model 22M of the subject 22 based on the image data acquired in step S141 (step S142).
  • the volumetric video generation unit 47 acquires the virtual camera position information Fa from the virtual camera presentation information generation unit 42 (step S143).
  • the volumetric image generation unit 47 renders the volumetric image of the 3D model 22M viewed from the virtual viewpoint (step S144).
  • the volumetric image generation unit 47 calculates the depth, that is, the distance from the virtual viewpoint to the 3D model 22M based on the virtual camera position information Fa (step S145).
  • the volumetric video generation unit 47 outputs volumetric video data (RGB-D) to the volumetric video/CG superimposition/audio MUX unit 51 (step S146). Volumetric video data has color information (RGB) and distance information (D). After that, it returns to the main routine (FIG. 15).
  • FIG. 29 is a flow chart showing an example of the process flow of superimposing the volumetric image and the background image in FIG.
  • the volumetric video/CG superimposition/audio MUX unit 51 acquires volumetric video data from the volumetric video generation unit 47 (step S151).
  • the volumetric video/CG superimposition/audio MUX unit 51 acquires background CG data from the CG background generation unit 50 (step S152).
  • the volumetric video/CG superimposition/audio MUX unit 51 renders the background CG data in 3D (step S153).
  • the volumetric video/CG superimposition/audio MUX unit 51 superimposes the volumetric video on the 3D space where the background CG data is drawn (step S154).
  • the volumetric video/CG superimposition/audio MUX unit 51 generates a 2D video viewing the 3D space generated in step S154 from a virtual viewpoint (step S155).
  • the volumetric video/CG superimposing/audio MUX unit 51 generates 3D video.
  • the volumetric video/CG superimposition/audio MUX unit 51 outputs the 2D video (or 3D video) generated in step S155 to the distribution unit 52 (step S156). After that, it returns to the main routine (FIG. 15).
  • volumetric video/CG superimposition/audio MUX unit 51 also performs processing for multiplexing (MUXing) the generated 2D video (or 3D video) and audio information.
  • the video processing device 12a (information processing device) of the first embodiment includes a plurality of real images (first imaging device) captured by a plurality of cameras 16 (first imaging devices) arranged around the subject 22.
  • a volumetric image capturing unit 46 (first acquisition unit) that acquires a real camera image I)
  • a volumetric image generation unit 47 generation unit
  • a 3D model 22M of the subject 22 from a plurality of real images
  • a 3D model 22M into an image of a form corresponding to the viewing device 53a
  • an in-studio video display unit 44 (presentation unit) that presents information related to a virtual viewpoint to the subject 22.
  • the volumetric studio 14a it is possible to reproduce the situation as if the cameraman were directly shooting with an actual camera. Therefore, the subject 22 can perform a performance that is conscious of the virtual camera, so that the presence of the delivered content can be enhanced.
  • the video processing device 12a (information processing device) of the first embodiment further includes a virtual camera information generation unit 41 (second acquisition unit) that acquires information related to a virtual viewpoint.
  • a virtual camera information generation unit 41 (second acquisition unit) that acquires information related to a virtual viewpoint.
  • the in-studio video display unit 44 presents the position of the virtual viewpoint to the subject 22 (for example, the virtual camera presentation information 20a). , 20b).
  • the in-studio video display unit 44 presents, at the position of the virtual viewpoint, information indicating that there is a virtual viewpoint at that position. do.
  • the in-studio video display unit 44 presents information indicating the position of the virtual viewpoint to the subject 22 (for example, virtual camera presentation information 20i, 20j, 20k, 20l).
  • the in-studio video display unit 44 presents the distance between the virtual viewpoint and the subject 22 to the subject 22 (for example, the virtual camera presentation information 20f).
  • the subject 22 can intuitively grasp the distance between the virtual camera and itself.
  • the in-studio video display unit 44 presents the observation direction from the virtual viewpoint to the subject 22 (for example, virtual camera presentation). Information 20g).
  • the in-studio video display unit 44 presents the moving direction of the virtual viewpoint to the subject 22 (for example, virtual camera presentation information 20m).
  • the in-studio video display unit 44 presents to the subject 22 the operating state of the virtual camera placed at the virtual viewpoint ( For example, virtual camera presentation information 20h).
  • the in-studio video display unit 44 presents to the subject 22 a message of the operator who controls the virtual viewpoint (for example, a virtual camera presentation information 20c).
  • the in-studio video display unit 44 (presentation unit) is configured to display images related to a plurality of virtual viewpoints when the positions of the plurality of virtual viewpoints are close to each other.
  • the information is synthesized and presented to the subject 22 (for example, virtual camera presentation information 20n3).
  • FIG. 30 is a system configuration diagram showing an overview of the video processing system of the second embodiment.
  • the video processing system 10b has substantially the same functions as the video processing system 10a described above, but the background data on which the volumetric video data is superimposed is captured by a real camera, and the position of the real camera capturing the background data is used as a virtual viewpoint. The points to be set are different.
  • a schematic configuration of the video processing system 10b will be described below with reference to FIG. Note that description of components common to the video processing system 10a will be omitted.
  • the video processing system 10b includes a volumetric studio 14a, a 2D photography studio 14b, and a video processing device 12b.
  • the 2D photography studio 14b is a studio different from the volumetric studio 14a.
  • a plurality of real cameras 60 are provided in the 2D photography studio 14b.
  • Each real camera 60 can change its position, observation direction, angle of view, etc. by the operation of the cameraman or by a control signal from the outside.
  • An arbitrary background is drawn on the wall surface of the 2D photography studio 14b, or an arbitrary background is projected by a projector or the like.
  • the interior of the 2D imaging studio 14b is equipped with a plurality of lighting devices whose lighting states can be arbitrarily controlled.
  • the 2D real video J captured by the real camera 60 is input to the video processing device 12b.
  • the real camera 60 is an example of a second imaging device in the present disclosure.
  • the image processing device 12b generates a 3D model 22M of the subject 22 based on the real camera image I acquired from the camera 16. Further, the video processing device 12a assumes that the real camera 60 is at a virtual viewpoint, and renders the 3D model 22M of the subject 22 viewed from the virtual viewpoint into an image having a form corresponding to the viewing device 53a of the user. . Also, the video processing device 12 a generates virtual camera presentation information 20 related to the virtual viewpoint based on the information related to the real camera 60 and outputs it to the display panel 17 .
  • the video processing device 12b acquires the 2D real video J from the real camera 60. Also, the image processing device 12b superimposes the volumetric image 24 based on the 3D model 22M using the acquired 2D real image J as the background image 26b. The generated video is delivered, for example, to the user's viewing environment. Note that the video processing device 12b is an example of an information processing device in the present disclosure.
  • FIG. 31 is a functional block diagram showing an example of the functional configuration of the video processing system of the second embodiment.
  • the video processing system 10b includes a video processing device 12b, a camera 16 and a display panel 17 that constitute the imaging display device 13, and a real camera 60.
  • the video processing system 10b also includes a remote controller 54, an intercom 55, a microphone 56, a speaker 57, and a viewing device 53a, which are peripheral devices.
  • the image processing device 12b includes a virtual camera presentation information generation unit 42, a UI unit 43, an in-studio image display unit 44, an audio output unit 45, a volumetric image capturing unit 46, a volumetric image generation unit 47, and a master audio. an output unit 48, an audio recording unit 49, a distribution unit 52, a virtual camera information acquisition unit 62, a virtual camera information transmission unit 63, a 2D image capturing unit 64, a virtual camera information reception unit 65, a volumetric video/ An audio transmission unit 66 , a volumetric video/audio reception unit 67 , and a volumetric video/2D video superimposition/audio MUX unit 68 are provided. These functional units are realized by the CPU of the video processing device 12b having a computer configuration executing a control program (not shown) for controlling the operation of the video processing device 12b. Also, all or part of the functions of the video processing device 12b may be realized by hardware.
  • the functional parts described to the left of the dotted line L1 in FIG. 31 are installed in the volumetric studio 14a.
  • the functional parts described on the right side of the dotted line L1 are installed in the 2D imaging studio 14b.
  • the functions provided by each functional unit will be described below only with respect to functional units that are different from the video processing system 10a.
  • the virtual camera information acquisition unit 62 acquires information related to the real camera 60 from the real camera 60 (second imaging device) on the 2D imaging studio 14b side.
  • Information related to the real camera 60 is virtual camera information F when the real camera 60 is regarded as a virtual camera.
  • the contents of the virtual camera information F are as described in the first embodiment.
  • the virtual camera information acquisition unit 62 is an example of a second acquisition unit in the present disclosure.
  • the virtual camera information transmission unit 63 transmits the virtual camera information F acquired by the virtual camera information acquisition unit 62 to the volumetric studio 14a side.
  • the virtual camera information receiving unit 65 receives virtual camera information F from the 2D photography studio 14b side.
  • the 2D image capturing unit 64 generates a background 2D image from the 2D real image J captured by the real camera 60 .
  • the volumetric video/audio transmission unit 66 transmits the volumetric video and audio data generated by the volumetric studio 14a to the 2D photography studio 14b side.
  • the volumetric video/audio receiving unit 67 receives volumetric video and audio data from the volumetric studio 14a side.
  • the volumetric video/2D video superimposing/audio MUX unit 68 renders the 3D model 22M of the subject 22 into an image of a form corresponding to the viewing device 53a of the user, and renders the image using the real camera 60 ( 2nd imaging device) is superimposed on the image imaged. Also, the volumetric video/2D video superimposition/audio MUX unit 68 multiplexes (MUXes) the superimposed image with audio data. Note that the volumetric video/2D video superimposition/audio MUX unit 68 is an example of the superimposition unit in the present disclosure.
  • the video processing system 10b does not include the controller 40 (see FIG. 13) provided in the video processing system 10a. This is because in the video processing system 10b, the real camera 60 itself generates information related to the virtual camera. Specifically, the real camera 60 has a gyro sensor and an acceleration sensor. The real camera 60 detects the shooting direction and the moving direction of the real camera 60 by detecting the output of the gyro sensor and the acceleration sensor.
  • the 2D photography studio 14b in which the real camera 60 is placed is equipped with a position detection sensor (not shown) that measures the position of the real camera 60 in the 2D photography studio 14b.
  • the position detection sensors include a plurality of base stations installed in the 2D photography studio 14b that transmit IR signals with different emission patterns, and an IR sensor installed in the real camera 60 that detects the IR signals from the base stations. consists of The IR sensor detects its own position in the 2D photography studio 14b based on the intensity of the multiple detected IR signals.
  • the real camera 60 may detect its own position and direction in the 2D imaging studio 14b based on the image it has captured.
  • the real camera 60 generates information related to the virtual camera based on information acquired by various sensors.
  • the real camera 60 further includes an operation device such as a selection button for instructing selection and start of camerawork information, and a display device for displaying choices of camerawork information.
  • an operation device such as a selection button for instructing selection and start of camerawork information
  • a display device for displaying choices of camerawork information.
  • a virtual camera information acquiring unit 62 a virtual camera information transmitting unit 63, a 2D video capturing unit 64, a volumetric video/audio receiving unit 67, a volumetric video/2D video
  • the superimposition/audio MUX unit 68 and the distribution unit 52 are installed in the 2D photography studio 14b where the real camera 60 is placed.
  • Other functional parts of the video processing device 12b are installed in the volumetric studio 14a.
  • the background CG image needs to have 3D information, but in the image processing system 10b, the virtual camera information F according to the movement of the real camera 60 is generated for each frame. . Then, the video processing device 12b generates a volumetric video according to the virtual camera information F and superimposes it on the background 2D video based on the 2D real video J captured by the real camera 60. FIG. Therefore, it is not necessary to prepare 3D background data (background CG image) as in the image processing system 10a.
  • the video processing system 10b has characteristics different from virtual production, which is known as a system that generates video as if it were shot at a target location. That is, in the well-known virtual production, 3DCG is drawn in the background according to the movement of the real camera, and the subject standing in front of it is photographed. On the other hand, in the image processing system 10b, the volumetric image of the subject 22 performing the performance is generated in accordance with the movement of the real camera 60 that shoots the real background prepared in the 2D shooting studio 14b. The positioning of the subject and the background is therefore reversed in the familiar virtual production. Therefore, by using the video processing system 10b, the application range of the current virtual production can be expanded.
  • the video processing device 12b (information processing device) of the second embodiment renders the 3D model 22M of the subject 22 into an image having a form corresponding to the viewing device 53a, and renders the image separately from the subject 22.
  • a volumetric video/2D video superimposing/audio MUX unit 68 (superimposing unit) that superimposes the image captured by the real camera 60 (second imaging device) at the location of the virtual camera information acquisition unit 62 (second acquirer) regards the real camera 60 as a virtual camera placed at a virtual viewpoint, and acquires information relating to the virtual viewpoint from the real camera 60 .
  • the real camera 60 installed at a remote location is regarded as a virtual camera, it is possible to reproduce the situation in the volumetric studio 14a as if the cameraman were directly shooting with the actual camera. Therefore, the subject 22 can perform a performance that is conscious of the virtual camera, so that the presence of the delivered content can be enhanced.
  • FIG. 32 is a system configuration diagram showing an overview of the video processing system of the third embodiment.
  • the video processing system 10c has substantially the same functions as the video processing systems 10a and 10b described above. However, while the video processing systems 10a and 10b distribute the generated distribution content to the viewing device 53a of the user in one way, in the video processing system 10c, the user uses the viewing device 53b. The difference is that the position of the virtual viewpoint can be controlled interactively.
  • a schematic configuration of the video processing system 10c will be described below with reference to FIG. Note that descriptions of components common to the video processing systems 10a and 10b will be omitted.
  • the video processing system 10c includes a volumetric studio 14a, a video processing device 12c, and a viewing device 53b. Note that the video processing device 12c may be installed in the volumetric studio 14a.
  • the image processing device 12c generates a 3D model 22M of the subject 22 based on the real camera image I acquired from the camera 16. Also, the video processing device 12c acquires the virtual camera information F from the user's viewing device 53b. Also, the video processing device 12c renders the 3D model 22M of the subject 22 viewed from the virtual viewpoint based on the virtual camera information F into an image having a form corresponding to the viewing device 53b of the user. The video processing device 12 c also generates virtual camera presentation information 20 related to the virtual viewpoint and outputs it to the display panel 17 .
  • the information related to the virtual viewpoint is information related to the viewpoint when each of the plurality of viewing users views the image rendered by the video processing device 12c using their own viewing device 53b.
  • the image processing device 12c superimposes the volumetric image 24 based on the generated 3D model 22M on the acquired background image 26a to generate an image observed from the set virtual viewpoint. Then, the video processing device 12c distributes the generated video to the user's viewing device 53b. Note that the video processing device 12c is an example of an information processing device in the present disclosure.
  • FIG. 33 is a functional block diagram showing an example of the functional configuration of the video processing system of the third embodiment
  • the video processing system 10c includes a video processing device 12c, a viewing device 53b, a camera 16 and a display panel 17 that constitute the imaging display device 13.
  • FIG. The video processing system 10c also includes a remote controller 54, an intercom 55, a microphone 56, and a speaker 57, which are peripheral devices.
  • the image processing device 12c includes a virtual camera presentation information generation unit 42, a UI unit 43, an in-studio image display unit 44, an audio output unit 45, a volumetric image capturing unit 46, a volumetric image generation unit 47, and a master audio.
  • a virtual camera information receiving unit 65 a distribution receiving unit 70 , a volumetric video output unit 71 , and an audio output unit 72 .
  • These functional units are realized by the CPU of the video processing device 12c having a computer configuration executing a control program (not shown) for controlling the operation of the video processing device 12c. Also, all or part of the functions of the video processing device 12c may be realized by hardware.
  • the functional parts described to the left of the dotted line L2 in Fig. 33 are installed in the volumetric studio 14a.
  • the functional parts described on the right side of the dotted line L2 are installed in the environment of the user holding the viewing device, and preferably built into the viewing device 53b.
  • the functions provided by each functional unit will be described below only for functional units different from those of the video processing systems 10a and 10b.
  • the virtual camera information acquisition unit 62 acquires the virtual camera information F including the virtual camera position information and the user's video/message from the viewing device 53b.
  • the virtual camera information transmission unit 63 transmits the virtual camera information F acquired by the virtual camera information acquisition unit 62 to the volumetric studio 14a side.
  • the virtual camera information receiving section 65 receives the virtual camera information F from the virtual camera information transmitting section 63 .
  • the distribution reception unit 70 receives distribution content transmitted from the volumetric studio 14a side. Note that the content received by the distribution receiving unit 70 is simply multiplexed volumetric video, background CG, and audio data, unlike the content viewed by the user.
  • the volumetric video output unit 71 decodes the volumetric video and background CG from the multiplexed signal received by the distribution receiving unit 70 .
  • the volumetric image output unit 71 also renders a volumetric image of the 3D model 22M of the subject 22 viewed from the observation position based on the virtual camera position information Fa. Also, the volumetric video output unit 71 superimposes the rendered volumetric video on the background CG data. Then, the volumetric video output unit 71 outputs the video superimposed with the background CG data to the viewing device 53b.
  • the audio output unit 72 decodes audio data from the multiplexed signal received by the distribution reception unit 70 .
  • the audio output unit 72 then outputs the decoded audio data to the viewing device 53 .
  • the volumetric video/CG superimposition/audio MUX unit 51 multiplexes (MUXes) the volumetric video, background CG, and audio data. Note that unlike the volumetric video/CG superimposition/audio MUX unit 51 (see FIG. 13) provided in the video processing device 12a, the volumetric video and the background CG are superimposed in the volumetric video output unit 71. It does only multiplexing (MUX).
  • the viewing device 53b has the function of the controller 40 in the video processing device 12a.
  • the viewing device 53b may be, for example, a mobile terminal such as a smartphone or a tablet terminal, an HMD, a spatial reproduction display capable of stereoscopic viewing with the naked eye, or a combination of a display and a game controller.
  • the viewing device 53b has at least a function of designating a position and direction, a function of selecting and determining menu contents, and a function of communicating with the video processing device 12c.
  • the viewing device 53b like the controller 40, sets the position and direction necessary to set the virtual viewpoint. That is, the viewing device 53b itself plays the role of a virtual camera. Also, the viewing device 53b selects and determines the camera work of the virtual viewpoint (virtual camera). Furthermore, the viewing device 53b selects and determines a message for the subject 22. FIG.
  • FIG. 34 is a diagram showing how the user sets camerawork information using the viewing device.
  • FIG. 35 is a diagram showing how the user uses the viewing device to set the operator video, operator voice, and operator message.
  • a camera work setting menu is selected from a main menu (not shown) displayed when an application using the video processing system 10c is launched on the mobile terminal 80, which is an example of the viewing device 53b, the viewing device 53b is displayed.
  • a camera work selection button 74 shown in FIG. 34 is displayed on the screen.
  • the display screen of the mobile terminal 80 also has the function of a touch panel, and the GUI (Graphical User Interface) displayed on the display screen can be controlled using fingers.
  • the camera work selection button 74 is a button that is pressed when starting camera work settings.
  • a camerawork selection window 75 is displayed on the display screen of the mobile terminal 80 .
  • the camerawork selection window 75 displays a preset camerawork list.
  • a camerawork start button 76 is displayed superimposed on any camerawork displayed in the camerawork selection window 75 .
  • the user of the mobile terminal 80 superimposes the camerawork start button 76 on the type of camerawork that the user wants to set. Then, by pressing the camerawork start button 76, camerawork setting is completed. The set camerawork is sent to the virtual camera information acquisition unit 62 as camerawork information Fb.
  • the start position and end position of camera work, the speed of camera work, etc. can also be set in the camera work setting menu.
  • the display screen of the mobile terminal 80 shows the A message selection button 77 shown at 35 is displayed.
  • the message selection button 77 is a button that is pressed to start selecting an operator message.
  • a message selection window 78 is displayed on the display screen of the mobile terminal 80 .
  • the message selection window 78 displays a preset list of messages.
  • a message transmission button 79 is displayed superimposed on any message displayed in the message selection window 78 .
  • the user of the mobile terminal 80 superimposes the message transmission button 79 on the message he or she wants to set. Then, by pressing the message transmission button 79, setting of the operator message Fe is completed. The set operator message Fe is sent to the virtual camera information acquisition section 62 .
  • the operator's image and voice acquired using the IN camera 81 and the microphone 82 built in the viewing device 53b may be set as the operator message Fe.
  • the mobile terminal 80 detects the virtual camera position information Fa for detecting its own photographing direction and moving direction by detecting the output of the gyro sensor and the acceleration sensor. Since this is the same as the method by which the real camera 60 detects the virtual camera position information Fa in the second embodiment, further explanation is omitted.
  • FIG. 36 is a diagram showing an example of virtual camera group presentation information according to the number of viewing users.
  • FIG. 37 is a diagram showing an example of virtual camera group presentation information when the viewing user changes the observation position.
  • FIG. 38 is a diagram showing an example of a function for communication between a viewing user and a performer.
  • FIG. 36 shows an example of virtual camera group presentation information 200 presented in such a case.
  • the horizontal axis in FIG. 36 indicates the number of viewing users from a specific position.
  • the number of viewing users is smaller on the left side, and the number of viewing users is larger on the right side.
  • the virtual camera group presentation information 200e, 200f, and 200g divides one image frame 21, and a person-shaped icon (the cameraman icon 32 in FIG. 7) indicates that a viewing user exists in each divided area. equivalent) is displayed.
  • a person-shaped icon (the cameraman icon 32 in FIG. 7) indicates that a viewing user exists in each divided area. equivalent) is displayed.
  • One person-shaped icon may represent one viewing user, or one human-shaped icon may correspond to a preset number of people.
  • the virtual camera group presentation information 200e, 200f, and 200g indicate the density of users viewing from specific positions.
  • one large human icon indicates that several users are viewing the subject 22 at positions close to it.
  • the human icon may be enlarged and displayed according to another standard (see FIG. 38).
  • the number of people (10026) displayed at the top of the virtual camera group presentation information 200e, 200f, and 200g indicates the current total number of viewing users. Instead of displaying the current total number of viewing users, the number of viewing users viewing from the direction in which the virtual camera group presentation information 200 is presented may be displayed.
  • the display method of the number of viewing users is not limited to this, and a presentation form in which the density of viewing users can be intuitively understood, for example, particle display such as virtual camera group presentation information 200h, 200i, and 200j may be performed. good.
  • FIG. 37 shows an example of how the virtual camera group presentation information 200 changes when the viewing user changes the virtual viewpoint.
  • FIG. 37 shows a state in which virtual camera group presentation information 200k and 200l are presented at time t0. Also, FIG. 37 shows a state in which one or a plurality of viewing users U displayed in the virtual camera group presentation information 200k change the position of the virtual viewpoint at time t1. Furthermore, FIG. 37 shows that at time t2, the position of the virtual viewpoint of the viewing user U has reached the position where the virtual camera group presentation information 200l is presented.
  • the virtual camera group presentation information 200k is changed to virtual camera group presentation information 200m in which the human icon corresponding to the viewing user U has been deleted. Then, the virtual camera presentation information 20r corresponding to the viewing user U is newly presented.
  • the virtual camera presentation information 20r corresponding to the viewing user U is erased. Then, the virtual camera group presentation information 200l is changed to the virtual camera group presentation information 200n to which the human icon corresponding to the viewing user U is added.
  • the virtual camera presentation information 20r (20) corresponding to the viewing user U may be displayed simply like the virtual camera presentation information 20s (20) shown in the lower part of FIG.
  • FIG. 38 shows an example in which the viewing user communicates with the subject 22 in the video processing system 10c.
  • message information 37 is displayed.
  • the subject 22 when the subject 22 wants to communicate with a specific viewing user, the subject 22 turns on the cursor display by giving the operation information of the remote control 54 owned by the subject 22 to the UI unit 43 .
  • the cursor display is turned ON, as shown in FIG. 38, a cursor 90 is displayed superimposed on the virtual camera group presentation information 200q (200).
  • the subject 22 moves the position of the displayed cursor 90 to the position of the viewing user with whom he wishes to communicate, and selects the viewing user. Alternatively, specify the Target camera number you want to communicate with.
  • the subject 22 turns on the communication mode.
  • the communication mode may be always turned on as the default setting of the video processing system 10c.
  • the subject 22 selects the viewing user with the cursor 90, immediate communication with the viewing user becomes possible.
  • the subject 22 can select any viewing user and communicate with the selected viewing user by the action of the UI unit 43, which is an example of the selection unit.
  • the subject 22 can match the line of sight with the selected user. Also, at this time, the subject 22 can hear the user's message through the intercom 55 .
  • Such a communication function can also be realized in the video processing systems 10a and 10b described above.
  • the specific viewing user here is assumed to be a high-priority user such as a paying user or a premium user. That is, the viewing device 53b (virtual camera) of the user with high priority has high camera priority in the camera information Ff (see FIG. 14) described in the first embodiment.
  • a user with a high priority can preferentially communicate with the subject 22 .
  • the video processing device 12c displays a state in which the subject 22 is communicating with a specific viewing user, for example, the virtual camera group presentation information 200r (200) is displayed over the back of the subject 22 as shown in FIG. Another viewing user may be allowed to view the state of the display.
  • FIG. 39 is a flow chart showing an example of the flow of processing performed by the video processing system of the third embodiment.
  • FIG. 40 is a flow chart showing an example of the flow of communication video/audio generation processing in FIG.
  • the virtual camera presentation information generation unit 42 performs virtual camera presentation information generation processing (step S161). Note that the flow of the virtual camera presentation information generation process is as shown in FIG.
  • the UI unit 43 determines whether the cursor display is ON (step S162). If it is determined that the cursor display is ON (step S162: Yes), the process proceeds to step S164. On the other hand, if it is not determined that the cursor display is ON (step S162: No), the process proceeds to step S163.
  • step S162 When it is determined in step S162 that the cursor display is ON, the UI unit 43 generates an image of the cursor 90 (step S164). After that, the process proceeds to step S163.
  • step S163 determines whether the communication mode is in the ON state. If it is determined that the communication mode is ON (step S163: Yes), the process proceeds to step S166. On the other hand, if it is not determined that the communication mode is ON (step S163: No), the process proceeds to step S165.
  • step S163 When it is determined in step S163 that the communication mode is ON, the virtual camera presentation information generation unit 42 performs communication video/audio generation processing (step S166). After that, the process proceeds to step S165. Details of the video/audio generation processing are shown in FIG.
  • step S163 determines whether the communication mode is in the ON state, or after step S166 is executed. If it is not determined in step S163 that the communication mode is in the ON state, or after step S166 is executed, the virtual camera presentation information generation unit 42 adds the communication video/audio and the cursor 90 to the virtual camera video/audio. is superimposed (step S165).
  • the virtual camera presentation information generation unit 42 outputs the virtual camera presentation information 20 (or the virtual camera group presentation information 200) to the in-studio video display unit 44 and the audio output unit 45 (step S167). After that, the virtual camera presentation information generation unit 42 ends the processing of FIG. 39 .
  • step S166 the details of the video/audio generation processing performed in step S166 will be described.
  • the virtual camera presentation information generation unit 42 acquires the virtual camera presentation information 20 (or the virtual camera group presentation information 200) corresponding to the virtual camera number of the communication target (step S171).
  • the virtual camera presentation information generation unit 42 generates communication video/audio from the image frame information, video frame data, audio frame data, and message (step S172). After that, it returns to the main routine (FIG. 39).
  • the information related to the virtual viewpoint is obtained when each of the plurality of viewing users views the rendered image on the viewing device 53b. It is information related to the point of view at the time.
  • the in-studio video display unit 44 (presentation unit) arranges information related to a plurality of virtual viewpoints in the divided image frames 21, Presented to the subject 22 .
  • the video processing device 12c (information processing device) of the third embodiment acquires the operation information of the subject 22 and selects the viewing device 53b (virtual camera) placed at the virtual viewpoint. section), and the subject 22 communicates with the operator of the viewing device 53b selected by the UI section 43.
  • FIG. 13 the video processing device 12c (information processing device) of the third embodiment acquires the operation information of the subject 22 and selects the viewing device 53b (virtual camera) placed at the virtual viewpoint. section), and the subject 22 communicates with the operator of the viewing device 53b selected by the UI section 43.
  • the present disclosure can also be configured as follows.
  • a first acquisition unit that acquires a plurality of actual images respectively captured by a plurality of first imaging devices arranged around a subject; a generation unit that generates a 3D model of the subject from the plurality of real images; a presenting unit that presents to the subject information related to a virtual viewpoint when rendering the 3D model into an image of a form corresponding to a viewing device; Information processing device.
  • a superimposing unit that renders the 3D model into an image in a form corresponding to a viewing device and superimposes it on an image captured by a second imaging device located at a location different from the subject, the second acquisition unit regards the second imaging device as a virtual camera placed at a virtual viewpoint, and acquires information related to the virtual viewpoint from the second imaging device;
  • the information processing device according to (2) above.
  • the information related to the virtual viewpoint is information related to a viewpoint when each of a plurality of viewing users views the rendered image on a viewing device.
  • the information processing apparatus according to any one of (1) to (3).
  • the presentation unit presenting the position of the virtual viewpoint to the subject;
  • the information processing apparatus according to any one of (1) to (4).
  • the presentation unit presenting at the position of the virtual viewpoint information indicating that there is a virtual viewpoint at the position; The information processing apparatus according to any one of (1) to (5). (7) The presentation unit presenting information indicating the position of the virtual viewpoint to the subject; The information processing apparatus according to any one of (1) to (6). (8) The presentation unit presenting the distance between the virtual viewpoint and the subject to the subject; The information processing apparatus according to any one of (1) to (7). (9) The presentation unit Presenting an observation direction from the virtual viewpoint to the subject; The information processing apparatus according to any one of (1) to (8). (10) The presentation unit presenting the movement direction of the virtual viewpoint to the subject; The information processing apparatus according to any one of (1) to (9).
  • the presentation unit presenting to the subject an operating state of a virtual camera placed at the virtual viewpoint; The information processing apparatus according to any one of (1) to (10). (12) The presentation unit presenting to the subject a message of an operator controlling the virtual viewpoint; The information processing apparatus according to any one of (1) to (11). (13) The presentation unit when the positions of a plurality of virtual viewpoints approach each other, combining information related to the plurality of virtual viewpoints and presenting the information to the subject; The information processing apparatus according to any one of (1) to (12) above. (14) The presentation unit Information relating to the plurality of virtual viewpoints is arranged in divided image frames and presented to the subject. The information processing device according to (13) above.
  • a selection unit that acquires operation information of the subject and selects a virtual camera placed at a virtual viewpoint, the subject communicates with an operator of the virtual camera selected by the selection unit;
  • the information processing apparatus according to any one of (1) to (14).
  • the computer a first acquisition unit that acquires a plurality of actual images respectively captured by a plurality of first imaging devices arranged around a subject; a generation unit that generates a 3D model of the subject from the plurality of real images; a presenting unit that presents to the subject information related to a virtual viewpoint when rendering the 3D model into an image of a form corresponding to a viewing device;
  • a program that works as
  • Virtual camera presentation information (information related to virtual viewpoint) , 21... Image frame, 22... Subject, 22 M... 3D model, 24... Volumetric image, 26a, 26b... Background image, 28, 29... Projector, 30... Camera icon, 31... Tally lamp, 32... Photographer icon, 33... Camera name, 34... Camera position display icon, 35... Camera work information, 36... Camera work, 37... Message information, 38... Particles, 41...
  • Virtual camera information generation unit (second acquisition unit), 43... UI unit ( Selecting unit), 44: In-studio image display unit (presentation unit), 46: Volumetric image capturing unit (first acquisition unit), 47: Volumetric image generation unit (generation unit), 51: Volumetric image/CG superimposition/audio MUX unit 53a, 53b...Viewing device 60...Real camera (second imaging device) 62...Virtual camera information acquisition unit (second acquisition unit) 74...Camera work selection button 75... Camera work selection window , 76... Camera work start button, 77... Message selection button, 78... Message selection window, 79... Message transmission button, 80... Portable terminal, 90... Cursor, 200... Virtual camera group presentation information, F... Virtual camera information, Fa ...

Abstract

映像処理装置(情報処理装置)は、被写体の周囲に配置した複数のカメラ(第1の撮像装置)がそれぞれ撮像した複数の実画像を取得するVоlumetric映像撮影部(第1の取得部)と、複数の実画像から、被写体の3Dモデルを生成するVolumetric映像生成部(生成部)と、3Dモデルを、視聴デバイスに応じた形態の画像にレンダリングする際の仮想視点に係る情報を、被写体に提示するスタジオ内映像表示部(提示部)と、を備える。

Description

情報処理装置およびプログラム
 本開示は、情報処理装置およびプログラムに関し、特に、被写体(演者)に対して、自身を観測している仮想カメラの位置を知らせることができる情報処理装置およびプログラムに関する。
 従来、現実の3D空間をセンシングした情報、例えば異なる視点から被写体を撮像した多視点映像を用いて、視聴空間内に3Dオブジェクトを生成し、そのオブジェクトが視聴空間内に存在しているかのように見える映像(ボリュメトリック映像)を生成する方法が提案されている(例えば、特許文献1)。
国際公開第2017/082076号
 しかしながら、特許文献1において、被写体は、仮想カメラの設置位置を知ることができないため、歌唱やダンス等のパフォーマンスを行う際に、仮想カメラの位置を意識したパフォーマンスを行うことができないという課題があった。
 本開示では、被写体に対して、自身を観測している仮想カメラの位置を知らせることができる情報処理装置およびプログラムを提案する。
 上記の課題を解決するために、本開示に係る一形態の情報処理装置は、被写体の周囲に配置した複数の第1の撮像装置がそれぞれ撮像した複数の実画像を取得する第1の取得部と、前記複数の実画像から、前記被写体の3Dモデルを生成する生成部と、前記3Dモデルを、視聴デバイスに応じた形態の画像にレンダリングする際の仮想視点に係る情報を、前記被写体に提示する提示部と、を備える情報処理装置である。
第1の実施形態の映像処理システムの概要を示すシステム構成図である。 被写体の3Dモデルを生成する流れの概要を示す図である。 3Dモデルを表現するために必要なデータの内容を示す図である。 スタジオに設置された撮像表示装置の概略構成を示す図である。 表示パネルのON/OFFとカメラのON/OFFのタイミング制御の一例を示す図である。 表示パネルに表示される仮想カメラ提示情報の一例を示す図である。 仮想カメラ提示情報の具体例を示す第1の図である。 仮想カメラ提示情報の具体例を示す第2の図である。 仮想カメラ提示情報の代表的なバリエーションを示す図である。 仮想カメラが、表示パネルがない位置に設定されていることを示す仮想カメラ提示情報の一例を示す図である。 仮想カメラ提示情報が、仮想カメラのカメラワークを表示した例を示す図である。 複数の仮想カメラの設定位置が重複した場合の仮想カメラ提示情報の一例を示す図である。 第1の実施形態の映像処理システムの機能構成の一例を示す機能ブロック図である。 仮想カメラ情報生成部の入出力情報の一例を示す図である。 第1の実施形態の映像処理システムが行う処理の流れの一例を示すフローチャートである。 図15における仮想カメラ情報生成処理の流れの一例を示すフローチャートである。 図15における仮想カメラ提示情報生成処理の流れの一例を示すフローチャートである。 図17における仮想カメラグループ表示タイプ判定処理の流れの一例を示すフローチャートである。 図17における仮想カメラグループ優先度判定処理の流れの一例を示すフローチャートである。 図17における仮想カメラグループ提示情報生成処理の流れの一例を示すフローチャートである。 図20における仮想カメラ提示情報生成処理(通常)の流れの一例を示すフローチャートである。 図20における仮想カメラ提示情報生成処理(位置補正)の流れの一例を示すフローチャートである。 図20における仮想カメラグループ提示情報生成処理(通常)の流れの一例を示すフローチャートである。 図20における仮想カメラグループ提示情報生成処理(位置補正)の流れの一例を示すフローチャートである。 図20におけるカメラワーク表示処理の流れの一例を示すフローチャートである。 図17における仮想カメラグループ音声生成処理の流れの一例を示すフローチャートである。 図15における仮想カメラ提示情報出力処理の流れの一例を示すフローチャートである。 図15におけるVolumetric映像生成処理の流れの一例を示すフローチャートである。 図15におけるVolumetric映像と背景映像の重畳処理の流れの一例を示すフローチャートである。 第2の実施形態の映像処理システムの概要を示すシステム構成図である。 第2の実施形態の映像処理システムの機能構成の一例を示す機能ブロック図である。 第3の実施形態の映像処理システムの概要を示すシステム構成図である。 第3の実施形態の映像処理システムの機能構成の一例を示す機能ブロック図である。 ユーザが視聴デバイスを用いて、カメラワーク情報を設定する方法を示す図である。 ユーザが視聴デバイスを用いて、オペレータ映像と、オペレータ音声と、オペレータメッセージとを設定する方法を示す図である。 視聴ユーザ数に応じた仮想カメラグループ提示情報の一例を示す図である。 視聴ユーザが観測位置を変更した際の、仮想カメラグループ提示情報の一例を示す図である。 視聴ユーザと演者がコミュニケーションを図る機能の一例を示す図である。 第3の実施形態の映像処理システムが行う処理の流れの一例を示すフローチャートである。 図39におけるコミュニケーション映像/音声生成処理の流れの一例を示すフローチャートである。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
 また、以下に示す項目順序に従って本開示を説明する。
  1.第1の実施形態
   1-1.第1の実施形態の映像処理システムの概略構成
   1-2.前提事項の説明-3Dモデルの生成
   1-3.前提事項の説明-3Dモデルのデータ構造
   1-4.撮像表示装置の概略構成
   1-5.仮想カメラ提示情報の説明
   1-6.仮想カメラ提示情報のバリエーション
   1-7.第1の実施形態の映像処理システムの機能構成
   1-8.第1の実施形態の映像処理システムが行う処理の全体の流れ
   1-9.仮想カメラ情報生成処理の流れ
   1-10.仮想カメラ提示情報生成処理の流れ
    1-10-1.仮想カメラグループ表示タイプ判定処理の流れ
    1-10-2.仮想カメラグループ優先度判定処理の流れ
    1-10-3.仮想カメラグループ提示情報生成処理の流れ
    1-10-4.仮想カメラグループ音声生成処理の流れ
   1-11.仮想カメラ提示情報出力処理の流れ
   1-12.Volumetric映像生成処理の流れ
   1-13.Volumetric映像と背景映像の重畳処理の流れ
   1-14.第1の実施形態の作用効果
  2.第2の実施形態
   2-1.第2の実施形態の映像処理システムの概略構成
   2-2.第2の実施形態の映像処理システムの機能構成
   2-3.第2の実施形態の映像処理システムの作用
   2-4.第2の実施形態の作用効果
  3.第3の実施形態
   3-1.第3の実施形態の映像処理システムの概略構成
   3-2.第3の実施形態の映像処理システムの機能構成
   3-3.仮想カメラ情報の取得方法
   3-4.仮想カメラグループ提示情報の形態
   3-5.第3の実施形態の映像処理システムが行う処理の流れ
   3-6.第3の実施形態の作用効果
(1.第1の実施形態)
[1-1.第1の実施形態の映像処理システムの概略構成]
 まず、図1を用いて、本開示の第1の実施形態である映像処理システム10aについて説明する。図1は、第1の実施形態の映像処理システムの概要を示すシステム構成図である。
 映像処理システム10aは、Volumetricスタジオ14aと映像処理装置12aとを備える。なお、映像処理装置12aは、Volumetricスタジオ14aで撮影した映像を少ない遅延時間で処理するために、Volumetricスタジオ14aに設置するのが望ましい。
 Volumetricスタジオ14aは、被写体22の3Dモデル22Mを生成するために、被写体22の撮像を行うスタジオである。Volumetricスタジオ14aには、撮像表示装置13が設置されている。
 撮像表示装置13は、Volumetricスタジオ14aの内壁面15に被写体22を取り囲むように配置された複数のカメラ16によって、被写体22の撮像を行う。また、撮像表示装置13は、Volumetricスタジオ14aの内壁面15に被写体22を取り囲むように配置された表示パネル17に、被写体22の3Dモデル22Mを、ユーザの視聴デバイスに応じた形態の画像にレンダリングする際の仮想視点に係る情報を提示する。仮想視点に係る情報は、例えば、仮想カメラが設定された位置や観測方向等を示す情報である。
 映像処理装置12aは、カメラ16から取得した実カメラ映像Iに基づいて、被写体22の3Dモデル22Mを生成する。また、映像処理装置12aは、被写体22の3Dモデル22Mを、ユーザの視聴デバイスに応じた形態の画像にレンダリングする際の仮想視点に係る情報(仮想カメラ提示情報20)を生成する。そして、映像処理装置12aは、生成した仮想カメラ提示情報20を、表示パネル17に出力する。また、映像処理装置12aは、設定した仮想視点から被写体22の3Dモデル22Mを見た画像を、視聴デバイスに応じた形態でレンダリングすることによって、Volumetric映像24を生成する。具体的には、ユーザの視聴デバイスが、タブレット端末やスマートフォン等の2次元ディスプレイである場合、映像処理装置12aは、被写体22の3Dモデル22Mを2次元画像にレンダリングする。また、ユーザの視聴デバイスが、例えばHMD(Head Mount Display)のように3次元情報を表示可能な視聴デバイスである場合、映像処理装置12aは、被写体22の3Dモデル22Mを3D画像にレンダリングする。
 更に、映像処理装置12aは、取得した背景映像26aに、生成したVolumetric映像24を重畳して、設定された仮想視点から観測した映像を生成する。生成された映像は、例えばユーザの視聴環境に配信されて、ユーザの視聴デバイスに表示される。なお、映像処理装置12aは、本開示における情報処理装置の一例である。
[1-2.前提事項の説明-3Dモデルの生成]
 次に、図2を用いて、本実施形態の前提事項である、被写体の3Dモデルを生成する処理の流れを説明する。図2は、被写体の3Dモデルを生成する流れの概要を示す図である。
 図2に示すように、被写体22の3Dモデル22Mは、複数のカメラ16(16a,16b,16c)による被写体22の撮像と、3Dモデリングにより被写体22の3D情報を有する3Dモデル22Mを生成する処理と、を経て行われる。
 具体的には、複数のカメラ16は、図2に示すように、被写体22を取り囲むように、被写体22の外側に、被写体22の方向を向いて配置される。図2は、カメラの台数が3台の例を示しており、カメラ16a,16b,16cが被写体22の周りに配置されている。なお、図2においては、人物が被写体22とされているが、被写体22は人物に限定されない。また、カメラ16の台数は3台に限定されるものではなく、より多くの台数のカメラを備えてもよい。
 異なる視点から、3台のカメラ16a,16b,16cによって、同期してボリュメトリック(以下、Volumetricと呼ぶ)撮像された複数の視点画像(実カメラ映像I)を用いて3Dモデリングが行われ、3台のカメラ16a,16b,16cの映像フレーム単位で被写体22の3Dモデル22Mが生成される。
 3Dモデル22Mは、被写体22の3D情報を有するモデルである。3Dモデル22Mは、被写体22の表面形状を表す形状情報を、例えば、ポリゴンメッシュと呼ばれる、頂点(Vertex)と頂点との繋がりで表現したメッシュデータの形式で有する。また、3Dモデル22Mは、各ポリゴンメッシュに対応した、被写体22の表面状態を表すテクスチャ情報を有する。なお、3Dモデル22Mが有する情報の形式はこれらに限定されるものではなく、その他の形式の情報であってもよい。
 3Dモデル22Mを再構成する際には、メッシュ位置に応じて、当該メッシュの色や模様や質感を表すテクスチャを貼り付ける、いわゆるテクスチャマッピングを行う。テクスチャマッピングは、3Dモデル22Mのリアリティを向上させるために、視点位置に応じた(View Dependent:以下VDと呼ぶ)テクスチャを貼り付けるのが望ましい。これにより、3Dモデル22Mを任意の仮想視点から撮像した際に、視点位置に応じてテクスチャが変化するため、より高画質の仮想画像が得られる。しかし、伝送に必要な帯域が増大するため、3Dモデル22Mには、視線位置に依らない(View Independent:以下VIと呼ぶ)テクスチャを貼り付けてもよい。
 読み出された3Dモデル22Mを含むVolumetric映像24は、背景映像26aに重畳されて、再生装置である例えば携帯端末80に伝送されて再生される。3Dモデル22Mのレンダリングが行われて、3Dモデル22Mを含むVolumetric映像24が再生されることにより、ユーザの携帯端末80に3D形状を有する映像が表示される。
[1-3.前提事項の説明-3Dモデルのデータ構造]
 次に、図3を用いて、3Dモデル22Mを表現するために必要なデータの内容を説明する。図3は、3Dモデルを表現するために必要なデータの内容を示す図である。
 被写体22の3Dモデル22Mは、被写体22の形状を示すメッシュ情報Mと、被写体22の表面の質感(色合い、模様等)を示すテクスチャ情報Tとによって表現される。
 メッシュ情報Mは、3Dモデル22Mの表面上のいくつかの部位を頂点として、それらの頂点の繋がりによって3Dモデル22Mの形状を表す(ポリゴンメッシュ)。また、メッシュ情報Mの代わりに、被写体22を観測する視点位置から被写体22の表面までの距離を表すデプス情報Dp(非図示)を用いてもよい。被写体22のデプス情報Dpは、例えば、隣接する撮像装置で撮像された画像から検出した、被写体22の同じ領域に対する視差に基づいて算出する。なお、撮像装置の代わりに測距機構を備えるセンサ(例えばTOF(Time Of Flight)カメラ)や赤外線(IR)カメラを設置して、被写体22までの距離を得てもよい。
 本実施形態では、テクスチャ情報Tとして2通りのデータを使用する。1つは、3Dモデル22Mを観測する視点位置に依らない(VI)テクスチャ情報Taである。テクスチャ情報Taは、3Dモデル22Mの表面のテクスチャを、例えば、図3に示すUVテクスチャマップのような展開図の形式で記憶したデータである。即ち、テクスチャ情報Taは、視点位置に依らないデータである。例えば、3Dモデル22Mが洋服を着た人物である場合に、テクスチャ情報Taとして、洋服の模様と人物の皮膚や毛髪とを含むUVテクスチャマップが用意される。そして、3Dモデル22Mを表すメッシュ情報Mの表面に、当該メッシュ情報Mに対応するテクスチャ情報Taを貼り付ける(VIレンダリング)ことによって、3Dモデル22Mを描画することができる。そして、このとき、3Dモデル22Mの観測位置が変化した場合であっても、同じ領域を表すメッシュには同じテクスチャ情報Taを貼り付ける。このように、テクスチャ情報Taを用いたVIレンダリングは、3Dモデル22Mが着用している洋服のテクスチャ情報Taを、洋服の部位を表す全てのメッシュに貼り付けることによって実行されるため、一般に、データサイズが小さく、レンダリング処理の計算負荷も軽い。但し、貼り付けられたテクスチャ情報Taは一様であって、観測位置を変更してもテクスチャは変化しないため、テクスチャの品質は一般に低い。
 もう1つのテクスチャ情報Tは、3Dモデル22Mを観測する視点位置に依存する(VD)テクスチャ情報Tbである。テクスチャ情報Tbは、被写体22を多視点から観測した画像の集合によって表現される。即ち、テクスチャ情報Tbは、視点位置に応じたデータである。具体的には、被写体22をN台のカメラで観測した場合、テクスチャ情報Tbは、各カメラが同時に撮像したN枚の画像で表現される。そして、3Dモデル22Mの任意のメッシュに、テクスチャ情報Tbをレンダリングする場合、N枚の画像の中から、該当するメッシュに対応する領域を全て検出する。そして、検出された複数の領域にそれぞれ写ったテクスチャを重み付けして、該当するメッシュに貼り付ける。このように、テクスチャ情報Tbを用いたVDレンダリングは、一般に、データサイズが大きく、レンダリング処理の計算負荷は重い。しかし、貼り付けられたテクスチャ情報Tbは、観測位置に応じて変化するため、テクスチャの品質は一般に高い。
[1-4.撮像表示装置の概略構成]
 次に、図4と図5を用いて、第1の実施形態の映像処理システム10aが備える撮像表示装置の概略構成を説明する。図4は、スタジオに設置された撮像表示装置の概略構成を示す図である。図5は、表示パネルのON/OFFとカメラのON/OFFのタイミング制御の一例を示す図である。
 Volumetricスタジオ14aにおいて、被写体22の周囲には、被写体22を取り囲むように複数のカメラ16(16a,16b,16c…)が配置されている。そして、隣り合うカメラ16の隙間を埋めるように、複数の表示パネル17(17a,17b,17c…)が配置されている。表示パネル17は、例えばLEDパネル、液晶パネル、有機ELパネル等である。複数のカメラ16と複数の表示パネル17とは、撮像表示装置13aを構成する。なお、図4において、カメラ16と表示パネル17とは、被写体22の周囲一列に配置されているが、カメラ16と表示パネル17とは、Volumetricスタジオ14aの上下方向に、複数列に亘って配置されてもよい。
 撮像表示装置13aにおいて、複数のカメラ16は、被写体22の3Dモデル22Mを生成するために、同時刻に被写体22を撮像する。即ち、複数のカメラ16の撮像タイミングは同期制御されている。
 また、撮像表示装置13aにおいて、複数の表示パネル17には、仮想カメラ提示情報20が表示される。なお、仮想カメラ提示情報20について、詳しくは後述する(図7参照)。
 なお、カメラ16の撮像タイミングと、表示パネル17の表示タイミングとは重ならないようにタイミング制御される。詳しくは後述する(図5参照)。
 撮像表示装置13の構成は、撮像表示装置13aに限定されるものではない。図4に示す撮像表示装置13bは、表示パネル17(17a,17b,17c…)の代わりに、プロジェクタ28(28a,28b,28c…)と、プロジェクタ28が投影した画像情報が投影される透過型スクリーン18(18a,18b,18c…)とを備える。
 プロジェクタ28は、透過型スクリーン18の背面側から、仮想カメラ提示情報20を投影する。
 また、図4に示す撮像表示装置13cは、表示パネル17(17a,17b,17c…)の代わりに、プロジェクタ29(29a,29b,29c…)と、当該プロジェクタ29が投影した画像情報が投影される反射型スクリーン19(19a,19b,19c…)とを備える。
 プロジェクタ28は、反射型スクリーン19の正面側から、仮想カメラ提示情報20を投影する。
 また、本開示の最も簡易的な実現形態として、図示はしないが、表示パネル17の代わりに、全周位に亘ってレーザビームを投光可能なレーザポインタのような投影装置を用いて、仮想視点の位置を、輝点として提示してもよい。
 カメラ16による被写体22の撮像と、表示パネル17(またはプロジェクタ28、29)への仮想カメラ提示情報20の表示とは、図5に示すタイミングチャートに基づいて制御される。
 具体的には、撮像表示装置13は、カメラ16の撮像動作と、表示パネル17(またはプロジェクタ28、29)への視覚情報の提示とを、時間的に交互に行う。即ち、カメラ16が被写体22の撮像を行う際には、表示パネル17(またはプロジェクタ28、29)への視覚情報の提示(仮想カメラ提示情報20の表示)は行われない。一方、表示パネル17(またはプロジェクタ28、29)に仮想カメラ提示情報20を提示する際には、カメラ16による被写体22の撮像を行わない。これによって、カメラ16が被写体22の撮像を行った際に、背景に仮想カメラ提示情報20が写り込むのを防止する。
 図5では、カメラ16が撮像を行う時間と、表示パネル17(またはプロジェクタ28、29)に視覚情報(仮想カメラ提示情報20)を提示する時間を略等しく描いているが、これらの時間の比率は、被写体22の動きを確実に撮像できて、尚且つ、被写体22が、仮想カメラ提示情報20を十分に視認することができるように設定される。
 なお、映像処理装置12aは、撮像した被写体22を含む画像の中から、被写体22を分離する処理を行う。そのため、当該処理を行っている際に、表示パネル17(またはプロジェクタ28、29)に仮想カメラ提示情報20を表示してもよい。また、被写体22を確実かつ容易に分離するために、IRカメラとIRライトを用いて撮像してもよい。
[1-5.仮想カメラ提示情報の説明]
 次に、図6、図7、図8を用いて、仮想カメラ提示情報20の具体例を説明する。図6は、表示パネルに表示される仮想カメラ提示情報の一例を示す図である。図7は、仮想カメラ提示情報の具体例を示す第1の図である。図8は、仮想カメラ提示情報の具体例を示す第2の図である。
 図6に示すように、Volumetricスタジオ14aの内壁面15には、H軸に沿う縦方向とθ軸に沿う横方向に、複数の表示パネル17が敷き詰められている。そして、4枚の表示パネル17の隣接位置には、カメラ16が設置されている。
 図1に示した映像処理装置12aは、仮想視点に対応する位置に、画枠21を表示する。そして、画枠21の中には、例えば図7に示す仮想カメラ提示情報20が表示される。画枠21は、例えば矩形状であり、映像処理装置12aから指示された、左上頂点(θo,ho)、横幅Wa、高さHaの位置に設定される。そして、設定された画枠21の内部に、仮想カメラ提示情報20が表示される。
 なお、図6に示すように、設定される画枠21は、複数の表示パネル17と重複するものであってもよい。また、映像処理装置12aが設定する仮想視点の数は1つに限らないため、一般に、Volumetricスタジオ14aの内壁面15には、複数の画枠21が設定される。
 このようにして設定された画枠21には、例えば、図7に示す仮想カメラ提示情報20が表示される。
 図7に示す仮想カメラ提示情報20a(20)は、画枠21の内部に、カメラアイコン30と、タリーランプ31と、カメラマンアイコン32と、カメラ名33とを含む。仮想カメラ提示情報20a(20)は、映像処理装置12aが設定した仮想視点の位置を被写体22に知らせる情報である。なお、仮想カメラ提示情報20は、本開示における仮想視点に係る情報の一例である。
 カメラアイコン30は、映像処理装置12aが設定した仮想視点の位置に置かれた仮想カメラを模擬したアイコンである。カメラアイコン30は、被写体22と仮想視点との距離、仮想視点における視線方向を模擬した形態で表示される。また、カメラアイコン30は、Volumetricスタジオ14aの内壁面15の向こう側から被写体22を覗き込むような形態で表示される。
 タリーランプ31は、仮想視点の位置に置かれた仮想カメラの動作状態を示す。例えば、仮想カメラが撮像及び配信を行っている場合(On Air状態)には、タリーランプ31が赤色に点灯する。また、仮想カメラが撮像のみを行っている場合には、タリーランプ31が緑色に点灯する。
 カメラマンアイコン32は、仮想視点をコントロールするオペレータに一意に対応付けられたアイコンであり、予め設定された任意のアイコンが表示される。被写体22は、カメラマンアイコン32を確認することによって、仮想視点の位置を設定しているオペレータが誰であるかを認識することができる。なお、被写体22と仮想視点の距離に応じて、カメラマンアイコン32の大きさを変化させてもよい。例えば、被写体22と仮想視点の距離が近いほど、カメラマンアイコン32を大きく表示してもよい。また、カメラマンアイコン32は、オペレータ自身を撮像した映像であってもよい。
 カメラ名33は、仮想カメラに一意に対応付けられた識別情報であり、予め設定された任意の名称が表示される。
 仮想カメラ提示情報20は、設定された仮想視点の状態に応じた形態に変化する。図7に示す仮想カメラ提示情報20b(20)は、仮想カメラ提示情報20aとは異なる仮想視点に係る情報を表示したものである。より具体的には、仮想カメラ提示情報20b(20)は、仮想カメラ提示情報20a(20)とは別の仮想カメラの情報である。また、仮想視点における視線方向が、仮想カメラ提示情報20aとは異なっている。
 また、仮想カメラ提示情報20bに表示されたカメラアイコン30およびカメラマンアイコン32は、仮想カメラ提示情報20aにおけるカメラアイコン30およびカメラマンアイコン32よりも大きく描画されている。これは、仮想カメラ提示情報20bが示す仮想視点の位置は、仮想カメラ提示情報20aが示す仮想視点の位置よりも被写体22に近いことを示している。
 なお、図7には図示しないが、仮想視点と被写体22とが近いほど、画枠21の大きさを大きくしてもよい。
 図8に示す仮想カメラ提示情報20c(20)は、映像処理装置12aによって仮想視点をコントロールするオペレータが、被写体22に対するメッセージを表示した例である。即ち、仮想カメラ提示情報20c(20)は、メッセージ情報37を含む。
[1-6.仮想カメラ提示情報のバリエーション]
 次に、図9から図12を用いて、仮想カメラ提示情報20のバリエーションを説明する。図9は、仮想カメラ提示情報の代表的なバリエーションを示す図である。
 図9において、仮想カメラ提示情報20d(20)は、仮想カメラが被写体22の方向を向いていることを示す。
 仮想カメラ提示情報20d(20)が提示された状態で、別の仮想カメラが接近した場合、映像処理装置12aは、仮想カメラ提示情報20e(20)を提示する。仮想カメラ提示情報20e(20)は、「1カメ」と「2カメ」が互いに接近した状態にあることを示す。なお、このように複数のカメラをグループ化した状態で表示された仮想カメラ提示情報20を、特に、仮想カメラグループ提示情報200と呼ぶ。
 また、仮想カメラ提示情報20d(20)が提示された状態で、仮想カメラが被写体22に接近した場合、仮想カメラ提示情報20f(20)が提示される。仮想カメラ提示情報20f(20)は、カメラアイコン30が、より大きく描画されることによって、仮想カメラが被写体22に接近したことを示す。なお、このときに、画枠21をより大きく描画してもよい。また、図9には図示しないが、仮想カメラが被写体22から遠ざかった場合は、カメラアイコン30がより小さく描画される。
 仮想カメラ提示情報20g(20)は、仮想カメラ提示情報20d(20)が提示された状態から、仮想カメラの向きが変化した場合に提示される情報である。図9の仮想カメラ提示情報20g(20)は、仮想カメラが右に向きを変えたことを示している。
 仮想カメラ提示情報20h(20)は、仮想視点に置かれた仮想カメラが、実際に撮影を開始した状態であることを示す。この場合、タリーランプ31の表示形態が、撮影中であることを示す状態に変更される。
 図10は、仮想カメラが、表示パネルがない位置に設定されていることを示す仮想カメラ提示情報の一例を示す図である。
 仮想視点(仮想カメラ)は、被写体22を取り囲むいずれの位置にも設置することができる。そのため、Volumetricスタジオ14aの天井や床面のように、表示パネル17を設置できない、あるいは設置が困難な位置にも、仮想カメラを設置することができる。このような場合、映像処理装置12aは、仮想カメラ提示情報20の中に、仮想カメラが表示パネル17の設置位置の外側にあることを示すカメラ位置表示アイコン34を表示する。
 図10に示す仮想カメラ提示情報20i(20)は、カメラ位置表示アイコン34a(34)を含む。カメラ位置表示アイコン34a(34)は、仮想カメラが、Volumetricスタジオ14aの内壁面15の天井に設定されていることを示す。
 また、仮想カメラ提示情報20j(20)は、カメラ位置表示アイコン34b(34)を含む。カメラ位置表示アイコン34b(34)は、仮想カメラが、Volumetricスタジオ14aの内壁面15の床面に設定されていることを示す。
 図10に示す仮想カメラ提示情報20k(20)は、カメラ位置表示アイコン34c(34)を含む。カメラ位置表示アイコン34c(34)は、カメラ位置表示アイコン34a(34)を変形したアイコンである。カメラ位置表示アイコン34c(34)は、仮想カメラが、天井のどのあたりに設定されているかを示す。カメラ位置表示アイコン34c(34)が含む矩形領域は、仮想カメラの設定位置を示している。仮想カメラが、仮想カメラ提示情報20k(20)が表示されている側の最上部(天井)に設定されている場合、カメラ位置表示アイコン34c(34)が含む矩形領域は、カメラ位置表示アイコン34c(34)の最下部に表示される。一方、仮想カメラが、仮想カメラ提示情報20k(20)が表示されている側の背面側の最上部(天井)に設定されている場合、カメラ位置表示アイコン34c(34)が含む矩形領域は、カメラ位置表示アイコン34c(34)の最上部に表示される。また、仮想カメラが被写体22の真上に設置されている場合、カメラ位置表示アイコン34c(34)が含む矩形領域は、カメラ位置表示アイコン34c(34)の中央に表示される。
 また、仮想カメラ提示情報20l(20)は、カメラ位置表示アイコン34d(34)を含む。カメラ位置表示アイコン34d(34)は、カメラ位置表示アイコン34b(34)を変形したアイコンである。カメラ位置表示アイコン34d(34)は、仮想カメラが、床面のどのあたりに設定されているかを示す。カメラ位置表示アイコン34d(34)が含む矩形領域は、仮想カメラの設定位置を示している。仮想カメラが、仮想カメラ提示情報20l(20)が表示されている側の最下部(床面)に設定されている場合、カメラ位置表示アイコン34d(34)が含む矩形領域は、カメラ位置表示アイコン34d(34)の最上部に表示される。一方、仮想カメラが、仮想カメラ提示情報20l(20)が表示されている側の背面側の最下部(床面)に設定されている場合、カメラ位置表示アイコン34d(34)が含む矩形領域は、カメラ位置表示アイコン34c(34)の最下部に表示される。また、仮想カメラが被写体22の真下に設置されている場合、カメラ位置表示アイコン34d(34)が含む矩形領域は、カメラ位置表示アイコン34d(34)の中央に表示される。
 図11は、仮想カメラ提示情報が、仮想カメラのカメラワークを表示した例を示す図である。
 図11に示す画枠21の中に表示される仮想カメラ提示情報20m(20)は、映像処理装置12aが生成した仮想カメラの移動軌跡を示すカメラワーク情報35と、カメラワーク36とを含む。なお、カメラワーク情報35は、カメラワークの名称を示す。
 カメラワーク36は、仮想カメラの実際の動きの方向を示す矢印である。仮想カメラの動きを矢印で表現することによって、被写体22は、仮想カメラの動きを予測してパフォーマンスを行うことができる。なお、図11に示すように、カメラワーク36を示す矢印の前方を濃く表示して、カメラワーク36を示す矢印の後方を徐々に薄く表示することによって、カメラワークの方向を強調してもよい。
 また、仮想カメラの移動速度が遅い場合は、図11に示すように、現在の仮想カメラの位置をカメラワーク36に重畳して逐次表示してもよいが、仮想カメラの移動速度が速い場合は、カメラワーク36の終点に仮想カメラの位置を表示してもよい。
 図12は、複数の仮想カメラの設定位置が重複した場合の仮想カメラ提示情報の一例を示す図である。
 映像処理装置12aは、Volumetricスタジオ14aの内壁面15に、複数の仮想カメラを設定する。設定された複数の仮想カメラは、それぞれ自由に移動する。したがって、複数の仮想カメラの位置が接近する場合がある。
 図12は、設定された2つの仮想カメラが、時刻tの経過とともに、互いに接近する方向に移動した後、すれ違って遠ざかる様子を示している。
 この場合、最初は、各仮想カメラに対応する仮想カメラ提示情報20n1(20)と仮想カメラ提示情報20n2(20)とが表示される。そして、2つの仮想カメラの位置が接近した場合、1つの画枠21に、仮想カメラ提示情報20n3(20)、即ち仮想カメラグループ提示情報200が表示される。仮想カメラグループ提示情報200は、分割された1枚の画枠21の中に、接近した位置にある複数の仮想カメラの仮想カメラ提示情報20を含む。
 その後、2つの仮想カメラがすれ違った後は、再び、各仮想カメラに対応する仮想カメラ提示情報20n1(20)と仮想カメラ提示情報20n2(20)とが表示される。
[1-7.第1の実施形態の映像処理システムの機能構成]
 次に、図13と図14を用いて、映像処理システム10aの機能構成を説明する。図13は、第1の実施形態の映像処理システムの機能構成の一例を示す機能ブロック図である。図14は、仮想カメラ情報生成部の入出力情報の一例を示す図である。
 図13に示すように、映像処理システム10aは、映像処理装置12aと、撮像表示装置13を構成するカメラ16と表示パネル17とを備える。また、映像処理システム10aは、周辺機器であるリモコン54と、インカム55と、マイク56と、スピーカ57と、視聴デバイス53aとを備える。なお、カメラ16と表示パネル17の機能は、前述した通りであるため、説明を省略する。
 映像処理装置12aは、コントローラ40と、仮想カメラ情報生成部41と、仮想カメラ提示情報生成部42と、UI部43と、スタジオ内映像表示部44と、音声出力部45と、Volumetric映像撮影部46と、Volumetric映像生成部47と、マスタオーディオ出力部48と、オーディオ収録部49と、CG背景生成部50と、Volumetric映像・CG重畳/オーディオMUX部51と、配信部52とを備える。これらの機能部は、コンピュータの構成を備える映像処理装置12aのCPUが、映像処理装置12aの動作を制御する非図示の制御プログラムを実行することによって実現される。また、映像処理装置12aの全て、または一部の機能を、ハードウエアによって実現してもよい。
 コントローラ40は、仮想カメラに係る情報を生成する。コントローラ40は、例えば、ジョイスティックや選択ボタン等の操作デバイスを備えた情報入力装置であり、ユーザの操作指示に応じて、仮想視点の位置やカメラワーク情報等を設定する。なお、映像処理装置12aは、複数のコントローラ40を備えることによって、複数の仮想視点を設定可能である。
 また、コントローラ40は、非図示のカメラとマイクとを備える。コントローラ40が備えるカメラは、仮想視点をコントロールするオペレータを撮像する。また、コントローラ40が備えるマイクは、仮想視点をコントロールするオペレータの発話(音声)を取得する。
 コントローラ40は、更に、仮想視点をコントロールするオペレータのメッセージを選択、送信する選択ボタン等の操作デバイスを備える。
 仮想カメラ情報生成部41は、コントローラ40から、仮想視点に係る情報およびオペレータに係る情報を取得する。仮想視点に係る情報は、例えば、図14に示す仮想カメラ位置情報Faと、カメラワーク情報Fbと、カメラ情報Ffとを含む。また、オペレータに係る情報は、例えば、図14に示すオペレータ映像Fcと、オペレータ音声Fdと、オペレータメッセージFeとを含む。なお、仮想カメラ情報生成部41は、本開示における第2の取得部の一例である。
 仮想カメラ位置情報Faは、仮想カメラの位置座標、仮想カメラの向き、仮想カメラの画角等を含む。仮想カメラ位置情報Faは、コントローラ40が備えるジョイスティック等の操作デバイスの操作によって設定される。
 カメラワーク情報Fbは、仮想カメラの移動軌跡に係る情報である。カメラワーク情報Fbは、具体的には、カメラワーク開始位置、カメラワーク終了位置、開始位置と終了位置の間の軌跡、仮想カメラの移動速度、カメラワークの名称等を含む。カメラワーク情報Fbは、コントローラ40が備える選択ボタン等の操作デバイスの操作によって設定される。
 カメラ情報Ffは、仮想視点に係る、カメラ番号、カメラ名、カメラ状態、カメラアイコン/イメージ、カメラ優先度等の情報を含む。
 オペレータ映像Fcは、仮想視点をコントロールするオペレータ自身を撮像した映像である。映像処理装置12aは、オペレータ映像Fcを、カメラマンアイコン32(図7参照)の代わりに、仮想カメラ提示情報20の中に表示してもよい。
 オペレータ音声Fdは、仮想視点をコントロールするオペレータが被写体22に伝える音声メッセージである。
 オペレータメッセージFeは、仮想視点をコントロールするオペレータが被写体22に伝えるテキストメッセージである。オペレータメッセージFeは、コントローラ40が備える選択ボタン等の操作デバイスの操作によって設定される。
 仮想カメラ情報生成部41は、取得した各種情報を仮想カメラ毎に纏めた仮想カメラ情報F(図14参照)を生成する。そして、仮想カメラ情報生成部41は、生成した仮想カメラ情報Fを仮想カメラ提示情報生成部42に送る。なお、カメラワーク情報Fbについては、仮想カメラ情報生成部41の内部でカメラワークの再生状態を管理して、カメラワーク再生中であれば、仮想カメラの位置情報を逐次更新する。
 仮想カメラ提示情報生成部42は、表示パネル17に提示する仮想カメラ提示情報20を生成する。より具体的には、仮想カメラ提示情報生成部42は、被写体22の3Dモデル22Mを、ユーザの視聴デバイスに応じた形態の画像にレンダリングする際の仮想視点に係る情報を生成する。より具体的には、仮想カメラ情報Fが有する仮想カメラの位置座標、カメラ情報に基づき、必要に応じて、いずれも前述した、タリーランプ31の表示色の変更、複数の仮想カメラ提示情報20の合成、仮想カメラが天井や床面にあることを示すカメラ位置表示アイコン34の生成等を行うことによって、仮想カメラ提示情報20を生成する。更に、仮想カメラ提示情報生成部42は、音声出力部45から出力する音声出力を生成する。
 UI部43は、被写体22またはディレクターが所持するリモコン54から、映像処理装置12aが使用する各種パラメータの設定変更等を行う。被写体22は、UI部43を操作することによって、仮想視点をコントロールする特定のオペレータを選択して、選択したオペレータと音声会話を行う。なお、UI部43は、本開示における選択部の一例である。
 スタジオ内映像表示部44は、仮想カメラ提示情報生成部42から受け取った仮想カメラ提示情報20を、複数の表示パネル17の対応する位置に表示する。なお、スタジオ内映像表示部44は、本開示における提示部の一例である。
 音声出力部45は、仮想カメラ情報Fから受け取った音声データをインカム55に出力する。これによって、仮想視点をコントロールするオペレータの各種指示を被写体22に伝達する。
 Volumetric映像撮影部46は、被写体22の周囲に配置されて、外部同期された複数のカメラ16を用いて、複数の方向から同時に撮像した被写体22の実画像を撮像する。また、Volumetric映像撮影部46は、撮像によって得られた実カメラ映像Iを、フレーム番号と、撮像したカメラ16を特定する識別情報とを含むVolumetricカメラ映像データとして、Volumetric映像生成部47に送る。なお、Volumetric映像撮影部46は、本開示における第1の取得部の一例である。
 Volumetric映像生成部47は、Volumetric映像撮影部46からVolumetricカメラ映像データを受け取って、Volumetric映像生成処理を行う。なお、Volumetric映像生成部47は、カメラ16の歪補正を行うための内部キャリブレーション、および各カメラ16の相対位置を求める外部キャリブレーションを行ったキャリブレーションデータを保持しており、当該キャリブレーションデータを用いて、撮像した実カメラ映像Iを補正する。そして、Volumetric映像生成部47は、Volumetric映像撮影部46が取得したVolumetricカメラ映像データに基づいて、被写体22のモデリング処理、即ち3Dモデル22Mの生成を行う。その後、Volumetric映像生成部47は、取得した仮想カメラ位置情報に基づいて、被写体22の3Dモデル22Mを仮想視点から見たVolumetric映像のレンダリングを行う。Volumetric映像生成部47は、レンダリングしたVolumetric映像とフレーム番号と仮想カメラ情報Fとを、Volumetric映像・CG重畳/オーディオMUX部51に送る。なお、Volumetric映像生成部47は、本開示における生成部の一例である。
 マスタオーディオ出力部48は、被写体22が歌唱やダンスパフォーマンスを行う際の楽曲をスピーカ57から出力する。また、マスタオーディオ出力部48は、当該楽曲のオーディオデータを、オーディオ収録部49に送る。
 オーディオ収録部49は、マスタオーディオ出力部48からのオーディオデータと、マイク56から入力されたオーディオデータ(例えば、被写体22の歌唱データ)とをミックスしたオーディオデータを生成して、Volumetric映像・CG重畳/オーディオMUX部51に送る。
 CG背景生成部50は、予め用意された背景CGデータに基づき、フレーム番号付きの背景CGデータを生成する。そして、CG背景生成部50は、生成した背景CGデータをVolumetric映像・CG重畳/オーディオMUX部51に送る。
 Volumetric映像・CG重畳/オーディオMUX部51は、取得したVolumetric映像データと背景CGデータとを、Volumetric映像データに含まれる仮想カメラ位置情報に基づいてレンダリング処理及び重畳処理することによって、仮想視点から見た、例えば2D映像を生成する。そして、Volumetric映像・CG重畳/オーディオMUX部51は、生成した2D映像とオーディオ情報とを多重化(MUX)した配信コンテンツを、配信部52に送る。なお、ユーザの視聴デバイス53aが3次元情報を表示可能なデバイスである場合、Volumetric映像・CG重畳/オーディオMUX部51は、被写体22の3Dモデル22Mを3D画像にレンダリングすることによって、3D映像を生成する。
 配信部52は、Volumetric映像・CG重畳/オーディオMUX部51から受け取ったコンテンツを、視聴デバイス53aに向けて配信する。
 周辺機器として用意されるリモコン54は、映像処理装置12aが使用する各種パラメータの設定変更等を行う。
 インカム55は、被写体22が装着して、仮想視点をコントロールするオペレータからの音声を聞く。
 マイク56は、被写体22の歌声や会話を録音する。
 スピーカ57は、被写体22が、撮影時に聞く音楽等を出力する。
 視聴デバイス53aは、ユーザが、12aから配信されたコンテンツを視聴するために用いるデバイスである。視聴デバイス53aは、例えば、タブレット端末やスマートフォン等である。
[1-8.第1の実施形態の映像処理システムが行う処理の全体の流れ]
 図15を用いて、映像処理システム10aが行う処理の全体の流れを説明する。
 仮想カメラ情報生成部41は、仮想カメラ情報Fを生成する仮想カメラ情報生成処理を行う(ステップS11)。なお、仮想カメラ情報生成処理の詳細は後述する(図16参照)。
 仮想カメラ提示情報生成部42は、仮想カメラ提示情報20を生成する仮想カメラ提示情報生成処理を行う(ステップS12)。なお、仮想カメラ提示情報生成処理の詳細は後述する(図17参照)。
 スタジオ内映像表示部44は、仮想カメラ提示情報20を、表示パネル17の対応する位置に提示する映像を生成して、生成した映像を表示パネル17に出力する仮想カメラ提示情報出力処理を行う(ステップS13)。なお、仮想カメラ提示情報出力処理の詳細は後述する(図17,図27参照)。
 Volumetric映像生成部47は、Volumetric映像撮影部46から受け取ったVolumetricカメラ映像データに基づいてVolumetric映像を生成するVolumetric映像生成処理を行う(ステップS14)。なお、Volumetric映像生成処理の流れは後述する(図28参照)。
 Volumetric映像・CG重畳/オーディオMUX部51は、Volumetric映像と背景映像の重畳処理を行う(ステップS15)。なお、Volumetric映像と背景映像の重畳処理の流れは後述する(図29参照)。
 配信部52は、Volumetric映像・CG重畳/オーディオMUX部51から受け取ったコンテンツを、視聴デバイス53aに向けて配信する配信処理を行う(ステップS16)。
[1-9.仮想カメラ情報生成処理の流れ]
 図16を用いて、仮想カメラ情報生成処理の流れを説明する。図16は、図15における仮想カメラ情報生成処理の流れの一例を示すフローチャートである。
 仮想カメラ情報生成部41は、コントローラ40から、仮想カメラ位置情報Faとカメラワーク情報Fbを取得する(ステップS21)。
 仮想カメラ情報生成部41は、カメラワーク情報Fbに基づき、カメラワークキューを更新する(ステップS22)。
 仮想カメラ情報生成部41は、カメラワークキューに再生中のカメラワークがあるかを判定する(ステップS23)。再生中のカメラワークがあると判定される(ステップS23:Yes)とステップS24に進む。一方、再生中のカメラワークがあると判定されない(ステップS23:No)とステップS26に進む。
 ステップS23において、再生中のカメラワークがあると判定されると、仮想カメラ情報生成部41は、仮想カメラ位置情報Faを、現在再生中のカメラワークのフレーム番号とカメラワーク情報Fbに基づき更新する(ステップS24)。
 次に、仮想カメラ情報生成部41は、仮想カメラ情報Fを生成して、現在のカメラワークに基づき、カメラワーク名と再生フレーム番号を設定する(ステップS25)。その後、メインルーチン(図15)に戻る。
 一方、ステップS23において、再生中のカメラワークがあると判定されないと、仮想カメラ情報生成部41は、カメラワーク名と再生フレーム番号をクリアすることによって、その時点における仮想カメラの位置を維持する(ステップS26)。その後、メインルーチン(図15)に戻る。
[1-10.仮想カメラ提示情報生成処理の流れ]
 図17を用いて、仮想カメラ情報生成処理の流れを説明する。図17は、図15における仮想カメラ提示情報生成処理の流れの一例を示すフローチャートである。
 仮想カメラ提示情報生成部42は、現在のフレーム番号の全ての仮想カメラ情報Fを取得する(ステップS31)。
 仮想カメラ提示情報生成部42は、仮想カメラ提示情報20を生成する(ステップS32)。
 仮想カメラ提示情報生成部42は、生成した仮想カメラ提示情報20に基づいて、近傍のカメラをグループ化して仮想カメラグループ提示情報200を生成する(ステップS33)。
 仮想カメラ提示情報生成部42は、仮想カメラグループ提示情報200に基づいて、仮想カメラグループ表示タイプ判定処理を行う(ステップS34)。なお、仮想カメラグループ表示タイプ判定処理の詳細は後述する(図18参照)。
 仮想カメラ提示情報生成部42は、同じグループに含まれる仮想カメラ情報Fを、カメラ状態やカメラ優先度に基づいてソートする仮想カメラグループ優先度判定処理を行う(ステップS35)。なお、仮想カメラグループ優先度判定処理の詳細は後述する(図19参照)。
 仮想カメラ提示情報生成部42は、仮想カメラグループ提示情報200を生成する仮想カメラグループ提示情報生成処理を行う(ステップS36)。なお、仮想カメラグループ提示情報生成処理の詳細は後述する(図20参照)。
 仮想カメラ提示情報生成部42は、被写体22に提示する音声出力を生成する仮想カメラグループ音声生成処理を行う(ステップS37)。なお、仮想カメラグループ音声生成処理の詳細は後述する(図26参照)。その後、メインルーチン(図15)に戻る。
[1-10-1.仮想カメラグループ表示タイプ判定処理の流れ]
 図18を用いて、図17のステップS34に示した仮想カメラグループ表示タイプ判定処理の流れを説明する。図18は、図17における仮想カメラグループ表示タイプ判定処理の流れの一例を示すフローチャートである。
 仮想カメラ提示情報生成部42は、仮想カメラの数が2以上で、仮想カメラをグループ表示する際の最大分割数が2以上であるかを判定する(ステップS41)。条件を満足する場合(ステップS41:Yes)はステップS42に進む。一方、条件を満足しない場合(ステップS41:No)はステップS43に進む。
 ステップS41において、条件を満足すると判定されると、仮想カメラ提示情報生成部42は、仮想カメラの数が4以上で、仮想カメラをグループ表示する際の最大分割数が4以上であるかを判定する(ステップS42)。条件を満足する場合(ステップS42:Yes)は、仮想カメラの数、および仮想カメラをグループ表示する際の最大分割数を増やして、ステップS41,ステップS42と同様の判定を続ける。一方、条件を満足しない場合(ステップS42:No)はステップS45に進む。
 ステップS41,ステップS42と同様の判定を続けて、条件を満足すると判定されると、仮想カメラ提示情報生成部42は、仮想カメラの数が7以上で、仮想カメラをグループ表示する際の最大分割数が7以上であるかを判定する(ステップS44)。条件を満足する場合(ステップS44:Yes)はステップS47に進む。一方、条件を満足しない場合(ステップS44:No)はステップS46に進む。
 ステップS41において、条件を満足しない(ステップS41:No)と判定されると、仮想カメラ提示情報生成部42は、仮想カメラ表示タイプを1、即ち、仮想カメラ表示分割数を1とする(ステップS43)。その後、図17のフローチャートに戻る。
 ステップS42において、条件を満足しない(ステップS42:No)と判定されると、仮想カメラ提示情報生成部42は、仮想カメラ表示タイプを2、即ち、仮想カメラ表示分割数を2とする(ステップS43)。その後、図17のフローチャートに戻る。
 ステップS44において、条件を満足しない(ステップS44:Yes)と判定されると、仮想カメラ提示情報生成部42は、仮想カメラ表示タイプを64、即ち、仮想カメラ表示分割数を64とする(ステップS43)。その後、図17のフローチャートに戻る。
 ステップS44において、条件を満足しない(ステップS44:No)と判定されると、仮想カメラ提示情報生成部42は、仮想カメラ表示タイプを49、即ち、仮想カメラ表示分割数を49とする(ステップS43)。その後、図17のフローチャートに戻る。
[1-10-2.仮想カメラグループ優先度判定処理の流れ]
 図19を用いて、図17のステップS35に示した仮想カメラグループ優先度判定処理の流れを説明する。図19は、図17における仮想カメラグループ優先度判定処理の流れの一例を示すフローチャートである。
 仮想カメラ提示情報生成部42は、同じグループに含まれる仮想カメラ情報Fをカメラ状態、カメラ優先度に合わせてソートする(ステップS51)。その後、図17のフローチャートに戻る。
[1-10-3.仮想カメラグループ提示情報生成処理の流れ]
 図20を用いて、図17のステップS36に示した仮想カメラグループ提示情報生成処理の流れを説明する。図20は、図17における仮想カメラグループ提示情報生成処理の流れの一例を示すフローチャートである。
 仮想カメラ提示情報生成部42は、グループに含まれる仮想カメラは1つかを判定する(ステップS61)。グループに含まれる仮想カメラは1つであると判定される(ステップS61:Yes)とステップS62に進む。一方、グループに含まれる仮想カメラは1つであると判定されない(ステップS61:No)とステップS68に進む。
 ステップS61において、グループに含まれる仮想カメラは1つであると判定されると、仮想カメラ提示情報生成部42は、画枠が表示可能な位置にあるかを判定する(ステップS62)。画枠が表示可能な位置にあると判定される(ステップS62:Yes)とステップS63に進む。一方、画枠が表示可能な位置にあると判定されない(ステップS62:No)とステップS64に進む。
 ステップS62において、画枠が表示可能な位置にあると判定されると、仮想カメラ提示情報生成部42は、通常の仮想カメラ提示情報20を生成する(ステップS63)。その後、ステップS65に進む。なお、ステップS63で行う処理の詳細な流れは後述する(図21参照)。
 ステップS62において、画枠が表示可能な位置にあると判定されないと、仮想カメラ提示情報生成部42は、位置補正した仮想カメラ提示情報20を生成する(ステップS64)。その後、ステップS65に進む。なお、ステップS64で行う処理の詳細な流れは後述する(図22参照)。
 ステップS63またはステップS64に続いて、仮想カメラ提示情報生成部42は、カメラワークが再生中であるかを判定する(ステップS65)。カメラワークが再生中であると判定される(ステップS65:Yes)と、ステップS66に進む。一方、カメラワークが再生中であると判定されないと、図17のフローチャートに戻る。
 ステップS65において、カメラワークが再生中であると判定されると、仮想カメラ提示情報生成部42は、カメラワーク表示設定がオンになっているかを判定する(ステップS66)。カメラワーク表示設定がオンになっていると判定される(ステップS66:Yes)と、ステップS67に進む。一方、カメラワーク表示設定がオンになっていると判定されない(ステップS66:No)と、図17のフローチャートに戻る。
 ステップS66において、カメラワーク表示設定がオンになっていると判定されると、仮想カメラ提示情報生成部42は、カメラワーク表示処理を行う(ステップS67)。その後、図17のフローチャートに戻る。なお、ステップS67で行う処理の詳細な流れは後述する(図25参照)。
 ステップS61に戻り、ステップS61において、グループに含まれる仮想カメラは1つであると判定されないと、仮想カメラ提示情報生成部42は、画枠が表示可能な位置にあるかを判定する(ステップS68)。画枠が表示可能な位置にあると判定される(ステップS68:Yes)とステップS69に進む。一方、画枠が表示可能な位置にあると判定されない(ステップS68:No)とステップS70に進む。
 ステップS68において、画枠が表示可能な位置にあると判定されると、仮想カメラ提示情報生成部42は、通常の仮想カメラグループ提示情報200を生成する(ステップS69)。その後、図17のフローチャートに戻る。なお、ステップS68で行う処理の詳細な流れは後述する(図23参照)。
 ステップS68において、画枠が表示可能な位置にあると判定されないと、仮想カメラ提示情報生成部42は、位置補正した仮想カメラグループ提示情報200を生成する(ステップS70)。その後、図17のフローチャートに戻る。なお、ステップS70で行う処理の詳細な流れは後述する(図24参照)。
 次に、図21を用いて、通常の仮想カメラ提示情報20の生成処理の流れを説明する。図21は、図20における仮想カメラ提示情報生成処理(通常)の流れの一例を示すフローチャートである。
 仮想カメラ提示情報生成部42は、仮想カメラ提示情報20の表示モードがノーマルであるかを判定する(ステップS71)。仮想カメラ提示情報20の表示モードがノーマルであると判定される(ステップS71:Yes)とステップS72に進む。一方、仮想カメラ提示情報20の表示モードがノーマルであると判定されない(ステップS71:No)とステップS73に進む。
 ステップS71において、仮想カメラ提示情報20の表示モードがノーマルであると判定されると、仮想カメラ提示情報生成部42は、仮想カメラ情報Fに基づいて、仮想カメラ提示情報20を生成する(ステップS72)。その後、図20のフローチャートに戻る。なお、図21に示す仮想カメラ提示情報20p1(20)は、ステップS72で生成された仮想カメラ提示情報の一例である。
 一方、ステップS71において、仮想カメラ提示情報20の表示モードがノーマルであると判定されないと、仮想カメラ提示情報生成部42は、仮想カメラを模したパーティクル38が描画された仮想カメラ提示情報20を生成する(ステップS73)。その後、図20のフローチャートに戻る。なお、図21に示す仮想カメラ提示情報20p2(20)は、ステップS73で生成された仮想カメラ提示情報の一例である。
 次に、図22を用いて、位置補正した仮想カメラ提示情報20の生成処理の流れを説明する。図22は、図20における仮想カメラ提示情報生成処理(位置補正)の流れの一例を示すフローチャートである。
 仮想カメラ提示情報生成部42は、仮想カメラ提示情報20の表示モードがノーマルであるかを判定する(ステップS81)。仮想カメラ提示情報20の表示モードがノーマルであると判定される(ステップS81:Yes)とステップS82に進む。一方、仮想カメラ提示情報20の表示モードがノーマルであると判定されない(ステップS81:No)とステップS83に進む。
 ステップS81において、仮想カメラ提示情報20の表示モードがノーマルであると判定されると、仮想カメラ提示情報生成部42は、仮想カメラ情報Fに基づいて、画角情報を更新して仮想カメラ提示情報20を生成する(ステップS82)。その後、図20のフローチャートに戻る。なお、図22に示す仮想カメラ提示情報20q1(20),20q2(20)は、ステップS82で生成されて、内壁面15に表示された仮想カメラ提示情報の一例である。
 一方、ステップS81において、仮想カメラ提示情報20の表示モードがノーマルであると判定されないと、仮想カメラ提示情報生成部42は、仮想カメラを模したパーティクルが描画された仮想カメラ提示情報20を生成する(ステップS83)。その後、図20のフローチャートに戻る。なお、図22に示す仮想カメラ提示情報20q3(20),20q4(20)は、ステップS83で生成されて、内壁面15に表示された仮想カメラ提示情報の一例である。
 次に、図23を用いて、通常の仮想カメラグループ提示情報200の生成処理の流れを説明する。図23は、図20における仮想カメラグループ提示情報生成処理(通常)の流れの一例を示すフローチャートである。
 仮想カメラ提示情報生成部42は、仮想カメラ提示情報20の表示モードがノーマルであるかを判定する(ステップS91)。仮想カメラ提示情報20の表示モードがノーマルであると判定される(ステップS91:Yes)とステップS92に進む。一方、仮想カメラ提示情報20の表示モードがノーマルであると判定されない(ステップS91:No)とステップS96に進む。
 ステップS91において、仮想カメラ提示情報20の表示モードがノーマルであると判定されると、仮想カメラ提示情報生成部42は、画枠21の分割表示枠に残りがあるかを判定する(ステップS92)。画枠21の分割表示枠に残りがあると判定される(ステップS92:Yes)とステップS93に進む。一方、画枠21の分割表示枠に残りがあると判定されない(ステップS92:No)と、図20のフローチャートに戻る。
 ステップS92において、画枠21の分割表示枠に残りがあると判定されると、仮想カメラ提示情報生成部42は、表示すべき仮想カメラがあるかを判定する(ステップS93)。表示すべき仮想カメラがあると判定される(ステップS93:Yes)とステップS94に進む。一方、表示すべき仮想カメラがあると判定されない(ステップS93:No)と、図20のフローチャートに戻る。
 ステップS93において、表示すべき仮想カメラがあると判定されると、仮想カメラ提示情報生成部42は、図21のフローチャートを実行することによって、通常の仮想カメラ提示情報20の生成処理を行う(ステップS94)。
 そして、仮想カメラ提示情報生成部42は、分割表示枠に、ステップS94で生成された仮想カメラ提示情報20を描画する(ステップS95)。その後、ステップS92に戻って、前述した処理を繰り返す。なお、図23に示す仮想カメラ提示情報200a(200)は、ステップS95で生成された情報の一例である。
 一方、ステップS91において、仮想カメラ提示情報20の表示モードがノーマルであると判定されないと、仮想カメラ提示情報生成部42は、仮想カメラを模したパーティクル38が描画された仮想カメラグループ提示情報200を生成する(ステップS96)。その後、図20のフローチャートに戻る。なお、図23に示す仮想カメラ提示情報200b(200)は、ステップS96で生成された情報の一例である。
 次に、図24を用いて、位置補正した仮想カメラグループ提示情報200の生成処理の流れを説明する。図24は、図20における仮想カメラグループ提示情報生成処理(位置補正)の流れの一例を示すフローチャートである。
 仮想カメラ提示情報生成部42は、仮想カメラ提示情報20の表示モードがノーマルであるかを判定する(ステップS101)。仮想カメラ提示情報20の表示モードがノーマルであると判定される(ステップS101:Yes)とステップS102に進む。一方、仮想カメラ提示情報20の表示モードがノーマルであると判定されない(ステップS101:No)とステップS107に進む。
 ステップS101において、仮想カメラ提示情報20の表示モードがノーマルであると判定されると、仮想カメラ提示情報生成部42は、画枠21の分割表示枠に残りがあるかを判定する(ステップS102)。画枠21の分割表示枠に残りがあると判定される(ステップS102:Yes)とステップS103に進む。一方、画枠21の分割表示枠に残りがあると判定されない(ステップS102:No)と、ステップS106に進む。
 ステップS102において、画枠21の分割表示枠に残りがあると判定されると、仮想カメラ提示情報生成部42は、表示すべき仮想カメラがあるかを判定する(ステップS103)。表示すべき仮想カメラがあると判定される(ステップS103:Yes)とステップS104に進む。一方、表示すべき仮想カメラがあると判定されない(ステップS103:No)と、ステップS106に進む。
 ステップS103において、表示すべき仮想カメラがあると判定されると、仮想カメラ提示情報生成部42は、図22のフローチャートを実行することによって、位置補正した仮想カメラ提示情報20の生成処理を行う(ステップS104)。
 そして、仮想カメラ提示情報生成部42は、分割表示枠に、ステップS104で生成された仮想カメラ提示情報20を描画する(ステップS105)。その後、ステップS102に戻って、前述した処理を繰り返す。なお、図24に示す仮想カメラ提示情報200c(200)は、ステップS105で生成された仮想カメラグループ提示情報の一例である。
 なお、ステップS102において、画枠21の分割表示枠に残りがあると判定されないか、ステップS103において、表示すべき仮想カメラがあると判定されないと、仮想カメラ提示情報生成部42は、分割表示枠を位置補正して表示する(ステップS106)。その後、図20のフローチャートに戻る。
 また、ステップS101において、仮想カメラ提示情報20の表示モードがノーマルであると判定されないと、仮想カメラ提示情報生成部42は、仮想カメラを模したパーティクルが描画された仮想カメラグループ提示情報200を生成する(ステップS107)。その後、図20のフローチャートに戻る。なお、図24に示す仮想カメラ提示情報200d(200)は、ステップS107で生成された仮想カメラグループ提示情報の一例である。
 次に、図25を用いて、カメラワークを表示するカメラワーク表示処理の流れを説明する。図25は、図20におけるカメラワーク表示処理の流れの一例を示すフローチャートである。
 仮想カメラ提示情報生成部42は、生成した仮想カメラ提示情報20から、画枠情報と、カメラワーク名と、カメラワークフレーム番号を取得する(ステップS111)。なお、画枠情報は、画枠の表示位置、画枠サイズ等を有する情報である。
 次に、仮想カメラ提示情報生成部42は、画枠情報と、カメラワーク名と、カメラワークフレーム番号とに基づいて、カメラワーク提示情報を生成する(ステップS112)。なお、カメラワーク提示情報は、例えば、図11に示したカメラワーク情報35である。
 そして、仮想カメラ提示情報生成部42は、仮想カメラ提示情報20に、カメラワーク提示情報を重畳する(ステップS113)。その後、図20のフローチャートに戻る。
[1-10-4.仮想カメラグループ音声生成処理の流れ]
 図26を用いて、図17のステップS37に示した仮想カメラグループ音声生成処理の流れを説明する。図26は、図17における仮想カメラグループ音声生成処理の流れの一例を示すフローチャートである。
 仮想カメラ提示情報生成部42は、仮想カメラ音声出力モードがALL、即ち、全ての仮想カメラ情報Fが有するオーディオデータをミックスして出力するモードであるかを判定する(ステップS121)。仮想カメラ音声出力モードがALLであると判定される(ステップS121:Yes)とステップS122に進む。一方、仮想カメラ音声出力モードがALLであると判定されない(ステップS121:No)とステップS123に進む。
 ステップS121において、仮想カメラ音声出力モードがALLであると判定されると、仮想カメラ提示情報生成部42は、音声出力部45に対して、全ての仮想カメラ情報Fのオーディオフレームデータ(ビデオフレームデータに対応するオーディオデータ)をミックスして音声出力データを生成する(ステップS122)。その後、図17に戻る。
 一方、ステップS121において、仮想カメラ音声出力モードがALLであると判定されないと、仮想カメラ提示情報生成部42は、仮想カメラ音声出力モードがOn Airカメラ、即ち、撮像および配信を行っている仮想カメラの仮想カメラ情報Fが有するオーディオデータを出力するモードであるかを判定する(ステップS123)。仮想カメラ音声出力モードがOn Airカメラであると判定される(ステップS123:Yes)とステップS124に進む。一方、仮想カメラ音声出力モードがOn Airカメラであると判定されない(ステップS123:No)とステップS125に進む。
 ステップS123において、仮想カメラ音声出力モードがOn Airカメラであると判定されると、仮想カメラ提示情報生成部42は、カメラ状態がOn Airである仮想カメラ情報Fのオーディオフレームデータから音声出力データを生成する(ステップS124)。その後、図17に戻る。
 一方、ステップS123において、仮想カメラ音声出力モードがOn Airカメラであると判定されないと、仮想カメラ提示情報生成部42は、仮想カメラ音声出力モードがTargetカメラ、即ち、指定された特定の仮想カメラ情報Fが有するオーディオデータを出力するモードであるかを判定する(ステップS125)。仮想カメラ音声出力モードがTargetカメラであると判定される(ステップS125:Yes)とステップS126に進む。一方、仮想カメラ音声出力モードがTargetカメラであると判定されない(ステップS125:No)とステップS127に進む。
 ステップS125において、仮想カメラ音声出力モードがTargetカメラであると判定されると、仮想カメラ提示情報生成部42は、指定されたカメラ番号に対応する仮想カメラ情報Fのオーディオフレームデータから音声出力データを生成する(ステップS126)。その後、図17に戻る。
 一方、ステップS125において、仮想カメラ音声出力モードがTargetカメラであると判定されないと、仮想カメラ提示情報生成部42は、無音の音声出力データを生成する(ステップS127)。その後、図17に戻る。
[1-11.仮想カメラ提示情報出力処理の流れ]
 図27を用いて、図15のステップS13に示した仮想カメラ提示情報出力処理の流れを説明する。図27は、図15における仮想カメラ提示情報出力処理の流れの一例を示すフローチャートである。
 スタジオ内映像表示部44は、仮想カメラ提示情報生成部42から仮想カメラ提示情報20を取得する(ステップS131)。なお、スタジオ内映像表示部44は、仮想カメラ提示情報生成部42から仮想カメラグループ提示情報200を取得してもよい。
 スタジオ内映像表示部44は、仮想カメラ提示情報20から、内壁面15に表示する映像を生成する(ステップS132)。
 スタジオ内映像表示部44は、ステップS132で生成した映像を各表示パネル17に出力する(ステップS133)。なお、映像をプロジェクタ28,29から投影する場合は、スタジオ内映像表示部44は、ステップS132で生成した映像を各プロジェクタ28,29に出力する。その後、図17に戻る。
[1-12.Volumetric映像生成処理の流れ]
 図28を用いて、図15のステップS14に示したVolumetric映像生成処理の流れを説明する。図28は、図15におけるVolumetric映像生成処理の流れの一例を示すフローチャートである。
 Volumetric映像生成部47は、Volumetric映像撮影部46から、カメラ16が撮像した映像データ(実カメラ映像I)を取得する(ステップS141)。
 Volumetric映像生成部47は、ステップS141で取得した映像データに基づいて、被写体22の3Dモデル22Mを生成するモデリング処理を行う(ステップS142)。
 Volumetric映像生成部47は、仮想カメラ提示情報生成部42から、仮想カメラ位置情報Faを取得する(ステップS143)。
 Volumetric映像生成部47は、仮想カメラ位置情報Faに基づいて、3Dモデル22Mを仮想視点から見たVolumetric映像のレンダリング処理を行う(ステップS144)。
 Volumetric映像生成部47は、仮想カメラ位置情報Faに基づいて、仮想視点から3Dモデル22MまでのDepth、即ち距離を計算する(ステップS145)。
 Volumetric映像生成部47は、Volumetric映像・CG重畳/オーディオMUX部51に対して、Volumetric映像データ(RGB-D)を出力する(ステップS146)。なお、Volumetric映像データは色情報(RGB)と距離情報(D)とを有する。その後、メインルーチン(図15)に戻る。
[1-13.Volumetric映像と背景映像の重畳処理の流れ]
 図29を用いて、図15のステップS15に示したVolumetric映像と背景映像の重畳処理の流れを説明する。図29は、図15におけるVolumetric映像と背景映像の重畳処理の流れの一例を示すフローチャートである。
 Volumetric映像・CG重畳/オーディオMUX部51は、Volumetric映像生成部47から、Volumetric映像データを取得する(ステップS151)。
 Volumetric映像・CG重畳/オーディオMUX部51は、CG背景生成部50から、背景CGデータを取得する(ステップS152)。
 Volumetric映像・CG重畳/オーディオMUX部51は、背景CGデータを3D描画する(ステップS153)。
 Volumetric映像・CG重畳/オーディオMUX部51は、背景CGデータが描画された3D空間上にVolumetric映像を重畳する(ステップS154)。
 Volumetric映像・CG重畳/オーディオMUX部51は、ステップS154で生成した3D空間を仮想視点から見た2D映像を生成する(ステップS155)。なお、ユーザの視聴デバイス53aが3D映像を表示可能である場合は、Volumetric映像・CG重畳/オーディオMUX部51は、3D映像を生成する。
 Volumetric映像・CG重畳/オーディオMUX部51は、ステップS155で生成した2D映像(または3D映像)を、配信部52に出力する(ステップS156)。その後、メインルーチン(図15)に戻る。
 なお、図29のフローチャートには記載しないが、Volumetric映像・CG重畳/オーディオMUX部51は、生成した2D映像(または3D映像)とオーディオ情報とを多重化(MUX)する処理も行う。
[1-14.第1の実施形態の作用効果]
 以上説明したように、第1の実施形態の映像処理装置12a(情報処理装置)は、被写体22の周囲に配置した複数のカメラ16(第1の撮像装置)がそれぞれ撮像した複数の実画像(実カメラ映像I)を取得するVolumetric映像撮影部46(第1の取得部)と、複数の実画像から、被写体22の3Dモデル22Mを生成するVolumetric映像生成部47(生成部)と、3Dモデル22Mを、視聴デバイス53aに応じた形態の画像にレンダリングする際の仮想視点に係る情報を、被写体22に提示するスタジオ内映像表示部44(提示部)と、を備える。
 これにより、Volumetricスタジオ14aにおいて、あたかも実際のカメラでカメラマンが直接撮影している状況を再現することができる。したがって、被写体22は、仮想カメラを意識したパフォーマンスを行うことができるため、配信コンテンツの臨場感をより高めることができる。
 また、第1の実施形態の映像処理装置12a(情報処理装置)は、仮想視点に係る情報を取得する仮想カメラ情報生成部41(第2の取得部)を更に備える。
 これにより、仮想カメラに係る情報を確実に簡単かつ取得することができる。
 また、第1の実施形態の映像処理装置12a(情報処理装置)において、スタジオ内映像表示部44(提示部)は、仮想視点の位置を、被写体22に提示する(例えば、仮想カメラ提示情報20a,20b)。
 これにより、あたかも、実際のカメラでカメラマンが直接撮影している状況を再現することができる。
 また、第1の実施形態の映像処理装置12a(情報処理装置)において、スタジオ内映像表示部44(提示部)は、仮想視点の位置に、当該位置に仮想視点があることを示す情報を提示する。
 これにより、被写体22は、直観的に仮想カメラの位置を把握することができる。
 また、第1の実施形態の映像処理装置12a(情報処理装置)において、スタジオ内映像表示部44(提示部)は、仮想視点がある位置を示す情報を、被写体22に提示する(例えば、仮想カメラ提示情報20i,20j,20k,20l)。
 これにより、表示パネル17やプロジェクタ28,29を設置できないスタジオであっても、仮想視点の位置を提示することができる。
 また、第1の実施形態の映像処理装置12a(情報処理装置)において、スタジオ内映像表示部44(提示部)は、仮想視点と被写体22との距離を、被写体22に提示する(例えば、仮想カメラ提示情報20f)。
 これにより、被写体22は、仮想カメラと自身との距離を直感的に把握することができる。
 また、第1の実施形態の映像処理装置12a(情報処理装置)において、スタジオ内映像表示部44(提示部)は、仮想視点からの観測方向を、被写体22に提示する(例えば、仮想カメラ提示情報20g)。
 これにより、被写体22は、仮想カメラの向きを直感的に把握することができる。
 また、第1の実施形態の映像処理装置12a(情報処理装置)において、スタジオ内映像表示部44(提示部)は、仮想視点の移動方向を、被写体22に提示する(例えば、仮想カメラ提示情報20m)。
 これにより、実際のカメラではなし得ない、Volumetricならではのカメラワークを行いながら、仮想カメラの位置を被写体22に伝えることができる。
 また、第1の実施形態の映像処理装置12a(情報処理装置)において、スタジオ内映像表示部44(提示部)は、仮想視点に置かれた仮想カメラの動作状態を、被写体22に提示する(例えば、仮想カメラ提示情報20h)。
 これにより、被写体22は、仮想カメラの動作状態を直感的に把握することができる。
 また、第1の実施形態の映像処理装置12a(情報処理装置)において、スタジオ内映像表示部44(提示部)は、仮想視点をコントロールするオペレータのメッセージを、被写体22に提示する(例えば、仮想カメラ提示情報20c)。
 これにより、被写体22は、仮想視点をコントロールするオペレータとコミュニケーションをしながらパフォーマンスを行うことができる。
 また、第1の実施形態の映像処理装置12a(情報処理装置)において、スタジオ内映像表示部44(提示部)は、複数の仮想視点の位置が接近した際に、当該複数の仮想視点に係る情報を合成して、被写体22に提示する(例えば、仮想カメラ提示情報20n3)。
(2.第2の実施形態)
[2-1.第2の実施形態の映像処理システムの概略構成]
 次に、図30を用いて、本開示の第2の実施形態である映像処理システム10bについて説明する。図30は、第2の実施形態の映像処理システムの概要を示すシステム構成図である。
 映像処理システム10bは、前述した映像処理システム10aとほぼ等しい機能を備えるが、Volumetric映像データを重畳する背景データを実カメラで撮像する点と、背景データを撮像する実カメラの位置を仮想視点として設定する点が異なる。以下、図30を用いて映像処理システム10bの概略構成を説明する。なお、映像処理システム10aと共通の構成要素については、説明を省略する。
 映像処理システム10bは、Volumetricスタジオ14aと、2D撮影スタジオ14bと、映像処理装置12bとを備える。
 2D撮影スタジオ14bは、Volumetricスタジオ14aとは異なるスタジオである。2D撮影スタジオ14bには、複数の実カメラ60が備えられている。各実カメラ60は、カメラマンの操作、または外部からの制御信号によって、位置や観測方向、画角等を変更可能となっている。また、2D撮影スタジオ14bの壁面には、任意の背景が描かれるか、プロジェクタ等によって任意の背景が投影される。更に、2D撮影スタジオ14bの内部には、点灯状態を任意の制御可能な複数の照明装置が備えられる。2D撮影スタジオ14bにおいて、実カメラ60が撮像した2D実映像Jは、映像処理装置12bに入力される。なお、実カメラ60は、本開示における第2の撮像装置の一例である。
 映像処理装置12bは、カメラ16から取得した実カメラ映像Iに基づいて、被写体22の3Dモデル22Mを生成する。また、映像処理装置12aは、実カメラ60が仮想視点にあると見做して、当該仮想視点から見た被写体22の3Dモデル22Mを、ユーザの視聴デバイス53aに応じた形態の画像にレンダリングする。また、映像処理装置12aは、実カメラ60に係る情報に基づいて、仮想視点に係る仮想カメラ提示情報20を生成して、表示パネル17に出力する。
 更に、映像処理装置12bは、実カメラ60から2D実映像Jを取得する。また、映像処理装置12bは、取得した2D実映像Jを背景映像26bとして、3Dモデル22Mに基づくVolumetric映像24を重畳する。生成された映像は、例えばユーザの視聴環境に配信される。なお、映像処理装置12bは、本開示における情報処理装置の一例である。
[2-2.第2の実施形態の映像処理システムの機能構成]
 次に、図31を用いて、映像処理システム10bの機能構成を説明する。図31は、第2の実施形態の映像処理システムの機能構成の一例を示す機能ブロック図である。
 図31に示すように、映像処理システム10bは、映像処理装置12bと、撮像表示装置13を構成するカメラ16と表示パネル17と、実カメラ60とを備える。また、映像処理システム10bは、周辺機器であるリモコン54と、インカム55と、マイク56と、スピーカ57と、視聴デバイス53aとを備える。
 映像処理装置12bは、仮想カメラ提示情報生成部42と、UI部43と、スタジオ内映像表示部44と、音声出力部45と、Volumetric映像撮影部46と、Volumetric映像生成部47と、マスタオーディオ出力部48と、オーディオ収録部49と、配信部52と、仮想カメラ情報取得部62と、仮想カメラ情報送信部63と、2D映像撮影部64と、仮想カメラ情報受信部65と、Volumetric映像/オーディオ送信部66と、Volumetric映像/オーディオ受信部67と、Volumetric映像・2D映像重畳/オーディオMUX部68と、を備える。これらの機能部は、コンピュータの構成を備える映像処理装置12bのCPUが、映像処理装置12bの動作を制御する非図示の制御プログラムを実行することによって実現される。また、映像処理装置12bの全て、または一部の機能を、ハードウエアによって実現してもよい。
 前述した各機能部位のうち、図31の点線L1よりも左側に記載されている機能部位は、Volumetricスタジオ14aに設置される。そして、点線L1よりも右側に記載されている機能部位は、2D撮影スタジオ14bに設置される。以下、映像処理システム10aとは異なる機能部位についてのみ、各機能部位が備える機能を説明する。
 仮想カメラ情報取得部62は、2D撮影スタジオ14b側の実カメラ60(第2の撮像装置)から、実カメラ60に係る情報を取得する。実カメラ60に係る情報とは、実カメラ60を仮想カメラと見做した際の仮想カメラ情報Fである。仮想カメラ情報Fの内容は、第1の実施形態で説明した通りである。なお、仮想カメラ情報取得部62は、本開示における第2の取得部の一例である。
 仮想カメラ情報送信部63は、仮想カメラ情報取得部62が取得した仮想カメラ情報Fを、Volumetricスタジオ14a側に送信する。
 仮想カメラ情報受信部65は、2D撮影スタジオ14b側から仮想カメラ情報Fを受信する。
 2D映像撮影部64は、実カメラ60が撮像した2D実映像Jから、背景2D映像を生成する。
 Volumetric映像/オーディオ送信部66は、Volumetricスタジオ14aで生成したVolumetric映像とオーディオデータを、2D撮影スタジオ14b側に送信する。
 Volumetric映像/オーディオ受信部67は、Volumetricスタジオ14a側から、Volumetric映像とオーディオデータを受信する。
 Volumetric映像・2D映像重畳/オーディオMUX部68は、被写体22の3Dモデル22Mを、ユーザの視聴デバイス53aに応じた形態の画像にレンダリングして、被写体22とは別の場所にある実カメラ60(第2の撮像装置)が撮像した画像に重畳する。また、Volumetric映像・2D映像重畳/オーディオMUX部68は、重畳された画像を、オーディオデータと多重化(MUX)する。なお、Volumetric映像・2D映像重畳/オーディオMUX部68は、本開示における重畳部の一例である。
 なお、映像処理システム10bは、映像処理システム10aが備えるコントローラ40(図13参照)を備えない。これは、映像処理システム10bにおいては、実カメラ60自身が、仮想カメラに係る情報を生成するためである。具体的には、実カメラ60は、ジャイロセンサや加速度センサを有する。実カメラ60は、ジャイロセンサや加速度センサの出力を検出することによって、実カメラ60自身の撮影方向や移動方向を検出する。
 また、実カメラ60が置かれた2D撮影スタジオ14bには、2D撮影スタジオ14bにおける実カメラ60の位置を測定する、非図示の位置検出センサが設置されている。位置検出センサは、2D撮影スタジオ14bに設置された、互いに異なる発光パターンのIR信号を送信する複数のベースステーションと、実カメラ60に設置された、ベースステーションからのIR信号を検出するIRセンサとで構成される。IRセンサは、検出した複数のIR信号の強度に基づいて、2D撮影スタジオ14bにおける自身の位置を検出する。なお、実カメラ60は、自身が撮像した画像に基づいて、2D撮影スタジオ14bにおける自身の位置と方向とを検出してもよい。このように、実カメラ60は、各種センサが取得した情報に基づいて、仮想カメラに係る情報を生成する。
 なお、実カメラ60は、更に、カメラワーク情報の選択と開始を指示する、選択ボタン等の操作デバイスと、カメラワーク情報の選択肢等を表示する表示デバイスとを備える。
 なお、図31において、映像処理装置12bのうち、仮想カメラ情報取得部62と、仮想カメラ情報送信部63と、2D映像撮影部64と、Volumetric映像/オーディオ受信部67と、Volumetric映像・2D映像重畳/オーディオMUX部68と、配信部52は、実カメラ60が置かれた2D撮影スタジオ14bに設置される。そして、映像処理装置12bのその他の機能部位は、Volumetricスタジオ14aに設置される。
[2-3.第2の実施形態の映像処理システムの作用]
 映像処理システム10bが行う処理の流れは、前述した映像処理システム10aが行う処理の流れと同じである。そのため、詳細な処理の流れの説明は省略する。
 なお、映像処理システム10aにあっては、背景CG映像は3D情報を有する必要があったが、映像処理システム10bでは、実カメラ60の動きに応じた仮想カメラ情報Fがフレーム毎に生成される。そして、映像処理装置12bは、仮想カメラ情報Fに応じたVolumetric映像を生成して、実カメラ60が撮影した2D実映像Jに基づく背景2D映像に重畳する。したがって、映像処理システム10aのように、3Dの背景データ(背景CG映像)を用意する必要がない。
 また、映像処理システム10bは、目的のロケーションで撮影したかのような映像を生成するシステムとして知られているバーチャルプロダクション(Virtual Production)とは異なる特性を持つ。即ち、よく知られたバーチャルプロダクションでは、実カメラの動きに合わせて、背景に3DCGを描画して、その前に立った被写体を撮影する。これに対して、映像処理システム10bにあっては、2D撮影スタジオ14bに用意された実物の背景を撮影する実カメラ60の動きに合わせてパフォーマンスを行う被写体22のVolumetric映像を生成する。したがって、被写体と背景の位置付けが、よく知られたバーチャルプロダクションとは逆になっている。そのため、映像処理システム10bを利用することによって、現在のバーチャルプロダクションの応用範囲を拡大することができる。
[2-4.第2の実施形態の作用効果]
 以上説明したように、第2の実施形態の映像処理装置12b(情報処理装置)は、被写体22の3Dモデル22Mを、視聴デバイス53aに応じた形態の画像にレンダリングして、被写体22とは別の場所にある実カメラ60(第2の撮像装置)が撮像した画像に重畳するVolumetric映像・2D映像重畳/オーディオMUX部68(重畳部)を更に備えて、仮想カメラ情報取得部62(第2の取得部)は、実カメラ60を、仮想視点に置かれた仮想カメラと見做して、実カメラ60から仮想視点に係る情報を取得する。
 これにより、離れた場所に設置した実カメラ60を仮想カメラと見做した際に、Volumetricスタジオ14aにおいて、あたかも実際のカメラでカメラマンが直接撮影している状況を再現することができる。したがって、被写体22は、仮想カメラを意識したパフォーマンスを行うことができるため、配信コンテンツの臨場感をより高めることができる。
(3.第3の実施形態)
[3-1.第3の実施形態の映像処理システムの概略構成]
 次に、図32を用いて、本開示の第3の実施形態である映像処理システム10cについて説明する。図32は、第3の実施形態の映像処理システムの概要を示すシステム構成図である。
 映像処理システム10cは、前述した映像処理システム10a,10bとほぼ等しい機能を備える。但し、映像処理システム10a,10bが、生成した配信コンテンツを、ユーザの視聴デバイス53aに対して、一方通行で配信していたのに対して、映像処理システム10cでは、ユーザが視聴デバイス53bを用いて、インタラクティブに仮想視点の位置をコントロールできる点が異なる。以下、図32を用いて、映像処理システム10cの概略構成を説明する。なお、映像処理システム10a,10bと共通の構成要素については、説明を省略する。
 映像処理システム10cは、Volumetricスタジオ14aと、映像処理装置12cと、視聴デバイス53bとを備える。なお、映像処理装置12cは、Volumetricスタジオ14aに設置されてもよい。
 映像処理装置12cは、カメラ16から取得した実カメラ映像Iに基づいて、被写体22の3Dモデル22Mを生成する。また、映像処理装置12cは、ユーザの視聴デバイス53bから仮想カメラ情報Fを取得する。また、映像処理装置12cは、仮想カメラ情報Fに基づく仮想視点から見た被写体22の3Dモデル22Mを、ユーザの視聴デバイス53bに応じた形態の画像にレンダリングする。また、映像処理装置12cは、仮想視点に係る仮想カメラ提示情報20を生成して、表示パネル17に出力する。ここで、仮想視点に係る情報は、複数の視聴ユーザの各々が、自身の視聴デバイス53bで、映像処理装置12cがレンダリングした画像を視聴する際の視点に係る情報である。
 更に、映像処理装置12cは、取得した背景映像26aに、生成した3Dモデル22Mに基づくVolumetric映像24を重畳して、設定された仮想視点から観測した映像を生成する。そして、映像処理装置12cは、生成した映像を、ユーザの視聴デバイス53bに配信する。なお、映像処理装置12cは、本開示における情報処理装置の一例である。
[3-2.第3の実施形態の映像処理システムの機能構成]
 次に、図33を用いて、映像処理システム10cの機能構成を説明する。図33は、第3の実施形態の映像処理システムの機能構成の一例を示す機能ブロック図である。
 図33に示すように、映像処理システム10cは、映像処理装置12cと、視聴デバイス53bと、撮像表示装置13を構成するカメラ16と表示パネル17とを備える。また、映像処理システム10cは、周辺機器であるリモコン54と、インカム55と、マイク56と、スピーカ57とを備える。
 映像処理装置12cは、仮想カメラ提示情報生成部42と、UI部43と、スタジオ内映像表示部44と、音声出力部45と、Volumetric映像撮影部46と、Volumetric映像生成部47と、マスタオーディオ出力部48と、オーディオ収録部49と、CG背景生成部50と、Volumetric映像・CG重畳/オーディオMUX部51と、配信部52と、仮想カメラ情報取得部62と、仮想カメラ情報送信部63と、仮想カメラ情報受信部65と、配信受信部70と、Volumetric映像出力部71と、オーディオ出力部72と、を備える。これらの機能部は、コンピュータの構成を備える映像処理装置12cのCPUが、映像処理装置12cの動作を制御する非図示の制御プログラムを実行することによって実現される。また、映像処理装置12cの全て、または一部の機能を、ハードウエアによって実現してもよい。
 前述した各機能部位のうち、図33の点線L2よりも左側に記載されている機能部位は、Volumetricスタジオ14aに設置される。そして、点線L2よりも右側に記載されている機能部位は、視聴デバイスを手にしているユーザ環境に設置されて、望ましくは、視聴デバイス53bに内蔵される。以下、映像処理システム10a,10bとは異なる機能部位についてのみ、各機能部位が備える機能を説明する。
 仮想カメラ情報取得部62は、視聴デバイス53bから仮想カメラ位置情報とユーザの映像・メッセージ等を含む仮想カメラ情報Fを取得する。
 仮想カメラ情報送信部63は、仮想カメラ情報取得部62が取得した仮想カメラ情報FをVolumetricスタジオ14a側に送信する。
 仮想カメラ情報受信部65は、仮想カメラ情報送信部63から仮想カメラ情報Fを受信する。
 配信受信部70は、Volumetricスタジオ14a側から送信された配信コンテンツを受信する。なお、配信受信部70が受信するコンテンツは、ユーザが視聴するコンテンツとは異なり、単に、Volumetric映像と背景CGとオーディオデータとが多重化されたものである。
 Volumetric映像出力部71は、配信受信部70が受信した多重化された信号の中から、Volumetric映像と背景CGとをデコードする。また、Volumetric映像出力部71は、被写体22の3Dモデル22Mを、仮想カメラ位置情報Faに基づく観測位置から見たVolumetric映像のレンダリングを行う。また、Volumetric映像出力部71は、レンダリングしたVolumetric映像を背景CGデータに重畳する。そして、Volumetric映像出力部71は、背景CGデータが重畳された映像を視聴デバイス53bに出力する。
 オーディオ出力部72は、配信受信部70が受信した多重化された信号の中から、オーディオデータをデコードする。そして、オーディオ出力部72は、デコードしたオーディオデータを視聴デバイス53に出力する。
 Volumetric映像・CG重畳/オーディオMUX部51は、Volumetric映像、背景CG、オーディオデータを多重化(MUX)する。なお、映像処理装置12aが備えるVolumetric映像・CG重畳/オーディオMUX部51(図13参照)とは異なり、Volumetric映像と背景CGとの重畳は、Volumetric映像出力部71で行うため、ここでは信号の多重化(MUX)のみを行う。
 なお、視聴デバイス53bは、映像処理装置12aにおけるコントローラ40の機能を備える。視聴デバイス53bは、例えば、スマートフォンやタブレット端末のような携帯端末や、HMD、裸眼立体視が可能な空間再現ディスプレイ、またはディスプレイとゲームコントローラとの組み合わせ等が用いられる。なお、視聴デバイス53bは、少なとも、位置と方向を指定する機能と、メニュー内容を選択決定する機能と、映像処理装置12cと通信を行う機能とを備える。
 視聴デバイス53bは、これらの機能を備えることによって、コントローラ40と同様に、仮想視点を設定するために必要な位置と方向とを設定する。即ち、視聴デバイス53b自身が仮想カメラの役割を果たす。また、視聴デバイス53bは、仮想視点(仮想カメラ)のカメラワークを選択決定する。更に、視聴デバイス53bは、被写体22に対するメッセージを選択決定する。
[3-3.仮想カメラ情報の取得方法]
 図34と図35を用いて、視聴デバイス53bの一例である携帯端末80から仮想カメラ情報Fを取得する方法を説明する。図34は、ユーザが視聴デバイスを用いて、カメラワーク情報を設定する方法を示す図である。図35は、ユーザが視聴デバイスを用いて、オペレータ映像と、オペレータ音声と、オペレータメッセージとを設定する方法を示す図である。
 視聴デバイス53bの一例である携帯端末80において、映像処理システム10cを利用するアプリケーションを立ち上げた際に表示される非図示のメインメニューから、カメラワークの設定メニューを選択すると、視聴デバイス53bの表示画面には、図34に示すカメラワーク選択ボタン74が表示される。なお、携帯端末80の表示画面は、タッチパネルの機能を兼ね備えており、手指を用いて、表示画面に表示されたGUI(Graphical User Interface)をコントロールすることができる。
 カメラワーク選択ボタン74は、カメラワークの設定を開始する際に押下するボタンである。
 カメラワーク選択ボタン74が押下されると、携帯端末80の表示画面には、カメラワーク選択ウインドウ75が表示される。カメラワーク選択ウインドウ75には、予めプリセットされた、カメラワークの一覧が表示される。また、カメラワーク選択ウインドウ75に表示された任意のカメラワークに重畳して、カメラワーク開始ボタン76が表示される。
 携帯端末80のユーザは、カメラワーク開始ボタン76を、自身が設定したいカメラワークの種類に重畳させる。そして、カメラワーク開始ボタン76を押下することによって、カメラワークの設定が完了する。設定されたカメラワークは、カメラワーク情報Fbとして、仮想カメラ情報取得部62に送られる。
 なお、図34には図示しないが、カメラワークの設定メニューの中で、カメラワークの開始位置と終了位置、カメラワークの速度等も併せて設定することができる。
 また、携帯端末80において、映像処理システム10cを利用するアプリケーションを立ち上げた際に表示される非図示のメインメニューから、オペレータメッセージの設定メニューを選択すると、携帯端末80の表示画面には、図35に示すメッセージ選択ボタン77が表示される。
 メッセージ選択ボタン77は、オペレータメッセージの選択を開始する際に押下するボタンである。
 メッセージ選択ボタン77が押下されると、携帯端末80の表示画面には、メッセージ選択ウインドウ78が表示される。メッセージ選択ウインドウ78には、予めプリセットされた、メッセージの一覧が表示される。また、メッセージ選択ウインドウ78に表示された任意のメッセージに重畳して、メッセージ送信ボタン79が表示される。
 携帯端末80のユーザは、メッセージ送信ボタン79を、自身が設定したいメッセージに重畳させる。そして、メッセージ送信ボタン79を押下することによって、オペレータメッセージFeの設定が完了する。設定されたオペレータメッセージFeは、仮想カメラ情報取得部62に送られる。
 また、プリセットされたメッセージ以外に、視聴デバイス53bに内蔵されたINカメラ81とマイク82を用いて取得した、オペレータの画像や音声を、オペレータメッセージFeとして設定してもよい。
 なお、携帯端末80は、ジャイロセンサや加速度センサの出力を検出することによって、自身の撮影方向や移動方向を検出する仮想カメラ位置情報Faを検出する。これは、第2の実施形態において、実カメラ60が仮想カメラ位置情報Faを検出する方法と同じであるため、更なる説明は省略する。
[3-4.仮想カメラグループ提示情報の形態]
 図36、図37、図38を用いて、映像処理システム10cが提示する仮想カメラグループ提示情報200の形態を説明する。図36は、視聴ユーザ数に応じた仮想カメラグループ提示情報の一例を示す図である。図37は、視聴ユーザが観測位置を変更した際の、仮想カメラグループ提示情報の一例を示す図である。図38は、視聴ユーザと演者がコミュニケーションを図る機能の一例を示す図である。
 映像処理システム10cは、多数のユーザが、各自の視聴デバイス53bによって自由に仮想視点の位置を設定する。したがって、多くのユーザの仮想視点の位置が近接する状況が発生する。図36は、このような場合に提示される仮想カメラグループ提示情報200の一例を示す。
 図36の横軸は、特定位置から視聴ユーザ数を示す。左方ほど視聴ユーザ数が少なく、右方ほど視聴ユーザ数が多いことを示している。
 例えば、仮想カメラグループ提示情報200e、200f、200gは、1つの画枠21を分割して、分割された各領域に、視聴ユーザが存在することを示す人型アイコン(図7のカメラマンアイコン32に相当する)を表示したものである。このような表示形態によって、仮想カメラグループ提示情報200が提示されている位置から、どれ位のユーザが視聴しているかを示すことができる。なお、1つの人型アイコンが1人の視聴ユーザを表してもよいし、1つの人型アイコンに、予め設定した人数を対応させてもよい。このように、仮想カメラグループ提示情報200e、200f、200gは、特定位置から視聴しているユーザの密度を示している。なお、仮想カメラグループ提示情報200gにおいて、1つの人型アイコンが大きく表示されているのは、何人かのユーザが被写体22に近接した位置で視聴していることを示している。また、後述するように、人型アイコンは、別の基準で拡大表示される場合もある(図38参照)。
 仮想カメラグループ提示情報200e、200f、200gの上部に表示されている人数(10026人)は、現在の総視聴ユーザ数を示している。なお、現在の総視聴ユーザ数を表示する代わりに、仮想カメラグループ提示情報200が提示されている方向から視聴している視聴ユーザ数を表示してもよい。
 また、視聴ユーザ数の表示方法は、これに限るものではなく、視聴ユーザの密度が直感的にわかる提示形態、例えば、仮想カメラグループ提示情報200h,200i,200jのようなパーティクル表示を行ってもよい。
 図37は、視聴ユーザが仮想視点を変更した際の、仮想カメラグループ提示情報200の変化の一例を示している。
 図37は、時刻t0において、仮想カメラグループ提示情報200k,200lが提示されている状態を示している。また、図37は、時刻t1において、仮想カメラグループ提示情報200kに表示されている1人または複数の視聴ユーザUが、仮想視点の位置を変更した状態を示している。更に、図37は、時刻t2において、視聴ユーザUの仮想視点の位置が、仮想カメラグループ提示情報200lが提示されている位置に到達したことを示している。
 このとき、時刻t1において、仮想カメラグループ提示情報200kは、視聴ユーザUに対応する人型アイコンが消去された仮想カメラグループ提示情報200mに変更される。そして、視聴ユーザUに対応する仮想カメラ提示情報20rが、新たに提示される。
 更に、時刻t2において、視聴ユーザUに対応する仮想カメラ提示情報20rが消去される。そして、仮想カメラグループ提示情報200lが、視聴ユーザUに対応する人型アイコンが追加された仮想カメラグループ提示情報200nに変更される。
 なお、視聴ユーザUに対応する仮想カメラ提示情報20r(20)は、図37の下段に示す仮想カメラ提示情報20s(20)のように簡易表示としてもよい。
 図38は、映像処理システム10cにおいて、視聴ユーザが被写体22とコミュニケーションを行う例を示している。
 図38に示す仮想カメラグループ提示情報200p(200)は、特定の視聴ユーザからオペレータメッセージが送信された場合に、仮想カメラ提示情報20r(20)の該当するユーザの分割表示枠に、メッセージ情報37が表示された例である。
 また、被写体22が特定の視聴ユーザとコミュニケーションをとりたい場合、被写体22は、自身が所持するリモコン54の操作情報を、UI部43に与えることによって、カーソル表示をONにする。カーソル表示がONになると、図38に示すように、仮想カメラグループ提示情報200q(200)に重畳させて、カーソル90が表示される。被写体22は、リモコン54を操作することによって、表示されたカーソル90の位置を、コミュニケーションをとりたい視聴ユーザの位置に移動させて、当該視聴ユーザを選択する。または、コミュニケーションをとりたいTargetカメラ番号を指定する。
 更に、被写体22は、コミュニケーションモードをONにする。コミュニケーションモードをONにすることによって、選択された視聴ユーザの分割表示枠が拡大表示されて、図38に示す仮想カメラグループ提示情報200r(200)が提示された状態になる。なお、コミュニケーションモードは、映像処理システム10cのデフォルト設定で常にONにしておいてもよい。この場合、被写体22がカーソル90によって視聴ユーザを選択すると、当該視聴ユーザと即座にコミュニケーションが可能になる。このように、被写体22は、選択部の一例であるUI部43の作用によって、任意の視聴ユーザを選択して、選択された視聴ユーザとコミュニケーションを行うことができる。
 仮想カメラグループ提示情報200r(200)には、ユーザの画像が拡大表示されるため、被写体22は、選択したユーザと視線を合わせることができる。また、このとき、被写体22は、インカム55を通して、ユーザのメッセージを聞くことができる。なお、このようなコミュニケーション機能は、前記した映像処理システム10a,10bにおいても、同様に実現することができる。
 ここでいう特定の視聴ユーザとは、例えば、有料ユーザやプレミアムユーザ等の優先度の高いユーザを想定している。即ち、優先度の高いユーザの視聴デバイス53b(仮想カメラ)は、第1の実施形態で説明したカメラ情報Ff(図14参照)において、高いカメラ優先度を有する。そして、優先度の高いユーザは、被写体22とのコミュニケーションを優先的に行うことができる。
 なお、映像処理装置12cは、被写体22と特定の視聴ユーザとがコミュニケーションを行っている様子、例えば、図38に示すように、被写体22の背中越しに仮想カメラグループ提示情報200r(200)が映っている様子を、別の視聴ユーザが視聴できるようにしてもよい。
[3-5.第3の実施形態の映像処理システムが行う処理の流れ]
 図39と図40を用いて、映像処理システム10cが行う処理の流れを説明する。図39は、第3の実施形態の映像処理システムが行う処理の流れの一例を示すフローチャートである。図40は、図39におけるコミュニケーション映像/音声生成処理の流れの一例を示すフローチャートである。
 仮想カメラ提示情報生成部42は、仮想カメラ提示情報生成処理を行う(ステップS161)。なお、仮想カメラ提示情報生成処理の流れは、図17に示した通りである。
 UI部43は、カーソル表示がON状態にあるかを判定する(ステップS162)。カーソル表示がON状態にあると判定される(ステップS162:Yes)とステップS164に進む。一方、カーソル表示がON状態にあると判定されない(ステップS162:No)とステップS163に進む。
 ステップS162において、カーソル表示がON状態にあると判定されると、UI部43は、カーソル90の映像を生成する(ステップS164)。その後、ステップS163に進む。
 一方、ステップS162において、カーソル表示がON状態にあると判定されない場合、またはステップS164が実行された後で、UI部43は、コミュニケーションモードがON状態にあるかを判定する(ステップS163)。コミュニケーションモードがON状態にあると判定される(ステップS163:Yes)とステップS166に進む。一方、コミュニケーションモードがON状態にあると判定されない(ステップS163:No)とステップS165に進む。
 ステップS163において、コミュニケーションモードがON状態にあると判定されると、仮想カメラ提示情報生成部42は、コミュニケーション映像/音声生成処理を行う(ステップS166)。その後、ステップS165に進む。なお、映像/音声生成処理の詳細は、図40に示す。
 一方、ステップS163において、コミュニケーションモードがON状態にあると判定されない場合、またはステップS166が実行された後で、仮想カメラ提示情報生成部42は、仮想カメラ映像/音声にコミュニケーション映像/音声とカーソル90の映像を重畳する(ステップS165)。
 次に、仮想カメラ提示情報生成部42は、スタジオ内映像表示部44と音声出力部45対して、仮想カメラ提示情報20(または仮想カメラグループ提示情報200)を出力する(ステップS167)。その後、仮想カメラ提示情報生成部42は、図39の処理を終了する。
 次に、図40を用いて、ステップS166で行う映像/音声生成処理の詳細を説明する。
 仮想カメラ提示情報生成部42は、コミュニケーションターゲットの仮想カメラ番号に対応する仮想カメラ提示情報20(または仮想カメラグループ提示情報200)を取得する(ステップS171)。
 仮想カメラ提示情報生成部42は、画枠情報、ビデオフレームデータ、オーディオフレームデータ、メッセージから、コミュニケーション映像/音声を生成する(ステップS172)。その後、メインルーチン(図39)に戻る。
[3-6.第3の実施形態の作用効果]
 以上説明したように、第3の実施形態の映像処理装置12c(情報処理装置)において、仮想視点に係る情報は、複数の視聴ユーザの各々が、視聴デバイス53bで、レンダリングされた画像を視聴する際の視点に係る情報である。
 これによって、複数の視聴ユーザに対して、各自の視点位置に応じた画像を配信することができる。
 また、第3の実施形態の映像処理装置12c(情報処理装置)において、スタジオ内映像表示部44(提示部)は、複数の仮想視点に係る情報を、分割した画枠21の中に並べて、被写体22に提示する。
 これによって、被写体22は、特定の方向から視聴している視聴ユーザの概数を把握することができる。
 また、第3の実施形態の映像処理装置12c(情報処理装置)は、被写体22の操作情報を取得して、仮想視点に置かれた視聴デバイス53b(仮想カメラ)を選択するUI部43(選択部)を更に備えて、被写体22は、UI部43が選択した視聴デバイス53bの操作者とコミュニケーションを行う。
 これによって、被写体22は、任意の視聴ユーザとコミュニケーションを行うことができる。
 なお、本明細書に記載された効果は、あくまで例示であって限定されるものではなく、他の効果があってもよい。また、本開示の実施形態は、上述した実施形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本開示は、以下のような構成もとることができる。
 (1)
 被写体の周囲に配置した複数の第1の撮像装置がそれぞれ撮像した複数の実画像を取得する第1の取得部と、
 前記複数の実画像から、前記被写体の3Dモデルを生成する生成部と、
 前記3Dモデルを、視聴デバイスに応じた形態の画像にレンダリングする際の仮想視点に係る情報を、前記被写体に提示する提示部と、
 を備える情報処理装置。
 (2)
 前記仮想視点に係る情報を取得する第2の取得部を更に備える、
 前記(1)に記載の情報処理装置。
 (3)
 前記3Dモデルを、視聴デバイスに応じた形態の画像にレンダリングして、前記被写体とは別の場所にある第2の撮像装置が撮像した画像に重畳する重畳部を更に備えて、
 前記第2の取得部は、前記第2の撮像装置を、仮想視点に置かれた仮想カメラと見做して、前記第2の撮像装置から前記仮想視点に係る情報を取得する、
 前記(2)に記載の情報処理装置。
 (4)
 前記仮想視点に係る情報は、複数の視聴ユーザの各々が、視聴デバイスで、前記レンダリングされた画像を視聴する際の視点に係る情報である、
 前記(1)乃至(3)のいずれか1つに記載の情報処理装置。
 (5)
 前記提示部は、
 前記仮想視点の位置を、前記被写体に提示する、
 前記(1)乃至(4)のいずれか1つに記載の情報処理装置。
 (6)
 前記提示部は、
 前記仮想視点の位置に、当該位置に仮想視点があることを示す情報を提示する、
 前記(1)乃至(5)のいずれか1つに記載の情報処理装置。
 (7)
 前記提示部は、
 前記仮想視点がある位置を示す情報を、前記被写体に提示する、
 前記(1)乃至(6)のいずれか1つに記載の情報処理装置。
 (8)
 前記提示部は、
 前記仮想視点と前記被写体との距離を、前記被写体に提示する、
 前記(1)乃至(7)のいずれか1つに記載の情報処理装置。
 (9)
 前記提示部は、
 前記仮想視点からの観測方向を、前記被写体に提示する、
 前記(1)乃至(8)のいずれか1つに記載の情報処理装置。
 (10)
 前記提示部は、
 前記仮想視点の移動方向を、前記被写体に提示する、
 前記(1)乃至(9)のいずれか1つに記載の情報処理装置。
 (11)
 前記提示部は、
 前記仮想視点に置かれた仮想カメラの動作状態を、前記被写体に提示する、
 前記(1)乃至(10)のいずれか1つに記載の情報処理装置。
 (12)
 前記提示部は、
 前記仮想視点をコントロールするオペレータのメッセージを、前記被写体に提示する、
 前記(1)乃至(11)のいずれか1つに記載の情報処理装置。
 (13)
 前記提示部は、
 複数の仮想視点の位置が接近した際に、当該複数の仮想視点に係る情報を合成して、前記被写体に提示する、
 前記(1)乃至(12)のいずれか1つに記載の情報処理装置。
 (14)
 前記提示部は、
 前記複数の仮想視点に係る情報を、分割した画枠の中に並べて、前記被写体に提示する。
 前記(13)に記載の情報処理装置。
 (15)
 前記被写体の操作情報を取得して、仮想視点に置かれた仮想カメラを選択する選択部を更に備えて、
 前記被写体は、前記選択部が選択した仮想カメラの操作者とコミュニケーションを行う、
 前記(1)乃至(14)のいずれか1つに記載の情報処理装置。
 (16)
 コンピュータを、
 被写体の周囲に配置した複数の第1の撮像装置がそれぞれ撮像した複数の実画像を取得する第1の取得部と、
 前記複数の実画像から、前記被写体の3Dモデルを生成する生成部と、
 前記3Dモデルを、視聴デバイスに応じた形態の画像にレンダリングする際の仮想視点に係る情報を、前記被写体に提示する提示部と、
 して機能させるプログラム。
 10a,10b,10c…映像処理システム、12a,12b,12c…映像処理装置(情報処理装置)、13,13a,13b,13c…撮像表示装置、14a…Volumetricスタジオ、14b…2D撮影スタジオ、15…内壁面、16,16a,16b,16c…カメラ(第1の撮像装置)、17…表示パネル、18…透過型スクリーン、19…反射型スクリーン、20…仮想カメラ提示情報(仮想視点に係る情報)、21…画枠、22…被写体、22M…3Dモデル、24…Volumetric映像、26a,26b…背景映像、28,29…プロジェクタ、30…カメラアイコン、31…タリーランプ、32…カメラマンアイコン、33…カメラ名、34…カメラ位置表示アイコン、35…カメラワーク情報、36…カメラワーク、37…メッセージ情報、38…パーティクル、41…仮想カメラ情報生成部(第2の取得部)、43…UI部(選択部)、44…スタジオ内映像表示部(提示部)、46…Volumetric映像撮影部(第1の取得部)、47…Volumetric映像生成部(生成部)、51…Volumetric映像・CG重畳/オーディオMUX部、53a,53b…視聴デバイス、60…実カメラ(第2の撮像装置)、62…仮想カメラ情報取得部(第2の取得部)、74…カメラワーク選択ボタン、75…カメラワーク選択ウインドウ、76…カメラワーク開始ボタン、77…メッセージ選択ボタン、78…メッセージ選択ウインドウ、79…メッセージ送信ボタン、80…携帯端末、90…カーソル、200…仮想カメラグループ提示情報、F…仮想カメラ情報、Fa…仮想カメラ位置情報、Fb…カメラワーク情報、Fc…オペレータ映像、Fd…オペレータ音声、Fe…オペレータメッセージ、Ff…カメラ情報、I…実カメラ映像、J…2D実映像、M…メッシュ情報、Ta,Tb…テクスチャ情報、U…視聴ユーザ

Claims (16)

  1.  被写体の周囲に配置した複数の第1の撮像装置がそれぞれ撮像した複数の実画像を取得する第1の取得部と、
     前記複数の実画像から、前記被写体の3Dモデルを生成する生成部と、
     前記3Dモデルを、視聴デバイスに応じた形態の画像にレンダリングする際の仮想視点に係る情報を、前記被写体に提示する提示部と、
     を備える情報処理装置。
  2.  前記仮想視点に係る情報を取得する第2の取得部を更に備える、
     請求項1に記載の情報処理装置。
  3.  前記3Dモデルを、視聴デバイスに応じた形態の画像にレンダリングして、前記被写体とは別の場所にある第2の撮像装置が撮像した画像に重畳する重畳部を更に備えて、
     前記第2の取得部は、前記第2の撮像装置を、仮想視点に置かれた仮想カメラと見做して、前記第2の撮像装置から前記仮想視点に係る情報を取得する、
     請求項2に記載の情報処理装置。
  4.  前記仮想視点に係る情報は、複数の視聴ユーザの各々が、視聴デバイスで、前記レンダリングされた画像を視聴する際の視点に係る情報である、
     請求項1に記載の情報処理装置。
  5.  前記提示部は、
     前記仮想視点の位置を、前記被写体に提示する、
     請求項1に記載の情報処理装置。
  6.  前記提示部は、
     前記仮想視点の位置に、当該位置に仮想視点があることを示す情報を提示する、
     請求項5に記載の情報処理装置。
  7.  前記提示部は、
     前記仮想視点がある位置を示す情報を、前記被写体に提示する、
     請求項5に記載の情報処理装置。
  8.  前記提示部は、
     前記仮想視点と前記被写体との距離を、前記被写体に提示する、
     請求項1に記載の情報処理装置。
  9.  前記提示部は、
     前記仮想視点からの観測方向を、前記被写体に提示する、
     請求項1に記載の情報処理装置。
  10.  前記提示部は、
     前記仮想視点の移動方向を、前記被写体に提示する、
     請求項1に記載の情報処理装置。
  11.  前記提示部は、
     前記仮想視点に置かれた仮想カメラの動作状態を、前記被写体に提示する、
     請求項1に記載の情報処理装置。
  12.  前記提示部は、
     前記仮想視点をコントロールするオペレータのメッセージを、前記被写体に提示する、
     請求項1に記載の情報処理装置。
  13.  前記提示部は、
     複数の仮想視点の位置が接近した際に、当該複数の仮想視点に係る情報を合成して、前記被写体に提示する、
     請求項1に記載の情報処理装置。
  14.  前記提示部は、
     前記複数の仮想視点に係る情報を、分割した画枠の中に並べて、前記被写体に提示する。
     請求項13に記載の情報処理装置。
  15.  前記被写体の操作情報を取得して、仮想視点に置かれた仮想カメラを選択する選択部を更に備えて、
     前記被写体は、前記選択部が選択した仮想カメラの操作者とコミュニケーションを行う、
     請求項1に記載の情報処理装置。
  16.  コンピュータを、
     被写体の周囲に配置した複数の第1の撮像装置がそれぞれ撮像した複数の実画像を取得する第1の取得部と、
     前記複数の実画像から、前記被写体の3Dモデルを生成する生成部と、
     前記3Dモデルを、視聴デバイスに応じた形態の画像にレンダリングする際の仮想視点に係る情報を、前記被写体に提示する提示部と、
     して機能させるプログラム。
PCT/JP2022/009842 2021-09-22 2022-03-08 情報処理装置およびプログラム WO2023047637A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-154377 2021-09-22
JP2021154377 2021-09-22

Publications (1)

Publication Number Publication Date
WO2023047637A1 true WO2023047637A1 (ja) 2023-03-30

Family

ID=85720342

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/009842 WO2023047637A1 (ja) 2021-09-22 2022-03-08 情報処理装置およびプログラム

Country Status (1)

Country Link
WO (1) WO2023047637A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009187387A (ja) * 2008-02-07 2009-08-20 Taito Corp 画像処理装置、画像データ通信システム及び画像処理プログラム
US20150222880A1 (en) * 2014-02-03 2015-08-06 Samsung Electronics Co., Ltd. Apparatus and method for capturing image in electronic device
JP2020067960A (ja) * 2018-10-26 2020-04-30 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
JP2021056679A (ja) * 2019-09-27 2021-04-08 Kddi株式会社 画像処理装置、方法及びプログラム
JP2021077257A (ja) * 2019-11-13 2021-05-20 グリー株式会社 情報処理装置、情報処理方法および情報処理プログラム
WO2021095573A1 (ja) * 2019-11-15 2021-05-20 ソニー株式会社 情報処理システム、情報処理方法及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009187387A (ja) * 2008-02-07 2009-08-20 Taito Corp 画像処理装置、画像データ通信システム及び画像処理プログラム
US20150222880A1 (en) * 2014-02-03 2015-08-06 Samsung Electronics Co., Ltd. Apparatus and method for capturing image in electronic device
JP2020067960A (ja) * 2018-10-26 2020-04-30 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
JP2021056679A (ja) * 2019-09-27 2021-04-08 Kddi株式会社 画像処理装置、方法及びプログラム
JP2021077257A (ja) * 2019-11-13 2021-05-20 グリー株式会社 情報処理装置、情報処理方法および情報処理プログラム
WO2021095573A1 (ja) * 2019-11-15 2021-05-20 ソニー株式会社 情報処理システム、情報処理方法及びプログラム

Similar Documents

Publication Publication Date Title
US9779538B2 (en) Real-time content immersion system
JP6523493B1 (ja) プログラム、情報処理装置、及び情報処理方法
US11354871B2 (en) Head-mountable apparatus and methods
WO2015151766A1 (ja) 投影撮影システム、カラオケ装置及びシミュレーション装置
CN107533184A (zh) 用于增强式佩珀尔幽灵幻像的三维图像源
KR20200057484A (ko) 입체 스트라이크 존 표시 방법 및 장치
US20090209211A1 (en) Transmitting/receiving system, transmission device, transmitting method, reception device, receiving method, presentation device, presentation method, program, and storage medium
WO2017191700A1 (ja) 画像生成装置、画像生成方法及びプログラム
WO2023047637A1 (ja) 情報処理装置およびプログラム
KR20200143293A (ko) 실시간 다원 ar 방송을 위한 증강 현실 영상 생성 방법 및 장치
US20210065659A1 (en) Image processing apparatus, image processing method, program, and projection system
JP2020102687A (ja) 情報処理装置、画像処理装置、画像処理方法、及びプログラム
JP6563592B2 (ja) 表示制御装置、表示制御方法及びプログラム
CN117981295A (zh) 信息处理设备和程序
CN113485547A (zh) 一种应用于全息沙盘的交互方法及装置
JP7118217B1 (ja) 表示制御装置、表示制御方法および表示制御プログラム
EP3062519A1 (en) Ambient surround information system for a media presentation
JP2016166928A (ja) 演出装置、演出方法、プログラム、ならびにアミューズメントシステム
WO2023189580A1 (ja) 画像処理装置及び画像処理システム
US20100325678A1 (en) Broadcast system, transmission device, transmission method, reception device, reception method, presentation device, presentation method, program, and recording medium
JP2020102053A (ja) コンテンツ配信システム、受信装置及びプログラム
WO2023026519A1 (ja) 情報処理装置、情報処理端末、情報処理方法、および記憶媒体
JP7153070B2 (ja) 3darコンテンツ作成装置、3darコンテンツ再生装置、及び、3darコンテンツ作成システム
WO2021006047A1 (ja) 表示制御装置、表示制御方法、及び、プログラム
JP2023000858A (ja) 表示制御装置、表示制御方法および表示制御プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22872396

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023549337

Country of ref document: JP