WO2022137907A1 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
WO2022137907A1
WO2022137907A1 PCT/JP2021/042275 JP2021042275W WO2022137907A1 WO 2022137907 A1 WO2022137907 A1 WO 2022137907A1 JP 2021042275 W JP2021042275 W JP 2021042275W WO 2022137907 A1 WO2022137907 A1 WO 2022137907A1
Authority
WO
WIPO (PCT)
Prior art keywords
subject
shadow
virtual viewpoint
image
posture
Prior art date
Application number
PCT/JP2021/042275
Other languages
English (en)
French (fr)
Inventor
智博 大井
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2022137907A1 publication Critical patent/WO2022137907A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/60Shadow generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics

Definitions

  • the present invention relates to an information processing device, an information processing method and a program.
  • the volumetric capture technology that converts real people and places into 3D data and reproduces them from a free viewpoint (virtual viewpoint) is known.
  • a 3D model of a subject is generated using a plurality of real images taken from different viewpoints.
  • an image of an arbitrary viewpoint is generated using the 3D model. Since it is possible to generate images from a free viewpoint regardless of the arrangement of cameras, it is expected to be applied to various fields such as sports broadcasting and entertainment fields.
  • the live-action 3D model of the subject is generated from the images of a limited number of cameras. Therefore, when the shadow of the subject is generated using the live-action 3D model, the outline of the shadow is not smooth.
  • the outline of the shadow is shaped by software, but the shaping process takes a lot of time and cost. Since the shaping process takes time, it is difficult to live-stream the virtual viewpoint video in real time.
  • this disclosure proposes an information processing device, an information processing method, and a program capable of generating a virtual viewpoint image having a high quality shadow.
  • a virtual viewpoint image generation unit that generates a virtual viewpoint image of the subject viewed from a virtual viewpoint by using shooting data of a subject shot from a plurality of viewpoints, and the subject using the shooting data.
  • the shadow of the subject is viewed from the virtual viewpoint using the posture estimation unit that estimates the posture of the subject, the pose generation unit that generates the pose model having the 3D shape of the subject corresponding to the posture, and the pose model.
  • An information processing device including a shadow generation unit that generates a shadow image and a composition unit that synthesizes the virtual viewpoint image and the shadow image is provided. Further, according to the present disclosure, there is provided an information processing method in which the information processing of the information processing apparatus is executed by a computer, and a program for realizing the information processing of the information processing apparatus in the computer.
  • FIG. 1 is an explanatory diagram of a volumetric capture technique.
  • Volumetric capture technology is one of the free viewpoint video technologies that captures the entire 3D space and reproduces it from a free viewpoint. Since the entire 3D space is converted into data instead of switching the images taken by the plurality of cameras 10, it is possible to generate an image from a viewpoint where the cameras 10 do not originally exist.
  • Video production includes a shooting step, a modeling step, and a playback step.
  • the subject SU is shot by a plurality of cameras 10.
  • the plurality of cameras 10 are arranged so as to surround the periphery of the shooting space SS including the subject SU.
  • the mounting position and mounting direction of the plurality of cameras 10 and the mounting position and mounting direction of the plurality of lighting devices 11 are appropriately set so that a blind spot does not occur.
  • the plurality of cameras 10 simultaneously shoot the subject SU from a plurality of viewpoints at a predetermined frame rate.
  • a volumetric model VM of the subject SU is generated for each frame based on the shooting data of the subject SU.
  • the volumetric model VM is a 3D model showing the position and orientation of the subject SU at the moment of shooting.
  • the 3D shape of the subject SU is detected by a known method such as a visual volume crossing method and a stereo matching method.
  • the volumetric model VM includes, for example, geometry information, texture information, and depth information of the subject SU.
  • the geometry information is information indicating the 3D shape of the subject SU.
  • Geometry information is acquired, for example, as polygon data or voxel data.
  • the texture information is information indicating the color, pattern, texture, and the like of the subject SU.
  • the depth information is information indicating the depth of the subject SU in the shooting space SS.
  • the volumetric model VM is rendered based on the viewpoint information to generate a virtual viewpoint video VI.
  • the viewpoint information includes information regarding a virtual viewpoint for viewing the subject SU.
  • the viewpoint information is input by the video producer or the viewer AD.
  • the display DP displays a virtual viewpoint image VI in which the subject SU is viewed from a virtual viewpoint.
  • FIG. 2 is a diagram showing a shadow image SH generated using a volumetric model VM.
  • the volumetric model VM is generated based on the actual image, wrinkles of clothes etc. are realistically reproduced. However, due to restrictions such as the number of cameras 10 installed and the installation position, sufficient shooting data may not be obtained, and the contour of the reproduced subject SU may become rough or fluctuate over time. In this case, the shadow image SH of the subject SU is not reproduced clearly, which may give the viewer a sense of discomfort.
  • FIG. 3 is a diagram showing an example in which the billboard BB is used as a virtual viewpoint video VI.
  • Billboard BB is a thin textured board whose orientation is set so that it always faces the direction of the virtual viewpoint VP.
  • the shape and texture of the billboard BB are generated using the geometry and texture information of the volumetric model VM. Since the billboard BB has a small amount of data, the calculation load can be reduced, but it also contributes to stabilizing the shadow image SH.
  • the shadow image SH is obtained by calculating the shadow when the light from the light source LS is applied to the billboard BB.
  • a shadow image SH is generated behind the billboard BB.
  • the shadow image SH is displayed so as to extend from the feet of the person who is the subject.
  • the position of the light source LS does not change, so the position of the shadow image SH does not change, but the shadow image SH and the feet of the person A gap G may occur between the two. This is because the shape of the virtual space VS in which the billboard BB is arranged and the shape of the shooting space SS in which the subject is photographed do not always match.
  • the gap G is hidden by the billboard BB and is not recognized.
  • the virtual viewpoint VP is changed, the gap G is exposed and is recognized.
  • the shadow image SH is generated based on the volumetric model VM, there is a possibility that a high quality shadow image SH cannot be obtained. Therefore, in the present disclosure, the shadow image SH is generated by using a 3D model for shadows different from the volumetric model VM. Hereinafter, the method of generating the shadow image SH will be specifically described.
  • FIG. 4 is a schematic diagram of the video distribution system 1.
  • the video distribution system 1 is a system that generates and distributes a virtual viewpoint video VI and a shadow video SH from a real video.
  • the video distribution system 1 includes, for example, a plurality of cameras 10, a video transmission PC (Personal Computer) 20, a rendering server 30, an encoder 40, and a distribution server 50.
  • PC Personal Computer
  • the plurality of cameras 10 output a plurality of viewpoint video VPIs obtained by photographing the subject SU from different viewpoints to the video transmission PC 20.
  • the video transmission PC 20 encodes shooting data including a plurality of viewpoint video VPIs and transmits the video transmission to the rendering server 30.
  • the rendering server 30 models the subject SU using a plurality of viewpoint video VPIs, and generates a virtual viewpoint video VI and a shadow video SH based on the viewpoint information.
  • the rendering server 30 outputs a composite image obtained by synthesizing the virtual viewpoint image VI and the shadow image SH to the encoder 40.
  • the encoder 40 encodes the composite video generated by the rendering server 30 and outputs it to the distribution server 50.
  • the distribution server 50 performs live distribution of the synthesized video acquired from the encoder 40 via the network.
  • the image of the camera 10 is transmitted to the rendering server 30 via the image transmission PC 20.
  • the rendering server 30 is installed at the shooting site for rendering, the video transmission PC 20 can be omitted.
  • the encoder 40 and the distribution server 50 can be omitted.
  • FIG. 5 is a diagram showing an example of the configuration of the rendering server 30.
  • the rendering server 30 is an information processing device that processes various information including a shooting data ID.
  • the rendering server 30 has, for example, a decoding unit 31, a volumetric model generation unit 32, a posture estimation unit 33, a pose generation unit 34, a rendering unit 35, and a video output unit 39.
  • the decoding unit 31 decodes the shooting data ID transmitted from the video transmission PC 20 and acquires a plurality of viewpoint video VPIs.
  • the decoding unit 31 outputs a plurality of viewpoint video VPIs to the volumetric model generation unit 32 and the posture estimation unit 33.
  • the volumetric model generation unit 32 generates a volumetric model VM of the subject SU for each frame based on the shooting data of the subject SU. For example, the volumetric model generation unit 32 separates the subject SU from the background for each viewpoint video VPI by using a known method such as background subtraction. The volumetric model generation unit 32 detects the geometry information, texture information, and depth information of the subject SU from the images of the subject SU of a plurality of viewpoints extracted for each viewpoint image VPI. The volumetric model generation unit 32 generates a volumetric model VM of the subject SU based on the detected geometry information, texture information, and depth information. The volumetric model generation unit 32 sequentially outputs the volumetric model VM of each generated frame to the rendering unit 35.
  • the posture estimation unit 33 estimates the posture PO of the subject SU using the shooting data of the subject SU.
  • a posture estimation method a known posture estimation technique using a posture estimation AI (Artificial Integrity) or the like is used.
  • Posture estimation technology uses multiple key points KP from images of the target person or object (if the target is a human, multiple feature points showing shoulders, elbows, wrists, hips, knees, ankles, etc .: see Fig. 7). Is a technique for estimating the attitude PO of the target based on the relative positions of the key points KPs.
  • the pose generation unit 34 generates a pose model PM having a 3D shape of the subject SU corresponding to the posture PO. For example, the pose generation unit 34 acquires the scan data SD of the subject SU obtained by 3D scanning the subject SU before shooting.
  • the scan data SD includes geometry information and texture information of the subject SU.
  • the pose generation unit 34 generates a pose model PM using the scan data SD and the posture PO.
  • the pose model PM is a 3D model of the subject SU for generating the shadow image SH.
  • the scan data SD and the pose model PM do not have to include color information.
  • FIG. 6 is a diagram showing an example of the configuration of the 3D scanner SC.
  • the 3D scan of the subject SU is performed using the 3D scanner SC.
  • the 3D scanner SC has, for example, a plurality of measurement columns 12 arranged in a ring shape so as to surround the subject SU.
  • the measuring column 12 has a rod-shaped frame 14 arranged so as to extend upward through the side of the subject SU, and a plurality of cameras 13 attached along the extending direction of the frame 14.
  • a narrow basket-shaped measurement space MS surrounding the subject SU is formed by the plurality of measurement columns 12 arranged close to the subject SU.
  • the subject SU is photographed synchronously from various directions by a plurality of cameras 13 attached to a plurality of measurement columns 12.
  • the 3D scan is performed on the subject SU having the same appearance as that at the time of shooting by the camera 10 (shooting for generating the virtual viewpoint image VI).
  • a subject model including the geometry information and texture information of the subject SU is generated based on the shooting data of the plurality of cameras 13.
  • the method of generating the subject model is the same as the method of generating the volumetric model VM, but the geometry information included in the scan data SD is more detailed than the geometry information included in the volumetric model VM. Therefore, the 3D shape of the subject SU can be reproduced with higher quality when the subject model is used than when the volumetric model VM is used.
  • a photo scanner was used as the 3D scanner SC, but the 3D scanner SC is not limited to the photo scanner.
  • Another scanning type 3D scanner SC such as a laser scanner may be used.
  • FIG. 7 is a diagram showing a pose model PM.
  • the posture estimation unit 33 extracts a plurality of key point KPs from the shooting data ID of the subject SU.
  • the posture estimation unit 33 estimates the skeleton SK obtained by connecting a plurality of key points KP as the posture PO of the subject SU.
  • the pose generation unit 34 generates a pose model PM based on the skeleton SK obtained by the posture estimation unit 33 and the scan data SD. Therefore, the contour of the subject SU generated by using the pose model PM is smoother than the contour of the subject SU in the virtual viewpoint image VI, and the fluctuation with time is small. Therefore, a shadow image SH that is natural and has little discomfort is generated.
  • the rendering unit 35 acquires viewpoint information regarding the virtual viewpoint VP from the video creator or the viewer AD.
  • the rendering unit 35 renders the volumetric model VM and the pose model PM based on the viewpoint information, and generates a shadowed image viewed from a virtual viewpoint.
  • the rendering unit 35 has, for example, a virtual viewpoint image generation unit 36, a shadow generation unit 37, and a composition unit 38.
  • the rendering unit 35 may generate not only a shaded image viewed from one virtual viewpoint but also a plurality of shaded images viewed from a plurality of viewpoints.
  • FIG. 8 is a diagram showing an example of a virtual viewpoint image VI and a shadow image SH.
  • the virtual viewpoint video generation unit 36 renders the volumetric model VM based on the virtual viewpoint VP.
  • the virtual viewpoint image generation unit 36 generates a virtual viewpoint image VI of the subject SU when the subject SU is viewed from the virtual viewpoint VP.
  • the shadow generation unit 37 uses the pose model PM to generate a shadow image SH in which the shadow of the subject SU is viewed from the virtual viewpoint VP.
  • the synthesizing unit 38 synthesizes the virtual viewpoint image VI and the shadow image SH.
  • the virtual viewpoint video generation unit 36 generates a virtual viewpoint video VI using the shooting data ID of the actual subject SU. Since the information of the subject SU at the time of shooting (expression, posture, sweat condition, wrinkles of clothes, hair disorder due to wind, etc.) is reproduced as it is, a realistic image that accurately reproduces the situation at the time of shooting can be obtained. can get. Therefore, a high sense of presence and immersiveness can be obtained.
  • FIG. 9 is a view of the virtual viewpoint image VI, the pose model PM, and the shadow image SH viewed from a viewpoint different from that of the virtual viewpoint VP.
  • the shadow image SH is an image of the shadow of the pose model PM generated when the pose model PM is placed at the position PS of the subject SU in the virtual space VS.
  • the synthesizing unit 38 synthesizes the virtual viewpoint image VI and the shadow image SH at the position PS of the subject SU without displaying the pose model PM.
  • the virtual viewpoint video VI is generated as the billboard BB, but the virtual viewpoint video VI is not limited to the billboard BB.
  • the subject SU reflected in the virtual viewpoint image VI is in contact with the ground GD of the virtual space VS.
  • the compositing unit 38 sets the position of the shadow image SH so that the shadow extends from the contact portion CT between the ground GD and the subject SU.
  • FIG. 10 is a diagram showing other examples of the virtual viewpoint image VI and the shadow image SH.
  • FIG. 10 shows a person HM manipulating the tool TL.
  • the tool TL is, for example, a rope.
  • a plurality of person HMs are jumping rope using a rope in the shooting space SS.
  • the subject SU was a person HM, but in the example of FIG. 10, the subject SU includes a person HM and a tool TL held by the person HM.
  • the posture estimation unit 33 estimates the posture PO of the person HM and the posture PO of the tool TL with respect to the person HM.
  • the shadow generation unit 37 generates images of the shadow of the person HM and the shadow of the tool TL corresponding to the posture PO of the person HM and the posture PO of the tool TL as the shadow image SH.
  • the tool TL was a rope, but the tool TL is not limited to a rope.
  • the tool TL may be a musical instrument, a racket, a bat, a ball, or the like.
  • the video output unit 39 converts the composite video obtained by synthesizing the virtual viewpoint video VI and the shadow video SH into a video signal and outputs it as output data OD.
  • the output data OD is transmitted to the distribution server 50 via the encoder 40.
  • FIG. 11 is a flowchart showing an information processing method of the rendering server 30.
  • step S1 the plurality of cameras 10 simultaneously shoot the subject SU from a plurality of viewpoints.
  • the shooting data ID including the plurality of viewpoint video VPI shot by the plurality of cameras 10 is transmitted to the rendering server 30.
  • the shooting data ID is supplied to the volumetric model generation unit 32 and the posture estimation unit 33 of the rendering server 30.
  • step S2 the volumetric model generation unit 32 generates a volumetric model VM of the subject SU using the shooting data ID of the subject SU.
  • step S3 the virtual viewpoint image generation unit 36 uses the volumetric model VM to generate a virtual viewpoint image VI of the subject SU as viewed from the virtual viewpoint VP.
  • step S4 the posture estimation unit 33 estimates the posture PO of the subject SU using the shooting data ID of the subject SU.
  • the pose generation unit 34 generates a pose model PM corresponding to the posture PO of the subject SU by using the scan data SD obtained by the measurement before shooting.
  • the shadow generation unit 37 uses the pose model PM to generate a shadow image SH in which the shadow of the subject SU is viewed from the virtual viewpoint VP.
  • step S7 the synthesizing unit 38 synthesizes the virtual viewpoint image VI and the shadow image SH.
  • the composite video is live-distributed via the distribution server 50.
  • FIG. 12 is a diagram showing an example of the hardware configuration of the rendering server 30.
  • the computer 1000 has a CPU (Central Processing Unit) 1100, a RAM (Random Access Memory) 1200, a ROM (Read Only Memory) 1300, an HDD (Hard Disk Drive) 1400, a communication interface 1500, and an input / output interface 1600.
  • a bus 1050 Each part of the computer 1000 is connected by a bus 1050.
  • the CPU 1100 operates based on a program (program data 1450) stored in the ROM 1300 or the HDD 1400, and controls each part. For example, the CPU 1100 expands a program stored in the ROM 1300 or the HDD 1400 into the RAM 1200, and executes processing corresponding to various programs.
  • program data 1450 program data 1450
  • the CPU 1100 expands a program stored in the ROM 1300 or the HDD 1400 into the RAM 1200, and executes processing corresponding to various programs.
  • the ROM 1300 stores a boot program such as a BIOS (Basic Input Output System) executed by the CPU 1100 when the computer 1000 is started, a program depending on the hardware of the computer 1000, and the like.
  • BIOS Basic Input Output System
  • the HDD 1400 is a computer-readable recording medium that non-temporarily records a program executed by the CPU 1100 and data used by such a program.
  • the HDD 1400 is a recording medium for recording an information processing program according to an embodiment as an example of program data 1450.
  • the communication interface 1500 is an interface for the computer 1000 to connect to an external network 1550 (for example, the Internet).
  • the CPU 1100 receives data from another device or transmits data generated by the CPU 1100 to another device via the communication interface 1500.
  • the input / output interface 1600 is an interface for connecting the input / output device 1650 and the computer 1000.
  • the CPU 1100 receives data from an input device such as a keyboard or mouse via the input / output interface 1600. Further, the CPU 1100 transmits data to an output device such as a display device, a speaker, or a printer via the input / output interface 1600. Further, the input / output interface 1600 may function as a media interface for reading a program or the like recorded on a predetermined recording medium (media).
  • the media includes, for example, an optical recording medium such as a DVD (Digital Versaille Disc), a PD (Phase change rewritable Disc), a magneto-optical recording medium such as an MO (Magnet-Optical disc), a tape medium, a magnetic recording medium, or a semiconductor memory.
  • an optical recording medium such as a DVD (Digital Versaille Disc), a PD (Phase change rewritable Disc), a magneto-optical recording medium such as an MO (Magnet-Optical disc), a tape medium, a magnetic recording medium, or a semiconductor memory.
  • the CPU 1100 of the computer 1000 executes an information processing program loaded on the RAM 1200, respectively, as shown in FIG. Realize the function.
  • the HDD 1400 stores the information processing program, various models (volumetric model VM, subject model, pose model PM) and various data (scan data SD, etc.) related to the present disclosure.
  • the CPU 1100 reads the program data 1450 from the HDD 1400 and executes the program, but as another example, these programs may be acquired from another device via the external network 1550.
  • the rendering server 30 has a virtual viewpoint image generation unit 36, a posture estimation unit 33, a pose generation unit 34, a shadow generation unit 37, and a composition unit 38.
  • the virtual viewpoint image generation unit 36 generates a virtual viewpoint image VI of the subject SU when the subject SU is viewed from the virtual viewpoint VP by using the shooting data IDs of the subject SU photographed from a plurality of viewpoints.
  • the posture estimation unit 33 estimates the posture PO of the subject SU using the shooting data ID.
  • the pose generation unit 34 generates a pose model PM having a 3D shape of the subject SU corresponding to the posture PO.
  • the shadow generation unit 37 uses the pose model PM to generate a shadow image SH in which the shadow of the subject SU is viewed from the virtual viewpoint VP.
  • the synthesizing unit 38 synthesizes the virtual viewpoint image VI and the shadow image SH.
  • the processing of the rendering server 30 is executed by the computer 1000.
  • the program of this embodiment makes the computer 1000 realize the processing of the rendering server 30.
  • the pose model PM for generating the shadow image SH is separately generated based on the posture PO of the subject SU. Therefore, a virtual viewpoint video VI having a high quality shadow is generated. In addition, since the shadow shaping process is not required, it becomes easy to live-stream the video of the virtual viewpoint in real time.
  • the shadow image SH is an image of the shadow of the pose model PM generated when the pose model PM is placed at the position PS of the subject SU in the virtual space VS.
  • the synthesizing unit 38 synthesizes the virtual viewpoint image VI and the shadow image SH at the position PS of the subject SU without displaying the pose model PM.
  • the shadow image SH is displayed at an appropriate position according to the position PS of the virtual viewpoint image VI.
  • the subject SU reflected in the virtual viewpoint image VI is in contact with the ground GD of the virtual space VS.
  • the compositing unit 38 sets the position of the shadow image SH so that the shadow extends from the contact portion CT between the ground GD and the subject SU.
  • the shadow image SH is displayed at a position deviated from the virtual viewpoint image VI. Since the shadow image SH and the virtual viewpoint image VI are connected by the contact portion CT with the ground GD, a synthetic image without a sense of discomfort is generated.
  • the pose generation unit 34 generates a pose model PM using the scan data SD of the subject SU obtained by 3D scanning the subject SU before shooting.
  • precise geometry information of the subject SU can be obtained by 3D scanning.
  • High-quality shadow image SH is generated by using precise geometry information.
  • 3D scanning is performed on the subject SU with the same appearance as when shooting.
  • an appropriate shadow image SH that matches the appearance of the subject SU reflected in the virtual viewpoint image VI is generated.
  • the contour of the subject SU generated by using the pose model PM is smoother than the contour of the subject SU in the virtual viewpoint image VI.
  • the subject includes a person HM and a tool TL operated by the person HM.
  • the posture estimation unit 33 estimates the posture PO of the person HM and the posture PO of the tool TL with respect to the person HM.
  • the shadow generation unit 37 generates images of the shadow of the person HM and the shadow of the tool TL corresponding to the posture PO of the person HM and the posture PO of the tool TL as the shadow image SH.
  • an appropriate shadow image SH is generated for both the person HM and the tool TL.
  • the present technology can also have the following configurations.
  • a virtual viewpoint image generation unit that generates a virtual viewpoint image of the subject when the subject is viewed from a virtual viewpoint by using the shooting data of the subject photographed from a plurality of viewpoints.
  • a posture estimation unit that estimates the posture of the subject using the shooting data
  • a pose generation unit that generates a pose model having a 3D shape of the subject corresponding to the posture
  • a pose generation unit Using the pose model, a shadow generation unit that generates a shadow image of the shadow of the subject viewed from the virtual viewpoint, and a shadow generation unit.
  • a compositing unit that synthesizes the virtual viewpoint image and the shadow image, Information processing device with.
  • the shadow image is an image of the shadow of the pose model generated when the pose model is placed at the position of the subject in the virtual space.
  • the compositing unit synthesizes the virtual viewpoint image and the shadow image at the position of the subject without displaying the pose model.
  • (3) The subject reflected in the virtual viewpoint image is in contact with the ground in the virtual space.
  • the compositing unit sets the position of the shadow image so that the shadow extends from the contact portion between the ground and the subject.
  • the pose generation unit generates the pose model using the scan data of the subject obtained by 3D scanning the subject before shooting.
  • the information processing apparatus according to any one of (1) to (3) above.
  • the 3D scan is performed in the same dress as at the time of shooting.
  • the information processing device according to (4) above.
  • the contour of the subject generated by using the pose model is smoother than the contour of the subject in the virtual viewpoint image.
  • the information processing apparatus according to (4) or (5) above.
  • the subject includes a person and tools manipulated by the person.
  • the posture estimation unit estimates the posture of the person and the posture of the tool with respect to the person.
  • the shadow generation unit generates images of the shadow of the person and the shadow of the tool corresponding to the posture of the person and the posture of the tool as the shadow image.
  • the information processing apparatus according to any one of (1) to (6) above.
  • a virtual viewpoint image of the subject viewed from the virtual viewpoint is generated.
  • the posture of the subject is estimated using the shooting data, and the posture is estimated.
  • a pose model having a 3D shape of the subject corresponding to the posture is generated.
  • a shadow image in which the shadow of the subject is viewed from the virtual viewpoint is generated.
  • a method of information processing performed by a computer is performed by a computer.
  • a pose model having a 3D shape of the subject corresponding to the posture is generated.
  • a shadow image in which the shadow of the subject is viewed from the virtual viewpoint is generated.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Graphics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Processing Or Creating Images (AREA)

Abstract

情報処理装置(30)は、仮想視点映像生成部(36)と姿勢推定部(33)とポーズ生成部(34)と影生成部(37)と合成部(38)とを有する。仮想視点映像生成部(36)は、複数の視点から撮影された被写体の撮影データ(ID)を用いて、被写体を仮想視点から見た被写体の仮想視点映像(VI)を生成する。姿勢推定部(33)は、撮影データ(ID)を用いて被写体の姿勢を推定する。ポーズ生成部(34)は、姿勢に対応した被写体の3D形状を有するポーズモデル(PM)を生成する。影生成部(37)は、ポーズモデル(PM)を用いて、被写体の影を仮想視点から見た影映像(SH)を生成する。合成部(38)は、仮想視点映像(VI)と影映像(SH)とを合成する。

Description

情報処理装置、情報処理方法およびプログラム
 本発明は、情報処理装置、情報処理方法およびプログラムに関する。
 実在の人物や場所を3Dデータに変換し、自由な視点(仮想視点)で再現するボリュメトリックキャプチャ技術が知られている。この技術では、異なる視点から撮影された複数の実映像を用いて被写体の3Dモデルが生成される。そして、3Dモデルを用いて任意の視点の映像(仮想視点映像)が生成される。カメラの配置にとらわれない自由な視点の映像が生成できるため、スポーツ放送やエンターテイメント分野など、様々な分野への応用が期待されている。
国際公開第2017/082076号
 被写体の実写3Dモデルは、限られた台数のカメラの映像から生成される。そのため、実写3Dモデルを用いて被写体の影を生成すると、影の輪郭は滑らかにならない。影の輪郭はソフトウェア的に整形されるが、整形処理には多くの時間とコストがかかる。整形処理に時間がかかるため、仮想視点の映像をリアルタイムでライブ配信することも難しい。
 そこで、本開示では、高品質な影を有する仮想視点映像を生成することが可能な情報処理装置、情報処理方法およびプログラムを提案する。
 本開示によれば、複数の視点から撮影された被写体の撮影データを用いて、前記被写体を仮想視点から見た仮想視点映像を生成する仮想視点映像生成部と、前記撮影データを用いて前記被写体の姿勢を推定する姿勢推定部と、前記姿勢に対応した前記被写体の3D形状を有するポーズモデルを生成するポーズ生成部と、前記ポーズモデルを用いて、前記被写体の影を前記仮想視点から見た影映像を生成する影生成部と、前記仮想視点映像と前記影映像とを合成する合成部と、を有する情報処理装置が提供される。また、本開示によれば、前記情報処理装置の情報処理がコンピュータにより実行される情報処理方法、ならびに、前記情報処理装置の情報処理をコンピュータに実現させるプログラムが提供される。
ボリュメトリックキャプチャ技術の説明図である。 ボリュメトリックモデルを用いて生成される影映像を示す図である。 ビルボードを仮想視点映像として用いた例を示す図である。 映像配信システムの概略図である。 レンダリングサーバの構成の一例を示す図である。 3Dスキャナの構成の一例を示す図である。 ポーズモデルを示す図である。 仮想視点映像および影映像の一例を示す図である。 仮想視点映像、ポーズモデルおよび影映像を仮想視点とは異なる視点から見た図である。 仮想視点映像および影映像の他の例を示す図である。 レンダリングサーバの情報処理方法を示すフローチャートである。 レンダリングサーバのハードウェア構成の一例を示す図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
 なお、説明は以下の順序で行われる。
[1.ボリュメトリックキャプチャ技術]
[2.影映像に関する課題]
[3.映像配信システムの構成]
[4.レンダリングサーバの構成]
[5.3Dスキャニング]
[6.ポーズモデル]
[7.仮想視点映像および影映像の生成]
[8.情報処理方法]
[9.レンダリングサーバのハードウェア構成]
[10.効果]
[1.ボリュメトリックキャプチャ技術]
 図1は、ボリュメトリックキャプチャ技術の説明図である。
 ボリュメトリックキャプチャ技術は、3D空間をまるごと撮りこみ、自由な視点で再現する自由視点映像技術の一つである。複数のカメラ10で撮影された映像を切り替えるのではなく、3D空間全体をデータ化するため、本来カメラ10が存在しない視点からの映像も生成可能である。映像制作は、撮影ステップと、モデリングステップと、再生ステップと、を含む。
 撮影ステップでは、複数のカメラ10によって被写体SUが撮影される。複数のカメラ10は、被写体SUを含む撮影空間SSの周囲を囲むように配置される。死角が生じないように、複数のカメラ10の取り付け位置および取り付け方向、ならびに、複数の照明装置11の取り付け位置および取り付け方向が適切に設定される。複数のカメラ10は、所定のフレームレートで被写体SUを複数の視点から同期して撮影する。
 モデリングステップでは、被写体SUの撮影データに基づいて、フレームごとに、被写体SUのボリュメトリックモデルVMが生成される。ボリュメトリックモデルVMは、撮影された瞬間の被写体SUの位置姿勢を示す3Dモデルである。被写体SUの3D形状は、視体積交差法およびステレオマッチング法などの公知の方法により検出される。
 ボリュメトリックモデルVMは、例えば、被写体SUのジオメトリ情報、テクスチャ情報およびデプス情報を含む。ジオメトリ情報は、被写体SUの3D形状を示す情報である。ジオメトリ情報は、例えば、ポリゴンデータまたはボクセルデータとして取得される。テクスチャ情報は、被写体SUの色、模様および質感などを示す情報である。デプス情報は、撮影空間SS内での被写体SUの深度を示す情報である。
 再生ステップでは、ボリュメトリックモデルVMを視点情報に基づいてレンダリングして仮想視点映像VIが生成される。視点情報は、被写体SUを視聴する仮想視点に関する情報を含む。視点情報は、映像製作者または視聴者ADによって入力される。ディスプレイDPには、被写体SUを仮想視点から見た仮想視点映像VIが表示される。
[2.影映像に関する課題]
 図2は、ボリュメトリックモデルVMを用いて生成される影映像SHを示す図である。
 ボリュメトリックモデルVMは実映像に基づいて生成されるため、衣服のしわなどがリアルに再現される。しかし、カメラ10の設置台数や設置位置などの制約によって、十分な撮影データが得られず、再現される被写体SUの輪郭が粗くなったり時間的に揺らいだりする場合がある。この場合、被写体SUの影映像SHがきれいに再現されず、視聴者に違和感を与える可能性がある。
 図3は、ビルボードBBを仮想視点映像VIとして用いた例を示す図である。
 ビルボードBBは、常に仮想視点VPの方向を向くように向きが設定された厚みのないテクスチャ付きの板である。ビルボードBBの形状およびテクスチャは、ボリュメトリックモデルVMのジオメトリ情報およびテクスチャ情報を用いて生成される。ビルボードBBは、データ量が小さいため、演算負荷を低減することができるが、影映像SHを安定させることにも寄与する。影映像SHは、ビルボードBBに光源LSからの光を当てたときの影を演算することにより求められる。
 図3の左下に示すように、ビルボードBBの手前に光源LSが設定された場合には、ビルボードBBの後ろ側に影映像SHが生成される。影映像SHは、被写体となる人物の足元から伸びるように表示されている。図3の右下に示すように、仮想視点VPをビルボードBBの後ろ側に移動すると、光源LSの位置が変わらないので影映像SHの位置は変化しないが、影映像SHと人物の足元との間に隙間Gが生じる場合がある。これは、ビルボードBBが配置される仮想空間VSの形状と被写体が撮影された撮影空間SSの形状とが必ずしも一致しないためである。正面(光源LS側)から見たときには、隙間GがビルボードBBによって隠れるため認識されないが、仮想視点VPを変えると、隙間Gが露わになるため認識されるようになる。
 上述のように、ボリュメトリックモデルVMに基づいて影映像SHを生成すると、高品質な影映像SHが得られない可能性がある。そのため、本開示では、ボリュメトリックモデルVMとは異なる影用の3Dモデルを用いて影映像SHが生成される。以下、影映像SHの生成方法について具体的に説明する。
[3.映像配信システムの構成]
 図4は、映像配信システム1の概略図である。
 映像配信システム1は、実映像から仮想視点映像VIおよび影映像SHを生成して配信するシステムである。映像配信システム1は、例えば、複数のカメラ10と、映像送信用PC(Personal Computer)20と、レンダリングサーバ30と、エンコーダ40と、配信サーバ50と、を有する。
 複数のカメラ10は、異なる視点から被写体SUを撮影した複数の視点映像VPIを映像送信用PC20に出力する。映像送信用PC20は、複数の視点映像VPIを含む撮影データをエンコードしてレンダリングサーバ30に送信する。レンダリングサーバ30は、複数の視点映像VPIを用いて被写体SUをモデリングし、視点情報に基づいて仮想視点映像VIおよび影映像SHを生成する。レンダリングサーバ30は、仮想視点映像VIと影映像SHとを合成した合成映像をエンコーダ40に出力する。エンコーダ40は、レンダリングサーバ30で生成された合成映像をエンコードして配信サーバ50に出力する。配信サーバ50は、エンコーダ40から取得した合成映像をネットワークを介してライブ配信する。
 図4の例では、カメラ10の映像が映像送信用PC20を介してレンダリングサーバ30に送信された。しかし、レンダリングサーバ30を撮影現場に設置してレンダリングを行う場合には、映像送信用PC20は省略することができる。また、ライブ配信を行わない場合には、エンコーダ40および配信サーバ50は省略することができる。
[4.レンダリングサーバの構成]
 図5は、レンダリングサーバ30の構成の一例を示す図である。
 レンダリングサーバ30は、撮影データIDを含む各種情報を処理する情報処理装置である。レンダリングサーバ30は、例えば、デコード部31、ボリュメトリックモデル生成部32、姿勢推定部33、ポーズ生成部34、レンダリング部35および映像出力部39を有する。
 デコード部31は、映像送信用PC20から送信された撮影データIDをデコードして複数の視点映像VPIを取得する。デコード部31は、複数の視点映像VPIをボリュメトリックモデル生成部32および姿勢推定部33に出力する。
 ボリュメトリックモデル生成部32は、被写体SUの撮影データに基づいて、フレームごとに、被写体SUのボリュメトリックモデルVMを生成する。例えば、ボリュメトリックモデル生成部32は、背景差分などの公知の手法を用いて、視点映像VPIごとに、被写体SUを背景から分離する。ボリュメトリックモデル生成部32は、視点映像VPIごとに抽出された複数の視点の被写体SUの映像から、被写体SUのジオメトリ情報、テクスチャ情報およびデプス情報を検出する。ボリュメトリックモデル生成部32は、検出されたジオメトリ情報、テクスチャ情報およびデプス情報に基づいて、被写体SUのボリュメトリックモデルVMを生成する。ボリュメトリックモデル生成部32は、生成された各フレームのボリュメトリックモデルVMをレンダリング部35に順次出力する。
 姿勢推定部33は、被写体SUの撮影データを用いて被写体SUの姿勢POを推定する。姿勢推定方法としては、姿勢推定AI(Artificial Intelligence)などを用いた公知の姿勢推定技術が用いられる。姿勢推定技術は、ターゲットとなる人物または物の映像から複数のキーポイントKP(ターゲットが人間であれば、肩・肘・手首・腰・膝・足首などを示す複数の特徴点:図7参照)を抽出し、キーポイントKP同士の相対位置に基づいてターゲットの姿勢POを推定する技術である。
 ポーズ生成部34は、姿勢POに対応した被写体SUの3D形状を有するポーズモデルPMを生成する。例えば、ポーズ生成部34は、撮影前に被写体SUを3Dスキャンして得られた被写体SUのスキャンデータSDを取得する。スキャンデータSDは、被写体SUのジオメトリ情報およびテクスチャ情報を含む。ポーズ生成部34は、スキャンデータSDおよび姿勢POを用いてポーズモデルPMを生成する。ポーズモデルPMは、影映像SHを生成するための被写体SUの3Dモデルである。なお、スキャンデータSDおよびポーズモデルPMは、色情報を含まなくてもよい。
[5.3Dスキャニング]
 図6は、3DスキャナSCの構成の一例を示す図である。
 被写体SUの3Dスキャンは、3DスキャナSCを用いて実施される。3DスキャナSCは、例えば、被写体SUを取り囲むように環状に配置された複数の計測用支柱12を有する。計測用支柱12は、被写体SUの側方を通って上部に延びるように配置された棒状のフレーム14と、フレーム14の延在方向に沿って取り付けられた複数のカメラ13と、を有する。被写体SUに近接して配置された複数の計測用支柱12によって、被写体SUを囲む狭い籠状の計測空間MSが形成される。
 複数の計測用支柱12に取り付けられた複数のカメラ13によって被写体SUが様々な方向から同期して撮影される。3Dスキャンは、カメラ10による撮影(仮想視点映像VIを生成するための撮影)時と同じ装いの被写体SUに対して実施される。複数のカメラ13の撮影データに基づいて、被写体SUのジオメトリ情報およびテクスチャ情報を含む被写体モデルが生成される。
 被写体モデルの生成方法は、ボリュメトリックモデルVMの生成方法と同様であるが、スキャンデータSDに含まれるジオメトリ情報は、ボリュメトリックモデルVMに含まれるジオメトリ情報よりも詳細である。そのため、ボリュメトリックモデルVMを用いた場合よりも被写体モデルを用いた場合の方が被写体SUの3D形状を高品質に再現できる。
 図6の例では、3DスキャナSCとしてフォトスキャナが用いられたが、3DスキャナSCはフォトスキャナに限定されない。レーザスキャナなどの他のスキャン方式の3DスキャナSCが用いられてもよい。
[6.ポーズモデル]
 図7は、ポーズモデルPMを示す図である。
 姿勢推定部33は、被写体SUの撮影データIDから複数のキーポイントKPを抽出する。姿勢推定部33は、複数のキーポイントKPを接続して得られる骨格SKを被写体SUの姿勢POと推定する。ポーズ生成部34は、姿勢推定部33で得られた骨格SKとスキャンデータSDとに基づいてポーズモデルPMを生成する。そのため、ポーズモデルPMを用いて生成される被写体SUの輪郭は、仮想視点映像VIにおける被写体SUの輪郭よりも滑らかであり時間的な揺らぎも小さい。よって、自然で違和感の少ない影映像SHが生成される。
 図5に戻って、レンダリング部35は、映像制作者または視聴者ADから仮想視点VPに関する視点情報を取得する。レンダリング部35は、ボリュメトリックモデルVMおよびポーズモデルPMを視点情報に基づいてレンダリングし、仮想視点から見た影付きの映像を生成する。レンダリング部35は、例えば、仮想視点映像生成部36、影生成部37および合成部38を有する。なお、レンダリング部35は、1つの仮想視点から見た影付きの映像だけでなく、複数視点から見た複数の影付きの映像を生成してもよい。
[7.仮想視点映像および影映像の生成]
 図8は、仮想視点映像VIおよび影映像SHの一例を示す図である。
 仮想視点映像生成部36は、ボリュメトリックモデルVMを仮想視点VPに基づいてレンダリングする。これにより、仮想視点映像生成部36は、被写体SUを仮想視点VPから見た被写体SUの仮想視点映像VIを生成する。影生成部37は、ポーズモデルPMを用いて、被写体SUの影を仮想視点VPから見た影映像SHを生成する。合成部38は、仮想視点映像VIと影映像SHとを合成する。
 仮想視点映像生成部36は、実際の被写体SUの撮影データIDを用いて仮想視点映像VIを生成する。撮影時の被写体SUの情報(被写体SUの表情、姿勢、汗の具合、洋服のしわ、風による髪の乱れなど)がそのまま再現されるため、撮影時の状況を精密に再現したリアルな映像が得られる。そのため、高い臨場感および没入感が得られる。
 図9は、仮想視点映像VI、ポーズモデルPMおよび影映像SHを仮想視点VPとは異なる視点から見た図である。
 影映像SHは、仮想空間VS内の被写体SUの位置PSにポーズモデルPMを配置したときに生じるポーズモデルPMの影の映像である。合成部38は、ポーズモデルPMを表示せずに、被写体SUの位置PSにおいて仮想視点映像VIと影映像SHとを合成する。図9の例では、仮想視点映像VIはビルボードBBとして生成されているが、仮想視点映像VIはビルボードBBに限られない。仮想視点映像VIに写る被写体SUは仮想空間VSの地面GDと接触している。合成部38は、地面GDと被写体SUとの接触部CTから影が伸びるように影映像SHの位置を設定する。
 図10は、仮想視点映像VIおよび影映像SHの他の例を示す図である。
 図10には、人物HMが道具TLを操る様子が示されている。道具TLは例えば縄である。図10の例では、複数の人物HMが撮影空間SSで縄を使って縄跳びをしている。図9の例では、被写体SUは人物HMであったが、図10の例では、被写体SUは、人物HM、および、人物HMが保持する道具TLを含む。この場合、姿勢推定部33は、人物HMの姿勢PO、および、人物HMに対する道具TLの姿勢POを推定する。影生成部37は、人物HMの姿勢POおよび道具TLの姿勢POに対応した人物HMの影および道具TLの影の映像を影映像SHとして生成する。
 図10の例では、道具TLは縄であったが、道具TLは縄に限られない。道具TLは、楽器、ラケット、バットおよびボールなどでもよい。
 図5に戻って、映像出力部39は、仮想視点映像VIと影映像SHとを合成した合成映像を映像信号に変換して出力データODとして出力する。出力データODは、エンコーダ40を介して配信サーバ50に送信される。
[8.情報処理方法]
 図11は、レンダリングサーバ30の情報処理方法を示すフローチャートである。
 ステップS1において、複数のカメラ10は被写体SUを複数の視点から同期して撮影する。複数のカメラ10によって撮影された複数の視点映像VPIを含む撮影データIDは、レンダリングサーバ30に送信される。撮影データIDは、レンダリングサーバ30のボリュメトリックモデル生成部32および姿勢推定部33に供給される。
 ステップS2において、ボリュメトリックモデル生成部32は、被写体SUの撮影データIDを用いて被写体SUのボリュメトリックモデルVMを生成する。ステップS3において、仮想視点映像生成部36は、ボリュメトリックモデルVMを用いて、被写体SUを仮想視点VPから見た被写体SUの仮想視点映像VIを生成する。
 ステップS4において、姿勢推定部33は、被写体SUの撮影データIDを用いて被写体SUの姿勢POを推定する。ステップS5において、ポーズ生成部34は、撮影前の計測によって得られたスキャンデータSDを用いて、被写体SUの姿勢POに対応したポーズモデルPMを生成する。ステップS6において、影生成部37は、ポーズモデルPMを用いて、被写体SUの影を仮想視点VPから見た影映像SHを生成する。
 ステップS7において、合成部38は、仮想視点映像VIと影映像SHとを合成する。合成映像は配信サーバ50を介してライブ配信される。
[9.レンダリングサーバのハードウェア構成]
 図12は、レンダリングサーバ30のハードウェア構成の一例を示す図である。
 レンダリングサーバ30の情報処理は、例えば、図12に示すコンピュータ1000によって実現される。コンピュータ1000は、CPU(Central Processing Unit)1100、RAM(Random Access Memory)1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、および入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
 CPU1100は、ROM1300またはHDD1400に格納されたプログラム(プログラムデータ1450)に基づいて動作し、各部の制御を行う。たとえば、CPU1100は、ROM1300またはHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
 ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)などのブートプログラムや、コンピュータ1000のハードウェアに依存するプログラムなどを格納する。
 HDD1400は、CPU1100によって実行されるプログラム、および、かかるプログラムによって使用されるデータなどを非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例としての、実施形態にかかる情報処理プログラムを記録する記録媒体である。
 通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(たとえばインターネット)と接続するためのインターフェイスである。たとえば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
 入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。たとえば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウスなどの入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、表示装置やスピーカーやプリンタなどの出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラムなどを読み取るメディアインターフェイスとして機能してもよい。メディアとは、たとえばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)などの光学記録媒体、MO(Magneto-Optical disk)などの光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリなどである。
 たとえば、コンピュータ1000が実施形態にかかる情報処理装置(レンダリングサーバ30)として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされた情報処理プログラムを実行することにより、図5に示された各機能を実現する。また、HDD1400には、本開示にかかる情報処理プログラム、各種モデル(ボリュメトリックモデルVM、被写体モデル、ポーズモデルPM)および各種データ(スキャンデータSDなど)が格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
[10.効果]
 レンダリングサーバ30は、仮想視点映像生成部36と姿勢推定部33とポーズ生成部34と影生成部37と合成部38とを有する。仮想視点映像生成部36は、複数の視点から撮影された被写体SUの撮影データIDを用いて、被写体SUを仮想視点VPから見た被写体SUの仮想視点映像VIを生成する。姿勢推定部33は、撮影データIDを用いて被写体SUの姿勢POを推定する。ポーズ生成部34は、姿勢POに対応した被写体SUの3D形状を有するポーズモデルPMを生成する。影生成部37は、ポーズモデルPMを用いて、被写体SUの影を仮想視点VPから見た影映像SHを生成する。合成部38は、仮想視点映像VIと影映像SHとを合成する。本実施形態の情報処理方法は、レンダリングサーバ30の処理がコンピュータ1000により実行される。本実施形態のプログラムは、レンダリングサーバ30の処理をコンピュータ1000に実現させる。
 この構成によれば、影映像SHを生成するためのポーズモデルPMが被写体SUの姿勢POに基づいて別途生成される。そのため、高品質な影を有する仮想視点映像VIが生成される。また、影の整形処理が不要になるため、仮想視点の映像をリアルタイムでライブ配信することも容易になる。
 影映像SHは、仮想空間VS内の被写体SUの位置PSにポーズモデルPMを配置したときに生じるポーズモデルPMの影の映像である。合成部38は、ポーズモデルPMを表示せずに、被写体SUの位置PSにおいて仮想視点映像VIと影映像SHとを合成する。
 この構成によれば、仮想視点映像VIの位置PSに応じた適切な位置に影映像SHが表示される。
 仮想視点映像VIに写る被写体SUは仮想空間VSの地面GDと接触している。合成部38は、地面GDと被写体SUとの接触部CTから影が伸びるように影映像SHの位置を設定する。
 この構成によれば、影映像SHが仮想視点映像VIから乖離した位置に表示されることが抑制される。影映像SHと仮想視点映像VIとが地面GDとの接触部CTで接続されるため、違和感のない合成映像が生成される。
 ポーズ生成部34は、撮影前に被写体SUを3Dスキャンして得られた被写体SUのスキャンデータSDを用いてポーズモデルPMを生成する。
 この構成によれば、3Dスキャンによって被写体SUの精密なジオメトリ情報が得られる。精密なジオメトリ情報を用いることで高品質な影映像SHが生成される。
 3Dスキャンは、撮影時と同じ装いの被写体SUに対して実施される。
 この構成によれば、仮想視点映像VIに写る被写体SUの装いに合わせた適切な影映像SHが生成される。
 ポーズモデルPMを用いて生成される被写体SUの輪郭は、仮想視点映像VIにおける被写体SUの輪郭よりも滑らかである。
 この構成によれば、滑らかな輪郭を有する影映像SHが生成される。
 被写体は、人物HM、および、人物HMが操る道具TLを含む。姿勢推定部33は、人物HMの姿勢PO、および、人物HMに対する道具TLの姿勢POを推定する。影生成部37は、人物HMの姿勢POおよび道具TLの姿勢POに対応した人物HMの影および道具TLの影の映像を影映像SHとして生成する。
 この構成によれば、人物HMと道具TLの双方について適切な影映像SHが生成される。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
[付記]
 なお、本技術は以下のような構成も取ることができる。
(1)
 複数の視点から撮影された被写体の撮影データを用いて、前記被写体を仮想視点から見た前記被写体の仮想視点映像を生成する仮想視点映像生成部と、
 前記撮影データを用いて前記被写体の姿勢を推定する姿勢推定部と、
 前記姿勢に対応した前記被写体の3D形状を有するポーズモデルを生成するポーズ生成部と、
 前記ポーズモデルを用いて、前記被写体の影を前記仮想視点から見た影映像を生成する影生成部と、
 前記仮想視点映像と前記影映像とを合成する合成部と、
 を有する情報処理装置。
(2)
 前記影映像は、仮想空間内の前記被写体の位置に前記ポーズモデルを配置したときに生じる前記ポーズモデルの影の映像であり、
 前記合成部は、前記ポーズモデルを表示せずに、前記被写体の位置において前記仮想視点映像と前記影映像とを合成する、
 上記(1)に記載の情報処理装置。
(3)
 前記仮想視点映像に写る前記被写体は前記仮想空間の地面と接触しており、
 前記合成部は、前記地面と前記被写体との接触部から前記影が伸びるように前記影映像の位置を設定する、
 上記(2)に記載の情報処理装置。
(4)
 前記ポーズ生成部は、撮影前に前記被写体を3Dスキャンして得られた前記被写体のスキャンデータを用いて前記ポーズモデルを生成する、
 上記(1)ないし(3)のいずれか1つに記載の情報処理装置。
(5)
 前記3Dスキャンは、撮影時と同じ装いで行われる、
 上記(4)に記載の情報処理装置。
(6)
 前記ポーズモデルを用いて生成される前記被写体の輪郭は、前記仮想視点映像における前記被写体の輪郭よりも滑らかである、
 上記(4)または(5)に記載の情報処理装置。
(7)
 前記被写体は、人物、および、前記人物が操る道具を含み、
 前記姿勢推定部は、前記人物の姿勢、および、前記人物に対する前記道具の姿勢を推定し、
 前記影生成部は、前記人物の姿勢および前記道具の姿勢に対応した前記人物の影および前記道具の影の映像を前記影映像として生成する、
 上記(1)ないし(6)のいずれか1つに記載の情報処理装置。
(8)
 複数の視点から撮影された被写体の撮影データを用いて、前記被写体を仮想視点から見た前記被写体の仮想視点映像を生成し、
 前記撮影データを用いて前記被写体の姿勢を推定し、
 前記姿勢に対応した前記被写体の3D形状を有するポーズモデルを生成し、
 前記ポーズモデルを用いて、前記被写体の影を前記仮想視点から見た影映像を生成し、
 前記仮想視点映像と前記影映像とを合成する、
 ことを有する、コンピュータにより実行される情報処理方法。
(9)
 複数の視点から撮影された被写体の撮影データを用いて、前記被写体を仮想視点から見た前記被写体の仮想視点映像を生成し、
 前記撮影データを用いて前記被写体の姿勢を推定し、
 前記姿勢に対応した前記被写体の3D形状を有するポーズモデルを生成し、
 前記ポーズモデルを用いて、前記被写体の影を前記仮想視点から見た影映像を生成し、
 前記仮想視点映像と前記影映像とを合成する、
 ことをコンピュータに実現させるプログラム。
30 レンダリングサーバ(情報処理装置)
33 姿勢推定部
34 ポーズ生成部
36 仮想視点映像生成部
37 影生成部
38 合成部
CT 地面と被写体との接触部
G 隙間
GD 仮想空間の地面
ID 撮影データ
KP キーポイント
LS 光源
PM ポーズモデル
PO 姿勢
PS 仮想空間内の被写体の位置
SD スキャンデータ
SH 影映像
SK 骨格
SU 被写体
TL 道具
VI 仮想視点映像
VP 仮想視点
VPI 視点映像
VS 仮想空間

Claims (9)

  1.  複数の視点から撮影された被写体の撮影データを用いて、前記被写体を仮想視点から見た前記被写体の仮想視点映像を生成する仮想視点映像生成部と、
     前記撮影データを用いて前記被写体の姿勢を推定する姿勢推定部と、
     前記姿勢に対応した前記被写体の3D形状を有するポーズモデルを生成するポーズ生成部と、
     前記ポーズモデルを用いて、前記被写体の影を前記仮想視点から見た影映像を生成する影生成部と、
     前記仮想視点映像と前記影映像とを合成する合成部と、
     を有する情報処理装置。
  2.  前記影映像は、仮想空間内の前記被写体の位置に前記ポーズモデルを配置したときに生じる前記ポーズモデルの影の映像であり、
     前記合成部は、前記ポーズモデルを表示せずに、前記被写体の位置において前記仮想視点映像と前記影映像とを合成する、
     請求項1に記載の情報処理装置。
  3.  前記仮想視点映像に写る前記被写体は前記仮想空間の地面と接触しており、
     前記合成部は、前記地面と前記被写体との接触部から前記影が伸びるように前記影映像の位置を設定する、
     請求項2に記載の情報処理装置。
  4.  前記ポーズ生成部は、撮影前に前記被写体を3Dスキャンして得られた前記被写体のスキャンデータを用いて前記ポーズモデルを生成する、
     請求項1に記載の情報処理装置。
  5.  前記3Dスキャンは、撮影時と同じ装いの前記被写体に対して実施される、
     請求項4に記載の情報処理装置。
  6.  前記ポーズモデルを用いて生成される前記被写体の輪郭は、前記仮想視点映像における前記被写体の輪郭よりも滑らかである、
     請求項4に記載の情報処理装置。
  7.  前記被写体は、人物、および、前記人物が操る道具を含み、
     前記姿勢推定部は、前記人物の姿勢、および、前記人物に対する前記道具の姿勢を推定し、
     前記影生成部は、前記人物の姿勢および前記道具の姿勢に対応した前記人物の影および前記道具の影の映像を前記影映像として生成する、
     請求項1に記載の情報処理装置。
  8.  複数の視点から撮影された被写体の撮影データを用いて、前記被写体を仮想視点から見た前記被写体の仮想視点映像を生成し、
     前記撮影データを用いて前記被写体の姿勢を推定し、
     前記姿勢に対応した前記被写体の3D形状を有するポーズモデルを生成し、
     前記ポーズモデルを用いて、前記被写体の影を前記仮想視点から見た影映像を生成し、
     前記仮想視点映像と前記影映像とを合成する、
     ことを有する、コンピュータにより実行される情報処理方法。
  9.  複数の視点から撮影された被写体の撮影データを用いて、前記被写体を仮想視点から見た前記被写体の仮想視点映像を生成し、
     前記撮影データを用いて前記被写体の姿勢を推定し、
     前記姿勢に対応した前記被写体の3D形状を有するポーズモデルを生成し、
     前記ポーズモデルを用いて、前記被写体の影を前記仮想視点から見た影映像を生成し、
     前記仮想視点映像と前記影映像とを合成する、
     ことをコンピュータに実現させるプログラム。
PCT/JP2021/042275 2020-12-25 2021-11-17 情報処理装置、情報処理方法およびプログラム WO2022137907A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-216013 2020-12-25
JP2020216013 2020-12-25

Publications (1)

Publication Number Publication Date
WO2022137907A1 true WO2022137907A1 (ja) 2022-06-30

Family

ID=82159348

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/042275 WO2022137907A1 (ja) 2020-12-25 2021-11-17 情報処理装置、情報処理方法およびプログラム

Country Status (1)

Country Link
WO (1) WO2022137907A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011048545A (ja) * 2009-08-26 2011-03-10 Kddi Corp 画像合成装置及びプログラム
JP2019095936A (ja) * 2017-11-20 2019-06-20 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム
JP2021056679A (ja) * 2019-09-27 2021-04-08 Kddi株式会社 画像処理装置、方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011048545A (ja) * 2009-08-26 2011-03-10 Kddi Corp 画像合成装置及びプログラム
JP2019095936A (ja) * 2017-11-20 2019-06-20 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム
JP2021056679A (ja) * 2019-09-27 2021-04-08 Kddi株式会社 画像処理装置、方法及びプログラム

Similar Documents

Publication Publication Date Title
US11217006B2 (en) Methods and systems for performing 3D simulation based on a 2D video image
KR101304111B1 (ko) 댄싱 가라오케 시스템
Xu et al. Video-based characters: creating new human performances from a multi-view video database
KR100950169B1 (ko) 다수의 뷰 합성 방법
Carranza et al. Free-viewpoint video of human actors
Kanade et al. Virtualized reality: Concepts and early results
Regenbrecht et al. Mixed voxel reality: Presence and embodiment in low fidelity, visually coherent, mixed reality environments
CN100534158C (zh) 产生虚拟图像和真实图像的合成图像
CA2622744C (en) Personalizing a video
JP4548413B2 (ja) 表示システム、動画化方法およびコントローラ
Latoschik et al. FakeMi: A fake mirror system for avatar embodiment studies
US20210092466A1 (en) Information processing apparatus, information processing method, and program
Hauswiesner et al. Free viewpoint virtual try-on with commodity depth cameras
Gonzalez-Franco et al. Movebox: Democratizing mocap for the microsoft rocketbox avatar library
JP6555755B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
KR102009400B1 (ko) 실감형 영상 콘텐츠 제공 방법 및 이를 이용한 서버
WO2022137907A1 (ja) 情報処理装置、情報処理方法およびプログラム
CN117041664A (zh) 数字人视频生成方法、装置、电子设备及存储介质
Inamoto et al. Free viewpoint video synthesis and presentation of sporting events for mixed reality entertainment
Kim et al. 3-d virtual studio for natural inter-“acting”
Dayrit et al. Increasing pose comprehension through augmented reality reenactment
Lin et al. From motion to magic: Real-time virtual-real stage effects via 3D motion capture
WO2023238660A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP2015060061A (ja) カラオケ装置、画像出力方法、およびプログラム
JP7296735B2 (ja) 画像処理装置、画像処理方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21910060

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21910060

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP