WO2023171355A1 - 撮像システムおよび映像処理方法、並びにプログラム - Google Patents

撮像システムおよび映像処理方法、並びにプログラム Download PDF

Info

Publication number
WO2023171355A1
WO2023171355A1 PCT/JP2023/006123 JP2023006123W WO2023171355A1 WO 2023171355 A1 WO2023171355 A1 WO 2023171355A1 JP 2023006123 W JP2023006123 W JP 2023006123W WO 2023171355 A1 WO2023171355 A1 WO 2023171355A1
Authority
WO
WIPO (PCT)
Prior art keywords
subject
video
data
area
avatar
Prior art date
Application number
PCT/JP2023/006123
Other languages
English (en)
French (fr)
Inventor
雅央 神田
伸絵 前川
和哉 古本
達也 大川
Original Assignee
ソニーセミコンダクタソリューションズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーセミコンダクタソリューションズ株式会社 filed Critical ソニーセミコンダクタソリューションズ株式会社
Publication of WO2023171355A1 publication Critical patent/WO2023171355A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules

Definitions

  • the present technology relates to an imaging system, a video processing method, and a program, and particularly relates to an imaging system, a video processing method, and a program that can suppress the occurrence of reflections.
  • AR Augmented Reality
  • motion capture is performed on the subject in the video obtained by shooting real space
  • avatars etc. that move according to the movement of the subject are captured in the video obtained by shooting.
  • a composite image obtained by superimposing the image on the image is presented.
  • Patent Document 1 the position and orientation of the real camera are estimated using a motion sensor installed in the real camera, and based on the estimation results, the spatial conditions of the real space and the virtual space are made to match, and there is no unnecessary subject.
  • a CG image of the virtual space will be generated.
  • Complementary CG extracted from the CG video is then composited onto the unnecessary subject portion of the video obtained with the real camera.
  • a CG image of the virtual space is generated based on virtual model data prepared in advance.
  • Patent Document 1 it is necessary to prepare in advance virtual model data of a virtual space corresponding to the real space in which photography is performed, so the photography locations are limited. That is, at a shooting location for which there is no corresponding virtual model data, it is not possible to suppress the occurrence of reflections.
  • the present technology was developed in view of this situation, and is intended to suppress the occurrence of reflections.
  • An imaging system includes a subject motion detection unit that performs motion capture of the subject based on a captured image including a predetermined subject and distance information, and a transparency that makes the subject in the captured image invisible. processing, and synthesize an avatar corresponding to the subject that moves as detected by the motion capture on the video obtained by the transparentization process for the captured video, or and a data control unit that generates a composite video by combining the avatars obtained by the morphing process.
  • a video processing method or program performs motion capture of a predetermined subject based on a photographed video including the subject and distance information, and performs a transparency process to make the subject in the photographed video invisible. and then synthesize an avatar corresponding to the subject that moves as detected by the motion capture on the video obtained by the transparentization process on the captured video, or perform the transparentization process on the captured video.
  • the method includes the step of generating a composite video by combining the avatars obtained by the above.
  • motion capture of a predetermined subject is performed based on a photographed image including a predetermined subject and distance information, a transparency process is performed to make the subject in the photographed image invisible, and An avatar corresponding to the subject that moves as detected by the motion capture is synthesized on the video obtained by the transparentization process for the captured video, or an avatar corresponding to the subject is synthesized on the video obtained by the transparentization process A composite video is generated by combining the avatars.
  • FIG. 3 is a diagram illustrating the reflection of a subject.
  • FIG. 2 is a diagram illustrating the present technology.
  • 1 is a diagram showing a configuration example of an imaging system.
  • FIG. 3 is a diagram illustrating generation of a composite video using 3D mapping data.
  • 3 is a flowchart illustrating a composite video generation process.
  • FIG. 3 is a diagram illustrating supplementation using a video shot in advance.
  • 1 is a diagram showing a configuration example of an imaging system. It is a flowchart explaining pre-photography processing.
  • 3 is a flowchart illustrating a composite video generation process.
  • FIG. 3 is a diagram illustrating photographing by a sub-imaging section.
  • FIG. 6 is a diagram illustrating complementation using an image captured by a sub-imaging unit.
  • FIG. 1 is a diagram showing a configuration example of an imaging system.
  • 3 is a flowchart illustrating a composite video generation process.
  • FIG. 6 is a diagram illustrating complementation with a background image generated by estimation.
  • 1 is a diagram showing a configuration example of an imaging system.
  • 3 is a flowchart illustrating a composite video generation process.
  • FIG. 6 is a diagram illustrating complementation with video based on applied data.
  • 1 is a diagram showing a configuration example of an imaging system.
  • 3 is a flowchart illustrating a composite video generation process.
  • FIG. 6 is a diagram illustrating making the avatar transparent by adjusting the size and the like of the avatar.
  • 1 is a diagram showing a configuration example of an imaging system.
  • 3 is a flowchart illustrating a composite video generation process.
  • FIG. 2 is a diagram illustrating object detection using 3D mapping data.
  • 3 is a flowchart illustrating a composite video generation process.
  • FIG. 3 is a diagram illustrating complementation based on past background images.
  • 1 is a diagram showing a configuration example of an imaging system.
  • 3 is a flowchart illustrating a composite video generation process.
  • FIG. 3 is a diagram illustrating processing according to the distance to a target object.
  • 1 is a diagram showing a configuration example of an imaging system.
  • 3 is a flowchart illustrating a composite video generation process.
  • FIG. 3 is a diagram illustrating continuation and pause of photographing.
  • 1 is a diagram showing a configuration example of an imaging system. It is a flowchart explaining determination processing.
  • FIG. 2 is a diagram illustrating a photographed image and a photographic field of view of 3D mapping.
  • FIG. 3 is a diagram illustrating generation of a composite video.
  • 1 is a diagram showing a configuration example of an imaging system.
  • 3 is a flowchart illustrating a composite video generation process.
  • FIG. 3 is a diagram illustrating the reflection of the positional relationship between the front and rear subjects.
  • 1 is a diagram showing a configuration example of an imaging system.
  • 3 is a flowchart illustrating a composite video generation process.
  • FIG. 3 is a diagram illustrating reflection of the positional relationship between target subjects in front and behind each other.
  • 1 is a diagram showing a configuration example of an imaging system.
  • 3 is a flowchart illustrating a composite video generation process.
  • FIG. 3 is a diagram illustrating the reflection of the positional relationship between the front and rear subjects.
  • 1 is a diagram showing a configuration example of an imaging system.
  • 3 is a flowchart illustrating a composite video generation process. It is a figure explaining size change of an avatar.
  • 1 is a diagram showing a configuration example of an imaging system.
  • 3 is a flowchart illustrating a composite video generation process.
  • FIG. 6 is a diagram illustrating adjustment of the display size of an avatar according to distance.
  • 1 is a diagram showing a configuration example of an imaging system.
  • 3 is a flowchart illustrating a composite video generation process.
  • FIG. 3 is a diagram illustrating avatar display starting from a contact point of a subject.
  • 1 is a diagram showing a configuration example of an imaging system.
  • FIG. 3 is a flowchart illustrating a composite video generation process.
  • FIG. 3 is a diagram illustrating synthesis of arbitrary separate videos.
  • 1 is a diagram showing a configuration example of an imaging system.
  • 3 is a flowchart illustrating a composite video generation process. It is a diagram showing an example of the configuration of a computer.
  • This technology relates to an AR video shooting method using motion capture that can suppress the occurrence of reflections of objects.
  • a specific subject SB11 such as a person and other subjects such as the background are photographed by camera CA11.
  • motion capture is performed to detect the movement of the subject SB11 based on the photographed image P11 obtained by shooting with the camera CA11, and the avatar movement is an image of the avatar AB11 moving in accordance with the movement (motion) obtained as a result. Data is generated.
  • avatar movement data (avatar AB11) is synthesized (superimposed) on the portion of the subject SB11 on the photographed video P11 to generate a composite video SP11 that is presented to the user and the like.
  • the avatar AB11 is directly superimposed on the part of the subject SB11 and composited (displayed), so if the shapes of the subject SB11 and the avatar AB11 do not match completely, the subject SB11 will overlap from the part of the avatar AB11 on the composite image SP11. It sticks out. In other words, a reflection of the subject SB11 occurs.
  • this technology uses 3D mapping, which is distance information that shows the distance from the shooting position to a specific subject or other subjects such as the background, to more easily and reliably detect reflections, regardless of the shooting location. It was possible to suppress the occurrence.
  • a specific subject such as a person SB21 and other subjects such as the background are targeted (subjects), and a normal moving image (video image) is captured by the camera CA21. ) and 3D mapping will be taken.
  • a photographed video P21 including the subject SB21 etc. as a subject and 3D mapping MP21 which is distance information indicating the distance from the camera CA21 to each subject such as the subject SB21 and other subjects in the background are obtained.
  • the photographed images P21 and 3D mapping MP21 the area and movement of the subject SB21 can be detected more accurately.
  • the area of the subject SB21 on the captured video P21 is supplemented (replaced) with a previously captured video or other video prepared in advance. Transparency processing that makes it invisible is realized.
  • motion capture of the subject SB21 is performed based on the photographed video P21 and 3D mapping MP21 obtained by photographing. That is, the movement of the subject SB21 is detected. Then, an image of the avatar AB21 corresponding to the subject SB21, which moves in accordance with the movement of the subject SB21, is generated as avatar motion data.
  • the avatar AB21 is composited with the area of the subject SB21 on the captured video P21 that has been subjected to the transparency process, and a composite video SP21 to be presented to the user etc. is generated.
  • the object SB21 can be made transparent regardless of the shooting location, and a composite image SP21 without reflections of the object SB21 can be obtained. I can do it. That is, the avatar AB21 can be synthesized without causing any discomfort with the real background. Therefore, the composite video SP21 can be presented without destroying the worldview as a video.
  • this technology uses not only the captured video P21 but also 3D mapping MP21 to more easily and accurately detect the area and movement of the subject SB21, and to naturally display the avatar AB21 etc. in real space on the composite video SP21. It can be harmonized.
  • FIG. 3 is a diagram showing a schematic configuration of an imaging system to which the present technology is applied.
  • the imaging system 11 shown in FIG. 3 includes an imaging section 21, a data control section 22, and a display 23.
  • the imaging unit 21 is composed of, for example, a camera, and captures (obtains) a captured image and 3D mapping using a specific person (user), background, etc. as a subject.
  • the imaging unit 21 includes a 3D mapping imaging unit 31 and an image imaging unit 32.
  • the 3D mapping imaging unit 31 includes a distance measurement sensor such as a ToF (Time Of Flight) sensor, a stereo camera, and a structured light system.
  • the 3D mapping imaging unit 31 performs 3D mapping imaging of a specific person (user), background, etc., and determines the resulting imaging position, that is, the distance from the 3D mapping imaging unit 31 to the subject (object). 3D mapping data indicating this is supplied to the data control unit 22.
  • the image capturing unit 32 includes, for example, an image sensor, and captures a moving image (captured video) using a specific person (user), background, etc. as a subject, and transmits the video data of the resulting captured video to the data control unit. 22.
  • 3D mapping imaging unit 31 and the image imaging unit 32 may be provided separately or may be formed on one sensor substrate.
  • the data control unit 22 is composed of an information processing device such as a personal computer or a smartphone, for example.
  • the imaging unit 21 and the display 23 may be provided in the information processing device having the data control unit 22, or the imaging unit 21 and the display 23 may be provided with a device different from the information processing device having the data control unit 22. may be done.
  • the data control unit 22 generates video data of a composite video based on the 3D mapping data and video data including the same subject supplied from the imaging unit 21 and avatar information supplied from the outside, and supplies it to the display 23. do.
  • the avatar information is 3D model data representing a 3D model of an avatar such as another character or human image corresponding to a specific subject such as a person on the captured video.
  • a specific person in a captured video is made transparent, and a composite image is generated in which an avatar corresponding to the specific person is synthesized. Further, a specific person to be made transparent is also referred to as a target subject.
  • the data control section 22 includes a subject motion detection section 41, an avatar motion construction section 42, a subject region extraction section 43, a subject region processing section 44, a background image processing section 45, and an image composition section 46.
  • the subject motion detection unit 41 performs a motion detection process that detects the movement of a target subject on a captured video based on the 3D mapping data supplied from the 3D mapping imaging unit 31 and the video data supplied from the image capturing unit 32. Perform a capture.
  • the subject motion detection unit 41 supplies the avatar motion construction unit 42 with subject motion data indicating the movement of the target subject detected (captured) by motion capture.
  • the subject motion detection unit 41 performs motion capture of the target subject based on at least one of the 3D mapping data and the video data of the captured video.
  • the 3D mapping imaging unit 31 it may not be possible to accurately detect the movement of the target subject using 3D mapping data. Further, depending on the shooting environment such as the brightness around the imaging unit 21, it may not be possible to accurately detect the movement of the target subject using the video data of the shot video.
  • the subject motion detection unit 41 detects the motion of the target subject based on the 3D mapping data and the motion detection result of the target subject based on the video data, depending on the shooting environment such as the distance to the target subject and the brightness. Either of these may be used as the final detection result, or the movement of the subject may be detected based only on either the 3D mapping data or the video data.
  • the area of the target subject may be detected from 3D mapping data or video data, and the movement of the target subject may be detected based on the detection result, or the area of the target subject may be detected.
  • the movement of the target object may be detected directly from 3D mapping data or video data.
  • the avatar motion construction unit 42 generates avatar motion data, which is an image of the avatar making the same movement as the target subject, based on the subject motion data supplied from the subject motion detection unit 41 and avatar information supplied from the outside. (construct) and supplies it to the image synthesis section 46.
  • the subject area extraction unit 43 extracts a target subject area (hereinafter referred to as “target subject area”) on the captured video based on at least one of the 3D mapping data supplied from the 3D mapping imaging unit 31 and the video data supplied from the image capturing unit 32. , also referred to as the subject area).
  • target subject area a target subject area
  • the subject area extraction unit 43 extracts the area of the target subject from the photographed video, and supplies data of the extracted image (video) of the target subject to the subject area processing unit 44 as subject area data.
  • the subject area extraction unit 43 converts the data of the image (video) obtained by removing the area of the target subject from the photographed video into a background image as data outside the subject area that is video data of subjects other than the target subject, that is, the background. It is supplied to the processing section 45.
  • the subject area extraction unit 43 supplies 3D mapping data to the subject area processing unit 44 and background image processing unit 45 as necessary.
  • the subject area processing unit 44 performs predetermined processing, such as processing to make the target subject transparent, on the subject area data supplied from the subject area extracting unit 43 as subject area processing processing, and extracts the resultant image.
  • the processed subject area processing data is supplied to the image composition section 46.
  • the background video processing unit 45 performs image processing (processing processing) such as superimposing an image of a predetermined object on the data outside the subject area supplied from the subject area extraction unit 43 as background video processing processing, and extracts the resultant image.
  • image processing processing processing
  • the processed background image processing data is supplied to the image synthesis section 46.
  • the image synthesis section 46 synthesizes the avatar motion data supplied from the avatar motion construction section 42, the subject region processing data supplied from the subject region processing section 44, and the background video processing data supplied from the background video processing section 45. , the video data of the resulting composite video is supplied to the display 23.
  • the display 23 displays a composite video based on the video data supplied from the image composition unit 46.
  • a composite image is generated as shown in FIG. 4, for example.
  • a 3D mapping MP31 including the target subject SB31 and a photographed video P31 are acquired by photographing by the imaging unit 21.
  • the subject motion detection unit 41 performs motion capture of the target subject SB31, and based on the result, the avatar motion construction unit 42 generates avatar motion data of the avatar AB31 corresponding to the target subject SB31.
  • This avatar motion data is video data of avatar AB31 moving in the same way as target subject SB31.
  • the subject area extraction unit 43 extracts the area of the target subject SB31 from the photographed video P31. Then, the subject area processing unit 44 generates a video SRP31 corresponding to the area of the target subject SB31, and the background video processing unit 45 generates a background video BRP31.
  • the video SRP31 is a video based on subject area processing data
  • the background video BRP31 is a video based on background video processing data.
  • the avatar motion data of the avatar AB31, the video SRP31 (subject area processing data), and the background video BRP31 (background video processing data) are synthesized to generate one composite video SP31.
  • the video obtained by combining the video SRP31 and the background video BRP31 becomes the background video obtained by performing the transparency process to make the target subject SB31 on the captured video P31 transparent.
  • At least one of a plurality of blocks including the avatar motion construction unit 42 to the image synthesis unit 46 extracts a target subject by a subject area extraction unit 43, generates a video by a subject area processing unit 44, etc. Transparency processing is realized by the processing performed by the blocks.
  • a subject area that is a target subject area on a captured video is extracted, and a background video is combined with the extracted subject area, so that the target subject becomes invisible.
  • a subject area on a captured video is extracted, and the size of an avatar to be composited with the extracted subject area is adjusted, or an avatar with a background is composited with the extracted subject area. By generating an image, the target subject is made invisible.
  • the data control unit 22 may synthesize an avatar corresponding to the target subject that moves as detected by motion capture onto a video obtained by transparentizing the photographed video, or perform transparent processing on the photographed video.
  • a composite image is generated by combining the avatars obtained through processing.
  • step S11 the imaging unit 21 acquires the captured video and 3D mapping.
  • the 3D mapping imaging unit 31 performs 3D mapping imaging of the area including the target subject, and supplies the resulting 3D mapping data to the subject motion detection unit 41 and the subject area extraction unit 43.
  • the image capturing unit 32 also captures a moving image (captured video) in an area including the target subject, and sends video data of the resulting captured video to the subject motion detection unit 41 and the subject area extraction unit 43. supply
  • the angle of view (range to be photographed) at the time of photographing the photographed video is approximately the same as the angle of view at the time of photographing 3D mapping.
  • step S12 the subject motion detection section 41 performs motion capture based on the 3D mapping data supplied from the 3D mapping imaging section 31 and the video data supplied from the image capturing section 32, and obtains the subject motion data as a result. is supplied to the avatar motion construction unit 42.
  • the subject motion detection unit 41 performs motion capture using not only the 3D mapping data and video data of the frame to be processed, but also the 3D mapping data and video data of a frame temporally earlier than the frame to be processed. .
  • step S13 the avatar motion construction section 42 generates avatar motion data based on the subject motion data supplied from the subject motion detection section 41 and the avatar information supplied from the outside, and supplies it to the image composition section 46.
  • step S14 the subject area extraction unit 43 detects a subject area based on the 3D mapping data supplied from the 3D mapping imaging unit 31 and the video data supplied from the image capturing unit 32. For example, detection of the subject area is performed by image recognition or the like.
  • the subject area extraction unit 43 generates subject area data and outside subject area data based on the detection result of the subject area, supplies the subject area data to the subject area processing unit 44, and supplies the outside subject area data to the background video processing unit. 45.
  • step S15 the subject area processing unit 44 performs subject area processing on the subject area data supplied from the subject area extraction unit 43, and supplies the resulting subject area processed data to the image composition unit 46.
  • the subject area processing process may be performed as necessary, and if the subject area processing process is not performed, for example, the subject area data may be supplied as is to the image synthesis unit 46 as subject area processing data. You can.
  • step S16 the background video processing unit 45 performs background video processing on the data outside the subject area supplied from the subject area extraction unit 43, and supplies the resulting background video processing data to the image synthesis unit 46. .
  • the background video processing process may be performed as necessary, and if the background video processing process is not performed, for example, data outside the subject area may be supplied as it is to the image synthesis unit 46 as background video processing data. You can also do this.
  • step S17 the image synthesis unit 46 uses the avatar motion data supplied from the avatar motion construction unit 42, the subject area processed data supplied from the subject area processing unit 44, and the background video processed data supplied from the background video processing unit 45.
  • a composite video is generated by combining the images.
  • the image compositing section 46 supplies the video data of the obtained composite video to the display 23, and the display 23 displays the composite video based on the video data supplied from the image compositing section 46.
  • the image synthesis unit 46 synthesizes a video based on the subject area processing data on a subject area on the video based on the background video processing data, and further combines the subject area on the resulting video based on the avatar movement data. Combine images of avatars.
  • the target subject is made transparent, so that occurrence of reflection of the target subject is suppressed.
  • the transparency process is realized by at least part of the processes performed in steps S13 to S17.
  • the data control unit 22 performs part of the processing from step S13 to step S17 as transparency processing.
  • a specific example of making the target subject transparent will be described later.
  • step S18 the data control unit 22 determines whether or not to end the process. For example, when a user or the like instructs to end the photographing, it is determined that the process is to end.
  • step S18 If it is determined in step S18 that the process is not finished yet, the process returns to step S11, and the above-described process is repeated.
  • step S18 if it is determined in step S18 that the process is to be ended, each part of the imaging system 11 stops the processing that is being performed, and the composite video generation process ends.
  • the imaging system 11 acquires the captured video and 3D mapping, and generates a composite video.
  • the imaging system 11 uses video data of captured images and 3D mapping data to improve the recognition accuracy of the position and shape of the subject area, extract the subject area more accurately, and better detect the movement of the subject. can be detected accurately.
  • the imaging system 11 does not require generation of CG images in virtual space, estimation of the position and orientation of the imaging unit 21, processing to delay images for avatar synthesis, and the like.
  • the imaging system 11 can more easily and reliably suppress the occurrence of reflections of the target subject, regardless of the shooting location.
  • a composite video may be generated by combining any of the embodiments described below.
  • FIGS. 6 to 58 parts corresponding to those in FIG. 3 or FIG.
  • FIGS. 6 to 58 mutually corresponding parts are denoted by the same reference numerals, and the explanation thereof will be omitted as appropriate.
  • images and 3D mapping of the background and surrounding objects of the target subject are shot in advance, and by supplementing the background parts that are invisible to the target subject with the pre-shot video during actual shooting, the target subject can be transparently captured.
  • the target subject can be transparently captured.
  • the imaging unit 21 performs photography in advance without the target subject SB31, and acquires the photographed video and 3D mapping.
  • reference captured video and reference 3D mapping obtained by prior shooting
  • reference captured video and reference 3D mapping respectively.
  • video data of the reference photographed video will also be referred to as reference video data.
  • the reference shot image P'41 in which the target subject SB31 is not shown is obtained by the preliminary shooting shown in arrow Q11, and the shot image P'41 in which the target subject SB31 is shown is obtained by the subsequent shooting shown in arrow Q12. P41 is obtained.
  • the reference photographed video P'41 and the photographed video P41 target the same area in real space and are photographed at the same angle of view. Therefore, the reference photographed video P'41 and the photographed video P41 differ only in whether or not the target subject SB31 is shown on the photographed video.
  • the area of the target subject SB31 (subject area) is removed from the photographed video P41, and data outside the subject area of the background image P42, which is a background only image, that is, background image processed data is generated.
  • the background image P42 there is a region R41 (subject region) in which the background cannot be seen because the target subject SB31 overlaps with the target subject SB31.
  • subject area processing data corresponding to the area R41 is generated based on the reference photographed image P'41.
  • the same area as the subject area (region R41) on the photographed image P41 in the reference photographed image P'41 is extracted and used as the subject area processed data.
  • the video based on the subject area processing data is a background video of a region (background) corresponding to region R41, which was hidden by target subject SB31 in photographed video P41.
  • the part in the subject area is complemented, and it is possible to obtain a background image P43 in which the target subject SB31 is made transparent.
  • a composite video SP41 without reflection (extrusion) of the target subject SB31 can be obtained as an AR video (moving image).
  • the imaging system 11 is configured as shown in FIG. 7, for example.
  • the configuration of the imaging system 11 shown in FIG. 7 is such that a reference data storage section 71 is newly added to the configuration of the imaging system 11 shown in FIG. 3.
  • a reference data storage section 71 is newly added to the configuration of the imaging system 11 shown in FIG. 3.
  • two imaging units 21 are depicted, although only one is actually provided.
  • the reference data storage unit 71 retains the video data and 3D mapping of a reference (complementary) captured video obtained by prior imaging by the imaging unit 21 as reference video data and reference 3D mapping data. Further, the reference data storage unit 71 supplies the reference video data and reference 3D mapping data held therein to the subject area processing unit 44 and the background video processing unit 45 as necessary.
  • the subject area processing unit 44 processes the subject area based on the subject area data and 3D mapping data supplied from the subject area extraction unit 43 and the reference video data and reference 3D mapping data supplied from the reference data storage unit 71. Generate processing data.
  • the background video processing unit 45 processes the background based on the data outside the subject area and the 3D mapping data supplied from the subject area extraction unit 43 and the reference video data and the reference 3D mapping data supplied from the reference data storage unit 71. Generate video processing data.
  • step S41 the imaging unit 21 acquires a captured video without the target subject and 3D mapping.
  • the 3D mapping imaging unit 31 performs preliminary 3D mapping imaging without the target subject, and supplies the resulting 3D mapping data to the reference data storage unit 71 as reference 3D mapping data. Further, the image capturing unit 32 captures a pre-captured video in a state where the target subject is not present, and supplies the video data of the captured video obtained as a result to the reference data storage unit 71 as reference video data.
  • step S42 the reference data storage unit 71 retains the reference 3D mapping data supplied from the 3D mapping imaging unit 31 and the reference video data supplied from the image imaging unit 32, and the pre-imaging process ends.
  • reference data a data set consisting of reference 3D mapping data and reference video data will also be referred to as reference data.
  • the imaging system 11 acquires and retains the reference data. By doing so, the imaging system 11 can easily make the target subject transparent using the reference data.
  • step S71 to step S74 is similar to the processing from step S11 to step S14 in FIG. 5, so a description thereof will be omitted.
  • step S75 the subject area processing unit 44 performs subject area processing processing based on the subject area data and 3D mapping data supplied from the subject area extraction unit 43, and the reference data supplied from the reference data storage unit 71.
  • the subject area processing unit 44 identifies an area on the reference shot video that corresponds to the subject area based on the object area data, 3D mapping data, and reference data, and Extract the image and use it as subject area processing data.
  • the subject area processing process is a process in which the subject area data is replaced with the image data of the area on the reference shot video that corresponds to the subject area, and is used as subject area processing data.
  • the subject area processing section 44 supplies the subject area processing data obtained through the subject area processing processing to the image composition section 46 .
  • step S76 the background video processing section 45 performs background video processing processing based on the data outside the subject area and the 3D mapping data supplied from the subject region extraction section 43, and the reference data supplied from the reference data storage section 71. .
  • the background video processing unit 45 identifies an area on the reference shot video that corresponds to the subject area based on data outside the subject area, 3D mapping data, and reference data, and performs blending processing based on the identification result. By doing this, background video processing data is generated.
  • the blending process is performed on an area near the boundary with the subject area in the background image (hereinafter also referred to as the target area). That is, in the target area, a background image based on data outside the object area and a reference photographed image are weighted and added to generate an image based on background image processed data. Furthermore, outside the object area, the background image based on the data outside the object area is used as it is as the image based on the background image processing data.
  • the background video processing section 45 supplies the background video processing data obtained through the background video processing processing to the image composition section 46.
  • step S76 After the process of step S76 is performed, the process of steps S77 and S78 is performed and the composite video generation process ends, but these processes are similar to the processes of step S17 and step S18 in FIG. , the explanation thereof will be omitted.
  • the imaging system 11 performs processing to make the target subject transparent based on the reference data, and generates a composite image. In this case as well, it is possible to more easily and reliably suppress the occurrence of reflections of the target subject, regardless of the shooting location.
  • ⁇ Second embodiment> ⁇ Example of configuration of imaging system> Achieves transparency of the target subject by simultaneously capturing video images of the target subject using multiple image capture units, and using the obtained multiple captured images to complement the background parts that are invisible to the target subject. Let's discuss an example.
  • the sub-imaging section 101 serving as a sub camera also takes an image.
  • the imaging unit 21 and the sub-imaging unit 101 are different from each other so that when the imaging unit 21 (image imaging unit 32) takes an image, the background part that is hidden by the target subject is captured by the sub-imaging unit 101. placed in position.
  • the imaging unit 21 captures a captured video P51 including the target subject SB31
  • the sub imaging unit 101 captures a captured video P52 including the target subject SB31.
  • a background part that is not visible on the photographed video P51 because it is hidden by the target subject SB31 is included (shown) as a subject.
  • a composite image SP51 without reflection of the target subject SB31 can be obtained using the photographed image P51 and the photographed image P52.
  • a region R51 of the target subject SB31 is extracted and deleted (removed) from a photographed video P51 photographed by the imaging unit 21 serving as the main camera, and the video data of the background video P53 obtained as a result is used as the background video. It is considered processed data.
  • an area corresponding to the area R51 of the target subject SB31 on the captured image P51 is extracted from the captured image P52 captured by the sub imaging unit 101 serving as a sub camera, and the video data of the extracted area is It is considered as area processing data.
  • the video based on the subject area processing data is a background video of a region (background) corresponding to region R51, which was hidden and not visible by target subject SB31 in photographed video P51.
  • a video P54 is generated by combining the video of the background portion based on the subject area processing data and the background video P53.
  • This video P54 is a video in which the target subject SB31 is made transparent, which is obtained by complementing the region R51 of the target subject SB31 in the photographed video P51 with the photographed video P52.
  • the imaging system 11 When complementation is performed based on the photographed video obtained by the sub-imaging unit 101, the imaging system 11 has the configuration shown in FIG. 12, for example.
  • the configuration of the imaging system 11 shown in FIG. 12 is such that the configuration of the imaging system 11 shown in FIG. There is.
  • the sub imaging unit 101 is a sub camera (another imaging unit) located at a different position from the imaging unit 21 that is the main camera, and has an image imaging unit 121.
  • the image capturing unit 121 is composed of, for example, an image sensor, and captures a moving image (captured video) using a target subject, background, etc. as a subject from a shooting position different from that of the image capturing unit 32, and captures the resulting captured video.
  • the video data is supplied to the subject background processing section 122.
  • the photographed video photographed by the image capturing unit 121 is also particularly referred to as a supplementary photographed video.
  • the sub imaging unit 101 may be provided with a 3D mapping imaging unit that performs 3D mapping imaging from a different imaging position from that of the 3D mapping imaging unit 31.
  • the subject background processing unit 122 generates subject area background data based on the area information and 3D mapping data supplied from the subject area extracting unit 43 and the video data of the supplementary photographed video supplied from the image capturing unit 121. and supplies it to the subject area processing section 44.
  • the area information is information indicating the area of the target subject in the photographed video obtained by the image capturing unit 32, that is, the subject area.
  • the area information is information indicating the position and range of the area where the target subject is shown on the captured video.
  • the subject area background data is an image of an area (hereinafter also referred to as an occlusion area) on the complementary captured image corresponding to the area information, that is, a background portion that is hidden by the target subject and cannot be seen on the captured image obtained by the image capturing unit 32.
  • This is video data.
  • step S101 is similar to the process in step S11 in FIG. 5, so a description thereof will be omitted.
  • step S102 the sub-imaging unit 101 acquires a supplementary captured image. That is, the image capturing unit 121 captures a moving image (captured video) for an area including the target subject, and supplies video data of the complementary captured video obtained as a result to the subject background processing unit 122.
  • steps S103 to S105 are then performed, but since these processes are similar to the processes in steps S12 to S14 in FIG. 5, their explanation will be omitted.
  • step S105 the subject area extraction unit 43 generates area information indicating the area of the target subject on the captured video, and supplies the area information and 3D mapping data to the subject background processing unit 122.
  • step S ⁇ b>106 the subject background processing unit 122 generates subject area background data based on the area information and 3D mapping data supplied from the subject area extraction unit 43 and the video data of the supplementary photographed video supplied from the image capturing unit 121 . generate.
  • the subject background processing unit 122 corresponds to the subject area indicated by the area information, based on positional relationship information indicating the known positional relationship between the image capturing unit 32 and the image capturing unit 121, area information, and 3D mapping data. Extract the occlusion area on the supplementary captured video.
  • the subject background processing unit 122 performs processing on the extracted occlusion area video (image) to match the positional relationship of the subject between the captured images, for example, the occlusion area, based on positional relationship information, area information, and 3D mapping data.
  • Subject area background data is generated by performing transformation processing on the image.
  • the target subject is made transparent through the process of generating subject area background data.
  • the subject background processing unit 122 supplies the generated subject area background data to the subject area processing unit 44.
  • the subject area background data is an occlusion area (background part) that is hidden by the target subject and cannot be seen on the photographed video obtained by the image capturing unit 32, and is formed in the same shape as the subject area indicated by the area information. This is the image data of the area.
  • the subject area background data is video data of an occlusion area when viewed from the position of the image capturing unit 32.
  • the subject area processing unit 44 generates subject area processing data based on the subject area data supplied from the subject area extraction unit 43 and the subject area background data supplied from the subject background processing unit 122, and synthesizes the image. 46.
  • subject area processing unit 44 may perform some processing on the subject area background data and use it as subject area processed data, or the subject area background data may be used as it is as subject area processed data.
  • step S106 After the process of step S106 is performed, the process of steps S107 to S109 is performed and the composite video generation process ends, but these processes are similar to the processes of steps S116 to S18 in FIG. , the explanation thereof will be omitted.
  • the imaging system 11 performs processing to make the target subject transparent based on the supplementary captured image, and generates a composite image. In this case as well, it is possible to more easily and reliably suppress the occurrence of reflections of the target subject, regardless of the shooting location.
  • ⁇ Third embodiment> ⁇ Example of configuration of imaging system> An example will be described in which an image of a background portion that cannot be seen by the target object on a captured image is generated by estimation and complemented, thereby realizing transparency of the target object.
  • the image capturing unit 21 captures a captured video P51 including the target subject SB31. Further, the region R51 of the target subject SB31 is extracted from the photographed video P51 and deleted (removed), and the video data of the background video P53 obtained as a result is used as the background video processed data.
  • the image of the background part that is not visible because it is hidden by the target subject SB31, that is, the background of the area R51 part, is estimated, and the area R51 obtained as a result is estimated.
  • the image data of the image having the same shape as the object area processing data is taken as the object area processing data.
  • the color and shape of the background object in the area R51 is estimated from the color and shape of the background object around (near) the area R51 in the photographed video P51.
  • a video P61 is generated by combining the video of the background portion based on the subject area processing data obtained in this way and the background video P53.
  • This video P61 is a video in which the target subject SB31 is made transparent, which is obtained by complementing the region R51 of the target subject SB31 in the photographed video P51 with the background video generated by estimation.
  • the imaging system 11 When complementation is performed based on a background image generated by estimation, the imaging system 11 has the configuration shown in FIG. 15, for example.
  • the configuration of the imaging system 11 shown in FIG. 15 has a configuration in which a virtual data generation unit 151 is newly added to the configuration of the imaging system 11 shown in FIG. 3.
  • the subject area extraction unit 43 generates generation area information indicating the area of the target subject on the captured video, and supplies it to the virtual data generation unit 151.
  • This generation area information is information indicating the area of the target subject on the captured video, but it can also be said to be information indicating the area of the background generated by estimation.
  • the virtual data generation unit 151 generates data based on the generation area information supplied from the subject area extraction unit 43, the 3D mapping data supplied from the 3D mapping imaging unit 31, and the video data of the photographed video supplied from the image imaging unit 32. Estimation processing is performed to generate virtual object area data.
  • the subject area virtual data is video data of a background part that is hidden behind the target subject and is not visible in the area (subject area) indicated by the generated area information on the captured video, which is generated by estimation processing, and the generated area information
  • This is video data of a video having the same shape as the area indicated by .
  • the virtual data generation unit 151 supplies the generated subject area virtual data to the subject area processing unit 44.
  • step S131 to step S134 is the same as the processing from step S11 to step S14 in FIG. 5, so a description thereof will be omitted.
  • step S134 the subject area extraction unit 43 generates generation area information indicating the area of the target subject on the captured video, that is, the area where the background should be generated by estimation, and supplies it to the virtual data generation unit 151.
  • step S135 the virtual data generation unit 151 generates data based on the generation area information supplied from the subject area extraction unit 43, the 3D mapping data supplied from the 3D mapping imaging unit 31, and the video data supplied from the image imaging unit 32. Generate subject area virtual data.
  • the virtual data generation unit 151 uses inpainting (image interpolation) to determine the color and shape of the subject (background) in the vicinity of the area indicated by the generation area information in the captured video.
  • Virtual subject area data is generated by estimating the color and shape of the background subject.
  • 3D mapping data is used, the position and shape of each subject area can be recognized with higher accuracy, so a more likely background can be estimated. In other words, the accuracy of background estimation can be improved.
  • the target subject is made transparent by generating subject area virtual data.
  • the virtual data generation unit 151 supplies the generated subject area virtual data to the subject area processing unit 44.
  • the subject area processing unit 44 generates subject area processing data based on the subject area data supplied from the subject area extraction unit 43 and the subject area virtual data supplied from the virtual data generation unit 151, and synthesizes the image. 46.
  • subject area processing unit 44 may perform some processing on the subject area virtual data and use it as subject area processed data, or the subject area virtual data may be used as it is as subject area processed data.
  • step S135 After the process of step S135 is performed, the process of steps S136 to S138 is then performed and the composite video generation process ends, but these processes are similar to the processes of steps S16 to S18 in FIG. , the explanation thereof will be omitted.
  • the imaging system 11 performs processing to make the target subject transparent based on the background image generated by estimation, and generates a composite image. In this case as well, it is possible to more easily and reliably suppress the occurrence of reflections of the target subject, regardless of the shooting location.
  • ⁇ Fourth embodiment> ⁇ Example of configuration of imaging system> Achieves transparency of the target subject by compositing arbitrary separate images (other images) that are different from the subject, such as a monochromatic still image or an effect image (effect image), with the subject area extracted from the captured video.
  • arbitrary separate images other images
  • effect image effect image
  • the image capturing unit 21 captures a captured video P51 including the target subject SB31.
  • a region R71 of the target subject SB31 is extracted from the photographed video P51, and video data of the video P71 having the same shape as the region R71 of the photographed video P51 is generated as subject region processing data.
  • This video P71 is generated based on application data that is video data of a different video different from the video of the target subject, such as a monochromatic still image, effect video, or graphic video prepared in advance, for example.
  • the application data may be information specifying a color, pattern, etc. Even in such a case, subject area processing data such as a single color or a predetermined pattern can be obtained from the color, pattern, etc. specified by the application data.
  • the imaging system 11 When complementation is performed using a video based on applied data, the imaging system 11 has the configuration shown in FIG. 18, for example.
  • the configuration of the imaging system 11 shown in FIG. 18 differs from the configuration of the imaging system 11 shown in FIG. 3 in that the background image processing section 45 is not provided.
  • the subject area extracting unit 43 supplies subject area data to the subject area processing unit 44, and also supplies the video data of the photographed video as is to the image synthesizing unit 46.
  • the subject area processing unit 44 generates subject area processing data based on the subject area data supplied from the subject area extraction unit 43 and application data supplied from the outside, and supplies it to the image composition unit 46.
  • the image synthesis section 46 synthesizes the avatar motion data from the avatar motion construction section 42, the subject region processing data from the subject region processing section 44, and the video data of the photographed video from the subject region extraction section 43, and generates a composite image. generate video data.
  • data outside the subject area may be supplied from the subject area extracting unit 43 to the image synthesizing unit 46 as background video processing data.
  • the avatar motion data, subject area processed data, and background image processed data are combined to form video data of a composite image.
  • step S161 to step S164 is the same as the processing from step S11 to step S14 in FIG. 5, so a description thereof will be omitted.
  • step S164 the subject area extracting unit 43 supplies the subject area data to the subject area processing unit 44, and also supplies the video data of the captured video to the image synthesizing unit 46.
  • step S165 the subject area processing unit 44 generates subject area processing data based on the subject area data supplied from the subject area extraction unit 43 and the application data supplied from the outside, and supplies it to the image composition unit 46. .
  • the subject area processing unit 44 generates subject area processing data by replacing the entire video based on the subject area data with a video based on applied data such as a monochromatic video, an effect video, a graphic video, or the like.
  • step S165 After the process of step S165 is performed, the process of steps S166 and S167 is performed and the composite video generation process ends, but these processes are the same as the processes of step S17 and step S18 in FIG. , the explanation thereof will be omitted.
  • step S166 the avatar motion data, subject area processing data, and video data of the photographed video are combined to generate video data of the composite video.
  • the imaging system 11 generates subject area processing data based on the application data, and uses the subject area processing data to generate video data of a composite image. In this case as well, it is possible to more easily and reliably suppress the occurrence of reflections of the target subject, regardless of the shooting location.
  • ⁇ Fifth embodiment> Example of configuration of imaging system> An example of making a target subject transparent by adjusting the size of an avatar to be synthesized (superimposed) so that the target subject is completely covered and hidden in a captured video will be described.
  • the image capturing unit 21 captures a captured image P51 including the target subject SB31.
  • avatar movement data of the avatar AB51 with a background image, graphics, etc. added, or avatar movement data of the enlarged avatar AB52 is generated. be done.
  • avatar AB51 and avatar AB52 are designed so that when avatar AB51 and avatar AB52 are superimposed on the area of target subject SB31, the area of target subject SB31 becomes completely invisible (hidden) by avatar AB51 and avatar AB52. size and shape.
  • avatar background the background, figure, etc. given to the avatar in avatar AB51 will also be referred to as avatar background, and the data of the avatar background will also be referred to as avatar background data.
  • the avatar AB51 with the avatar background added or the enlarged avatar AB52 is composited with the photographed video P51, resulting in a composite image without the reflection (extrusion) of the target subject SB31. is generated.
  • the target subject SB31 is completely covered by the avatar AB51 or AB52 and is no longer visible, which shows that the target subject SB31 has been made transparent.
  • the imaging system 11 When transparency is achieved by adjusting the size of the avatar, etc., the imaging system 11 has the configuration shown in FIG. 21, for example.
  • the configuration of the imaging system 11 shown in FIG. 21 differs from the configuration of the imaging system 11 shown in FIG. 3 in that the subject area processing section 44 and the background image processing section 45 are not provided.
  • the subject area extraction unit 43 supplies area information indicating the area of the target subject (subject area) to the avatar movement construction unit 42, and also supplies the video data of the photographed video as is to the image synthesis unit 46.
  • the avatar information supplied to the avatar motion construction unit 42 includes not only 3D model data of the avatar but also avatar background data.
  • the avatar motion construction section 42 generates avatar motion data based on the subject motion data supplied from the subject motion detection section 41, the avatar information supplied from the outside, and the region information supplied from the subject region extraction section 43. It is generated and supplied to the image synthesis section 46.
  • the avatar motion construction unit 42 also generates avatar size information indicating the size of the avatar at the time of composition, if necessary, and supplies it to the image composition unit 46.
  • the image synthesis section 46 synthesizes the avatar motion data from the avatar motion construction section 42 and the video data of the photographed video from the subject area extraction section 43 to generate video data of a composite video.
  • steps S191 to S193 is the same as the processing in steps S11, S12, and S14 in FIG. 5, so the description thereof will be omitted.
  • step S193 the subject area extraction unit 43 generates area information according to the detection result of the target subject and supplies it to the avatar movement construction unit 42, and also supplies the video data of the shot video as it is to the image synthesis unit 46. do.
  • step S194 the avatar motion construction section 42 generates avatar motion data based on the subject motion data supplied from the subject motion detection section 41, the avatar information supplied from the outside, and the region information supplied from the subject region extraction section 43. and avatar size information are generated and supplied to the image synthesis section 46.
  • the avatar motion construction unit 42 performs the same process as step S13 in FIG. 5 based on the subject motion data and avatar information, and generates avatar motion data that displays only the avatar without the avatar background.
  • the avatar motion construction unit 42 determines the size of the avatar video based on the avatar motion data so that the target subject is completely covered and hidden by the avatar when composing the avatar motion data. is determined, and avatar size information indicating the determination result is generated.
  • avatar background data may also be used to generate avatar motion data of an avatar with an avatar background that is synthesized at the position of the subject area.
  • the avatar motion construction unit 42 creates an avatar background that completely covers and hides the target subject when composing the avatar motion data, based on the avatar information including the avatar background data and the region information. Decide on size.
  • the avatar motion construction unit 42 generates avatar motion data in which the avatar background of the determined size is added to the avatar, based on the subject motion data and avatar information.
  • the avatar motion data since the size of the avatar background has already been adjusted, even if the avatar motion data is directly combined with the video data of the captured video, the target subject will not be reflected in the composite video.
  • avatar motion data for the avatar with the avatar background added is generated without considering the size, and avatar size information is generated based on the avatar motion data and area information. It's okay.
  • step S195 the image synthesis unit 46 performs size adjustment based on the avatar size information and avatar movement data supplied from the avatar movement construction unit 42.
  • the image synthesis unit 46 appropriately enlarges (enlarges) the avatar so that the size of the avatar based on the avatar motion data, which is synthesized at the position of the subject area, becomes the size indicated by the avatar size information.
  • size-adjusted avatar movement data is generated. Note that the size adjustment of the avatar may be performed by the avatar motion construction unit 42 instead of the image composition unit 46.
  • step S196 the image composition unit 46 generates video data of a composite video by combining the video data of the captured video supplied from the subject area extraction unit 43 and the avatar movement data after the size adjustment in step S195. , is supplied to the display 23.
  • step S196 After the process of step S196 is performed, the process of step S197 is then performed and the composite video generation process ends. However, since the process of step S197 is similar to the process of step S18 in FIG. 5, the explanation thereof will be omitted. do.
  • the imaging system 11 makes the target subject transparent by adjusting the size of the avatar motion data, and generates a composite image. In this case as well, it is possible to more easily and reliably suppress the occurrence of reflections of the target subject, regardless of the shooting location.
  • ⁇ Sixth embodiment> ⁇ About the use of 3D mapping data> An example of making the target subject transparent using the classification results based on 3D mapping data when the target subject to be transparentized cannot be determined from the captured video alone, but the target subject can be determined based on 3D mapping data. explain.
  • the configuration of the imaging system 11 is, for example, the configuration shown in FIG. 3.
  • the target subject SB81 could not be detected from the captured image P81 obtained by the imaging unit 21 because the image was captured in a dark environment such as at night. That is, suppose that the subject to be the target subject SB81 cannot be determined on the photographed video P81.
  • the case in which the target subject SB81 cannot be detected from the photographed video P81 may occur not only due to shooting in a dark environment but also due to background conditions such as a scene in which it is difficult to recognize the target subject SB81.
  • the target subject SB81 can be detected from the 3D mapping MP81 obtained by photographing with the 3D mapping imaging unit 31. In other words, it is assumed that it is possible to determine whether or not it is the target subject SB81.
  • the region R81 of the target subject SB81 detected based on the 3D mapping MP81 is extracted and deleted (removed) from the captured video P81, and the video data of the background video P82 obtained as a result is the background video processed data. It is said that
  • background video data in the area R81 is generated as subject area processing data using an arbitrary method. Then, if the avatar movement data of avatar AB31 is combined with the image P83 obtained by combining the image based on the subject area processing data and the image P82 based on the background image processing data, a composite image without reflection of the target subject SB81 can be obtained. You can get SP81.
  • step S221 is the same as the process in step S11 in FIG. 5, so a description thereof will be omitted.
  • step S222 the subject motion detection unit 41 and the subject area extraction unit 43 detect the object to be transparentized from the 3D mapping data supplied from the 3D mapping imaging unit 31 and the video data of the shot video supplied from the image capturing unit 32. Detect the subject (target subject).
  • step S223 the subject motion detection unit 41 and the subject area extraction unit 43 determine whether the subject to be made transparent is detected from the video data of the captured video.
  • the subject motion detection unit 41 and the subject area extraction unit 43 share the detection results of the target subject with each other, and both the subject motion detection unit 41 and the subject area extraction unit 43 detect the target subject from the captured video, , it may be determined that the object to be made transparent has been detected.
  • step S223 If it is determined in step S223 that a subject has been detected, the process then proceeds to step S225.
  • step S224 the subject motion detection unit 41 and the subject area extraction unit 43 determine whether or not the subject to be made transparent is detected from the 3D mapping data. Determine.
  • step S223 when the target subject is detected from the 3D mapping data by both the subject motion detection unit 41 and the subject area extraction unit 43, it is determined that the subject to be made transparent has been detected. It is also possible to do so.
  • step S224 If it is determined in step S224 that the subject has not been detected, the target subject cannot be made transparent, so subsequent steps S225 to S230 are skipped, and the process then proceeds to step S231.
  • step S231 In this case, for example, on the display 23, the display of the composite video is not updated, and the frame of the composite video that was last displayed remains displayed.
  • step S224 determines whether a subject has been detected. If it is determined in step S224 that a subject has been detected, the process then proceeds to step S225.
  • step S225 and step S226 are performed, but these processes are similar to the processes in step S12 and step S13 in FIG. The explanation will be omitted.
  • the subject motion detection unit 41 performs motion capture in step S225 based on at least one of the video data of the captured video and the 3D mapping data. That is, for example, the movement of the target subject is detected by appropriately using the detection result of the target subject from the video data of the photographed video or the 3D mapping data in step S222.
  • step S224 determines whether a subject has been detected. If it is determined in step S224 that a subject has been detected, the target subject was not detected from the photographed video, so the video data of the photographed video cannot be used for motion capture. Therefore, if it is determined in step S224 that the subject has been detected, the subject motion detection unit 41 performs motion capture in step S225 based only on the 3D mapping data.
  • step S227 the subject area extraction unit 43 generates subject area data and data outside the subject area based on the detection result of the target subject in step S222, supplies the subject area data to the subject area processing unit 44, and The external data is supplied to the background image processing section 45.
  • the subject area extraction unit 43 extracts the subject area based on at least one of the video data of the shot video and the 3D mapping data, and Generate data and data outside the subject area.
  • the subject area extraction unit 43 extracts the subject area from the captured video based only on the detection result of the target subject from the 3D mapping data, Generate object area data and data outside the object area.
  • step S227 After the process of step S227 is performed, the process of steps S228 to S231 is then performed and the composite video generation process ends, but these processes are similar to the processes of steps S15 to S18 in FIG. , the explanation thereof will be omitted.
  • the target subject can be made transparent by any method, including the method described in any of the above-mentioned embodiments or any method described later, without being limited to the example of using application data. It's okay to be hurt.
  • the imaging system 11 detects the target subject from the captured video and 3D mapping, performs motion capture and extracts the subject area according to the detection results, and generates a composite video. In this case as well, it is possible to more easily and reliably suppress the occurrence of reflections of the target subject, regardless of the shooting location.
  • the target subject can be made transparent by complementing the background part that is not visible to the target subject in the frame to be processed in the captured video using a past frame, that is, the captured video of a frame temporally earlier than the frame to be processed. An example of realizing this will be explained.
  • the imaging unit 21 captures a captured video P91 of a predetermined frame FL1 including the target subject SB31.
  • the region R91 of the target subject SB31 is extracted and deleted from the photographed video P91, and the video data of the background video P92 obtained as a result is used as background video processing data, and the monochrome video etc. generated from the above-mentioned applied data is used. Assume that the video data of P93 is processed as subject area processing data.
  • the video P94 obtained by combining the video P92 and the video P93 becomes a captured video in which the target subject SB31 is made transparent in the frame FL1 to be processed.
  • the video data of the background video P92 of frame FL1 is held as past background data that is video data of the past background video.
  • a photographed video P101 including the target subject SB31 is shot, a region R101 of the target subject SB31 is extracted and deleted from the photographed video P101, and the video data of the background video P102 is replaced with the background video P102.
  • it is video processing data.
  • video data of video P103 which is subject area processing data, is generated from the application data and past background data that is video data of background video of past frames.
  • a video is generated based on the applied data. Ru.
  • the image is changed based on the past background data. generated.
  • past background images are used to generate subject area processing data for each frame, the more past background data that is retained, the more areas that can be supplemented with past background images, that is, the areas that can be generated using past background images. increases, resulting in a more natural composite image.
  • the video P104 obtained by combining the video P103 and the background video P102 becomes the captured video in which the target subject SB31 is made transparent in the frame FL2.
  • the imaging system 11 When complementation is performed based on a background image generated using past background images, the imaging system 11 has the configuration shown in FIG. 26, for example.
  • the configuration of the imaging system 11 shown in FIG. 26 is such that a past background data holding unit 181 is newly added to the configuration of the imaging system 11 shown in FIG. 3.
  • the subject area extraction unit 43 generates area information indicating the area of the target subject on the captured video, supplies the area information and data outside the subject area to the past background data holding unit 181, and also transfers the area information to the subject area. It is supplied to the area processing section 44.
  • the past background data holding unit 181 uses the data outside the subject area supplied from the subject area extraction unit 43 as past background data for the next frame and thereafter, and uses the past background data as the area information supplied from the subject area extraction unit 43. Store in correspondence.
  • the subject area processing unit 44 uses the area information supplied from the subject area extraction unit 43, the application data supplied from the outside, and the past background data held (recorded) in the past background data storage unit 181. Generate subject area processing data.
  • step S261 to step S264 is the same as the processing from step S11 to step S14 in FIG. 5, so a description thereof will be omitted.
  • step S264 the subject area extracting unit 43 generates area information indicating the area of the target subject on the photographed video, supplies the area information and data outside the subject area to the past background data holding unit 181, and also stores the area information. is supplied to the subject area processing section 44.
  • step S265 the subject area processing unit 44 determines whether a past background image corresponding to the area to be processed on the subject area is stored. In other words, it is determined whether or not a past frame of the photographed video includes a background video corresponding to a region to be processed within the subject region of the current frame.
  • the subject area processing unit 44 sets a part of the subject area indicated by the area information supplied from the subject area extraction unit 43 as a processing target area.
  • the subject area processing unit 44 then converts the area to be processed by referring to the area information associated with all one or more of the past background data held (saved) in the past background data storage unit 181. It is determined whether there is past background data of a past background image that includes the corresponding area.
  • step S265 If it is determined in step S265 that the corresponding past background image is stored, the subject area processing unit 44 reads past background data including the area corresponding to the area to be processed from the past background data storage unit 181. Then, the process proceeds to step S266.
  • step S266 the subject area processing unit 44 generates a background image based on the read past background image. That is, the subject area processing unit 44 extracts an area corresponding to the area to be processed from the past background image based on the read past background data, and makes it part of the background image in the current frame to be processed.
  • step S267 the subject area processing unit 44 changes the area to be processed based on the application data supplied from the outside. Generate a corresponding background image. In this case, any other image, such as a single color or a predetermined pattern, becomes the background image corresponding to the area to be processed.
  • step S266 or step S267 After the process of step S266 or step S267 is performed, the process of step S268 is performed.
  • step S268 the subject area processing unit 44 determines whether all areas on the subject area indicated by the area information have been processed as processing target areas.
  • step S268 If it is determined in step S268 that not all areas have been processed yet, the process returns to step S265, and the above-described process is repeated.
  • step S268 if it is determined in step S268 that all regions have been processed, a background image corresponding to the entire subject region has been obtained, and the process proceeds to step S269.
  • step S269 the subject area processing unit 44 arranges and synthesizes the background images generated for all the target areas obtained by performing the above steps S266 and S267, and the image data of the background image obtained as a result. Let be the subject area processing data.
  • the subject area processing unit 44 supplies the obtained subject area processing data to the image composition unit 46.
  • step S266 For example, if the process of step S266 is performed for all target areas, it means that the background image corresponding to the entire object area has been generated from one or more past background images.
  • the background image corresponding to a part of the subject area is generated from one or more past background images, and the remaining area is The corresponding background image has been generated from the applied data.
  • transparency of the target subject is achieved by generating subject area processing data based on past background data and application data.
  • step S270 the past background data holding unit 181 stores (holds) the data outside the subject area supplied from the subject area extracting unit 43 as a background image, that is, past background data.
  • the past background data holding unit 181 stores the area information supplied from the subject area extraction unit 43 and the past background data in association with each other.
  • step S270 After the process of step S270 is performed, the process of steps S271 to S273 is then performed and the composite video generation process ends, but these processes are similar to the processes of steps S16 to S18 in FIG. , the explanation thereof will be omitted.
  • the imaging system 11 stores data outside the subject area as past background data, performs processing to make the target subject transparent based on the past background data as appropriate, and generates a composite video. In this case as well, it is possible to more easily and reliably suppress the occurrence of reflections of the target subject, regardless of the shooting location.
  • ⁇ Eighth embodiment> ⁇ Example of configuration of imaging system> If the distance from the imaging unit 21 to the target subject is too far or too close and the extraction accuracy of the target subject area decreases, the reflection of the target subject is suppressed according to the distance to the target subject. An example of determining the method (processing) to perform will be explained.
  • the target subject may not be clearly visible on the captured video. may not be recognized.
  • the imaging system 11 has a function of making the target subject invisible on the composite image, and can switch (change) the function depending on the distance to the target subject.
  • the data control unit 22 can perform different transparentization processes depending on the distance from the imaging unit 21 (photographing position) to the target subject.
  • a composite image P111 is generated in which a region R111 including the target subject SB31 is replaced with a monochrome image (filled-in image) based on application data or the like.
  • avatar AB31 is not displayed in composite video P111.
  • the target subject SB31 can be made transparent and reflections of the target subject SB31 can be reliably prevented.
  • the currently displayed composite image without reflections of the target subject SB31 will remain displayed, that is, the playback of the composite image will be temporarily stopped. Good too. Even in this case, it is possible to reliably prevent the target subject SB31 from being reflected.
  • the currently displayed composite image P113 without reflection of the target subject SB31 remains displayed. That is, the reproduction of the composite video P113 is temporarily stopped.
  • the target subject SB31 when the target subject SB31 approaches the imaging unit 21 by a certain distance or more, by stopping the playback of the composite image P113, the recognition of the target subject SB31 caused by poor recognition of the target subject SB31, that is, a decrease in recognition accuracy, can be avoided. Reflections can be reliably prevented. In other words, the target subject SB31 can be maintained in a transparent state.
  • the imaging system 11 When switching the processing according to the distance to the target subject, the imaging system 11 has a configuration shown in FIG. 29, for example.
  • the configuration of the imaging system 11 shown in FIG. 29 is the same as the configuration of the imaging system 11 shown in FIG. 3, but in the example of FIG. .
  • This appropriate shooting distance determination standard is used to determine whether the distance from the imaging unit 21 to the target subject is within an appropriate range (hereinafter also referred to as appropriate range).
  • the appropriate photographing distance determination criterion may be information indicating the distances indicating the upper and lower limits of the appropriate range, that is, the above-mentioned threshold value thmax or threshold value thmin, subject recognition accuracy criteria, or the like.
  • the subject area extraction unit 43 determines whether the distance to the target subject is within the appropriate range based on the appropriate shooting distance determination standard and the 3D mapping data, and the data control unit 22 performs processing according to the determination result. Each part of the system is executed.
  • step S301 is similar to the process in step S11 in FIG. 5, so a description thereof will be omitted.
  • step S302 the subject area extraction unit 43 determines that the distance from the imaging unit 21 to the target subject is within the appropriate range based on the 3D mapping data supplied from the 3D mapping imaging unit 31 and the supplied appropriate shooting distance determination criterion. Determine whether or not.
  • the subject area extraction unit 43 extracts the area of the target subject from the 3D mapping data using the video data of the captured video as necessary, and calculates the distance from the imaging unit 21 to the target subject based on the extraction result. demand. Then, the subject area extraction unit 43 determines whether the obtained distance is within the appropriate range indicated by the appropriate shooting distance determination standard.
  • step S302 If it is determined in step S302 that the distance is within the appropriate range, then steps S303 to S308 are performed to generate a composite video, and the process then proceeds to step S310.
  • steps S303 to S308 is the same as the processing in steps S12 to S17 in FIG. 5, so a description thereof will be omitted.
  • step S306 similar to step S165 in FIG. 19, subject area processing data is generated based on the subject area data and application data supplied from the outside, so that the target subject becomes transparent.
  • the target subject can be made transparent by any method, including the method described in any of the above-mentioned embodiments or any method described later, without being limited to the example of using application data. It's okay to be hurt.
  • step S302 determines whether the distance is within the appropriate range. If it is determined in step S302 that the distance is not within the appropriate range, the data control unit 22 performs processing in accordance with the distance to the target subject in step S309.
  • the subject area extraction unit 43 performs the same process as step S305, and the background image processing unit 45 performs the same process as step S307. I do. Further, as subject area processing, the subject area processing unit 44 generates video data of a monochromatic area that covers (includes) the entire area of the target subject as subject area processing data.
  • the image synthesis unit 46 synthesizes the background video processed data and the subject area processed data of the monochromatic area in response to an instruction from the subject area extraction unit 43 to create a composite image.
  • a composite image similar to composite image P111 shown in FIG. 28 is obtained.
  • the subject area extraction unit 43 causes the image composition unit 46 to temporarily stop generating the composite video, that is, to display the composite video on the display 23. Direct the temporary suspension of the supply of Then, the image composition section 46 stops supplying (playing) the composite video in response to the instruction from the subject area extraction section 43. As a result, the display of the composite video is not updated on the display 23, and the frame of the composite video that was displayed last remains displayed.
  • step S309 reliably suppresses the occurrence of reflections of the target subject.
  • step S310 is performed and the composite video generation process ends, but the process of step S310 is the process of step S18 in FIG. Since it is the same as that, its explanation will be omitted.
  • step S309 if it is determined in step S302 that the distance to the target subject is within the appropriate range, then the composite image in which the avatar is displayed will be updated appropriately. Ru.
  • the imaging system 11 generates a composite image while switching the processing to be executed depending on the distance to the target subject. In this case as well, it is possible to more easily and reliably suppress the occurrence of reflections of the target subject, regardless of the shooting location.
  • ⁇ Ninth embodiment> ⁇ Example of configuration of imaging system> Only when both motion capture and transparency processing have been successfully performed on the target subject on the captured video, shooting the captured video, that is, generating a composite video (recording) or transmitting the composite video (broadcasting). An example will be explained below.
  • the imaging system 11 may be provided with a function of broadcasting or recording content.
  • the imaging system 11 may be provided with a function of changing whether or not a composite image can be captured depending on whether image processing, such as motion capture or transparency processing, can be performed on the target subject.
  • the distance from the imaging unit 21 to the target subject is short, so image processing for the target subject, that is, either motion capture or transparency processing, may fail.
  • image processing for the target subject that is, either motion capture or transparency processing
  • recording will be temporarily stopped. That is, broadcasting (transmission) and recording (recording) of the composite video is temporarily stopped.
  • the imaging system 11 When continuing or temporarily stopping imaging depending on whether motion capture or transparency processing is successful, the imaging system 11 has the configuration shown in FIG. 32, for example.
  • the configuration of the imaging system 11 shown in FIG. 32 has a configuration in which a subject motion determining section 211 and a subject area determining section 212 are newly added to the configuration of the imaging system 11 shown in FIG. 3.
  • the subject motion determining unit 211 determines whether motion capture has been successful based on the subject motion data supplied from the subject motion detecting unit 41, and supplies the determination result to the subject area determining unit 212.
  • the subject motion determination unit 211 determines the current frame based on the subject motion data for the most recent frames and, as appropriate, the detection results of the target subject from the shot video and 3D mapping data supplied from the subject motion detection unit 41. It is determined whether motion capture was performed correctly, that is, whether motion capture was successful.
  • the subject area determining unit 212 determines whether or not the target subject has been made transparent based on the subject area data and data outside the subject area supplied from the subject area extracting unit 43, and uses the determination result to determine the subject motion. 211.
  • the subject area determination unit 212 is based on the subject area data and data outside the subject area for the most recent frames, and the detection results of the target subject from the photographed video and 3D mapping data supplied from the subject area extraction unit 43 as appropriate. Then, it is determined whether the transparentization process was correctly performed on the current frame, that is, whether the transparentization process was successful. In this case, if the target subject can be correctly extracted (detected) from the photographed video or the like, it is determined that the transparentization process has been successful, and more specifically, that the transparentization process to be performed from now on can be performed correctly.
  • the subject motion determination unit 211 and the subject area determination unit 212 share their determination results, and data is output to the subsequent stage according to these determination results.
  • the subject motion determination unit 211 when the subject motion determination unit 211 obtains a determination result that both the motion capture and the transparency processing were successful, the subject motion determination unit 211 supplies the subject motion data to the avatar motion construction unit 42 . Similarly, when a determination result indicating that both motion capture and transparency processing have been successful is obtained, the subject area determining unit 212 supplies the subject area data to the subject area processing unit 44, and also supplies data outside the subject area to the subject area processing unit 44. is supplied to the background image processing section 45.
  • the imaging system 11 shown in FIG. 32 basically continues to perform the composite video generation process described with reference to FIG. 5, and at the same time also performs the determination process shown in FIG. 33.
  • the imaging system 11 temporarily stops the composite video generation process or restarts the composite video generation process, depending on the determination result in the determination process.
  • step S341 the subject motion determining unit 211 determines whether motion capture was successful based on the subject motion data supplied from the subject motion detecting unit 41, and supplies the determination to the subject area determining unit 212.
  • step S341 If it is determined in step S341 that the motion capture was successful, the process then proceeds to step S342.
  • step S342 the subject area determining unit 212 determines whether or not the target subject has been successfully made transparent based on the subject area data and the data outside the subject area supplied from the subject area extracting unit 43, and applies that determination to the subject area.
  • the signal is supplied to the motion determining section 211.
  • step S342 If it is determined in step S342 that the target subject has been successfully made transparent, the process then proceeds to step S343.
  • step S343 the data control unit 22 records or broadcasts the composite video.
  • the subject motion determination section 211 supplies the subject motion data supplied from the subject motion detection section 41 to the avatar motion construction section 42. Further, the subject area determining unit 212 supplies subject area data to the subject area processing unit 44 and supplies data outside the subject area to the background video processing unit 45 .
  • step S13 and steps S15 to S18 of the composite video generation process described with reference to FIG. 5 are then performed.
  • the image synthesis section 46 supplies the generated synthesized image to the display 23 for display, and also supplies the video data of the synthesized image to a recording section (not shown) for recording (recording), or performs communication (not shown). and transmit (broadcast) it to an external device.
  • step S343 After the process of step S343 is performed, the process then proceeds to step S345.
  • step S344 is performed.
  • step S344 the data control unit 22 temporarily stops recording or broadcasting the composite video.
  • the subject motion determination section 211 temporarily stops supplying the subject motion data supplied from the subject motion detection section 41 to the avatar motion construction section 42 . Furthermore, the subject area determining unit 212 temporarily stops supplying subject area data to the subject area processing unit 44 and supplying data outside the subject area to the background video processing unit 45.
  • step S13 and steps S15 to S18 of the composite video generation process explained with reference to FIG. 5 are temporarily not performed, and as a result, the display of the composite video is updated and Video recording (recording) and transmission (broadcasting) are temporarily stopped.
  • step S344 a composite video is generated and displayed, but the recording and broadcast of the composite video are not performed (temporarily stopped). ).
  • step S343 or step S344 the data control unit 22 determines in step S345 whether or not to continue photographing. For example, if it is determined in step S18 of FIG. 5 that the process is to be terminated, it is determined that the photographing is to be terminated.
  • step S345 If it is determined in step S345 to continue photographing, then the process returns to step S341, and the above-described process is repeated.
  • step S344 if the processing in step S344 is performed immediately after the start of shooting, recording or broadcasting of the composite video will not start because recording or broadcasting is not possible, and then it is determined in step S342 that transparency has been successful. Then, recording and broadcasting of the composite video will begin.
  • step S344 when the process of step S344 is performed after recording or broadcasting of a composite video is started, the recording or broadcasting is temporarily stopped during the recording or broadcasting, and then transparentization is performed in step S342. If it is determined to be successful, recording and broadcasting of the composite video will be resumed.
  • step S345 if it is determined in step S345 that photographing is not to be continued, that is, photographing is to be terminated, each part of the data control unit 22 stops the processing that is being performed, and the determination process ends.
  • the imaging system 11 records or broadcasts the composite video as appropriate, depending on whether the motion capture or transparency processing is successful. By doing so, it is possible to further suppress the occurrence of reflections of the target subject.
  • ⁇ Tenth embodiment> ⁇ Example of configuration of imaging system> An example will be described in which motion capture can be performed correctly even when only a part of the target subject is shown in the captured video.
  • the photographing fields of view of the 3D mapping imaging unit 31 and the image capturing unit 32 are made to be different.
  • the part indicated by arrow Q51 shows the horizontal photographing field of view of the 3D mapping imaging unit 31 and the image imaging unit 32, that is, the range of the area to be photographed.
  • the lateral direction (X direction) and vertical direction (Y direction) in the part indicated by arrow Q51 indicate the lateral direction (horizontal direction) and depth direction when looking from the imaging unit 21 toward the target subject SB31. .
  • the area between the straight line L51 and the straight line L52 is the range of the image capturing unit 32, that is, the field of view of the captured video
  • the area between the straight line L53 and the straight line L54 is the range of the 3D mapping image capturing unit 31.
  • the range of the 3D mapping field of view includes the entire range of the field of view of the photographed video, and the 3D mapping imaging section 31 can perform wider-angle imaging in the horizontal direction compared to the image imaging section 32. It is.
  • part of the target subject SB31 is outside the field of view of the photographed video, but the entire target subject SB31 is included within the field of view of 3D mapping, so if 3D mapping data is used, The area of the target subject SB31 can be correctly identified (extracted).
  • motion capture can be performed using 3D mapping data.
  • the range of the vertical photographing field of view of the 3D mapping imaging section 31 and the image imaging section 32 is shown.
  • the horizontal direction (Y direction) and vertical direction (Z direction) in the part indicated by arrow Q52 indicate the depth direction and the vertical direction (vertical direction) when looking from the imaging unit 21 toward the target subject SB31. .
  • the area between straight line L61 and straight line L62 is the range of the shooting field of view of the captured image
  • the area between straight line L63 and straight line L64 is the range of the shooting field of view of 3D mapping.
  • the range of the 3D mapping field of view includes the entire range of the field of view of the photographed video, and the 3D mapping imaging section 31 can perform wider-angle imaging in the vertical direction compared to the image imaging section 32. It is.
  • part of the target subject SB31 is outside the field of view of the photographed video, but the entire target subject SB31 is included within the field of view of 3D mapping, so if 3D mapping data is used, The area of the target subject SB31 can be correctly identified (extracted).
  • motion capture can be performed using 3D mapping data.
  • the accuracy of motion capture will decrease when only the captured image P121 is used. I end up.
  • the captured video P121 and the 3D mapping P122 are synchronized. That is, the correspondence relationship between the areas of the target subject SB31 on the photographed video P121 and on the 3D mapping P122 is specified. Then, the display range of avatar AB31 on composite video SP121 is determined (controlled) according to the identification result. In this example, like the target subject SB31 on the photographed video P121, a part of the avatar AB31 is cut off on the composite video SP121.
  • the imaging system 11 When photographing 3D mapping at a wider angle than photographed video, the imaging system 11 has the configuration shown in FIG. 36, for example.
  • the configuration of the imaging system 11 shown in FIG. 36 is the same as that of the imaging system 11 shown in FIG. There is.
  • the range of the photographing field of view of the 3D mapping imaging section 31 (3D mapping) is a wider range that includes the photographing field of view of the image photographing section 32 (photographed video).
  • the viewing angle of the 3D mapping imaging section 31 is larger than the viewing angle of the image imaging section 32.
  • the 3D mapping subject determining unit 241 determines whether or not a target subject area can be extracted from the 3D mapping data supplied from the 3D mapping imaging unit 31, that is, whether or not the target subject area can be extracted, and uses the determination result as a captured image.
  • the information is supplied to the subject determination unit 242.
  • the 3D mapping subject determining unit 241 transmits the 3D mapping data supplied from the 3D mapping imaging unit 31 to the subject motion detecting unit 41 and the subject area extracting unit 43, depending on the determination result of whether or not a region of the target subject can be extracted.
  • the photographed video subject determining unit 242 determines whether or not a region of the target subject can be extracted from the video data of the photographed video supplied from the image capturing unit 32, that is, whether or not the region of the target subject can be extracted, and converts the determination result into a 3D image.
  • the data is supplied to the mapping subject determination unit 241.
  • the photographed video subject determination unit 242 transfers the video data of the photographed video supplied from the image capturing unit 32 to the subject motion detection unit 41 and the subject area extraction unit 43, depending on the determination result of whether or not a region of the target subject can be extracted. supply to.
  • the synchronization unit 243 generates avatar display range information, subject area data, and subject area based on the target subject detection result (extraction result), video data of the captured video, and 3D mapping data supplied from the subject area extraction unit 43. Generate external data.
  • the synchronization unit 243 supplies avatar display range information, subject area data, and outside subject area data to the avatar motion construction unit 42, subject area processing unit 44, and background image processing unit 45, respectively.
  • the avatar display range information is information indicating the display range of the avatar when only a part of the avatar's whole body is displayed in the composite video.
  • step S371 is similar to the process in step S11 in FIG. 5, so a description thereof will be omitted.
  • the 3D mapping imaging section 31 supplies 3D mapping data to the 3D mapping subject determining section 241
  • the image capturing section 32 supplies video data of the photographed video to the photographed video subject determining section 242.
  • step S372 the 3D mapping subject determination unit 241 determines whether the target subject area can be extracted from the 3D mapping based on the 3D mapping data supplied from the 3D mapping imaging unit 31, and uses the determination result as a captured image. The information is supplied to the subject determination unit 242.
  • the 3D mapping subject determination unit 241 determines whether the region of the target subject can be extracted by detecting the target subject from 3D mapping.
  • the target subject is cut off on the 3D mapping, that is, part of the target subject is outside the photographic field of view (3D mapping), or if the target subject cannot be detected from the 3D mapping, It is determined that the area cannot be extracted.
  • step S372 If it is determined in step S372 that extraction is not possible, motion capture cannot be performed, and the process then proceeds to step S384.
  • step S384 In this case, for example, on the display 23, the display of the composite video is not updated, and the frame of the composite video that was last displayed remains displayed.
  • step S373 if it is determined in step S372 that the region of the target subject can be extracted, the process of step S373 is performed.
  • step S373 the photographed video subject determining section 242 determines whether or not the target subject area can be extracted from the photographed video based on the video data of the photographed video supplied from the image capturing section 32, and converts the determination result into 3D.
  • the data is supplied to the mapping subject determination unit 241.
  • the photographed video subject determination unit 242 determines whether the region of the target subject can be extracted by detecting the target subject from the photographed video.
  • the target subject is cut off on the captured video, that is, part of the target subject is outside the shooting field of view (captured video), or if the target subject cannot be detected from the captured video, It is determined that the area cannot be extracted.
  • step S373 If it is determined in step S373 that the region of the target subject can be extracted, the process proceeds to step S374.
  • the 3D mapping subject determination section 241 supplies the 3D mapping data supplied from the 3D mapping imaging section 31 to the subject motion detection section 41 and the subject area extraction section 43. Further, the photographed video subject determining section 242 supplies the video data of the photographed video supplied from the image capturing section 32 to the subject motion detecting section 41 and the subject region extracting section 43.
  • step S374 the subject motion detection unit 41 detects motion based on at least one of the video data of the captured video supplied from the captured video subject determination unit 242 and the 3D mapping data supplied from the 3D mapping subject determination unit 241. Capturing is performed, and the resulting subject motion data is supplied to the avatar motion construction unit 42.
  • the subject area extracting unit 43 performs the following based on at least one of the video data of the captured video supplied from the captured video subject determining unit 242 and the 3D mapping data supplied from the 3D mapping subject determining unit 241. Extract the target subject area from the captured video.
  • the subject area extraction unit 43 supplies the extraction result of the target subject area, the video data of the photographed video, and the 3D mapping data to the synchronization unit 243.
  • the synchronization unit 243 generates subject area data and outside subject area data in the same manner as step S14 in FIG. do. Furthermore, the synchronization unit 243 supplies subject area data to the subject area processing unit 44 and supplies data outside the subject area to the background video processing unit 45.
  • step S376 the avatar motion construction unit 42 generates avatar motion data based on the subject motion data supplied from the subject motion detection unit 41 and the avatar information supplied from the outside, and supplies it to the image composition unit 46.
  • avatar display range information is not required to generate avatar motion data.
  • step S376 After the process of step S376 is performed, the process then proceeds to step S381.
  • step S373 determines that the region of the target subject cannot be extracted.
  • the 3D mapping subject determination section 241 supplies the 3D mapping data supplied from the 3D mapping imaging section 31 to the subject motion detection section 41 and the subject area extraction section 43. Further, the photographed video subject determining section 242 supplies the video data of the photographed video supplied from the image capturing section 32 only to the subject region extracting section 43.
  • step S377 the subject motion detection unit 41 extracts the area of the target subject based only on the 3D mapping data supplied from the 3D mapping subject determination unit 241, performs motion capture based on the extraction result, and performs motion capture based on the extraction result.
  • the captured subject motion data is supplied to the avatar motion construction section 42.
  • step S378, the subject area extraction unit 43 extracts the area of the target subject based only on the 3D mapping data supplied from the 3D mapping subject determination unit 241, and combines the extraction result, the video data of the captured video, and the 3D mapping data.
  • the signal is supplied to the synchronization unit 243.
  • step S379 the synchronization unit 243 generates avatar display range information based on the extraction result supplied from the subject area extraction unit 43, the video data of the captured video, and the 3D mapping data, and supplies it to the avatar movement construction unit 42. .
  • the synchronization unit 243 identifies the area of the target subject on the photographed video based on the extraction result of the target subject from the 3D mapping and the relationship between the known photographed video and the range of the photographic field of view of the 3D mapping, and determines the identification result. Generate avatar display range information based on.
  • the avatar display range indicated by the avatar display range information is the range of the target subject area displayed on the captured video. Specifically, for example, when only the upper body of a person as a target subject is shown on the photographed video, the upper body of the avatar is set as the display range of the avatar.
  • the synchronization unit 243 generates subject area data and data outside the subject area based on the result of specifying the area of the target subject on the captured video, supplies the subject area data to the subject area processing unit 44, and outputs data outside the subject area.
  • the data is supplied to the background image processing section 45.
  • step S380 the avatar motion construction unit 42 performs an avatar motion based on the subject motion data supplied from the subject motion detection unit 41, avatar information supplied from the outside, and avatar display range information supplied from the synchronization unit 243. Data is generated and supplied to the image synthesis section 46. At this time, for example, avatar motion data is generated in which only a portion of the entire avatar within the display range indicated by the avatar display range information is displayed.
  • step S376 or step S380 After the process of step S376 or step S380 is performed, the process of steps S381 to S384 is performed and the composite video generation process ends, but these processes are similar to the processes of steps S15 to S18 in FIG. Therefore, its explanation will be omitted.
  • step S381 similar to step S165 in FIG. 19, subject area processing data is generated based on the subject area data and application data supplied from the outside, so that the target subject becomes transparent. be done.
  • the target subject is made transparent not only by using application data but also by any method such as the method described in any of the above-described embodiments.
  • the imaging system 11 determines whether the target subject can be extracted from the captured video or 3D mapping, and generates a composite video according to the determination result.
  • the imaging system 11 can accurately perform motion capture by utilizing 3D mapping data. Further, regardless of the shooting location, it is possible to more easily and reliably suppress the occurrence of reflections of the target subject.
  • the image capturing unit 21 captures a captured video P131 that includes the target subject SB31.
  • a guitar whose area partially overlaps with the target subject SB31 appears as another object OBJ11 (object), that is, another subject.
  • object an object that appears to overlap the target subject will also be referred to as an overlapping object.
  • the 3D mapping imaging unit 31 also photographs a 3D mapping P132 that includes the target subject SB31 and the object OBJ11.
  • the 3D mapping P132 is distance information indicating the distance to each subject
  • the 3D mapping P132 it is possible to easily specify the positional relationship in front and behind the target subject SB31 and the object OBJ11.
  • the object OBJ11 is located closer to the front side (on the imaging unit 21 side) than the target subject SB31.
  • a composite image SP131 is generated based on the front and back positional relationship between the target subject SB31 and the object OBJ11. That is, the target subject SB31 is made transparent and the avatar AB31 is synthesized based on the front and back positional relationship.
  • the region R131 of the target subject SB31 is extracted from the photographed video P131 and deleted (removed), and the video data of the background video P133 obtained as a result is used as the background video processed data.
  • the target subject SB31 is removed from the video P133, and the object OBJ11 that overlaps in front of the target subject SB31 remains without being removed.
  • video data such as the background corresponding to the region R131 is generated as subject area processed data by any method such as the method using the above-mentioned applied data, and by combining the subject area processed data and the background image processed data, A video P134 with the background complemented is obtained.
  • This video P134 is a captured video in which the target subject SB31 is made transparent.
  • avatar motion data for displaying avatar AB31 is also generated based on the front-to-back positional relationship between target subject SB31 and object OBJ11.
  • avatar motion data is generated in which a region of the entire avatar AB31 corresponding to the object OBJ11 that overlaps with the front side of the target subject SB31 is not displayed.
  • the front-back positional relationship between the target subject SB31 and the object OBJ11 is also reflected on the avatar AB31.
  • the front-back positional relationship between the avatar AB31 and the object OBJ11 matches the actual front-back positional relationship between the target subject SB31 and the object OBJ11, which correspond to the avatar AB31.
  • the 3D mapping P132 it is possible to obtain a high-quality composite image SP131 in which the front and rear positional relationships between the subjects are matched.
  • the imaging system 11 When a composite image is generated that reflects the positional relationship between the front and back of an object that overlaps with the target subject, the imaging system 11 has the configuration shown in FIG. 39, for example.
  • the configuration of the imaging system 11 shown in FIG. 39 is basically the same as the configuration of the imaging system 11 shown in FIG. This example differs from the example shown in FIG. 3 in that subject area information and object area information are supplied.
  • the subject area extraction unit 43 generates subject area information indicating the area of the target subject on the captured video, and supplies it to the subject motion detection unit 41.
  • the object area extraction unit 43 generates object area information indicating an area (position) in which the overlapping object is on the near side among the areas where the target object and the overlapping object overlap each other on the photographed video, and generates object area information indicating the area (position) where the overlapping object is on the near side. 42.
  • step S411 is the same as the process in step S11 in FIG. 5, so a description thereof will be omitted.
  • the subject area extraction unit 43 detects a subject area based on the 3D mapping data supplied from the 3D mapping imaging unit 31 and the video data supplied from the image capturing unit 32.
  • a subject area based on the 3D mapping data supplied from the 3D mapping imaging unit 31 and the video data supplied from the image capturing unit 32.
  • an area inside the outline of the target subject on the captured video is detected as the area of the target subject. That is, an area surrounded by the target subject is detected, including an area where another subject overlaps on the near side.
  • step S413 the subject area extraction unit 43 identifies an area where the target subject and the overlapping object overlap, and the positions before and after the target subject and the overlapping object in the area, based on the detection result in step S412 and the 3D mapping data. Identify relationships.
  • step S414 the subject area extraction unit 43 extracts the area of the target subject detected in step S412, excluding the area where the overlapping object overlaps on the near side (imaging unit 21 side), into the final target subject area. (Subject area).
  • the subject area extraction unit 43 generates subject area information indicating the final target subject area identified in this way, and supplies it to the subject motion detection unit 41. Further, the object region extracting section 43 generates object region information based on the result of specifying the front-back positional relationship between the overlapping object region and the target object, and supplies it to the avatar motion construction section 42 .
  • the subject area extracting unit 43 generates subject area data and data outside the subject area based on the final identification result of the target subject area, supplies the subject area data to the subject area processing unit 44, and outputs data outside the subject area.
  • the data is supplied to the background image processing section 45.
  • step S415 the subject motion detection unit 41 uses the 3D mapping data supplied from the 3D mapping imaging unit 31, the video data supplied from the image capturing unit 32, and the subject area information supplied from the subject area extraction unit 43. Perform motion capture.
  • the subject motion detection unit 41 detects not only the subject area indicated by the subject area information, that is, the area visible on the near side of the target subject, but also the overlapping objects in the target subject area by performing skeletal estimation etc.
  • the movement of the target subject is detected even in areas that are not visible because they overlap in the foreground. This allows more accurate movement of the target subject to be detected.
  • the subject motion detection unit 41 supplies subject motion data obtained by motion capture (detection of the movement of the target subject) to the avatar motion construction unit 42.
  • step S416 the avatar motion construction section 42 generates avatar motion data based on the subject motion data supplied from the subject motion detection section 41, the supplied avatar information, and the object region information supplied from the subject region extraction section 43. and supplies it to the image composition section 46.
  • the avatar motion construction unit 42 determines the display front-rear relationship (front-back positional relationship) between each area of the avatar corresponding to the target subject and the overlapping object based on the object area information, and Generate avatar movement data that reflects the positional relationship between the front and back.
  • step S416 After the process of step S416 is performed, the process of steps S417 to S420 is then performed and the composite video generation process ends, but these processes are similar to the processes of steps S15 to S18 in FIG. , the explanation thereof will be omitted.
  • step S417 similar to step S165 in FIG. 19, subject area processing data is generated based on the subject area data and application data supplied from the outside, so that the target subject becomes transparent. be done.
  • the target subject is made transparent not only by using application data but also by any method such as the method described in any of the above-described embodiments.
  • the imaging system 11 identifies the front and back positional relationships between the target subject and the object that is overlapped with the object based on the 3D mapping data, and generates a composite image that reflects the front and back positional relationships. .
  • the imaging system 11 by utilizing 3D mapping data, it is possible to obtain a more natural (high quality) composite image in which the positional relationship between the avatar and the overlapping object is matched. Also in this case, it is possible to more easily and reliably suppress the occurrence of reflections of the target subject, regardless of the shooting location.
  • the photographed video P141 includes two target subjects SB31 and SB141. In this example, some regions of the target subject SB31 and the target subject SB141 overlap.
  • the target subject SB31 and the target subject SB141 are also included on the 3D mapping P142. Therefore, by using the 3D mapping P142, it is possible to specify the positional relationship between the front and back of the target subject SB31 and the target subject SB141 in the portion where the target subjects SB31 and SB141 overlap.
  • the target subject SB141 is located in front of the target subject SB31 (on the imaging unit 21 side).
  • a composite video SP141 is generated based on the front and back positional relationship between the target subject SB31 and the target subject SB141.
  • the region R141 of the target subject SB31 and the region R142 of the target subject SB141 are extracted from the photographed video P141 and deleted (removed), and the video data of the background video P143 obtained as a result is used as the background video processed data.
  • video data such as the background corresponding to region R141 and region R142 is generated as subject area processed data using any method such as the method using the above-mentioned applied data, and the subject area processed data and background video processed data are combined.
  • a video P144 with a supplemented background can be obtained.
  • This video P144 is a captured video in which the target subject SB31 and the target subject SB141 are made transparent.
  • the avatar movement data for displaying the avatar AB31 corresponding to the target subject SB31 and the avatar movement data for displaying the avatar AB141 corresponding to the target subject SB141 are also based on the positional relationship before and after the target subject SB31 and the target subject SB141. Generated based on.
  • avatar motion data of avatar AB31 is generated in which a region of the entire avatar AB31 corresponding to the target subject SB141 that overlaps with the front side of the target subject SB31 is not displayed.
  • the front and back positional relationship between the target subject SB31 and the target subject SB141 is also reflected on the avatar AB31.
  • the imaging system 11 When a composite image is generated that reflects the positional relationship between the front and back of the overlapping parts of the target subjects, the imaging system 11 has the configuration shown in FIG. 42, for example.
  • the configuration of the imaging system 11 shown in FIG. 42 is basically the same as the configuration of the imaging system 11 shown in FIG. This example differs from the example shown in FIG. 3 in that subject area information and front and back area information are supplied.
  • the subject area extraction unit 43 generates subject area information indicating the area of the target subject on the captured video, and supplies it to the subject motion detection unit 41.
  • the subject area extracting unit 43 generates an area where a plurality of target subjects overlap each other on the photographed video, and front and back area information indicating the front and rear positional relationship of the target subjects in that area, and sends the generated information to the avatar motion construction unit 42.
  • step S451 is similar to the process in step S11 in FIG. 5, so a description thereof will be omitted.
  • step S452 the subject area extracting unit 43 detects subject areas of a plurality of target subjects based on the 3D mapping data supplied from the 3D mapping imaging unit 31 and the video data supplied from the image capturing unit 32.
  • the subject area extraction unit 43 identifies the front and rear positional relationships in the area where the plurality of target subjects overlap each other based on the detection result in step S452 and the 3D mapping data, and collects the subject area information and Generate front and rear area information. For example, subject area information is generated for each target subject.
  • the subject area extraction unit 43 supplies subject area information to the subject motion detection unit 41 and also supplies front and back area information to the avatar motion construction unit 42. Furthermore, the subject area extracting unit 43 generates subject area data and data outside the subject area based on the identification results of the front and rear positional relationships, supplies the subject area data to the subject area processing unit 44, and converts the data outside the subject area into the background. It is supplied to the video processing section 45.
  • step S454 the subject motion detection unit 41 uses the 3D mapping data supplied from the 3D mapping imaging unit 31, the video data supplied from the image capturing unit 32, and the subject area information supplied from the subject area extraction unit 43. Perform motion capture.
  • the subject motion detection unit 41 detects not only the subject area indicated by the subject area information, that is, the area visible on the near side of the target subject, but also other areas of the target subject by performing skeletal estimation etc.
  • the movement of the target subject is detected even in areas where the target subject overlaps with the front side and is not visible. This allows more accurate movement of the target subject to be detected.
  • the subject motion detection unit 41 supplies subject motion data for each target subject obtained by motion capture to the avatar motion construction unit 42.
  • step S455 the avatar motion construction section 42 generates avatar motion data based on the subject motion data supplied from the subject motion detection section 41, the supplied avatar information, and the front and rear region information supplied from the subject region extraction section 43. and supplies it to the image composition section 46.
  • the avatar motion construction unit 42 determines the front-back relationship (front-back positional relationship) of the display of the target subjects that partially overlap each other based on the front-back area information, and determines the front-back positional relationship between the target subjects.
  • the reflected avatar movement data is generated for each target subject.
  • step S455 After the process of step S455 is performed, the process of steps S456 to S459 is performed and the composite video generation process ends, but these processes are similar to the processes of steps S15 to S18 in FIG. , the explanation thereof will be omitted.
  • step S456 similar to step S165 in FIG. 19, subject area processing data is generated based on the subject area data and application data supplied from the outside, so that the target subject becomes transparent. be done.
  • the target subject is made transparent not only by using application data but also by any method such as the method described in any of the above-described embodiments.
  • the imaging system 11 identifies the front and back positional relationships of the overlapping parts of the target subjects based on the 3D mapping data, and generates a composite image that reflects the front and back positional relationships.
  • the imaging system 11 by utilizing 3D mapping data, it is possible to obtain a more natural (high quality) composite image in which the positional relationships of avatars corresponding to multiple target subjects are aligned. Also in this case, it is possible to more easily and reliably suppress the occurrence of reflections of the target subject, regardless of the shooting location.
  • ⁇ 13th embodiment> ⁇ Example of configuration of imaging system> If there are multiple subjects that are candidates for the target subject, and there are parts that overlap with the multiple subjects on the captured video, only a specific subject among those multiple subjects will be made transparent as the target subject, and the subjects that overlap each other will be An example of reflecting the positional relationship between the front and back will be explained.
  • the photographed video P151 includes two target subject candidates, that is, two subjects SB151 and SB152 that are candidates for transparency. In this example, some areas of the subject SB151 and the subject SB152 overlap.
  • the subject SB151 and the subject SB152 are also included on the 3D mapping P152, by using the 3D mapping P152, it is possible to specify the positional relationship before and after the overlapping part of the subject SB151 and the subject SB152.
  • the subject SB152 is located in front of the subject SB151 (on the imaging unit 21 side).
  • the subject SB151 of the subject SB151 and the subject SB152 is the target subject to be made transparent, and the composite image SP151 is generated based on the positional relationship between the subject SB151 and the subject SB152. .
  • video data such as the background corresponding to the region R151 is generated as subject area processed data by any method such as the method using the above-mentioned application data, and by combining the subject area processed data and the background image processed data, A video P154 with the background complemented is obtained.
  • This video P154 is a captured video in which only the subject SB151 is made transparent.
  • avatar motion data for displaying the avatar AB31 corresponding to the subject SB151 is generated based on the front and back positional relationship of the subject SB151 and the subject SB152.
  • the imaging system 11 When a composite image is generated that reflects the positional relationship between the front and back of the overlapping parts of the subjects, the imaging system 11 has the configuration shown in FIG. 45, for example.
  • the configuration of the imaging system 11 shown in FIG. 45 is basically the same as the configuration of the imaging system 11 shown in FIG. This example differs from the example shown in FIG. 3 in that subject area information and front and back area information are supplied.
  • the subject area extraction unit 43 extracts a subject indicating the area of the target subject on the captured video based on specification information that specifies the subject to which the avatar is applied, that is, the subject to be made transparent (target subject) supplied from the outside. Area information is generated and supplied to the subject motion detection section 41. Further, the subject area extracting unit 43 generates front and back area information indicating the area where subjects overlap each other on the photographed video and the positional relationship between the front and back of the subject in that area, and supplies the generated information to the avatar motion construction unit 42 .
  • step S491 is similar to the process in step S11 in FIG. 5, so a description thereof will be omitted.
  • step S492 the subject area extracting unit 43 extracts subject areas of a plurality of subjects that are candidates for target subjects based on the 3D mapping data supplied from the 3D mapping imaging unit 31 and the video data supplied from the image capturing unit 32. To detect.
  • step S493 the subject area extracting unit 43 identifies the front and back positional relationship in the area where multiple subjects overlap each other, based on the detection result in step S492 and the 3D mapping data.
  • the subject area extraction unit 43 determines (selects) the subject on which the avatar is to be superimposed, that is, the target subject to be made transparent, based on the specification information supplied from the outside. For example, among the plurality of subjects whose subject areas were detected in step S492, the subject indicated by the designation information is set as the target subject. Note that the number of target objects to be made transparent, which is indicated by the designation information, may be one or more than one.
  • an avatar (avatar motion data) is superimposed on a portion of the target subject that has been made transparent, but one or more subjects to be made transparent (hereinafter also referred to as the subject to be transparent) and the avatar One or more subjects to be superimposed (hereinafter also referred to as avatar superimposition target subjects) may be specified using specification information or the like.
  • the subject designated as the subject to be avatar superimposed is basically designated as the subject to be made transparent, but does not necessarily have to be designated as the subject to be made transparent.
  • the subject area extraction unit 43 generates subject area information and front and back area information based on the determination result of the target subject and the processing results of steps S492 and S493, supplies the subject area information to the subject motion detection unit 41, and , and supplies the front and back region information to the avatar motion construction unit 42. Further, the subject area extracting unit 43 generates subject area data and data outside the subject area based on the processing results of steps S492 and S493, supplies the subject area data to the subject area processing unit 44, and outputs data outside the subject area. The data is supplied to the background image processing section 45.
  • the object area information is information indicating the area of the object to be avatar superimposed on the captured video.
  • the subject area data is the data of the image (video) of the subject to be made transparent extracted from the captured video, and the data outside the subject area is the image obtained by removing the area of the subject to be made transparent from the captured video. (video) data.
  • step S495 the subject motion detection unit 41 uses the 3D mapping data supplied from the 3D mapping imaging unit 31, the video data supplied from the image capturing unit 32, and the subject area information supplied from the subject area extraction unit 43. Perform motion capture.
  • the subject motion detection unit 41 detects not only the subject area indicated by the subject area information, but also the area of the target subject that is not visible because it overlaps with other subjects in the foreground by performing skeletal estimation, etc. It also detects the movement of the target subject. This allows more accurate movement of the target subject to be detected.
  • the subject motion detection unit 41 supplies subject motion data obtained by motion capture to the avatar motion construction unit 42.
  • step S496 the avatar motion construction section 42 generates avatar motion data based on the subject motion data supplied from the subject motion detection section 41, the supplied avatar information, and the front and rear region information supplied from the subject region extraction section 43. and supplies it to the image composition section 46.
  • the avatar motion construction unit 42 determines the display front-back relationship (front-back positional relationship) between each area of the avatar corresponding to the target subject and other subjects based on the front-back area information, and Generate avatar movement data that reflects the positional relationship before and after the avatar.
  • step S496 After the process of step S496 is performed, the process of steps S497 to S500 is performed and the composite video generation process ends, but these processes are similar to the processes of steps S15 to S18 in FIG. , the explanation thereof will be omitted.
  • step S497 the subject area processing process, that is, the process of making the target subject transparent, is performed only on the area of the target subject specified by the designation information among the plurality of subjects.
  • subject area processing data is generated based on the subject area data and application data supplied from the outside, for example in the same way as step S165 in FIG. Becomes transparent.
  • the target subject is made transparent not only by using application data but also by any method such as the method described in any of the above-described embodiments.
  • processing to make the subject transparent is also performed for areas where the subject is a person and is not specified by the specification information among multiple subjects. It's okay.
  • the object to be made transparent and the object to be avatar superimposed using the specification information, the area of the object to be made transparent which is also the object to be avatar superimposed, and the area of the object to be made transparent which is not the object to be avatar superimposed.
  • different processing may be performed to make the subject transparent.
  • the area of the subject to be made transparent, which is not the subject of avatar superimposition is made transparent by the background image generated by estimation, and the area of the subject to be made transparent, which is also the subject of avatar superposition, is made transparent by a monochrome image or effect video. You can also make it so that
  • step S492 a person on the captured video is detected as a candidate for the target subject. Then, in step S494, among the plurality of subjects detected in step S492, that is, the target subject candidates, all subjects (candidates) other than the avatar superimposition target subject are also selected as transparent target subjects.
  • the subject to be avatar superimposed is basically selected as the subject to be made transparent, but it may not be selected as the subject to be made transparent. In this way, unnecessary areas of people on the photographed video are made transparent, and it is possible to prevent other people from being reflected.
  • the imaging system 11 identifies the front and back positional relationships of the overlapping parts of the subjects based on the 3D mapping data, and generates a composite image that reflects the front and back positional relationships.
  • the imaging system 11 by utilizing 3D mapping data, it is possible to obtain a more natural (high quality) composite image in which the positional relationship between the avatar and other subjects that are not made transparent is consistent. Also in this case, it is possible to more easily and reliably suppress the occurrence of reflections of the target subject, regardless of the shooting location.
  • a photographed video P161 including the target subject SB31 is obtained, a region R161 of the target subject SB31 is extracted from the photographed video P161 and deleted (removed), and the resulting background video P162
  • the video data is taken as background video processing data.
  • video data such as the background corresponding to the region R161 is generated as subject area processed data using any method such as the method using the above-mentioned applied data, and by combining the subject area processed data and the background video processed data, A video P163 with the background complemented is obtained.
  • This video P163 is a captured video in which the target subject SB31 is made transparent.
  • avatar motion data for displaying avatar AB31 corresponding to target subject SB31 is generated. Then, by combining the avatar movement data in which the size of the avatar AB31 has been arbitrarily changed (adjusted) with the video P163, the avatar AB31 of the desired size is reflected, and the composite image SP161 is free from the reflection of the target subject SB31. You can also obtain a composite image SP162.
  • avatar AB31 is slimmer than the original. That is, the size of avatar AB31 is reduced in the horizontal direction. Furthermore, in the composite video SP162, the avatar AB31 is generally smaller in size than its original size.
  • the avatar AB31 is superimposed (synthesized) on the transparent image P163 of the target subject SB31 to create a composite image, so even if the size of the avatar AB31 is changed to an arbitrary size, the target subject SB31 will not be reflected. will not occur.
  • the imaging system 11 When arbitrarily changing (adjusting) the size of the avatar, the imaging system 11 has the configuration shown in FIG. 48, for example.
  • the configuration of the imaging system 11 shown in FIG. 48 is basically the same as the configuration of the imaging system 11 shown in FIG. A composite video is generated based on avatar size information indicating the size. That is, the image composition unit 46 adjusts the display size of the avatar to be composited on the composite video (photographed video) to an arbitrary size.
  • step S531 to step S536 is similar to the processing from step S11 to step S16 in FIG. 5, so a description thereof will be omitted.
  • step S535 for example, similar to step S165 in FIG. 19, subject area processing data is generated based on the subject area data and application data supplied from the outside, so that the target subject becomes transparent. be done.
  • the target subject is made transparent not only by using application data but also by any method such as the method described in any of the above-described embodiments.
  • step S537 the image composition unit 46 adjusts the size of the avatar based on the avatar size information supplied from the outside, and generates a composite video.
  • the image synthesis section 46 combines the avatar motion data supplied from the avatar motion construction section 42, the subject region processing data supplied from the subject region processing section 44, and the background video processing data supplied from the background video processing section 45. Synthesize.
  • the image synthesis unit 46 synthesizes the image based on the object area processing data with the object area portion on the image based on the background image processing data to generate a background image.
  • the image synthesis unit 46 also adjusts the avatar image based on the avatar motion data to the display size indicated by the avatar size information, and synthesizes the adjusted avatar image with the background image, thereby creating a composite image. It generates data and supplies it to the display 23.
  • the target subject is made transparent, so the occurrence of reflections of the target subject is suppressed regardless of the display size of the avatar.
  • step S537 After the process of step S537 is performed, the process of step S538 is then performed and the composite video generation process ends.
  • step S538 is the same as the process of step S18 in FIG. 5, the explanation thereof will be omitted. do.
  • the imaging system 11 adjusts the display size of the avatar based on the avatar size information and generates a composite video. In this case as well, it is possible to more easily and reliably suppress the occurrence of reflections of the target subject, regardless of the shooting location.
  • 3D mapping is also acquired in addition to the photographed video, so the distance from the imaging unit 21 to the target subject can be calculated by utilizing 3D mapping. Therefore, as shown in FIG. 50, for example, the display size of the avatar may be corrected to a size suitable for the distance to the target subject.
  • the composite image SP171 in which the avatar AB31 corresponding to the target subject SB31 is displayed in a relatively small size is generated.
  • the imaging system 11 When adjusting the display size of the avatar according to the distance to the target subject, the imaging system 11 has the configuration shown in FIG. 51, for example.
  • the configuration of the imaging system 11 shown in FIG. 51 is basically the same as the configuration of the imaging system 11 shown in FIG.
  • Subject distance information indicating the distance to the subject is supplied to the avatar motion construction unit 42.
  • the avatar motion construction unit 42 adjusts the display size of the avatar based on the subject distance information supplied from the subject area extraction unit 43.
  • steps S561 to S563 is the same as the processing in steps S11, S12, and S14 in FIG. 5, so the description thereof will be omitted.
  • step S563 the subject area extraction unit 43 generates subject distance information in addition to generating subject area data and data outside the subject area.
  • the subject area extraction unit 43 calculates the distance from the imaging unit 21 (shooting position) to the target subject based on the detection result of the target subject and the 3D mapping data, generates subject distance information, and generates subject distance information. 42.
  • step S564 the avatar motion construction unit 42 adjusts the size of the avatar, generates avatar motion data, and supplies it to the image synthesis unit 46.
  • the avatar motion construction section 42 generates avatar motion data based on the subject motion data supplied from the subject motion detection section 41 and the avatar information supplied from the outside. At this time, the avatar motion construction unit 42 adjusts the display size of the avatar so that the size corresponds to the distance indicated by the subject distance information supplied from the subject area extraction unit 43, and displays the avatar at the adjusted size. Generate avatar movement data to be used.
  • the image synthesis unit 46 adjusts the avatar display size based on subject distance information.
  • the display size of may be adjusted.
  • step S564 After the process of step S564 is performed, the process of steps S565 to S568 is performed and the composite video generation process ends, but these processes are similar to the processes of steps S15 to S18 in FIG. , the explanation thereof will be omitted.
  • step S565 for example, similar to step S165 in FIG. 19, subject area processing data is generated based on the subject area data and application data supplied from the outside, so that the target subject becomes transparent. be done.
  • the target subject is made transparent not only by using application data but also by any method such as the method described in any of the above-described embodiments.
  • the imaging system 11 adjusts the display size of the avatar based on the subject distance information and generates a composite image. In this case as well, it is possible to more easily and reliably suppress the occurrence of reflections of the target subject, regardless of the shooting location.
  • the imaging system 11 acquires 3D mapping in addition to captured images, so it is possible to use 3D mapping to calculate the distance from the imaging unit 21 to each subject, and to calculate the contact point (contact point) between the target subject and the ground, etc. location) can be specified. Therefore, for example, as shown in FIG. 53, the avatar corresponding to the target subject may be displayed starting from the grounding point of the target subject.
  • the target subject SB31 is standing on the ground, and the position of the grounding point between the target subject SB31 and the ground is determined from 3D mapping, as shown by arrow Q81 in FIG. 53, for example.
  • avatar AB31 corresponding to target subject SB31 is placed starting from the found grounding point, and composite video SP181 is generated. That is, the display position of avatar AB31 is determined so that the position of the grounding point and the end portion of the leg of avatar AB31 are in contact. Therefore, on the composite image SP181, the avatar AB31 stands at the position of the determined grounding point, that is, on the ground, and a more natural image expression is realized.
  • avatar AB31 corresponding to target subject SB31 is placed starting from the found grounding point, and composite video SP182 is generated. Therefore, in this example as well, in the composite image SP182, the avatar AB31 stands at the position of the determined grounding point, that is, on the object OBJ181, and a more natural image expression is realized.
  • the imaging system 11 When displaying an avatar starting from the ground point, the imaging system 11 has the configuration shown in FIG. 54, for example.
  • the configuration of the imaging system 11 shown in FIG. 54 is basically the same as the configuration of the imaging system 11 shown in FIG. 46.
  • the subject area extraction unit 43 determines the position of the grounding point of the target subject on the captured video, in other words, the position of the avatar corresponding to the target subject (display avatar placement point position information indicating the position) is generated.
  • the image composition unit 46 generates a composite video based on the avatar placement point position information supplied from the subject area extraction unit 43.
  • step S591 to step S594 is the same as the processing from step S11 to step S14 in FIG. 5, so a description thereof will be omitted.
  • step S595 the subject area extraction unit 43 specifies the position of the grounding point of the target subject on the captured video based on the extraction result of the target subject in step S594 and the 3D mapping data, and based on the identification result, the subject area extraction unit 43 Generate placement point position information.
  • the subject area extraction unit 43 supplies the generated avatar arrangement point position information to the image synthesis unit 46.
  • step S595 After the process of step S595 is performed, the processes of step S596 and step S597 are performed, but since these processes are similar to the processes of step S15 and step S16 in FIG. 5, the explanation thereof will be omitted.
  • step S596 similar to step S165 in FIG. 19, for example, subject area processing data is generated based on the subject area data and application data supplied from the outside, so that the target subject becomes transparent. be done.
  • the target subject is made transparent not only by using application data but also by any method such as the method described in any of the above-described embodiments.
  • step S598 the image synthesis unit 46 generates a composite image based on the avatar arrangement point position information supplied from the subject area extraction unit 43, and supplies the video data of the obtained composite image to the display 23.
  • the image synthesis section 46 combines the avatar motion data supplied from the avatar motion construction section 42, the subject region processing data supplied from the subject region processing section 44, and the background video processing data supplied from the background video processing section 45. Synthesize.
  • the image synthesis unit 46 synthesizes the image based on the object area processing data with the object area portion on the image based on the background image processing data to generate a background image. Furthermore, the image synthesis unit 46 generates video data of a synthesized image by synthesizing the avatar image based on the avatar movement data on the background image, starting from the position of the grounding point indicated by the avatar arrangement point position information. do. On the composite image obtained in this way, the lower end of the avatar is placed at the position of the grounding point indicated by the avatar placement point position information. That is, the avatar is displayed starting from the position of the grounding point on the composite image.
  • the avatar movement construction unit 42 may adjust the avatar placement position.
  • the avatar motion construction unit 42 creates an avatar motion in which the avatar arranged starting from the placement position (position of the grounding point) indicated by the avatar placement point position information is displayed, based on the avatar placement point position information. Generate data.
  • step S598 After the process of step S598 is performed, the process of step S599 is performed and the composite video generation process ends. However, since the process of step S599 is the same as the process of step S18 in FIG. 5, the explanation thereof will be omitted. do.
  • the imaging system 11 adjusts the display position of the avatar based on the avatar placement point position information and generates a composite image. In this case as well, it is possible to more easily and reliably suppress the occurrence of reflections of the target subject, regardless of the shooting location.
  • a photographed image P191 is obtained that includes a target subject SB31 and other objects in the real space such as a desk OBJ191 and a window OBJ192.
  • the 3D mapping P192 acquired during movement also includes the target subject SB31, desk OBJ191, and window OBJ192.
  • region R191 of target subject SB31 is extracted and deleted (removed) from photographed video P191, and the video data of background video P193 obtained as a result is used as background video processed data. Ru.
  • video data such as the background corresponding to the region R191 is generated as subject area processed data using any method such as the method using the above-mentioned application data, and by combining the subject area processed data and the background image processed data, A video P194 with the background complemented is obtained.
  • This video P194 is a captured video in which the target subject SB31 is made transparent, and the desk OBJ191 and window OBJ192, which are not the target subjects, are still displayed on the video P194. There is.
  • the distance and position (area) to the desk OBJ191 and window OBJ192 on the video P194, that is, the captured video P191, and the position (area) of the wall and floor that exist as the background in real space. ) etc. can be accurately identified.
  • image processing is performed on the background and surrounding objects on the video P194 to generate the video P195.
  • image processing is performed on video P195 in which the original desk OBJ191 and window OBJ192 are replaced with virtual objects (separate video) sofa OBJ201 and another window OBJ202 from which the outside scenery can be seen. Furthermore, in video P195, virtual objects such as shield OBJ203 are newly placed on the wall as the background, and a lamp as a virtual object is also placed on the floor.
  • the avatar AB31 corresponding to the target subject SB31 based on the avatar motion data is combined with the thus obtained video P195, and video data of a composite video SP191 without reflection of the target subject SB31 is generated.
  • the imaging system 11 When placing (synthesizing) an arbitrary background, virtual object, etc. different from the avatar on the composite image, the imaging system 11 has the configuration shown in FIG. 57, for example.
  • the configuration of the imaging system 11 shown in FIG. 57 is basically the same as the configuration of the imaging system 11 shown in FIG. is supplied.
  • the virtual data is video data for displaying a virtual object (virtual object) different from the avatar that is combined with the captured video, that is, a background video that is superimposed on the composite video.
  • the subject area processing unit 44 and the background video processing unit 45 generate subject area processing data and background video processing data using also the supplied virtual data.
  • step S631 to step S634 is the same as the processing from step S11 to step S14 in FIG. 5, so a description thereof will be omitted.
  • the object area extraction unit 43 also detects the area of the object at the position where the image based on the virtual data on the captured image is combined, and the detection result and 3D mapping data are also extracted as necessary.
  • the image data is supplied to a subject area processing section 44 and a background image processing section 45.
  • step S635 the subject area processing unit 44 performs subject area processing based on the subject area data supplied from the subject area extraction unit 43 and virtual data supplied from the outside, and processes the subject area obtained as a result.
  • the data is supplied to the image composition section 46.
  • the subject area processing unit 44 generates subject area processing data using the subject detection results and 3D mapping data supplied from the subject area extraction unit 43 as necessary.
  • the subject area processing unit 44 Based on the virtual data, an image of the portion included in the area R191 of the window OBJ202 is generated.
  • the area of the window OBJ 192 to be replaced with the window OBJ 202 is specified, for example, from the detection result or 3D mapping data supplied from the subject area extraction unit 43.
  • the subject area processing unit 44 for example, similarly to step S165 in FIG. Make the target object transparent by generating an image.
  • the subject area processing unit 44 generates subject area processed data by arranging and synthesizing the images generated for each area within the subject area. Thereby, it is possible to obtain subject area processing data in which virtual objects and backgrounds based on virtual data, images based on applied data, etc. are displayed.
  • the transparency of the target subject in an area where no virtual object or background is placed is not limited to the example of using application data, but can be made using any method such as the method described in any of the above-mentioned embodiments. It may be performed by a method.
  • step S636 the background video processing unit 45 performs background video processing based on the data outside the subject area supplied from the subject area extraction unit 43 and the virtual data supplied from the outside, and the background video The processed data is supplied to the image composition section 46.
  • the background image processing section 45 generates background image processing data using the object detection results and 3D mapping data supplied from the object region extraction section 43 as needed.
  • the background image processing unit 45 generates background image processing data by replacing the area portion including the desk OBJ 191 on the image based on the data outside the subject area with the image of the sofa OBJ 201 based on the virtual data.
  • the area of the desk OBJ 191 to be replaced with the sofa OBJ 201 is specified, for example, from the detection results and 3D mapping data supplied from the subject area extraction unit 43.
  • step S636 After the process of step S636 is performed, the process of steps S637 and S638 is performed and the composite video generation process ends, but these processes are similar to the processes of step S17 and step S18 in FIG. , the explanation thereof will be omitted.
  • the imaging system 11 generates subject area processing data and background image processing data based on virtual data, and generates a composite image.
  • the imaging system 11 can accurately synthesize virtual objects and backgrounds and present a composite image that expresses the avatar's worldview. This makes it possible to provide an experience as if you have entered the world of Avatar.
  • the imaging system 11 it is possible to more easily and reliably suppress the occurrence of reflections of the target subject, regardless of the shooting location.
  • the series of processes described above can be executed by hardware or software.
  • the programs that make up the software are installed on the computer.
  • the computer includes a computer built into dedicated hardware and, for example, a general-purpose personal computer that can execute various functions by installing various programs.
  • FIG. 59 is a block diagram showing an example of a hardware configuration of a computer that executes the above-described series of processes using a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input/output interface 505 is further connected to the bus 504.
  • An input section 506 , an output section 507 , a recording section 508 , a communication section 509 , and a drive 510 are connected to the input/output interface 505 .
  • the input unit 506 includes a keyboard, a mouse, a microphone, an image sensor, and the like.
  • the output unit 507 includes a head-mounted display, a display, a speaker, and the like.
  • the recording unit 508 includes a hard disk, nonvolatile memory, and the like.
  • the communication unit 509 includes a network interface and the like.
  • the drive 510 drives a removable recording medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 executes the above-described series by, for example, loading a program recorded in the recording unit 508 into the RAM 503 via the input/output interface 505 and the bus 504 and executing it. processing is performed.
  • a program executed by the computer (CPU 501) can be provided by being recorded on a removable recording medium 511 such as a package medium, for example. Additionally, programs may be provided via wired or wireless transmission media, such as local area networks, the Internet, and digital satellite broadcasts.
  • the program can be installed in the recording unit 508 via the input/output interface 505 by loading the removable recording medium 511 into the drive 510. Further, the program can be received by the communication unit 509 via a wired or wireless transmission medium and installed in the recording unit 508. Other programs can be installed in the ROM 502 or the recording unit 508 in advance.
  • the program executed by the computer may be a program in which processing is performed chronologically in accordance with the order described in this specification, in parallel, or at necessary timing such as when a call is made. It may also be a program that performs processing.
  • embodiments of the present technology are not limited to the embodiments described above, and various changes can be made without departing from the gist of the present technology.
  • the present technology can take a cloud computing configuration in which one function is shared and jointly processed by multiple devices via a network.
  • each step described in the above flowchart can be executed by one device or can be shared and executed by multiple devices.
  • one step includes multiple processes
  • the multiple processes included in that one step can be executed by one device or can be shared and executed by multiple devices.
  • the present technology can also have the following configuration.
  • a subject motion detection unit that performs motion capture of a predetermined subject based on a captured image including the subject and distance information; Transparency processing is performed to make the subject on the captured video invisible, and an avatar corresponding to the subject that moves as detected by the motion capture is displayed on the video obtained by the transparency processing on the captured video. or a data control unit that generates a composite image by synthesizing the avatar obtained by the transparent processing on the photographed image.
  • the data control unit extracts a subject area that is a region of the subject on the captured image based on at least one of the captured image and the distance information, and synthesizes a background image with the extracted subject area.
  • the data control unit may control the captured video captured in advance, another captured video captured by another imaging unit different from the imaging unit that captures the captured video, a past frame of the captured video, or the captured video.
  • the data control unit includes: If the past frame includes a background image corresponding to a predetermined area within the subject area, an image of the area corresponding to the predetermined area in the background image is generated based on the past frame. death, If the past frame does not include a background image corresponding to the predetermined area within the subject area, a predetermined separate image is set as an image of an area corresponding to the predetermined area in the background image.
  • the data control unit extracts a subject area that is the area of the subject on the captured image based on at least one of the captured image and the distance information, and adds any other image to the extracted subject area.
  • the data control unit extracts a subject area that is an area of the subject on the captured image based on at least one of the captured image and the distance information, and determines the size of the avatar to be combined with the extracted subject area.
  • the imaging system according to (1) wherein the subject is made invisible by adjusting the image of the avatar or by generating an image of the avatar with a background to be combined with the extracted subject area.
  • the data control unit may detect the area of the subject on the captured video based only on the distance information.
  • the imaging system according to (1) wherein a certain subject area is extracted and the transparentization process is performed.
  • (11) The imaging system according to any one of (1) to (10), wherein the range of the field of view of the distance information is wider than the range of the field of view of the photographed image.
  • (12) The data control unit specifies, based on the distance information, the front and rear positional relationship between the subject and the other subject in a portion of the photographed video where the subject and the other subject overlap, and The imaging system according to any one of (1) to (11), wherein the transparency process is performed based on a result of specifying the positional relationship.
  • the imaging system according to any one of (1) to (6), wherein the data control unit adjusts the display size of the avatar on the composite video to an arbitrary size.
  • the data control unit adjusts a display size of the avatar on the composite video to a size according to a distance from a shooting position of the shot video to the subject. Imaging system as described.
  • the data control unit specifies the position of the grounding point of the subject on the captured video based on the distance information, and synthesizes the avatar using the grounding point as a starting point.
  • the imaging system according to item 1.
  • the data control unit generates the composite video in which an arbitrary separate video is composited at a position of another subject different from the subject on the captured video.
  • Imaging system as described.
  • the imaging system Performing motion capture of a predetermined subject based on a photographed image including the subject and distance information, Transparency processing is performed to make the subject on the captured video invisible, and an avatar corresponding to the subject that moves as detected by the motion capture is displayed on the video obtained by the transparency processing on the captured video. or the avatar obtained by the transparency process on the captured video to generate a composite video.
  • Transparency processing is performed to make the subject on the captured video invisible, and an avatar corresponding to the subject that moves as detected by the motion capture is displayed on the video obtained by the transparency processing on the captured video.
  • Imaging system 21 Imaging section, 22 Data control section, 31 3D mapping imaging section, 32 Image capturing section, 41 Subject motion detection section, 42 Avatar motion construction section, 43 Subject area extraction section, 44 Subject area processing section, 45 Background Video processing department, 46 Image composition department

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)
  • Studio Circuits (AREA)

Abstract

本技術は、映り込みの発生を抑制することができるようにする撮像システムおよび映像処理方法、並びにプログラムに関する。 撮像システムは、所定の被写体を含む撮影映像と距離情報に基づいて、被写体のモーションキャプチャを行う被写体動作検出部と、撮影映像上の被写体を見えなくする透明化処理を行い、撮影映像に対する透明化処理により得られた映像上に、モーションキャプチャにより検出された動きをする、被写体に対応するアバタを合成するか、または撮影映像上に透明化処理により得られたアバタを合成することで合成映像を生成するデータ制御部とを備える。本技術は撮像システムに適用することができる。

Description

撮像システムおよび映像処理方法、並びにプログラム
 本技術は、撮像システムおよび映像処理方法、並びにプログラムに関し、特に、映り込みの発生を抑制することができるようにした撮像システムおよび映像処理方法、並びにプログラムに関する。
 例えばAR(Augmented Reality)においては、実空間を撮影して得られた映像上の被写体についてモーションキャプチャを行い、その被写体の動きに合わせて動くアバタ等を、撮影により得られた映像上の被写体部分に重畳して得られる合成映像が提示される。
 この場合、合成映像上の被写体の領域とアバタ等の領域とが完全に一致しないときには、アバタ等から被写体がはみ出してしまう映り込みが発生する。
 また、被写体のはみ出しに関連する技術として、不要な被写体を補完CG(Computer Graphics)映像により隠蔽して合成映像を生成する技術が提案されている(例えば、特許文献1参照)。
 特許文献1では、実カメラに設けられたモーションセンサにより実カメラの位置と姿勢の推定が行われ、その推定結果に基づいて実空間と仮想空間の空間条件を一致させた、不要被写体がないとしたときの仮想空間のCG映像が生成される。そして、実カメラで得られた映像上の不要被写体の部分にCG映像から抽出された補完CGが合成される。この場合、予め用意した仮想モデルデータに基づいて、仮想空間のCG映像が生成される。
特開2020-96267号公報
 しかしながら上述した技術では、被写体の映り込みの発生を抑制することができない場合があった。
 例えば上述の特許文献1では、撮影を行う実空間に対応する仮想空間の仮想モデルデータを予め用意しておく必要があるため、撮影場所が限定されてしまう。すなわち、対応する仮想モデルデータのない撮影場所では、映り込みの発生を抑制することができない。
 本技術は、このような状況に鑑みてなされたものであり、映り込みの発生を抑制することができるようにするものである。
 本技術の一側面の撮像システムは、所定の被写体を含む撮影映像と距離情報に基づいて、前記被写体のモーションキャプチャを行う被写体動作検出部と、前記撮影映像上の前記被写体を見えなくする透明化処理を行い、前記撮影映像に対する前記透明化処理により得られた映像上に、前記モーションキャプチャにより検出された動きをする、前記被写体に対応するアバタを合成するか、または前記撮影映像上に前記透明化処理により得られた前記アバタを合成することで合成映像を生成するデータ制御部とを備える。
 本技術の一側面の映像処理方法またはプログラムは、所定の被写体を含む撮影映像と距離情報に基づいて、前記被写体のモーションキャプチャを行い、前記撮影映像上の前記被写体を見えなくする透明化処理を行い、前記撮影映像に対する前記透明化処理により得られた映像上に、前記モーションキャプチャにより検出された動きをする、前記被写体に対応するアバタを合成するか、または前記撮影映像上に前記透明化処理により得られた前記アバタを合成することで合成映像を生成するステップを含む。
 本技術の一側面においては、所定の被写体を含む撮影映像と距離情報に基づいて、前記被写体のモーションキャプチャが行われ、前記撮影映像上の前記被写体を見えなくする透明化処理が行われ、前記撮影映像に対する前記透明化処理により得られた映像上に、前記モーションキャプチャにより検出された動きをする、前記被写体に対応するアバタが合成されるか、または前記撮影映像上に前記透明化処理により得られた前記アバタが合成されることで合成映像が生成される。
被写体の映り込みについて説明する図である。 本技術について説明する図である。 撮像システムの構成例を示す図である。 3Dマッピングデータを用いた合成映像の生成について説明する図である。 合成映像生成処理を説明するフローチャートである。 事前に撮影した映像による補完について説明する図である。 撮像システムの構成例を示す図である。 事前撮影処理を説明するフローチャートである。 合成映像生成処理を説明するフローチャートである。 サブ撮像部による撮影について説明する図である。 サブ撮像部で撮影した映像による補完について説明する図である。 撮像システムの構成例を示す図である。 合成映像生成処理を説明するフローチャートである。 推定により生成した背景の映像による補完について説明する図である。 撮像システムの構成例を示す図である。 合成映像生成処理を説明するフローチャートである。 適用データに基づく映像による補完について説明する図である。 撮像システムの構成例を示す図である。 合成映像生成処理を説明するフローチャートである。 アバタのサイズ等の調整による透明化について説明する図である。 撮像システムの構成例を示す図である。 合成映像生成処理を説明するフローチャートである。 3Dマッピングデータを活用した被写体検出について説明する図である。 合成映像生成処理を説明するフローチャートである。 過去背景映像に基づく補完について説明する図である。 撮像システムの構成例を示す図である。 合成映像生成処理を説明するフローチャートである。 対象被写体までの距離に応じた処理について説明する図である。 撮像システムの構成例を示す図である。 合成映像生成処理を説明するフローチャートである。 撮影の継続と一時停止について説明する図である。 撮像システムの構成例を示す図である。 判定処理を説明するフローチャートである。 撮影映像と3Dマッピングの撮影視野について説明する図である。 合成映像の生成について説明する図である。 撮像システムの構成例を示す図である。 合成映像生成処理を説明するフローチャートである。 被写体同士の前後の位置関係の反映について説明する図である。 撮像システムの構成例を示す図である。 合成映像生成処理を説明するフローチャートである。 対象被写体同士の前後の位置関係の反映について説明する図である。 撮像システムの構成例を示す図である。 合成映像生成処理を説明するフローチャートである。 被写体同士の前後の位置関係の反映について説明する図である。 撮像システムの構成例を示す図である。 合成映像生成処理を説明するフローチャートである。 アバタのサイズ変更について説明する図である。 撮像システムの構成例を示す図である。 合成映像生成処理を説明するフローチャートである。 距離に応じたアバタの表示サイズの調整について説明する図である。 撮像システムの構成例を示す図である。 合成映像生成処理を説明するフローチャートである。 被写体の接点を起点としたアバタ表示について説明する図である。 撮像システムの構成例を示す図である。 合成映像生成処理を説明するフローチャートである。 任意の別映像の合成について説明する図である。 撮像システムの構成例を示す図である。 合成映像生成処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈本技術について〉
 本技術は、被写体の映り込みの発生を抑制可能な、モーションキャプチャによるAR映像撮影方法に関するものである。
 一般的なAR映像の提示においては、例えば図1の左側に示すように、人物等の特定の被写体SB11と背景等のその他の被写体がカメラCA11により撮影される。
 そして、カメラCA11による撮影により得られた撮影映像P11に基づき、被写体SB11の動きを検出するモーションキャプチャが行われ、その結果得られた動き(モーション)に合わせて動くアバタAB11の映像であるアバタ動作データが生成される。
 さらに、撮影映像P11上の被写体SB11の部分にアバタ動作データ(アバタAB11)が合成(重畳)されて、ユーザ等に提示される合成映像SP11が生成される。
 しかしながら、この方法では被写体SB11の部分にそのままアバタAB11を重ねて合成(表示)するため、被写体SB11とアバタAB11の形状が完全に一致しないと、合成映像SP11上においてアバタAB11の部分から被写体SB11がはみ出してしまう。すなわち、被写体SB11の映り込みが発生してしまう。
 そこで、本技術では撮影映像上の特定の被写体を見えなくする処理を行う、すなわち特定の被写体の透明化処理を行うことで、映り込みの発生を抑制できるようにした。
 特に、本技術では、撮影位置から特定の被写体や背景等の他の被写体までの距離を示す距離情報である3Dマッピングを利用することで、撮影場所によらず、より簡単かつ確実に映り込みの発生を抑制することができるようにした。
 具体的には本技術では、例えば図2の左側に示すように、人物等の特定の被写体SB21と背景等のその他の被写体が対象(被写体)とされて、カメラCA21により通常の動画像(映像)である撮影映像と3Dマッピングの撮影が行われる。
 これにより、被写体SB21等を被写体として含む撮影映像P21と、カメラCA21から被写体SB21や背景にある他の被写体などの各被写体までの距離を示す距離情報である3DマッピングMP21とが得られる。これらの撮影映像P21と3DマッピングMP21を用いれば、より正確に被写体SB21の領域や動きを検出することができる。
 本技術では、撮影映像P21上における被写体SB21の領域に対して、事前に撮影した撮影映像や予め用意した他の映像等による補完処理(置き換え)などを行うことで、撮影映像P21上における被写体SB21を見えなくする透明化処理が実現される。
 また、撮影により得られた撮影映像P21や3DマッピングMP21に基づき、被写体SB21のモーションキャプチャが行われる。すなわち、被写体SB21の動きが検出される。そして、被写体SB21の動きに合わせて動く、被写体SB21に対応するアバタAB21の映像がアバタ動作データとして生成される。
 さらに、透明化処理が行われた撮影映像P21上の被写体SB21の領域部分に、アバタAB21が合成されて、ユーザ等に提示される合成映像SP21が生成される。
 このように本技術によれば、仮想空間の仮想モデルデータを予め用意する必要がないので、撮影場所によらず被写体SB21の透明化を行い、被写体SB21の映り込みのない合成映像SP21を得ることができる。すなわち、現実の背景に対して違和感を生じさせずにアバタAB21を合成することができる。したがって、映像としての世界観を崩すことなく合成映像SP21の提示を行うことができる。
 また、本技術では、撮影映像P21だけでなく3DマッピングMP21も活用することで、より簡単かつ正確に被写体SB21の領域や動きを検出し、合成映像SP21上においてアバタAB21等を現実空間に自然に融和させることができる。
〈撮像システムの概略的な構成例〉
 図3は、本技術を適用した撮像システムの概略的な構成を示す図である。
 図3に示す撮像システム11は、撮像部21、データ制御部22、およびディスプレイ23を有している。
 撮像部21は、例えばカメラなどからなり、特定の人物(ユーザ)や背景等を被写体として撮影映像と3Dマッピングの撮影(取得)を行う。撮像部21は、3Dマッピング撮像部31および画像撮像部32を有している。
 3Dマッピング撮像部31は、例えばToF(Time Of Flight)センサ、ステレオカメラ、ストラクチャードライトシステム等の測距センサからなる。3Dマッピング撮像部31は、特定の人物(ユーザ)や背景等を対象として3Dマッピングの撮影を行い、その結果得られた、撮影位置、すなわち3Dマッピング撮像部31から被写体(対象物)までの距離を示す3Dマッピングデータをデータ制御部22に供給する。
 画像撮像部32は、例えばイメージセンサなどからなり、特定の人物(ユーザ)や背景等を被写体として動画像(撮影映像)の撮影を行い、その結果得られた撮影映像の映像データをデータ制御部22に供給する。
 なお、3Dマッピング撮像部31と画像撮像部32は、個別に設けられていてもよいし、1つのセンサ基板に形成されていてもよい。
 データ制御部22は、例えばパーソナルコンピュータやスマートフォンなどの情報処理装置からなる。なお、データ制御部22を有する情報処理装置に撮像部21やディスプレイ23が設けられていてもよいし、撮像部21やディスプレイ23が、データ制御部22を有する情報処理装置とは別の装置とされてもよい。
 データ制御部22は、撮像部21から供給された、同じ被写体を含む3Dマッピングデータおよび映像データと、外部から供給されるアバタ情報とに基づいて合成映像の映像データを生成し、ディスプレイ23に供給する。
 アバタ情報は、撮影映像上における人物等の特定の被写体に対応する他のキャラクタや人物像などのアバタの3Dモデルを表す3Dモデルデータなどとされる。
 以下では、撮影映像上の特定人物が透明化され、その特定人物に対応するアバタが合成された合成映像が生成されるものとして説明を続ける。また、透明化の対象となる特定人物を対象被写体とも称する。
 データ制御部22は被写体動作検出部41、アバタ動作構築部42、被写体領域抽出部43、被写体領域加工部44、背景映像加工部45、および画像合成部46を有している。
 被写体動作検出部41は、3Dマッピング撮像部31から供給された3Dマッピングデータ、および画像撮像部32から供給された映像データに基づいて、撮影映像上の対象被写体の動きを検出する処理であるモーションキャプチャを行う。
 被写体動作検出部41は、モーションキャプチャにより検出(キャプチャ)された対象被写体の動きを示す被写体動作データをアバタ動作構築部42に供給する。
 なお、被写体動作検出部41では、3Dマッピングデータと撮影映像の映像データのうちの少なくとも何れかに基づいて対象被写体のモーションキャプチャが行われる。
 例えば、3Dマッピング撮像部31から対象被写体までの距離によっては、3Dマッピングデータでは対象被写体の正確な動きを検出することができないこともある。また、撮像部21の周囲の明るさなどの撮影環境によっては、撮影映像の映像データでは対象被写体の正確な動きを検出することができないこともある。
 そこで被写体動作検出部41は、例えば対象被写体までの距離や明るさ等の撮影環境に応じて、3Dマッピングデータに基づく対象被写体の動きの検出結果と、映像データに基づく対象被写体の動きの検出結果とのうちの何れかを最終的な検出結果として採用したり、3Dマッピングデータと映像データの何れか一方のみに基づき対象被写体の動きを検出したりする。
 なお、モーションキャプチャにおいては、3Dマッピングデータや映像データから対象被写体の領域を検出し、その検出結果に基づいて対象被写体の動きを検出するようにしてもよいし、対象被写体の領域の検出を行わずに、3Dマッピングデータや映像データから直接、対象被写体の動きを検出してもよい。
 アバタ動作構築部42は、被写体動作検出部41から供給された被写体動作データと、外部から供給されたアバタ情報とに基づいて、対象被写体と同じ動きをするアバタの映像であるアバタ動作データを生成(構築)し、画像合成部46に供給する。
 被写体領域抽出部43は、3Dマッピング撮像部31から供給された3Dマッピングデータ、および画像撮像部32から供給された映像データの少なくとも何れか一方に基づいて、撮影映像上の対象被写体の領域(以下、被写体領域とも称する)を検出する。
 被写体領域抽出部43は、撮影映像から対象被写体の領域を抽出し、抽出した対象被写体の画像(映像)のデータを被写体領域データとして被写体領域加工部44に供給する。また、被写体領域抽出部43は、撮影映像から対象被写体の領域を除去して得られる画像(映像)のデータを、対象被写体以外の被写体、すなわち背景の映像データである被写体領域外データとして背景映像加工部45に供給する。
 その他、被写体領域抽出部43は、必要に応じて3Dマッピングデータを被写体領域加工部44や背景映像加工部45に供給する。
 被写体領域加工部44は、被写体領域抽出部43から供給された被写体領域データに対して、対象被写体を透明化する処理など、所定の加工等を施す処理を被写体領域加工処理として行い、その結果得られた被写体領域加工データを画像合成部46に供給する。
 背景映像加工部45は、被写体領域抽出部43から供給された被写体領域外データに対して、所定のオブジェクトの画像を重畳する画像処理(加工処理)等を背景映像加工処理として行い、その結果得られた背景映像加工データを画像合成部46に供給する。
 画像合成部46は、アバタ動作構築部42から供給されたアバタ動作データ、被写体領域加工部44から供給された被写体領域加工データ、および背景映像加工部45から供給された背景映像加工データを合成し、その結果得られた合成映像の映像データをディスプレイ23に供給する。
 ディスプレイ23は、画像合成部46から供給された映像データに基づいて合成映像を表示する。
 図3に示す撮像システム11では、例えば図4に示すように合成映像が生成される。
 すなわち、図4に示す例では、まず撮像部21による撮影により、対象被写体SB31を対象として含む3DマッピングMP31と撮影映像P31が取得される。
 その後、被写体動作検出部41において対象被写体SB31のモーションキャプチャが行われ、その結果に基づいてアバタ動作構築部42により、対象被写体SB31に対応するアバタAB31のアバタ動作データが生成される。このアバタ動作データは、対象被写体SB31と同じ動きをするアバタAB31の映像データである。
 また、被写体領域抽出部43では、撮影映像P31から対象被写体SB31の領域が抽出される。そして、被写体領域加工部44において対象被写体SB31の領域に対応する映像SRP31が生成されるとともに、背景映像加工部45において背景映像BRP31が生成される。ここで、映像SRP31は被写体領域加工データに基づく映像であり、背景映像BRP31は背景映像加工データに基づく映像である。
 最後に、画像合成部46において、アバタAB31のアバタ動作データ、映像SRP31(被写体領域加工データ)、および背景映像BRP31(背景映像加工データ)が合成され、1つの合成映像SP31が生成される。
 この場合、映像SRP31と背景映像BRP31を合成して得られる映像が、撮影映像P31上の対象被写体SB31を透明化する透明化処理を行うことで得られた背景の映像となる。
 データ制御部22では、被写体領域抽出部43による対象被写体の抽出や、被写体領域加工部44による映像の生成など、アバタ動作構築部42乃至画像合成部46を含む複数のブロックのうちの少なくとも1以上のブロックにより行われる処理によって、透明化処理が実現される。
 一例として、例えば透明化処理では、撮影映像上の対象被写体の領域である被写体領域を抽出し、抽出した被写体領域に背景映像を合成することで対象被写体が見えなくなるようにされる。また、他の例として、例えば透明化処理では、撮影映像上の被写体領域を抽出し、抽出した被写体領域に合成するアバタのサイズを調整したり、抽出した被写体領域に合成する背景付きのアバタの映像を生成したりすることで対象被写体が見えなくなるようにされる。
 したがって、例えばデータ制御部22は、撮影映像に対する透明化処理により得られた映像上に、モーションキャプチャにより検出された動きをする、対象被写体に対応するアバタを合成したり、撮影映像上に透明化処理により得られたアバタを合成したりすることで合成映像を生成する。
〈合成映像生成処理の説明〉
 次に、撮像システム11により行われる合成映像生成処理について説明する。すなわち、以下、図5のフローチャートを参照して、撮像システム11による合成映像生成処理について説明する。
 ステップS11において撮像部21は、撮影映像と3Dマッピングを取得する。
 すなわち、3Dマッピング撮像部31は、対象被写体を含む領域について3Dマッピングの撮影を行い、その結果得られた3Dマッピングデータを被写体動作検出部41および被写体領域抽出部43に供給する。また、画像撮像部32は、対象被写体を含む領域を対象として動画像(撮影映像)の撮影を行い、その結果得られた撮影映像の映像データを被写体動作検出部41および被写体領域抽出部43に供給する。例えば撮影映像の撮影時の画角(撮影対象となる範囲)は、3Dマッピングの撮影時の画角と略同じとされる。
 ステップS12において被写体動作検出部41は、3Dマッピング撮像部31から供給された3Dマッピングデータ、および画像撮像部32から供給された映像データに基づいてモーションキャプチャを行い、その結果得られた被写体動作データをアバタ動作構築部42に供給する。
 例えば被写体動作検出部41は、処理対象のフレームの3Dマッピングデータや映像データだけでなく、その処理対象のフレームよりも時間的に前のフレームの3Dマッピングデータや映像データも用いてモーションキャプチャを行う。
 ステップS13においてアバタ動作構築部42は、被写体動作検出部41から供給された被写体動作データと、外部から供給されたアバタ情報とに基づいてアバタ動作データを生成し、画像合成部46に供給する。
 ステップS14において被写体領域抽出部43は、3Dマッピング撮像部31から供給された3Dマッピングデータ、および画像撮像部32から供給された映像データに基づいて被写体領域を検出する。例えば被写体領域の検出は、画像認識等により行われる。
 被写体領域抽出部43は、被写体領域の検出結果に基づき、被写体領域データおよび被写体領域外データを生成し、被写体領域データを被写体領域加工部44に供給するとともに、被写体領域外データを背景映像加工部45に供給する。
 ステップS15において被写体領域加工部44は、被写体領域抽出部43から供給された被写体領域データに対して被写体領域加工処理を行い、その結果得られた被写体領域加工データを画像合成部46に供給する。
 なお、被写体領域加工処理は、必要に応じて行われればよく、被写体領域加工処理が行われない場合には、例えば被写体領域データがそのまま被写体領域加工データとして画像合成部46に供給されるようにしてもよい。
 ステップS16において背景映像加工部45は、被写体領域抽出部43から供給された被写体領域外データに対して背景映像加工処理を行い、その結果得られた背景映像加工データを画像合成部46に供給する。
 なお、背景映像加工処理は、必要に応じて行われればよく、背景映像加工処理が行われない場合には、例えば被写体領域外データがそのまま背景映像加工データとして画像合成部46に供給されるようにしてもよい。
 ステップS17において画像合成部46は、アバタ動作構築部42から供給されたアバタ動作データ、被写体領域加工部44から供給された被写体領域加工データ、および背景映像加工部45から供給された背景映像加工データを合成することで合成映像を生成する。画像合成部46は、得られた合成映像の映像データをディスプレイ23に供給し、ディスプレイ23は、画像合成部46から供給された映像データに基づき合成映像を表示する。
 例えば画像合成部46は、背景映像加工データに基づく映像上における被写体領域部分に、被写体領域加工データに基づく映像を合成し、その結果得られた映像上における被写体領域部分にさらにアバタ動作データに基づくアバタの映像を合成する。このようにして得られる合成映像では、対象被写体が透明化されているので、対象被写体の映り込みの発生が抑制される。
 なお、データ制御部22では、ステップS13乃至ステップS17で行われる処理のうちの少なくとも一部の処理によって透明化処理が実現される。換言すれば、データ制御部22は、ステップS13乃至ステップS17の処理の一部を透明化処理として行う。対象被写体の透明化の具体的な例については後述する。
 ステップS18においてデータ制御部22は、処理を終了するか否かを判定する。例えばユーザ等により撮影の終了が指示された場合、処理を終了すると判定される。
 ステップS18において、まだ処理を終了しないと判定された場合、処理はステップS11に戻り、上述した処理が繰り返し行われる。
 これに対して、ステップS18において処理を終了すると判定された場合、撮像システム11の各部は行っている処理を停止し、合成映像生成処理は終了する。
 以上のようにして撮像システム11は、撮影映像と3Dマッピングを取得し、合成映像を生成する。
 特に撮像システム11では、撮影映像の映像データと3Dマッピングデータを用いることで、被写体の領域の位置や形状の認識精度を向上させ、被写体領域をより正確に抽出したり、対象被写体の動きをより正確に検出したりすることができる。また、撮像システム11では、映り込みの発生を抑制するにあたり、仮想空間のCG映像の生成や撮像部21の位置姿勢の推定、アバタの合成のために映像を遅延させる処理などが不要である。
 これらのことから、撮像システム11では、撮影場所によらず、より簡単かつ確実に対象被写体の映り込みの発生を抑制することができる。
〈第1の実施の形態〉
〈撮像システムの構成例〉
 続いて、図6乃至図58を参照して、本技術を適用したより具体的な実施の形態について説明する。以下において説明する実施の形態のうちの任意のものを組み合わせて合成映像を生成するようにしてもよい。
 なお、以下において参照する図(図6乃至図58)において、図3または図4における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。また、図6乃至図58において互いに対応する部分にも同一の符号を付してあり、その説明は適宜省略する。
 まず、背景や対象被写体の周囲の物体について映像と3Dマッピングを事前に撮影しておき、実際の撮影時に対象被写体で見えない背景部分を事前に撮影した映像で補完することで、対象被写体を透明化する例について説明する。
 そのような場合、例えば図6の矢印Q11に示すように、対象被写体SB31がない状態で、事前に撮像部21により撮影が行われ、撮影映像と3Dマッピングが取得される。
 なお、以下、事前の撮影により得られた参照用(補完用)の撮影映像および3Dマッピングを、それぞれ参照用撮影映像および参照用3Dマッピングとも称することとする。また、参照用撮影映像の映像データを参照用映像データとも称することとする。
 事前撮影の後、矢印Q12に示すように、対象被写体SB31がいる状態で、撮像部21による撮影が行われて撮影映像と3Dマッピングが取得され、合成映像が生成される。
 この場合、矢印Q11に示した事前の撮影により、対象被写体SB31が映っていない参照用撮影映像P’41が取得され、その後の矢印Q12に示した撮影により、対象被写体SB31が映っている撮影映像P41が取得される。
 特に、この例では参照用撮影映像P’41と撮影映像P41では、実空間上の同じ領域が対象とされて同じ画角で撮影が行われている。したがって、参照用撮影映像P’41と撮影映像P41は、撮影映像上に対象被写体SB31が映っているか否かのみが異なっている。
 撮影映像P41から対象被写体SB31の領域(被写体領域)が除去され、背景のみの映像である背景映像P42の被写体領域外データ、すなわち背景映像加工データが生成される。しかし、背景映像P42には、対象被写体SB31が重なっていたために背景が見えない領域R41(被写体領域)が存在する。
 そこで、領域R41に対応する被写体領域加工データが、参照用撮影映像P’41に基づき生成される。特に、この例では参照用撮影映像P’41における、撮影映像P41上の被写体領域(領域R41)と同じ領域が抽出され、被写体領域加工データとされる。被写体領域加工データに基づく映像は、撮影映像P41では対象被写体SB31により隠れて見えていなかった、領域R41に対応する領域(背景)の背景映像である。
 これにより、被写体領域加工データと背景映像加工データを合成することで、被写体領域(領域R41)における部分が補完され、対象被写体SB31が透明化された背景の映像P43を得ることができる。
 このようにして得られた映像P43にアバタAB31のアバタ動作データを合成すれば、対象被写体SB31の映り込み(はみ出し)のない合成映像SP41をARの映像(動画像)として得ることができる。
 事前に参照用の撮影映像と3Dマッピングを撮影する場合、撮像システム11は、例えば図7に示すように構成される。
 図7に示す撮像システム11の構成は、図3に示した撮像システム11の構成に、新たに参照データ保存部71を設けた構成となっている。なお、図7では、図を見やすくするため、実際には1つだけ設けられている撮像部21が2つ描かれている。
 参照データ保存部71は、撮像部21での事前の撮影により得られた参照用(補完用)の撮影映像の映像データおよび3Dマッピングを、参照用映像データおよび参照用3Dマッピングデータとして保持する。また、参照データ保存部71は、保持している参照用映像データや参照用3Dマッピングデータを必要に応じて被写体領域加工部44および背景映像加工部45に供給する。
 被写体領域加工部44は、被写体領域抽出部43から供給された被写体領域データおよび3Dマッピングデータと、参照データ保存部71から供給された参照用映像データおよび参照用3Dマッピングデータとに基づいて被写体領域加工データを生成する。
 背景映像加工部45は、被写体領域抽出部43から供給された被写体領域外データおよび3Dマッピングデータと、参照データ保存部71から供給された参照用映像データおよび参照用3Dマッピングデータとに基づいて背景映像加工データを生成する。
〈事前撮影処理の説明〉
 続いて図7に示した撮像システム11の動作について説明する。
 まず、図8のフローチャートを参照して、撮像システム11による事前撮影処理について説明する。
 ステップS41において撮像部21は、対象被写体なしの撮影映像と3Dマッピングを取得する。
 すなわち、3Dマッピング撮像部31は、対象被写体がいない状態で事前の3Dマッピングの撮影を行い、その結果得られた3Dマッピングデータを参照用3Dマッピングデータとして参照データ保存部71に供給する。また、画像撮像部32は、対象被写体がいない状態で事前の撮影映像の撮影を行い、その結果得られた撮影映像の映像データを参照用映像データとして参照データ保存部71に供給する。
 ステップS42において参照データ保存部71は、3Dマッピング撮像部31から供給された参照用3Dマッピングデータ、および画像撮像部32から供給された参照用映像データを保持し、事前撮影処理は終了する。
 なお、以下、参照用3Dマッピングデータおよび参照用映像データからなるデータセットを参照データとも称することとする。
 以上のようにして撮像システム11は、参照データを取得し、保持する。このようにすることで、撮像システム11では、参照データを用いて簡単に対象被写体の透明化を行うことができるようになる。
〈合成映像生成処理の説明〉
 事前撮影処理が行われて参照用3Dマッピングデータおよび参照用映像データが得られると、その後、撮像システム11は、任意のタイミングで対象被写体がいる状態で撮影を行い、合成映像を生成する合成映像生成処理を行う。以下、図9のフローチャートを参照して、撮像システム11による合成映像生成処理について説明する。
 なお、ステップS71乃至ステップS74の処理は、図5のステップS11乃至ステップS14の処理と同様であるので、その説明は省略する。
 ステップS75において被写体領域加工部44は、被写体領域抽出部43から供給された被写体領域データおよび3Dマッピングデータと、参照データ保存部71から供給された参照データとに基づいて被写体領域加工処理を行う。
 例えば被写体領域加工部44は、被写体領域データ、3Dマッピングデータ、および参照データに基づいて、被写体領域に対応する参照用撮影映像上の領域を特定し、その特定した参照用撮影映像上の領域の画像を抽出して被写体領域加工データとする。
 この場合、被写体領域加工処理は、被写体領域データが、被写体領域に対応する参照用撮影映像上の領域の画像データに置き換えられて被写体領域加工データとされる処理となり、この処理により対象被写体の透明化が実現される。被写体領域加工部44は、被写体領域加工処理により得られた被写体領域加工データを画像合成部46に供給する。
 ステップS76において背景映像加工部45は、被写体領域抽出部43から供給された被写体領域外データおよび3Dマッピングデータと、参照データ保存部71から供給された参照データとに基づいて背景映像加工処理を行う。
 例えば背景映像加工部45は、被写体領域外データ、3Dマッピングデータ、および参照データに基づいて、被写体領域に対応する参照用撮影映像上の領域を特定し、その特定結果に基づいてブレンド処理を行うことで背景映像加工データを生成する。
 ブレンド処理は、背景映像における被写体領域との境界近傍の領域(以下、対象領域とも称する)が対象として行われる。すなわち、対象領域では、被写体領域外データに基づく背景映像と参照用撮影映像とが重み付き加算されて、背景映像加工データに基づく映像が生成される。また、対象領域外では、被写体領域外データに基づく背景映像がそのまま背景映像加工データに基づく映像として用いられる。
 背景映像加工部45は、背景映像加工処理により得られた背景映像加工データを画像合成部46に供給する。
 ステップS76の処理が行われると、その後、ステップS77およびステップS78の処理が行われて合成映像生成処理は終了するが、これらの処理は図5のステップS17およびステップS18の処理と同様であるので、その説明は省略する。
 以上のようにして撮像システム11は、参照データに基づいて対象被写体を透明化する処理を行い、合成映像を生成する。この場合においても、撮影場所によらず、より簡単かつ確実に対象被写体の映り込みの発生を抑制することができる。
〈第2の実施の形態〉
〈撮像システムの構成例〉
 対象被写体に対して複数の画像撮像部により同時に撮影映像の撮影を行い、得られた複数の撮影映像を用いて対象被写体で見えない背景部分を補完することで、対象被写体の透明化を実現する例について説明する。
 そのような場合、例えば図10に示すように、メインのカメラとなる撮像部21により撮影を行うと同時に、サブのカメラとなるサブ撮像部101によっても撮影が行われる。このとき、撮像部21(画像撮像部32)による撮影では対象被写体により隠れて見えない背景部分がサブ撮像部101による撮影によって撮影されるように、撮像部21とサブ撮像部101とは互いに異なる位置に配置される。
 この例では、撮像部21によって、対象被写体SB31を含む撮影映像P51が撮影され、サブ撮像部101によって、対象被写体SB31を含む撮影映像P52が撮影される。
 撮影映像P52においては、撮影映像P51上では対象被写体SB31により隠れて見えていない背景部分が被写体として含まれている(映っている)。
 したがって、図11に示すように撮影映像P51と撮影映像P52を用いて、対象被写体SB31の映り込みのない合成映像SP51を得ることができる。
 図11では、メインのカメラとなる撮像部21によって撮影された撮影映像P51から対象被写体SB31の領域R51が抽出されて削除(除去)され、その結果得られる背景の映像P53の映像データが背景映像加工データとされる。
 また、サブのカメラとなるサブ撮像部101によって撮影された撮影映像P52から、撮影映像P51上における対象被写体SB31の領域R51に対応する領域が抽出されて、その抽出された領域の映像データが被写体領域加工データとされる。被写体領域加工データに基づく映像は、撮影映像P51では対象被写体SB31により隠れて見えていなかった、領域R51に対応する領域(背景)の背景映像である。
 そして、被写体領域加工データに基づく背景部分の映像と、背景の映像P53とを合成することで映像P54が生成される。この映像P54は、撮影映像P51における対象被写体SB31の領域R51の部分を撮影映像P52により補完することで得られる、対象被写体SB31が透明化された映像である。
 このようにして得られた映像P54に、アバタAB31のアバタ動作データを合成すれば、対象被写体SB31の映り込み(はみ出し)のない合成映像SP51を得ることができる。
 サブ撮像部101で得られる撮影映像に基づき補完が行われる場合、撮像システム11は、例えば図12に示す構成とされる。
 図12に示す撮像システム11の構成は、図3に示した撮像システム11の構成に、新たにサブ撮像部101、すなわち画像撮像部121と、被写体背景加工部122とを設けた構成となっている。
 サブ撮像部101は、メインのカメラとなる撮像部21とは異なる位置にあるサブのカメラ(他の撮像部)であり、画像撮像部121を有している。
 画像撮像部121は、例えばイメージセンサなどからなり、画像撮像部32とは異なる撮影位置から対象被写体や背景等を被写体として動画像(撮影映像)の撮影を行い、その結果得られた撮影映像の映像データを被写体背景加工部122に供給する。なお、以下、画像撮像部121により撮影された撮影映像を、特に補完用撮影映像とも称する。また、サブ撮像部101に、3Dマッピング撮像部31とは異なる撮影位置から3Dマッピングの撮影を行う3Dマッピング撮像部を設けるようにしてもよい。
 被写体背景加工部122は、被写体領域抽出部43から供給された領域情報および3Dマッピングデータと、画像撮像部121から供給された補完用撮影映像の映像データとに基づいて、被写体領域背景データを生成し、被写体領域加工部44に供給する。
 領域情報は、画像撮像部32での撮影により得られた撮影映像における対象被写体の領域、すなわち被写体領域を示す情報である。換言すれば、領域情報は、撮影映像上における対象被写体が映っている領域の位置と範囲を示す情報である。
 被写体領域背景データは、領域情報に対応する補完用撮影映像上の領域(以下、オクルージョン領域とも称する)の映像、すなわち画像撮像部32で得られる撮影映像上では対象被写体により隠れて見えない背景部分の映像のデータである。
〈合成映像生成処理の説明〉
 次に、図13のフローチャートを参照して、図12に示した撮像システム11により行われる合成映像生成処理について説明する。
 なお、ステップS101の処理は、図5のステップS11の処理と同様であるので、その説明は省略する。
 ステップS102においてサブ撮像部101は、補完用撮影映像を取得する。すなわち、画像撮像部121は、対象被写体を含む領域を対象として動画像(撮影映像)の撮影を行い、その結果得られた補完用撮影映像の映像データを被写体背景加工部122に供給する。
 補完用撮影映像が得られると、その後、ステップS103乃至ステップS105の処理が行われるが、これらの処理は図5のステップS12乃至ステップS14の処理と同様であるので、その説明は省略する。
 但し、ステップS105では、被写体領域抽出部43は、撮影映像上における対象被写体の領域を示す領域情報を生成し、領域情報および3Dマッピングデータを被写体背景加工部122に供給する。
 ステップS106において被写体背景加工部122は、被写体領域抽出部43から供給された領域情報および3Dマッピングデータと、画像撮像部121から供給された補完用撮影映像の映像データとに基づいて被写体領域背景データを生成する。
 例えば被写体背景加工部122は、既知である画像撮像部32および画像撮像部121の位置関係を示す位置関係情報と、領域情報および3Dマッピングデータとに基づいて、領域情報により示される被写体領域に対応する補完用撮影映像上のオクルージョン領域を抽出する。
 被写体背景加工部122は、抽出したオクルージョン領域の映像(画像)に対して、位置関係情報や領域情報、3Dマッピングデータに基づき、撮影映像間の被写体の位置関係の整合をとる処理、例えばオクルージョン領域に対する変形処理などを行うことで、被写体領域背景データを生成する。
 この実施の形態では、被写体領域背景データを生成する処理により、対象被写体の透明化が実現される。被写体背景加工部122は、生成した被写体領域背景データを被写体領域加工部44に供給する。
 被写体領域背景データは、画像撮像部32で得られる撮影映像上では対象被写体により隠れて見えないオクルージョン領域(背景部分)であって、かつ領域情報により示される被写体領域と同じ形状に成形されたオクルージョン領域の映像データである。換言すれば被写体領域背景データは、画像撮像部32の位置を視点位置として見たときのオクルージョン領域の映像データである。
 また、被写体領域加工部44は、被写体領域抽出部43から供給された被写体領域データと、被写体背景加工部122から供給された被写体領域背景データとに基づいて被写体領域加工データを生成し、画像合成部46に供給する。
 なお、被写体領域加工部44では、被写体領域背景データに対して何らかの加工処理が施されて被写体領域加工データとされてもよいし、被写体領域背景データがそのまま被写体領域加工データとされてもよい。
 ステップS106の処理が行われると、その後、ステップS107乃至ステップS109の処理が行われて合成映像生成処理は終了するが、これらの処理は図5のステップS116乃至ステップS18の処理と同様であるので、その説明は省略する。
 以上のようにして撮像システム11は、補完用撮影映像に基づいて対象被写体を透明化する処理を行い、合成映像を生成する。この場合においても、撮影場所によらず、より簡単かつ確実に対象被写体の映り込みの発生を抑制することができる。
〈第3の実施の形態〉
〈撮像システムの構成例〉
 撮影映像上において対象被写体で見えない背景部分の映像を推定により生成し、補完することで、対象被写体の透明化を実現する例について説明する。
 そのような場合、例えば図14に示すように撮像部21によって、対象被写体SB31を含む撮影映像P51が撮影される。また、撮影映像P51から対象被写体SB31の領域R51が抽出されて削除(除去)され、その結果得られる背景の映像P53の映像データが背景映像加工データとされる。
 一方、撮影映像P51の領域R51の周囲の領域の映像に基づいて、対象被写体SB31に隠れて見えていない背景部分の映像、すなわち領域R51部分の背景が推定され、その結果として得られた領域R51と同形状の映像の映像データが被写体領域加工データとされる。
 このとき、撮影映像P51における領域R51の周囲(近傍)にある背景となる被写体の色や形状などから、領域R51の部分における背景となる被写体の色や形状が推定される。
 このようにして得られた被写体領域加工データに基づく背景部分の映像と、背景の映像P53とを合成することで映像P61が生成される。この映像P61は、撮影映像P51における対象被写体SB31の領域R51の部分を推定により生成した背景の映像によって補完することで得られる、対象被写体SB31が透明化された映像である。
 この映像P61に、アバタAB31のアバタ動作データを合成すれば、対象被写体SB31の映り込み(はみ出し)のない合成映像SP61を得ることができる。
 推定により生成した背景の映像に基づき補完が行われる場合、撮像システム11は、例えば図15に示す構成とされる。
 図15に示す撮像システム11の構成は、図3に示した撮像システム11の構成に、新たに仮想データ生成部151を設けた構成となっている。
 この例では、被写体領域抽出部43は、撮影映像上における対象被写体の領域を示す生成領域情報を生成し、仮想データ生成部151に供給する。この生成領域情報は、撮影映像上における対象被写体の領域を示す情報であるが、推定により生成する背景の領域を示す情報であるともいうことができる。
 仮想データ生成部151は、被写体領域抽出部43から供給された生成領域情報、3Dマッピング撮像部31から供給された3Dマッピングデータ、および画像撮像部32から供給された撮影映像の映像データに基づいて推定処理を行い、被写体領域仮想データを生成する。
 被写体領域仮想データは、推定処理により生成された、撮影映像上の生成領域情報により示される領域(被写体領域)の対象被写体に隠れて見えていない背景部分の映像データであって、かつ生成領域情報により示される領域と同形状の映像の映像データである。
 仮想データ生成部151は、生成した被写体領域仮想データを被写体領域加工部44に供給する。
〈合成映像生成処理の説明〉
 次に、図16のフローチャートを参照して、図15に示した撮像システム11により行われる合成映像生成処理について説明する。
 なお、ステップS131乃至ステップS134の処理は、図5のステップS11乃至ステップS14の処理と同様であるので、その説明は省略する。
 但し、ステップS134では、被写体領域抽出部43は、撮影映像上における対象被写体の領域、すなわち推定により背景を生成すべき領域を示す生成領域情報を生成し、仮想データ生成部151に供給する。
 ステップS135において仮想データ生成部151は、被写体領域抽出部43から供給された生成領域情報、3Dマッピング撮像部31から供給された3Dマッピングデータ、および画像撮像部32から供給された映像データに基づいて被写体領域仮想データを生成する。
 例えば仮想データ生成部151は、インペインティング(画像補間)により、撮影映像における生成領域情報により示される領域の近傍にある被写体(背景)の色や形状などから、生成領域情報により示される領域における背景となる被写体の色や形状を推定することで、被写体領域仮想データを生成する。このとき、3Dマッピングデータを用いれば、各被写体の領域の位置や形状をより高精度に認識できるので、より確からしい背景を推定することができる。すなわち、背景の推定精度を向上させることができる。
 この実施の形態では、被写体領域仮想データを生成することにより対象被写体の透明化が実現される。仮想データ生成部151は、生成した被写体領域仮想データを被写体領域加工部44に供給する。
 また、被写体領域加工部44は、被写体領域抽出部43から供給された被写体領域データと、仮想データ生成部151から供給された被写体領域仮想データとに基づいて被写体領域加工データを生成し、画像合成部46に供給する。
 なお、被写体領域加工部44では、被写体領域仮想データに対して何らかの加工処理が施されて被写体領域加工データとされてもよいし、被写体領域仮想データがそのまま被写体領域加工データとされてもよい。
 ステップS135の処理が行われると、その後、ステップS136乃至ステップS138の処理が行われて合成映像生成処理は終了するが、これらの処理は図5のステップS16乃至ステップS18の処理と同様であるので、その説明は省略する。
 以上のようにして撮像システム11は、推定により生成した背景の映像に基づいて対象被写体を透明化する処理を行い、合成映像を生成する。この場合においても、撮影場所によらず、より簡単かつ確実に対象被写体の映り込みの発生を抑制することができる。
〈第4の実施の形態〉
〈撮像システムの構成例〉
 撮影映像から抽出した被写体領域に対して、単色の静止画像やエフェクト画像(エフェクト映像)など、被写体とは異なる任意の別映像(他の画像)を合成することで、対象被写体の透明化を実現する例について説明する。
 そのような場合、例えば図17に示すように撮像部21によって、対象被写体SB31を含む撮影映像P51が撮影される。
 また、撮影映像P51から対象被写体SB31の領域R71が抽出され、撮影映像P51の領域R71と同形状の映像P71の映像データが被写体領域加工データとして生成される。この映像P71は、例えば予め用意された単色の静止画像やエフェクト映像、図形映像など、対象被写体の映像とは異なる別映像の映像データである適用データに基づき生成される。
 なお、適用データは、色や模様等を指定する情報であってもよい。そのような場合であっても、適用データにより指定される色や模様等から、単色や所定の模様等の被写体領域加工データを得ることができる。
 被写体領域加工データに基づく背景部分の映像P71と、撮影映像P51とを合成することで、対象被写体SB31が透明化された映像を得ることができる。
 そして、撮影映像P51と映像P71とを合成して得られた映像に、さらにアバタAB31のアバタ動作データを合成すれば、対象被写体SB31の映り込み(はみ出し)のない合成映像SP71を得ることができる。合成映像SP71では、対象被写体SB31が適用データに基づく映像P71に置き換えられて、透明化が実現されていることが分かる。
 適用データに基づく映像により補完が行われる場合、撮像システム11は、例えば図18に示す構成とされる。
 図18に示す撮像システム11の構成は、背景映像加工部45が設けられていない点で図3に示した撮像システム11の構成と異なる。
 この例では、被写体領域抽出部43は、被写体領域データを被写体領域加工部44に供給するとともに、撮影映像の映像データをそのまま画像合成部46に供給する。
 被写体領域加工部44は、被写体領域抽出部43から供給された被写体領域データと、外部から供給された適用データとに基づいて被写体領域加工データを生成し、画像合成部46に供給する。
 また、画像合成部46は、アバタ動作構築部42からのアバタ動作データ、被写体領域加工部44からの被写体領域加工データ、および被写体領域抽出部43からの撮影映像の映像データを合成し、合成映像の映像データを生成する。
 なお、被写体領域抽出部43から画像合成部46に、被写体領域外データが背景映像加工データとして供給されるようにしてもよい。そのような場合、アバタ動作データ、被写体領域加工データ、および背景映像加工データ(被写体領域外データ)が合成され、合成映像の映像データとされる。
〈合成映像生成処理の説明〉
 次に、図19のフローチャートを参照して、図18に示した撮像システム11により行われる合成映像生成処理について説明する。
 なお、ステップS161乃至ステップS164の処理は、図5のステップS11乃至ステップS14の処理と同様であるので、その説明は省略する。
 但し、ステップS164では、被写体領域抽出部43は、被写体領域データを被写体領域加工部44に供給するとともに、撮影映像の映像データを画像合成部46に供給する。
 ステップS165において被写体領域加工部44は、被写体領域抽出部43から供給された被写体領域データと、外部から供給された適用データとに基づいて被写体領域加工データを生成し、画像合成部46に供給する。
 例えば被写体領域加工部44は、被写体領域データに基づく映像全体を、単色の映像やエフェクト映像、図形映像などの適用データに基づく映像に置き換えることで被写体領域加工データを生成する。
 ステップS165の処理が行われると、その後、ステップS166およびステップS167の処理が行われて合成映像生成処理は終了するが、これらの処理は図5のステップS17およびステップS18の処理と同様であるので、その説明は省略する。
 但し、ステップS166では、アバタ動作データ、被写体領域加工データ、および撮影映像の映像データが合成されて、合成映像の映像データが生成される。
 以上のようにして撮像システム11は、適用データに基づき被写体領域加工データを生成し、その被写体領域加工データを用いて合成映像の映像データを生成する。この場合においても、撮影場所によらず、より簡単かつ確実に対象被写体の映り込みの発生を抑制することができる。
〈第5の実施の形態〉
〈撮像システムの構成例〉
 撮影映像上の対象被写体に対して、対象被写体が完全に覆われて隠れるように、合成(重畳)するアバタのサイズ等を調整することで、対象被写体の透明化を実現する例について説明する。
 そのような場合、例えば図20に示すように撮像部21によって、対象被写体SB31を含む撮影映像P51が撮影される。
 また、撮影映像P51における対象被写体SB31の領域のサイズ(大きさ)に応じて、背景画像や図形などが付与されたアバタAB51のアバタ動作データ、または巨大化されたアバタAB52のアバタ動作データが生成される。
 このとき、アバタAB51やアバタAB52は、それらのアバタAB51やアバタAB52を対象被写体SB31の領域に重ね合わせた場合に、アバタAB51やアバタAB52によって完全に対象被写体SB31の領域が見えなくなる(隠れる)ようなサイズおよび形状とされる。
 なお、以下では、アバタAB51においてアバタに付与された背景や図形などをアバタ背景とも称し、そのアバタ背景のデータをアバタ背景データとも称することとする。
 さらに図中、右側に示すように撮影映像P51に対して、アバタ背景が付与されたアバタAB51、または巨大化されたアバタAB52が合成されて、対象被写体SB31の映り込み(はみ出し)のない合成映像が生成される。
 このようにして得られる合成映像では、対象被写体SB31がアバタAB51またはアバタAB52により完全に覆われて見えなくなっており、対象被写体SB31の透明化が実現されていることが分かる。
 アバタのサイズ等を調整することで透明化が実現される場合、撮像システム11は、例えば図21に示す構成とされる。
 図21に示す撮像システム11の構成は、被写体領域加工部44および背景映像加工部45が設けられていない点で図3に示した撮像システム11の構成と異なる。
 この例では、被写体領域抽出部43は、対象被写体の領域(被写体領域)を示す領域情報をアバタ動作構築部42に供給するとともに、撮影映像の映像データをそのまま画像合成部46に供給する。
 また、この例ではアバタ動作構築部42に供給されるアバタ情報には、アバタの3Dモデルデータだけでなくアバタ背景データも含まれている。
 アバタ動作構築部42は、被写体動作検出部41から供給された被写体動作データと、外部から供給されたアバタ情報と、被写体領域抽出部43から供給された領域情報とに基づいて、アバタ動作データを生成し、画像合成部46に供給する。
 このとき、アバタ動作構築部42は、必要に応じて合成時のアバタのサイズを示すアバタサイズ情報も生成し、画像合成部46に供給する。
 画像合成部46は、アバタ動作構築部42からのアバタ動作データ、および被写体領域抽出部43からの撮影映像の映像データを合成し、合成映像の映像データを生成する。
〈合成映像生成処理の説明〉
 次に、図22のフローチャートを参照して、図21に示した撮像システム11により行われる合成映像生成処理について説明する。
 なお、ステップS191乃至ステップS193の処理は、図5のステップS11、ステップS12、およびステップS14の処理と同様であるので、その説明は省略する。
 但し、ステップS193では、被写体領域抽出部43は、対象被写体の検出結果に応じて領域情報を生成し、アバタ動作構築部42に供給するとともに、撮影映像の映像データをそのまま画像合成部46に供給する。
 ステップS194においてアバタ動作構築部42は、被写体動作検出部41から供給された被写体動作データ、外部から供給されたアバタ情報、および被写体領域抽出部43から供給された領域情報に基づいて、アバタ動作データおよびアバタサイズ情報を生成し、画像合成部46に供給する。
 例えばアバタ動作構築部42は、被写体動作データとアバタ情報に基づいて、図5のステップS13と同様の処理を行い、アバタ背景のないアバタのみを表示させるアバタ動作データを生成する。
 また、アバタ動作構築部42は、アバタ動作データと領域情報とに基づいて、アバタ動作データの合成時に対象被写体がアバタにより完全に覆われて隠れるように、アバタ動作データに基づくアバタの映像のサイズを決定し、その決定結果を示すアバタサイズ情報を生成する。
 その他、例えばアバタ背景データも用いて、被写体領域の位置に合成される、アバタ背景付きのアバタのアバタ動作データが生成されるようにしてもよい。
 そのような場合、アバタ動作構築部42は、アバタ背景データを含むアバタ情報と、領域情報とに基づいて、アバタ動作データの合成時に対象被写体がアバタにより完全に覆われて隠れるようなアバタ背景のサイズを決定する。
 そしてアバタ動作構築部42は、被写体動作データとアバタ情報に基づいて、決定したサイズのアバタ背景がアバタに対し付加されたアバタ動作データを生成する。この場合、既にアバタ背景のサイズが調整されているので、アバタ動作データをそのまま撮影映像の映像データに合成しても合成映像において対象被写体の映り込みは生じない。
 なお、アバタ背景のない場合と同様に、サイズを考慮せずにアバタ背景が付加されたアバタのアバタ動作データを生成し、アバタ動作データと領域情報とに基づいてアバタサイズ情報を生成するようにしてもよい。
 ステップS195において画像合成部46は、アバタ動作構築部42から供給されたアバタサイズ情報およびアバタ動作データに基づいてサイズ調整を行う。
 すなわち、画像合成部46は、被写体領域の位置に合成される、アバタ動作データに基づくアバタのサイズが、アバタサイズ情報により示されるサイズとなるように、適宜、アバタを拡大(巨大化)させるサイズ調整を行うことで、サイズ調整後のアバタ動作データを生成する。なお、アバタのサイズ調整は、画像合成部46ではなくアバタ動作構築部42で行われるようにしてもよい。
 ステップS196において画像合成部46は、被写体領域抽出部43から供給された撮影映像の映像データと、ステップS195でのサイズ調整後のアバタ動作データとを合成することで合成映像の映像データを生成し、ディスプレイ23に供給する。
 ステップS196の処理が行われると、その後、ステップS197の処理が行われて合成映像生成処理は終了するが、ステップS197の処理は図5のステップS18の処理と同様であるので、その説明は省略する。
 以上のようにして撮像システム11は、アバタ動作データに対するサイズ調整を行うことで対象被写体の透明化を実現し、合成映像を生成する。この場合においても、撮影場所によらず、より簡単かつ確実に対象被写体の映り込みの発生を抑制することができる。
〈第6の実施の形態〉
〈3Dマッピングデータの活用について〉
 撮影映像のみでは透明化の対象とする対象被写体を判別できない場合に、3Dマッピングデータに基づき対象被写体を判別できるときには、3Dマッピングデータに基づく判別結果を利用して対象被写体の透明化を行う例について説明する。この実施の形態では、撮像システム11の構成は、例えば図3に示した構成とされる。
 例えば図23に示すように、夜間等の暗い環境での撮影であったため、撮像部21による撮影で得られた撮影映像P81からは対象被写体SB81を検出できなかったとする。すなわち、撮影映像P81上で対象被写体SB81となる被写体を判別できなかったとする。
 このように、撮影映像P81から対象被写体SB81を検出できないケースは、暗い環境での撮影の他、対象被写体SB81を認識しにくいシーンなど、背景状況によっても生じ得る。
 一方で、3Dマッピング撮像部31での撮影で得られた3DマッピングMP81からは、対象被写体SB81を検出できたとする。すなわち、対象被写体SB81であるか否かを判別できたとする。
 このような場合、撮影映像P81から、3DマッピングMP81に基づき検出された対象被写体SB81の領域R81が抽出されて削除(除去)され、その結果得られる背景の映像P82の映像データが背景映像加工データとされる。
 また、任意の方法により領域R81の部分における背景の映像データが被写体領域加工データとして生成される。そして被写体領域加工データに基づく映像と、背景映像加工データに基づく映像P82とを合成して得られる映像P83に、アバタAB31のアバタ動作データを合成すれば、対象被写体SB81の映り込みのない合成映像SP81を得ることができる。
〈合成映像生成処理の説明〉
 次に、図24のフローチャートを参照して、撮像システム11により行われる合成映像生成処理について説明する。
 なお、ステップS221の処理は、図5のステップS11の処理と同様であるので、その説明は省略する。
 ステップS222において被写体動作検出部41および被写体領域抽出部43は、3Dマッピング撮像部31から供給された3Dマッピングデータと、画像撮像部32から供給された撮影映像の映像データのそれぞれから透明化対象の被写体(対象被写体)を検出する。
 ステップS223において被写体動作検出部41および被写体領域抽出部43は、撮影映像の映像データから透明化対象の被写体が検出されたか否かを判定する。
 例えば被写体動作検出部41と被写体領域抽出部43の間で互いに対象被写体の検出結果を共有し、被写体動作検出部41と被写体領域抽出部43の両方で撮影映像から対象被写体が検出された場合に、透明化対象の被写体が検出されたと判定されるようにしてもよい。
 ステップS223において被写体が検出されたと判定された場合、その後、処理はステップS225へと進む。
 これに対して、ステップS223において被写体が検出されなかったと判定された場合、ステップS224において被写体動作検出部41および被写体領域抽出部43は、3Dマッピングデータから透明化対象の被写体が検出されたか否かを判定する。
 この場合においてもステップS223における場合と同様に、例えば被写体動作検出部41と被写体領域抽出部43の両方で3Dマッピングデータから対象被写体が検出された場合に、透明化対象の被写体が検出されたと判定されるようにしてもよい。
 ステップS224において被写体が検出されなかったと判定された場合、対象被写体の透明化を行うことができないので、以降のステップS225乃至ステップS230の処理はスキップされ、その後処理はステップS231へと進む。この場合、例えばディスプレイ23では、合成映像の表示が更新されずに、最後に表示した合成映像のフレームが表示されたままの状態となる。
 また、ステップS224において被写体が検出されたと判定された場合、その後、処理はステップS225へと進む。
 ステップS223またはステップS224において被写体が検出されたと判定された場合、その後、ステップS225およびステップS226の処理が行われるが、これらの処理は図5のステップS12およびステップS13の処理と同様であるので、その説明は省略する。
 なお、ステップS223で被写体が検出されたと判定された場合、ステップS225において被写体動作検出部41では、撮影映像の映像データと3Dマッピングデータのうちの少なくとも何れか一方に基づいてモーションキャプチャが行われる。すなわち、例えばステップS222での撮影映像の映像データや3Dマッピングデータからの対象被写体の検出結果が適宜用いられて、対象被写体の動きが検出される。
 これに対して、ステップS224で被写体が検出されたと判定された場合、撮影映像からは対象被写体が検出されなかったので、撮影映像の映像データはモーションキャプチャに利用することができない。そこで、ステップS224で被写体が検出されたと判定された場合には、被写体動作検出部41は、ステップS225において3Dマッピングデータのみに基づいてモーションキャプチャを行う。
 ステップS227において被写体領域抽出部43は、ステップS222での対象被写体の検出結果に基づいて被写体領域データおよび被写体領域外データを生成し、被写体領域データを被写体領域加工部44に供給するとともに、被写体領域外データを背景映像加工部45に供給する。
 特に、被写体領域抽出部43は、ステップS223で被写体が検出されたと判定された場合、撮影映像の映像データと3Dマッピングデータのうちの少なくとも何れか一方に基づいて被写体領域の抽出を行い、被写体領域データと被写体領域外データを生成する。
 これに対して被写体領域抽出部43は、ステップS224で被写体が検出されたと判定された場合には、3Dマッピングデータからの対象被写体の検出結果のみに基づいて撮影映像から被写体領域の抽出を行い、被写体領域データと被写体領域外データを生成する。
 ステップS227の処理が行われると、その後、ステップS228乃至ステップS231の処理が行われて合成映像生成処理は終了するが、これらの処理は図5のステップS15乃至ステップS18の処理と同様であるので、その説明は省略する。
 この場合、例えばステップS228において、図19のステップS165と同様にして、被写体領域データと、外部から供給された適用データとに基づき被写体領域加工データが生成されるなどして、対象被写体が透明化される。なお、この実施の形態では、対象被写体の透明化は、適用データを利用する例に限らず、上述した任意の実施の形態で説明した方法や後述する任意の方法など、どのような方法により行われてもよい。
 以上のようにして撮像システム11は、撮影映像と3Dマッピングから対象被写体を検出し、その検出結果に応じてモーションキャプチャや被写体領域の抽出を行い、合成映像を生成する。この場合においても、撮影場所によらず、より簡単かつ確実に対象被写体の映り込みの発生を抑制することができる。
〈第7の実施の形態〉
〈撮像システムの構成例〉
 撮影映像の処理対象のフレームにおける対象被写体で見えない背景部分を、過去のフレーム、つまり処理対象のフレームよりも時間的に前のフレームの撮影映像を用いて補完することで、対象被写体の透明化を実現する例について説明する。
 例えば図25に示すように、撮像部21によって、対象被写体SB31を含む所定のフレームFL1の撮影映像P91が撮影されたとする。
 また、撮影映像P91から対象被写体SB31の領域R91が抽出されて削除され、その結果得られる背景の映像P92の映像データが背景映像加工データとされ、上述の適用データから生成された単色等の映像P93の映像データが被写体領域加工データされたとする。
 この場合、映像P92と映像P93とを合成して得られる映像P94が、処理対象のフレームFL1における、対象被写体SB31が透明化された撮影映像となる。
 この例では、フレームFL1の背景の映像P92の映像データ、より詳細には被写体領域外データが過去背景映像の映像データである過去背景データとして保持される。
 また、フレームFL1の次のフレームFL2では、対象被写体SB31を含む撮影映像P101が撮影され、その撮影映像P101から対象被写体SB31の領域R101が抽出されて削除され、背景の映像P102の映像データが背景映像加工データとされたとする。
 この場合、フレームFL2では、適用データと、過去のフレームの背景映像の映像データである過去背景データとから、被写体領域加工データとされる映像P103の映像データが生成される。
 ここでは、映像P103の領域のうち、例えば矢印W11に示すように、対応する過去背景映像がない領域、つまり過去背景映像には映っていない背景の領域については、適用データに基づき映像が生成される。
 これに対して、映像P103の領域のうち、例えば矢印W12に示すように、対応する過去背景映像がある領域、つまり過去背景映像に映っている背景の領域については、過去背景データに基づき映像が生成される。
 このように過去背景映像を利用して各フレームの被写体領域加工データを生成すれば、保持している過去背景データが増えるほど、過去背景映像により補完できる領域、すなわち過去背景映像により生成可能な領域が増えていき、より自然な合成映像が得られる。
 また、映像P103と背景の映像P102とを合成して得られる映像P104が、フレームFL2における、対象被写体SB31が透明化された撮影映像となる。映像P104にアバタAB31のアバタ動作データを合成すれば、対象被写体SB31の映り込みのない合成映像SP101を得ることができる。
 過去背景映像を用いて生成した背景の映像に基づき補完が行われる場合、撮像システム11は、例えば図26に示す構成とされる。
 図26に示す撮像システム11の構成は、図3に示した撮像システム11の構成に、新たに過去背景データ保持部181を設けた構成となっている。
 この例では、被写体領域抽出部43は、撮影映像上における対象被写体の領域を示す領域情報を生成し、領域情報と被写体領域外データを過去背景データ保持部181に供給するとともに、領域情報を被写体領域加工部44に供給する。
 過去背景データ保持部181は、被写体領域抽出部43から供給された被写体領域外データを、次のフレーム以降の過去背景データとして、その過去背景データを被写体領域抽出部43から供給された領域情報と対応付けて保持する。
 被写体領域加工部44は、被写体領域抽出部43から供給された領域情報と、外部から供給された適用データと、過去背景データ保持部181に保持(記録)されている過去背景データとに基づいて被写体領域加工データを生成する。
〈合成映像生成処理の説明〉
 次に、図27のフローチャートを参照して、図26に示した撮像システム11により行われる合成映像生成処理について説明する。
 なお、ステップS261乃至ステップS264の処理は、図5のステップS11乃至ステップS14の処理と同様であるので、その説明は省略する。
 但し、ステップS264では、被写体領域抽出部43は、撮影映像上における対象被写体の領域を示す領域情報を生成し、領域情報と被写体領域外データを過去背景データ保持部181に供給するとともに、領域情報を被写体領域加工部44に供給する。
 ステップS265において被写体領域加工部44は、被写体領域上の処理対象の領域に対応する過去背景映像が保存されているか否かを判定する。換言すれば、撮影映像の過去のフレームに、現フレームの被写体領域内の処理対象の領域に対応する背景の映像が含まれているか否かが判定される。
 例えば被写体領域加工部44は、被写体領域抽出部43から供給された領域情報により示される被写体領域のうちの一部の領域を処理対象の領域とする。
 そして被写体領域加工部44は、過去背景データ保持部181に保持(保存)されている1または複数の全ての過去背景データに対応付けられている領域情報を参照することで、処理対象の領域に対応する領域を含む過去背景映像の過去背景データがあるかを判定する。
 ステップS265において、対応する過去背景映像が保存されていると判定された場合、被写体領域加工部44は、過去背景データ保持部181から、処理対象の領域に対応する領域を含む過去背景データを読み出して、その後、処理はステップS266に進む。
 ステップS266において被写体領域加工部44は、読み出した過去背景映像に基づいて、背景の映像を生成する。すなわち、被写体領域加工部44は、読み出した過去背景データに基づく過去背景映像から、処理対象の領域に対応する領域を抽出し、処理対象の現フレームにおける背景の映像の一部とする。
 これに対して、ステップS265において対応する過去背景映像が保存されていないと判定された場合、ステップS267において被写体領域加工部44は、外部から供給された適用データに基づいて、処理対象の領域に対応する背景の映像を生成する。この場合、例えば単色や所定の模様等の任意の別映像が処理対象の領域に対応する背景の映像となる。
 ステップS266またはステップS267の処理が行われると、その後、ステップS268の処理が行われる。
 ステップS268において被写体領域加工部44は、領域情報により示される被写体領域上の全ての領域を処理対象の領域として処理したか否かを判定する。
 ステップS268において、まだ全ての領域を処理していないと判定された場合、処理はステップS265に戻り、上述した処理が繰り返し行われる。
 これに対して、ステップS268において全ての領域を処理したと判定された場合、被写体領域全体に対応する背景の映像が得られたので、処理はステップS269へと進む。
 ステップS269において被写体領域加工部44は、以上のステップS266やステップS267を行うことで得られた全ての対象領域について生成した背景の映像を並べて合成し、その結果得られた背景の映像の映像データを被写体領域加工データとする。被写体領域加工部44は、得られた被写体領域加工データを画像合成部46に供給する。
 例えば全ての対象領域についてステップS266の処理が行われた場合、被写体領域全体に対応する背景映像が1または複数の過去背景映像から生成されたことになる。
 また、例えばステップS266の処理もステップS267の処理も行われた場合には、被写体領域のうちの一部の領域に対応する背景映像は1または複数の過去背景映像から生成され、残りの領域に対応する背景映像は適用データから生成されたことになる。この実施の形態では、過去背景データや適用データに基づき被写体領域加工データを生成することで、対象被写体の透明化が実現される。
 ステップS270において過去背景データ保持部181は、被写体領域抽出部43から供給された被写体領域外データを背景映像、すなわち過去背景データとして保存(保持)する。このとき過去背景データ保持部181は、被写体領域抽出部43から供給された領域情報と過去背景データとを対応付けて保存する。撮影映像のフレームごとにステップS270の処理を行うことにより、過去の複数フレームの被写体領域外データが過去背景データとして保存されることになる。
 ステップS270の処理が行われると、その後、ステップS271乃至ステップS273の処理が行われて合成映像生成処理は終了するが、これらの処理は図5のステップS16乃至ステップS18の処理と同様であるので、その説明は省略する。
 以上のようにして撮像システム11は、被写体領域外データを過去背景データとして保存し、適宜、過去背景データに基づいて対象被写体を透明化する処理を行い、合成映像を生成する。この場合においても、撮影場所によらず、より簡単かつ確実に対象被写体の映り込みの発生を抑制することができる。
〈第8の実施の形態〉
〈撮像システムの構成例〉
 撮像部21から対象被写体までの距離が遠すぎるか、または近すぎるため、対象被写体の領域の抽出精度が低下してしまう場合に、対象被写体までの距離に応じて、対象被写体の映り込みを抑制する方法(処理)を決定する例について説明する。
 例えば3Dマッピングデータを活用すれば、撮像部21から対象被写体までの距離を得ることができる。また、対象被写体が遠方にあり、撮影映像上で対象被写体を十分に認識できない場合や、撮影映像上に対象被写体全体が映らない程度に対象被写体が近すぎて、撮影映像上で対象被写体を十分に認識できない場合がある。
 撮像システム11は、合成映像上で対象被写体を見えなくする機能を有しており、対象被写体までの距離に応じてその機能を切り替える(変更する)ことができる。換言すれば、データ制御部22が、撮像部21(撮影位置)から対象被写体までの距離に応じて、異なる透明化処理を行うようにすることができる。
 具体的には、例えば図28の矢印Q31に示すように、撮像部21から対象被写体SB31までの距離が遠い場合、撮影映像からの対象被写体SB31の抽出精度が低下してしまう。
 そこで、例えば対象被写体SB31までの距離が所定の閾値thmaxよりも大きい場合、対象被写体SB31までの距離が遠すぎる、すなわち距離の測定限界を超過したと判定される。そして、例えば対象被写体SB31を含む領域R111が適用データ等による単色の映像(塗りつぶされた映像)に置き換えられた合成映像P111が生成される。この例では合成映像P111には、アバタAB31は表示されない。
 このように、対象被写体SB31を含む領域R111を単色の映像等に置き換えれば、対象被写体SB31を透明化し、対象被写体SB31の映り込みを確実に防止することができる。
 なお、単色の映像等による置き換えの他、現時点で表示されている、対象被写体SB31の映り込みのない合成映像が表示されたままとする、すなわち合成映像の再生を一時的に停止するようにしてもよい。この場合においても対象被写体SB31の映り込みを確実に防止することができる。
 また、例えば矢印Q32に示すように、撮像部21から対象被写体SB31までの距離が近すぎる場合、撮影映像P112上には対象被写体SB31の一部しか映らないため、撮影映像P112上において対象被写体SB31の領域を正しく認識することができないおそれがある。すなわち、撮影映像P112からの対象被写体SB31の抽出精度が低下してしまう。
 そこで、例えば対象被写体SB31までの距離が所定の閾値thmin未満である場合、現時点で表示されている、対象被写体SB31の映り込みのない合成映像P113が表示されたままとする。すなわち、合成映像P113の再生が一時的に停止される。
 このように、対象被写体SB31が一定の距離以上、撮像部21に近づいたときには、合成映像P113の再生を停止することで、対象被写体SB31の認識不良、すなわち認識精度の低下により生じる対象被写体SB31の映り込みを確実に防止することができる。換言すれば、対象被写体SB31が透明化された状態を維持することができる。
 対象被写体までの距離に応じて処理を切り替える場合、撮像システム11は、例えば図29に示す構成とされる。
 図29に示す撮像システム11の構成は、図3に示した撮像システム11の構成と同じであるが、図29の例では、外部から被写体領域抽出部43に適正撮影距離判定基準が供給される。
 この適正撮影距離判定基準は、撮像部21から対象被写体までの距離が適切な範囲(以下、適正範囲とも称する)内の距離であるか否かの判定に利用されるものである。具体的には、例えば適正撮影距離判定基準は、適正範囲の上限と下限を示す距離、すなわち上述の閾値thmaxや閾値thminを示す情報や、被写体認識精度クライテリアなどとされる。
 被写体領域抽出部43は、適正撮影距離判定基準と3Dマッピングデータに基づいて、対象被写体までの距離が適正範囲内であるか否かを判定し、その判定結果に応じた処理をデータ制御部22の各部に実行させる。
〈合成映像生成処理の説明〉
 次に、図30のフローチャートを参照して、図29に示した撮像システム11により行われる合成映像生成処理について説明する。
 なお、ステップS301の処理は、図5のステップS11の処理と同様であるので、その説明は省略する。
 ステップS302において被写体領域抽出部43は、3Dマッピング撮像部31から供給された3Dマッピングデータと、供給された適正撮影距離判定基準とに基づいて、撮像部21から対象被写体までの距離が適正範囲内であるか否かを判定する。
 すなわち、被写体領域抽出部43は、必要に応じて撮影映像の映像データを用いて、3Dマッピングデータから対象被写体の領域を抽出し、その抽出結果に基づいて撮像部21から対象被写体までの距離を求める。そして被写体領域抽出部43は、求めた距離が適正撮影距離判定基準により示される適正範囲内の距離であるか否かを判定する。
 ステップS302において適正範囲内の距離であると判定された場合、その後、ステップS303乃至ステップS308の処理が行われて合成映像が生成され、その後、処理はステップS310へと進む。
 なお、これらのステップS303乃至ステップS308の処理は、図5のステップS12乃至ステップS17の処理と同様であるので、その説明は省略する。
 この場合、例えばステップS306において、図19のステップS165と同様にして、被写体領域データと、外部から供給された適用データとに基づき被写体領域加工データが生成されるなどして、対象被写体が透明化される。なお、この実施の形態では、対象被写体の透明化は、適用データを利用する例に限らず、上述した任意の実施の形態で説明した方法や後述する任意の方法など、どのような方法により行われてもよい。
 また、ステップS302において適正範囲内の距離ではないと判定された場合、ステップS309においてデータ制御部22は、対象被写体までの距離に応じた処理を行う。
 具体的には、例えば対象被写体までの距離が適正範囲内の距離よりも大きい場合、被写体領域抽出部43は、ステップS305と同様の処理を行い、背景映像加工部45はステップS307と同様の処理を行う。また、被写体領域加工部44は、被写体領域加工処理として、対象被写体の領域全体を覆う(含む)単色の領域の映像データを被写体領域加工データとして生成する。
 そして画像合成部46は、被写体領域抽出部43の指示に応じて、背景映像加工データと、単色の領域の被写体領域加工データとを合成し、合成映像とする。この場合、例えば図28に示した合成映像P111と同様の合成映像が得られる。
 また、例えば対象被写体までの距離が適正範囲内の距離未満である場合、被写体領域抽出部43は、画像合成部46に対して合成映像の生成の一時的な停止、すなわち合成映像のディスプレイ23への供給の一時的な停止を指示する。すると、画像合成部46は、被写体領域抽出部43の指示に応じて、合成映像の供給(再生)を停止する。これにより、ディスプレイ23では、合成映像の表示が更新されずに、最後に表示した合成映像のフレームが表示されたままの状態となる。
 このようなステップS309の処理によって、対象被写体の映り込みの発生が確実に抑制される。
 ステップS308の処理が行われたか、またはステップS309の処理が行われると、その後、ステップS310の処理が行われて合成映像生成処理は終了するが、ステップS310の処理は図5のステップS18の処理と同様であるので、その説明は省略する。
 この場合、例えば一度ステップS309の処理が行われた後、ステップS302において対象被写体までの距離が適正範囲内であると判定されると、その後は、アバタが表示された合成映像が適切に更新される。
 以上のようにして撮像システム11は、対象被写体までの距離に応じて、実行する処理を切り換えながら合成映像を生成する。この場合においても、撮影場所によらず、より簡単かつ確実に対象被写体の映り込みの発生を抑制することができる。
〈第9の実施の形態〉
〈撮像システムの構成例〉
 撮影映像上の対象被写体に対して、モーションキャプチャと透明化の処理の両方に成功している場合のみ、撮影映像の撮影、すなわち合成映像の生成(記録)、または合成映像の送信(放送)を行う例について説明する。
 例えば合成映像をコンテンツとしてリアルタイムで放送(中継)したり、合成映像をコンテンツとして記録したりする場合に、対象被写体を認識し、モーションキャプチャと透明化の処理の両方に成功している状態でのみコンテンツの放送や記録を行う機能を撮像システム11に持たせるようにしてもよい。換言すれば、モーションキャプチャや透明化処理などの対象被写体への画像処理の可否に応じて、合成映像の撮影可否を変更する機能を撮像システム11に持たせるようにしてもよい。
 そのような場合、例えば図31の図中、左側に示すように、撮像部21から対象被写体までの距離が近いため、対象被写体への画像処理、すなわちモーションキャプチャまたは透明化処理の何れかに失敗したときには撮影が一時的に停止される。すなわち、合成映像の放送(送信)や記録(録画)が一時的に停止される。
 同様に、図中、右側に示すように、撮像部21から対象被写体までの距離が遠いため、対象被写体への画像処理に失敗したときには撮影が一時的に停止される。
 これに対して、図中、中央に示すように、撮像部21から対象被写体までの距離が適正な距離であるため、対象被写体への画像処理、すなわちモーションキャプチャと透明化処理の両方を正しく行うことができたときには撮影が継続して行われる。すなわち、合成映像の放送(送信)や記録(録画)が継続して行われる。
 このように、対象被写体までの距離が適切ではないなどの理由により、モーションキャプチャや透明化処理を行うことができないときには、撮影を一時的に停止させることで、対象被写体の映り込みをより確実に抑制することができる。
 モーションキャプチャや透明化処理が成功したか否かに応じて、撮影を継続するか、または一時停止する場合、撮像システム11は、例えば図32に示す構成とされる。
 図32に示す撮像システム11の構成は、図3に示した撮像システム11の構成に、新たに被写体動作判定部211および被写体領域判定部212を設けた構成となっている。
 被写体動作判定部211は、被写体動作検出部41から供給された被写体動作データに基づいて、モーションキャプチャに成功したか否かを判定し、その判定結果を被写体領域判定部212に供給する。
 例えば被写体動作判定部211は、直近数フレーム分の被写体動作データと、適宜、被写体動作検出部41から供給される撮影映像や3Dマッピングデータからの対象被写体の検出結果などに基づいて、現フレームにおいて正しくモーションキャプチャが行われたか否か、すなわちモーションキャプチャに成功したか否かを判定する。
 被写体領域判定部212は、被写体領域抽出部43から供給された被写体領域データおよび被写体領域外データに基づいて、対象被写体の透明化に成功したか否かを判定し、その判定結果を被写体動作判定部211に供給する。
 例えば被写体領域判定部212は、直近数フレーム分の被写体領域データおよび被写体領域外データと、適宜、被写体領域抽出部43から供給される撮影映像や3Dマッピングデータからの対象被写体の検出結果などに基づいて、現フレームにおいて正しく透明化処理が行われたか否か、すなわち透明化処理に成功したか否かを判定する。この場合、撮影映像等から正しく対象被写体が抽出(検出)できた場合、透明化処理に成功した、より詳細にはこれから行う透明化処理を正しく行うことができると判定される。
 被写体動作判定部211と被写体領域判定部212の間では、互いの判定結果が共有されており、それらの判定結果に応じて後段へのデータの出力が行われる。
 すなわち、被写体動作判定部211は、モーションキャプチャにも透明化処理にも成功したとの判定結果が得られた場合に、被写体動作データをアバタ動作構築部42へと供給する。同様に、被写体領域判定部212は、モーションキャプチャにも透明化処理にも成功したとの判定結果が得られた場合に、被写体領域データを被写体領域加工部44に供給するとともに、被写体領域外データを背景映像加工部45に供給する。
〈判定処理の説明〉
 次に、図32に示した撮像システム11の動作について説明する。
 図32に示した撮像システム11は、基本的には図5を参照して説明した合成映像生成処理を継続して行うと同時に、図33に示す判定処理も行う。特に撮像システム11は、判定処理での判定結果に応じて、合成映像生成処理を一時的に停止したり、合成映像生成処理を再開したりする。
 以下、図33のフローチャートを参照して、図32に示した撮像システム11により行われる判定処理について説明する。
 ステップS341において被写体動作判定部211は、被写体動作検出部41から供給された被写体動作データに基づいてモーションキャプチャに成功したか否かを判定し、その判定を被写体領域判定部212に供給する。
 ステップS341においてモーションキャプチャに成功したと判定された場合、その後、処理はステップS342へと進む。
 ステップS342において被写体領域判定部212は、被写体領域抽出部43から供給された被写体領域データおよび被写体領域外データに基づいて、対象被写体の透明化に成功したか否かを判定し、その判定を被写体動作判定部211に供給する。
 ステップS342において対象被写体の透明化に成功したと判定された場合、その後、処理はステップS343へと進む。
 ステップS343においてデータ制御部22は、合成映像の録画または放送を行う。
 すなわち、被写体動作判定部211は、被写体動作検出部41から供給された被写体動作データをアバタ動作構築部42へと供給する。また、被写体領域判定部212は、被写体領域データを被写体領域加工部44に供給するとともに、被写体領域外データを背景映像加工部45に供給する。
 これにより、その後、図5を参照して説明した合成映像生成処理のステップS13、およびステップS15乃至ステップS18の処理が行われることになる。この場合、画像合成部46は、生成した合成映像をディスプレイ23に供給して表示させるとともに、合成映像の映像データを図示せぬ記録部に供給して記録(録画)させたり、図示せぬ通信部に供給して外部の装置へと送信(放送)させたりする。
 ステップS343の処理が行われると、その後、処理はステップS345へと進む。
 また、ステップS341においてモーションキャプチャに成功しなかった、つまりモーションキャプチャに失敗したと判定されたか、またはステップS342において対象被写体の透明化に成功しなかった、つまり透明化に失敗したと判定された場合、ステップS344の処理が行われる。
 ステップS344においてデータ制御部22は、合成映像の録画または放送を一時的に停止する。
 すなわち、被写体動作判定部211は、被写体動作検出部41から供給された被写体動作データのアバタ動作構築部42への供給を一時的に停止する。また、被写体領域判定部212は、被写体領域データの被写体領域加工部44への供給と、被写体領域外データの背景映像加工部45への供給を一時的に停止する。
 これにより、図5を参照して説明した合成映像生成処理のステップS13、およびステップS15乃至ステップS18の処理が一時的に行われないようになり、その結果、合成映像の表示の更新と、合成映像の記録(録画)や送信(放送)が一時的に停止される。
 なお、モーションキャプチャと対象被写体の透明化の少なくとも何れか一方に失敗した場合、ステップS344では、合成映像の生成と表示は行われるが、合成映像の録画と放送は行われない(一時的に停止される)ようにしてもよい。
 ステップS343の処理が行われたか、またはステップS344の処理が行われると、ステップS345においてデータ制御部22は、継続して撮影を行うか否かを判定する。例えば図5のステップS18において処理を終了すると判定された場合、撮影を終了すると判定される。
 ステップS345において、継続して撮影を行うと判定された場合、その後、処理はステップS341に戻り、上述した処理が繰り返し行われる。
 したがって、例えば撮影開始直後においてステップS344の処理が行われると、録画や放送が不可な状態であるため、合成映像の録画や放送は開始されず、その後、ステップS342において透明化に成功したと判定されると、合成映像の録画や放送が開始される。同様に、例えば合成映像の録画や放送が開始された後、ステップS344の処理が行われるときには、録画や放送の途中で、一時的に録画や放送が停止され、その後、ステップS342において透明化に成功したと判定されると、合成映像の録画や放送が再開される。
 また、ステップS345において継続して撮影を行わない、すなわち撮影を終了すると判定された場合、データ制御部22の各部は行っている処理を停止し、判定処理は終了する。
 以上のようにして撮像システム11は、モーションキャプチャや透明化処理が成功したか否かに応じて、適宜、合成映像の録画や放送を行う。このようにすることで、さらに対象被写体の映り込みの発生を抑制することができる。
〈第10の実施の形態〉
〈撮像システムの構成例〉
 撮影映像に対象被写体の一部のみが映っている場合でも、正しくモーションキャプチャを行うことができるようにする例について説明する。
 例えば撮影映像の撮影時の範囲(画角)よりもより広い範囲を対象として、すなわちより広角で3Dマッピングの撮影を行うようにすれば、撮影映像では対象被写体の全身が映らないような近距離撮影の場合や、撮影映像の撮影範囲内外を対象被写体が行き来するような場合においても、対象被写体の領域を正確に抽出することができる。これにより、モーションキャプチャの精度の低下を抑制することができる。
 そのような場合、例えば図34に示すように3Dマッピング撮像部31と画像撮像部32の撮影視野、すなわち撮影対象とされる領域の範囲が異なるようにされる。
 図34では、矢印Q51に示す部分では、3Dマッピング撮像部31と画像撮像部32の水平方向の撮影視野、すなわち撮影対象となる領域の範囲が示されている。特に、矢印Q51に示す部分における横方向(X方向)および縦方向(Y方向)は、撮像部21から対象被写体SB31の方向を見たときの横方向(水平方向)と奥行き方向を示している。
 具体的には、直線L51と直線L52との間の領域が画像撮像部32、つまり撮影映像の撮影視野の範囲となっており、直線L53と直線L54との間の領域が3Dマッピング撮像部31、つまり3Dマッピングの撮影視野の範囲となっている。すなわち、3Dマッピングの撮影視野の範囲には、撮影映像の撮影視野の全範囲が含まれており、3Dマッピング撮像部31では、画像撮像部32と比較して、水平方向により広角な撮影が可能である。
 この例では、対象被写体SB31の一部が撮影映像の撮影視野の範囲外にあるが、対象被写体SB31全体が3Dマッピングの撮影視野の範囲内に含まれているため、3Dマッピングデータを用いれば、対象被写体SB31の領域を正しく特定(抽出)することができる。
 したがって、例えば対象被写体SB31の一部が撮影映像の撮影視野の範囲外となってしまうような瞬間であっても、3Dマッピングデータを用いれば、モーションキャプチャを行うことが可能である。
 また、矢印Q52に示す部分では、3Dマッピング撮像部31と画像撮像部32の垂直方向の撮影視野の範囲が示されている。特に、矢印Q52に示す部分における横方向(Y方向)および縦方向(Z方向)は、撮像部21から対象被写体SB31の方向を見たときの奥行方向と垂直方向(鉛直方向)を示している。
 具体的には、直線L61と直線L62との間の領域が撮影映像の撮影視野の範囲となっており、直線L63と直線L64との間の領域が3Dマッピングの撮影視野の範囲となっている。すなわち、3Dマッピングの撮影視野の範囲には、撮影映像の撮影視野の全範囲が含まれており、3Dマッピング撮像部31では、画像撮像部32と比較して、垂直方向により広角な撮影が可能である。
 この例では、対象被写体SB31の一部が撮影映像の撮影視野の範囲外にあるが、対象被写体SB31全体が3Dマッピングの撮影視野の範囲内に含まれているため、3Dマッピングデータを用いれば、対象被写体SB31の領域を正しく特定(抽出)することができる。
 したがって、例えば対象被写体SB31が撮像部21に近すぎる位置にいるため、撮影映像に対象被写体SB31の全体が映らない場合であっても、3Dマッピングデータを用いれば、モーションキャプチャを行うことが可能である。
 例えば図35に示すように、撮影映像P121上において対象被写体SB31の体の一部が見切れている(見えていない)状態では、その撮影映像P121のみを用いたときには、モーションキャプチャの精度が低下してしまう。
 しかし、そのような場合でも、3DマッピングP122上に対象被写体SB31の全身が映っていれば、3DマッピングP122を用いて精度よくモーションキャプチャを行うことができる。したがって、対象被写体SB31の映り込みのない合成映像SP121を得ることができる。
 この場合、撮影映像P121と3DマッピングP122との同期が行われる。すなわち、撮影映像P121上と3DマッピングP122上とでの対象被写体SB31の領域の対応関係が特定される。そして、その特定結果に応じて合成映像SP121上におけるアバタAB31の表示範囲が決定(制御)される。この例では、撮影映像P121上における対象被写体SB31と同様に、合成映像SP121上においてアバタAB31の一部が見切れている。
 撮影映像よりも3Dマッピングを広角で撮影する場合、撮像システム11は、例えば図36に示す構成とされる。
 図36に示す撮像システム11の構成は、図3に示した撮像システム11の構成に、新たに3Dマッピング被写体判定部241、撮影映像被写体判定部242、および同期部243を設けた構成となっている。
 また、この例では、3Dマッピング撮像部31(3Dマッピング)の撮影視野の範囲は、画像撮像部32(撮影映像)の撮影視野を含む、より広い範囲となっている。換言すれば、3Dマッピング撮像部31の視野角は、画像撮像部32の視野角よりも大きい。
 3Dマッピング被写体判定部241は、3Dマッピング撮像部31から供給された3Dマッピングデータから対象被写体の領域を抽出可能か否か、すなわち対象被写体の領域の抽出可否を判定し、その判定結果を撮影映像被写体判定部242に供給する。
 また、3Dマッピング被写体判定部241は、対象被写体の領域の抽出可否の判定結果等に応じて、3Dマッピング撮像部31から供給された3Dマッピングデータを被写体動作検出部41や被写体領域抽出部43に供給する。
 撮影映像被写体判定部242は、画像撮像部32から供給された撮影映像の映像データから対象被写体の領域を抽出可能か否か、すなわち対象被写体の領域の抽出可否を判定し、その判定結果を3Dマッピング被写体判定部241に供給する。
 また、撮影映像被写体判定部242は、対象被写体の領域の抽出可否の判定結果等に応じて、画像撮像部32から供給された撮影映像の映像データを被写体動作検出部41や被写体領域抽出部43に供給する。
 同期部243は、被写体領域抽出部43から供給された対象被写体の検出結果(抽出結果)、撮影映像の映像データ、および3Dマッピングデータに基づいて、アバタ表示範囲情報、被写体領域データ、および被写体領域外データを生成する。
 同期部243は、アバタ表示範囲情報、被写体領域データ、および被写体領域外データを、それぞれアバタ動作構築部42、被写体領域加工部44、および背景映像加工部45に供給する。アバタ表示範囲情報は、アバタ全身のうちの一部のみを合成映像に表示させる場合におけるアバタの表示範囲を示す情報である。
〈合成映像生成処理の説明〉
 次に、図37のフローチャートを参照して、図36に示した撮像システム11により行われる合成映像生成処理について説明する。
 なお、ステップS371の処理は、図5のステップS11の処理と同様であるので、その説明は省略する。但し、この例では、3Dマッピング撮像部31は、3Dマッピングデータを3Dマッピング被写体判定部241に供給し、画像撮像部32は撮影映像の映像データを撮影映像被写体判定部242に供給する。
 ステップS372において3Dマッピング被写体判定部241は、3Dマッピング撮像部31から供給された3Dマッピングデータに基づいて、3Dマッピングから対象被写体の領域を抽出可能か否かを判定し、その判定結果を撮影映像被写体判定部242に供給する。
 例えば3Dマッピング被写体判定部241は、3Dマッピングから対象被写体を検出することで、対象被写体の領域の抽出可否を判定する。
 このとき、例えば3Dマッピング上で対象被写体が見切れている、つまり対象被写体の一部が撮影視野(3Dマッピング)外にある場合や、3Dマッピングから対象被写体が検出できなかった場合に、対象被写体の領域を抽出可能でないと判定される。
 ステップS372において抽出可能ではないと判定された場合、モーションキャプチャを行うことはできないので、その後、処理はステップS384へと進む。この場合、例えばディスプレイ23では、合成映像の表示が更新されずに、最後に表示した合成映像のフレームが表示されたままの状態となる。
 一方、ステップS372において対象被写体の領域を抽出可能であると判定された場合、ステップS373の処理が行われる。
 ステップS373において撮影映像被写体判定部242は、画像撮像部32から供給された撮影映像の映像データに基づいて、撮影映像から対象被写体の領域を抽出可能か否かを判定し、その判定結果を3Dマッピング被写体判定部241に供給する。
 例えば撮影映像被写体判定部242は、撮影映像から対象被写体を検出することで、対象被写体の領域の抽出可否を判定する。
 このとき、例えば撮影映像上で対象被写体が見切れている、つまり対象被写体の一部が撮影視野(撮影映像)外にある場合や、撮影映像から対象被写体が検出できなかった場合に、対象被写体の領域を抽出可能でないと判定される。
 ステップS373において対象被写体の領域を抽出可能であると判定された場合、処理はステップS374へと進む。
 このとき、3Dマッピング被写体判定部241は、3Dマッピング撮像部31から供給された3Dマッピングデータを被写体動作検出部41および被写体領域抽出部43に供給する。また、撮影映像被写体判定部242は、画像撮像部32から供給された撮影映像の映像データを被写体動作検出部41および被写体領域抽出部43に供給する。
 ステップS374において被写体動作検出部41は、撮影映像被写体判定部242から供給された撮影映像の映像データと、3Dマッピング被写体判定部241から供給された3Dマッピングデータとの少なくとも何れか一方に基づいてモーションキャプチャを行い、その結果得られた被写体動作データをアバタ動作構築部42に供給する。
 ステップS375において被写体領域抽出部43は、撮影映像被写体判定部242から供給された撮影映像の映像データと、3Dマッピング被写体判定部241から供給された3Dマッピングデータとの少なくとも何れか一方に基づいて、撮影映像から対象被写体の領域を抽出する。被写体領域抽出部43は、対象被写体の領域の抽出結果と、撮影映像の映像データと、3Dマッピングデータとを同期部243に供給する。
 同期部243は、被写体領域抽出部43から供給された抽出結果、撮影映像の映像データ、および3Dマッピングデータに基づいて、図5のステップS14と同様にして被写体領域データと被写体領域外データを生成する。また、同期部243は、被写体領域データを被写体領域加工部44に供給するとともに、被写体領域外データを背景映像加工部45に供給する。
 ステップS376においてアバタ動作構築部42は、被写体動作検出部41から供給された被写体動作データと、外部から供給されたアバタ情報とに基づいてアバタ動作データを生成し、画像合成部46に供給する。この場合、撮影映像に対象被写体の全体が含まれているので、アバタ動作データの生成にアバタ表示範囲情報は不要である。
 ステップS376の処理が行われると、その後、処理はステップS381へと進む。
 また、ステップS373において対象被写体の領域を抽出可能でないと判定された場合、処理はステップS377へと進む。
 このとき、3Dマッピング被写体判定部241は、3Dマッピング撮像部31から供給された3Dマッピングデータを被写体動作検出部41および被写体領域抽出部43に供給する。また、撮影映像被写体判定部242は、画像撮像部32から供給された撮影映像の映像データを被写体領域抽出部43のみに供給する。
 ステップS377において被写体動作検出部41は、3Dマッピング被写体判定部241から供給された3Dマッピングデータのみに基づいて対象被写体の領域を抽出し、その抽出結果に基づいてモーションキャプチャを行い、その結果得られた被写体動作データをアバタ動作構築部42に供給する。
 ステップS378において被写体領域抽出部43は、3Dマッピング被写体判定部241から供給された3Dマッピングデータのみに基づいて対象被写体の領域を抽出し、その抽出結果と撮影映像の映像データと3Dマッピングデータとを同期部243に供給する。
 ステップS379において同期部243は、被写体領域抽出部43から供給された抽出結果、撮影映像の映像データ、および3Dマッピングデータに基づいて、アバタ表示範囲情報を生成し、アバタ動作構築部42に供給する。
 例えば同期部243は、3Dマッピングからの対象被写体の抽出結果と、既知である撮影映像と3Dマッピングの撮影視野の範囲の関係とから、撮影映像上における対象被写体の領域を特定し、その特定結果に基づきアバタ表示範囲情報を生成する。
 このとき、例えばアバタ表示範囲情報により示されるアバタの表示範囲は、撮影映像上において表示されている対象被写体の領域の範囲とされる。具体的には、例えば撮影映像上に対象被写体としての人物の上半身のみが映っているときには、アバタの上半身がそのアバタの表示範囲とされる。
 また、同期部243は、撮影映像上における対象被写体の領域の特定結果に基づいて被写体領域データと被写体領域外データを生成し、被写体領域データを被写体領域加工部44に供給するとともに、被写体領域外データを背景映像加工部45に供給する。
 ステップS380においてアバタ動作構築部42は、被写体動作検出部41から供給された被写体動作データと、外部から供給されたアバタ情報と、同期部243から供給されたアバタ表示範囲情報とに基づいてアバタ動作データを生成し、画像合成部46に供給する。このとき、例えばアバタ全体のうち、アバタ表示範囲情報により示される表示範囲の部分のみが表示されるアバタ動作データが生成される。
 ステップS376またはステップS380の処理が行われると、その後、ステップS381乃至ステップS384の処理が行われて合成映像生成処理は終了するが、これらの処理は図5のステップS15乃至ステップS18の処理と同様であるので、その説明は省略する。
 この場合、例えばステップS381において、図19のステップS165と同様にして、被写体領域データと、外部から供給された適用データとに基づき被写体領域加工データが生成されるなどして、対象被写体が透明化される。なお、この実施の形態では、対象被写体の透明化は、適用データを利用する例に限らず、上述した任意の実施の形態で説明した方法など、どのような方法により行われてもよい。
 以上のようにして撮像システム11は、撮影映像や3Dマッピングから対象被写体を抽出可能か否かを判定し、その判定結果に応じて合成映像を生成する。特に撮像システム11では、3Dマッピングデータを活用することにより、精度よくモーションキャプチャを行うことができる。また、撮影場所によらず、より簡単かつ確実に対象被写体の映り込みの発生を抑制することができる。
〈第11の実施の形態〉
〈撮像システムの構成例〉
 対象被写体の付近にある他の物体に対象被写体と重なる部分がある場合に、重畳するアバタ等にも対象被写体と他の物体との前後の位置関係を反映させる例について説明する。
 例えば図38に示すように、撮像部21によって、対象被写体SB31を含む撮影映像P131が撮影されたとする。この例では、撮影映像P131上では、対象被写体SB31と一部の領域が重なっているギターが他の物体OBJ11(オブジェクト)、すなわち他の被写体として映っている。なお、以下、対象被写体と重なって映っている物体を重なり物体とも称することとする。
 また、3Dマッピング撮像部31によっても、対象被写体SB31と物体OBJ11とを含む3DマッピングP132が撮影されたとする。
 3DマッピングP132は、各被写体までの距離を示す距離情報であるから、3DマッピングP132を用いれば、対象被写体SB31と物体OBJ11の前後の位置関係を容易に特定することが可能である。特にこの例では、物体OBJ11が対象被写体SB31よりも手前側(撮像部21側)に位置していることが特定される。
 この実施の形態では、対象被写体SB31と物体OBJ11の前後の位置関係に基づいて、合成映像SP131が生成される。すなわち、前後の位置関係に基づいて対象被写体SB31の透明化やアバタAB31の合成が行われる。
 具体的には、撮影映像P131から対象被写体SB31の領域R131が抽出されて削除(除去)され、その結果得られる背景の映像P133の映像データが背景映像加工データとされる。この例では、映像P133上では対象被写体SB31のみが除去され、その対象被写体SB31の手前側に重なっている物体OBJ11は、除去されずに残されたままとなっている。
 また、上述の適用データを用いる方法など、任意の手法により領域R131に対応する背景等の映像データが被写体領域加工データとして生成され、被写体領域加工データと背景映像加工データとを合成することで、背景が補完された映像P134が得られる。この映像P134は、対象被写体SB31が透明化された撮影映像である。
 さらに、アバタAB31を表示させるためのアバタ動作データも、対象被写体SB31と物体OBJ11の前後の位置関係に基づいて生成される。特に、この例ではアバタAB31全体の領域のうち、対象被写体SB31の手前側に重なっている物体OBJ11に対応する部分の領域は表示されないアバタ動作データが生成される。つまり、アバタAB31に対しても、対象被写体SB31と物体OBJ11の前後の位置関係が反映される。
 そして、このようにして得られた映像P134にアバタAB31のアバタ動作データを合成すれば、対象被写体SB31の映り込みのない合成映像SP131を得ることができる。
 さらに合成映像SP131上では、アバタAB31と物体OBJ11の前後の位置関係が、アバタAB31に対応する対象被写体SB31と物体OBJ11の実際の前後の位置関係と合致している。このように、3DマッピングP132を用いれば、被写体同士の前後の位置関係の整合の取れた高品質な合成映像SP131を得ることができる。
 対象被写体と重なり物体の前後の位置関係が反映された合成映像が生成される場合、撮像システム11は、例えば図39に示す構成とされる。
 図39に示す撮像システム11の構成は、基本的には図3に示した撮像システム11の構成と同じであるが、被写体領域抽出部43から被写体動作検出部41とアバタ動作構築部42に対して被写体領域情報と物体領域情報が供給される点で図3の例と異なっている。
 すなわち、被写体領域抽出部43は、撮影映像上の対象被写体の領域を示す被写体領域情報を生成し、被写体動作検出部41に供給する。また、被写体領域抽出部43は、撮影映像上における対象被写体と重なり物体とが互いに重なる領域のうち、重なり物体が手前側にある領域(位置)を示す物体領域情報を生成し、アバタ動作構築部42に供給する。
〈合成映像生成処理の説明〉
 次に、図40のフローチャートを参照して、図39に示した撮像システム11により行われる合成映像生成処理について説明する。
 なお、ステップS411の処理は、図5のステップS11の処理と同様であるので、その説明は省略する。
 ステップS412において被写体領域抽出部43は、3Dマッピング撮像部31から供給された3Dマッピングデータ、および画像撮像部32から供給された映像データに基づいて被写体領域を検出する。ここでは、例えば撮影映像上における対象被写体の輪郭の内側の領域が対象被写体の領域として検出される。すなわち、手前側に他の被写体が重なっている領域も含む、対象被写体により囲まれる領域が検出される。
 ステップS413において被写体領域抽出部43は、ステップS412における検出結果と、3Dマッピングデータとに基づいて、対象被写体と重なり物体とが重なっている領域、およびその領域における対象被写体と重なり物体の前後の位置関係を特定する。
 ステップS414において被写体領域抽出部43は、ステップS412において検出された対象被写体の領域から、重なり物体が手前側(撮像部21側)に重なっている領域を除いた領域を最終的な対象被写体の領域(被写体領域)とする。
 被写体領域抽出部43は、このようにして特定された最終的な対象被写体の領域を示す被写体領域情報を生成し、被写体動作検出部41に供給する。また、被写体領域抽出部43は、重なり物体の領域と対象被写体との前後の位置関係の特定結果に基づいて物体領域情報を生成し、アバタ動作構築部42に供給する。
 さらに被写体領域抽出部43は、最終的な対象被写体の領域の特定結果に基づいて被写体領域データおよび被写体領域外データを生成し、被写体領域データを被写体領域加工部44に供給するとともに、被写体領域外データを背景映像加工部45に供給する。
 ステップS415において被写体動作検出部41は、3Dマッピング撮像部31から供給された3Dマッピングデータ、画像撮像部32から供給された映像データ、および被写体領域抽出部43から供給された被写体領域情報に基づいてモーションキャプチャを行う。
 このとき被写体動作検出部41は、被写体領域情報により示される被写体領域、すなわち対象被写体の手前側に見えている領域だけでなく、骨格推定等を行うことで、対象被写体の領域のうちの重なり物体が手前側に重なって見えていない領域についても、対象被写体の動きを検出する。これにより、対象被写体のより正確な動きを検出することができる。
 被写体動作検出部41は、モーションキャプチャ(対象被写体の動きの検出)により得られた被写体動作データをアバタ動作構築部42に供給する。
 ステップS416においてアバタ動作構築部42は、被写体動作検出部41から供給された被写体動作データ、供給されたアバタ情報、および被写体領域抽出部43から供給された物体領域情報に基づいてアバタ動作データを生成し、画像合成部46に供給する。
 このときアバタ動作構築部42は、物体領域情報に基づいて、対象被写体に対応するアバタの各領域と重なり物体との表示の前後関係(前後の位置関係)を決定し、アバタと重なり物体との前後の位置関係が反映されたアバタ動作データを生成する。
 ステップS416の処理が行われると、その後、ステップS417乃至ステップS420の処理が行われて合成映像生成処理は終了するが、これらの処理は図5のステップS15乃至ステップS18の処理と同様であるので、その説明は省略する。
 この場合、例えばステップS417において、図19のステップS165と同様にして、被写体領域データと、外部から供給された適用データとに基づき被写体領域加工データが生成されるなどして、対象被写体が透明化される。なお、この実施の形態では、対象被写体の透明化は、適用データを利用する例に限らず、上述した任意の実施の形態で説明した方法など、どのような方法により行われてもよい。
 以上のようにして撮像システム11は、3Dマッピングデータに基づいて、対象被写体と重なって映っている物体との前後の位置関係を特定し、その前後の位置関係が反映された合成映像を生成する。特に撮像システム11では、3Dマッピングデータを活用することにより、アバタと重なり物体との位置関係の整合の取れた、より自然な(高品質な)合成映像を得ることができる。また、この場合においても、撮影場所によらず、より簡単かつ確実に対象被写体の映り込みの発生を抑制することができる。
〈第12の実施の形態〉
〈撮像システムの構成例〉
 複数の対象被写体があり、撮影映像上で複数の対象被写体同士が重なる部分がある場合に、それらの対象被写体の前後の位置関係を反映させる例について説明する。
 例えば図41に示すように、撮影映像P141上に2つの対象被写体SB31および対象被写体SB141が含まれているとする。この例では、対象被写体SB31と対象被写体SB141の一部の領域が重なっている。
 また、3DマッピングP142上においても対象被写体SB31および対象被写体SB141が含まれている。そのため、3DマッピングP142を用いれば、対象被写体SB31と対象被写体SB141が重なっている部分における対象被写体SB31と対象被写体SB141の前後の位置関係を特定することができる。
 この例では、対象被写体SB141が対象被写体SB31よりも手前側(撮像部21側)に位置していることが特定される。
 この実施の形態では、対象被写体SB31と対象被写体SB141の前後の位置関係に基づいて、合成映像SP141が生成される。
 すなわち、撮影映像P141から対象被写体SB31の領域R141と対象被写体SB141の領域R142とが抽出されて削除(除去)され、その結果得られる背景の映像P143の映像データが背景映像加工データとされる。
 また、上述の適用データを用いる方法など、任意の手法により領域R141および領域R142に対応する背景等の映像データが被写体領域加工データとして生成され、被写体領域加工データと背景映像加工データとを合成することで、背景が補完された映像P144が得られる。この映像P144は、対象被写体SB31と対象被写体SB141が透明化された撮影映像である。
 さらに、対象被写体SB31に対応するアバタAB31を表示させるためのアバタ動作データと、対象被写体SB141に対応するアバタAB141を表示させるためのアバタ動作データも、対象被写体SB31と対象被写体SB141の前後の位置関係に基づいて生成される。
 特に、この例ではアバタAB31全体の領域のうち、対象被写体SB31の手前側に重なっている対象被写体SB141に対応する部分の領域は表示されないアバタAB31のアバタ動作データが生成される。つまり、アバタAB31に対しても、対象被写体SB31と対象被写体SB141の前後の位置関係が反映される。
 そして、映像P144にアバタAB31とアバタAB141のアバタ動作データを合成すれば、対象被写体SB31と対象被写体SB141の映り込みのない合成映像SP141を得ることができる。合成映像SP141上では、アバタAB31とアバタAB141の前後の位置関係が、それらのアバタに対応する対象被写体SB31と対象被写体SB141の実際の前後の位置関係と合致している。このように、3DマッピングP142を用いれば、対象被写体同士の前後の位置関係の整合の取れた高品質な合成映像SP141を得ることができる。
 対象被写体同士の互いに重なる部分の前後の位置関係が反映された合成映像が生成される場合、撮像システム11は、例えば図42に示す構成とされる。
 図42に示す撮像システム11の構成は、基本的には図3に示した撮像システム11の構成と同じであるが、被写体領域抽出部43から被写体動作検出部41とアバタ動作構築部42に対して被写体領域情報と前後領域情報が供給される点で図3の例と異なっている。
 すなわち、被写体領域抽出部43は、撮影映像上の対象被写体の領域を示す被写体領域情報を生成し、被写体動作検出部41に供給する。また、被写体領域抽出部43は、撮影映像上における複数の対象被写体同士が互いに重なる領域と、その領域における対象被写体同士の前後の位置関係を示す前後領域情報を生成し、アバタ動作構築部42に供給する。
〈合成映像生成処理の説明〉
 次に、図43のフローチャートを参照して、図42に示した撮像システム11により行われる合成映像生成処理について説明する。
 なお、ステップS451の処理は、図5のステップS11の処理と同様であるので、その説明は省略する。
 ステップS452において被写体領域抽出部43は、3Dマッピング撮像部31から供給された3Dマッピングデータ、および画像撮像部32から供給された映像データに基づいて複数の対象被写体の被写体領域を検出する。
 ステップS453において被写体領域抽出部43は、ステップS452での検出結果と、3Dマッピングデータとに基づいて、複数の対象被写体同士が互いに重なり合っている領域における前後の位置関係を特定し、被写体領域情報および前後領域情報を生成する。例えば被写体領域情報は、対象被写体ごとに生成される。
 被写体領域抽出部43は、被写体領域情報を被写体動作検出部41に供給するとともに、前後領域情報をアバタ動作構築部42に供給する。さらに被写体領域抽出部43は、前後の位置関係の特定結果に基づいて被写体領域データおよび被写体領域外データを生成し、被写体領域データを被写体領域加工部44に供給するとともに、被写体領域外データを背景映像加工部45に供給する。
 ステップS454において被写体動作検出部41は、3Dマッピング撮像部31から供給された3Dマッピングデータ、画像撮像部32から供給された映像データ、および被写体領域抽出部43から供給された被写体領域情報に基づいてモーションキャプチャを行う。
 このとき被写体動作検出部41は、被写体領域情報により示される被写体領域、すなわち対象被写体の手前側に見えている領域だけでなく、骨格推定等を行うことで、対象被写体の領域のうちの他の対象被写体が手前側に重なって見えていない領域についても、対象被写体の動きを検出する。これにより、対象被写体のより正確な動きを検出することができる。
 被写体動作検出部41は、モーションキャプチャにより得られた対象被写体ごとの被写体動作データをアバタ動作構築部42に供給する。
 ステップS455においてアバタ動作構築部42は、被写体動作検出部41から供給された被写体動作データ、供給されたアバタ情報、および被写体領域抽出部43から供給された前後領域情報に基づいてアバタ動作データを生成し、画像合成部46に供給する。
 このときアバタ動作構築部42は、前後領域情報に基づいて、一部が互いに重なっている対象被写体同士の表示の前後関係(前後の位置関係)を決定し、対象被写体同士の前後の位置関係が反映されたアバタ動作データを対象被写体ごとに生成する。
 ステップS455の処理が行われると、その後、ステップS456乃至ステップS459の処理が行われて合成映像生成処理は終了するが、これらの処理は図5のステップS15乃至ステップS18の処理と同様であるので、その説明は省略する。
 この場合、例えばステップS456において、図19のステップS165と同様にして、被写体領域データと、外部から供給された適用データとに基づき被写体領域加工データが生成されるなどして、対象被写体が透明化される。なお、この実施の形態では、対象被写体の透明化は、適用データを利用する例に限らず、上述した任意の実施の形態で説明した方法など、どのような方法により行われてもよい。
 以上のようにして撮像システム11は、3Dマッピングデータに基づいて、対象被写体同士の重なり合っている部分の前後の位置関係を特定し、その前後の位置関係が反映された合成映像を生成する。特に撮像システム11では、3Dマッピングデータを活用することにより、複数の対象被写体に対応するアバタの位置関係の整合の取れた、より自然な(高品質な)合成映像を得ることができる。また、この場合においても、撮影場所によらず、より簡単かつ確実に対象被写体の映り込みの発生を抑制することができる。
〈第13の実施の形態〉
〈撮像システムの構成例〉
 対象被写体の候補となる被写体が複数あり、撮影映像上で複数の被写体に重なる部分がある場合に、それらの複数の被写体のうちの特定の被写体のみ対象被写体として透明化し、互いに重なっている被写体の前後の位置関係を反映させる例について説明する。
 例えば図44に示すように、撮影映像P151上に対象被写体の候補、つまり透明化の候補となる2つの被写体SB151および被写体SB152が含まれているとする。この例では、被写体SB151と被写体SB152の一部の領域が重なっている。
 また、3DマッピングP152上においても被写体SB151および被写体SB152が含まれているため、3DマッピングP152を用いれば、被写体SB151と被写体SB152が重なっている部分の前後の位置関係を特定することができる。
 この例では、被写体SB152が被写体SB151よりも手前側(撮像部21側)に位置していることが特定される。
 この実施の形態では、被写体SB151と被写体SB152のうちの被写体SB151のみが透明化の対象である対象被写体とされ、被写体SB151と被写体SB152の前後の位置関係に基づいて、合成映像SP151が生成される。
 すなわち、撮影映像P151から被写体SB151の領域R151のみが抽出されて削除(除去)され、その結果得られる背景の映像P153の映像データが背景映像加工データとされる。この映像P153上には透明化の対象とされていない被写体SB152は映ったままである。
 また、上述の適用データを用いる方法など、任意の手法により領域R151に対応する背景等の映像データが被写体領域加工データとして生成され、被写体領域加工データと背景映像加工データとを合成することで、背景が補完された映像P154が得られる。この映像P154は、被写体SB151のみが透明化された撮影映像である。
 さらに、被写体SB151に対応するアバタAB31を表示させるためのアバタ動作データが、被写体SB151と被写体SB152の前後の位置関係に基づいて生成される。
 そして、映像P154にアバタAB31のアバタ動作データを合成すれば、被写体SB151の映り込みのない合成映像SP151を得ることができる。合成映像SP151上では、アバタAB31と被写体SB152の前後の位置関係が、アバタAB31に対応する被写体SB151と被写体SB152の実際の前後の位置関係と合致している。このように、3DマッピングP152を用いれば、被写体同士の前後の位置関係の整合の取れた高品質な合成映像SP151を得ることができる。
 被写体同士の互いに重なる部分の前後の位置関係が反映された合成映像が生成される場合、撮像システム11は、例えば図45に示す構成とされる。
 図45に示す撮像システム11の構成は、基本的には図3に示した撮像システム11の構成と同じであるが、被写体領域抽出部43から被写体動作検出部41とアバタ動作構築部42に対して被写体領域情報と前後領域情報が供給される点で図3の例と異なっている。
 すなわち、被写体領域抽出部43は、外部から供給されるアバタ適用する被写体、すなわち透明化の対象とする被写体(対象被写体)を指定する指定情報に基づき、撮影映像上の対象被写体の領域を示す被写体領域情報を生成し、被写体動作検出部41に供給する。また、被写体領域抽出部43は、撮影映像上における被写体同士が互いに重なる領域と、その領域における被写体の前後の位置関係を示す前後領域情報を生成し、アバタ動作構築部42に供給する。
〈合成映像生成処理の説明〉
 次に、図46のフローチャートを参照して、図45に示した撮像システム11により行われる合成映像生成処理について説明する。
 なお、ステップS491の処理は、図5のステップS11の処理と同様であるので、その説明は省略する。
 ステップS492において被写体領域抽出部43は、3Dマッピング撮像部31から供給された3Dマッピングデータ、および画像撮像部32から供給された映像データに基づいて対象被写体の候補となる複数の被写体の被写体領域を検出する。
 ステップS493において被写体領域抽出部43は、ステップS492での検出結果と、3Dマッピングデータとに基づいて、複数の被写体同士が互いに重なり合っている領域における前後の位置関係を特定する。
 ステップS494において被写体領域抽出部43は、外部から供給された指定情報に基づいて、アバタを重畳させる被写体、すなわち透明化の対象とする対象被写体を決定(選択)する。例えばステップS492で被写体領域が検出された複数の被写体のうち、指定情報により示される被写体が対象被写体とされる。なお、指定情報により示される、透明化の対象とする対象被写体は1つであってもよいし、複数であってもよい。
 また、ここでは透明化された対象被写体の部分にアバタ(アバタ動作データ)を重畳させる例について説明するが、透明化を行う1または複数の被写体(以下、透明化対象被写体とも称する)と、アバタの重畳対象とする1または複数の被写体(以下、アバタ重畳対象被写体とも称する)とを指定情報等により指定できるようにしてもよい。この場合、アバタ重畳対象被写体として指定された被写体は、基本的には透明化対象被写体として指定されるが、必ずしも透明化対象被写体として指定されなくてもよい。このように透明化の対象とする被写体とアバタの重畳対象とする被写体とを別々に指定できるようにすることで、例えばアバタの重畳対象ではない、撮影映像上に映り込んでしまった他人を透明化対象被写体として指定し、透明化することができる。
 被写体領域抽出部43は、対象被写体の決定結果と、ステップS492およびステップS493の処理結果とに基づいて被写体領域情報および前後領域情報を生成し、被写体領域情報を被写体動作検出部41に供給するとともに、前後領域情報をアバタ動作構築部42に供給する。また、被写体領域抽出部43は、ステップS492およびステップS493の処理結果とに基づいて被写体領域データおよび被写体領域外データを生成し、被写体領域データを被写体領域加工部44に供給するとともに、被写体領域外データを背景映像加工部45に供給する。
 なお、指定情報により透明化対象被写体とアバタ重畳対象被写体とを指定可能な場合には、被写体領域情報は、撮影映像上におけるアバタ重畳対象被写体の領域を示す情報とされる。また、被写体領域データは、撮影映像から抽出された、透明化対象被写体の画像(映像)のデータとされ、被写体領域外データは、撮影映像から透明化対象被写体の領域を除去して得られる画像(映像)のデータとされる。
 ステップS495において被写体動作検出部41は、3Dマッピング撮像部31から供給された3Dマッピングデータ、画像撮像部32から供給された映像データ、および被写体領域抽出部43から供給された被写体領域情報に基づいてモーションキャプチャを行う。
 このとき被写体動作検出部41は、被写体領域情報により示される被写体領域だけでなく、骨格推定等を行うことで、対象被写体の領域のうちの他の被写体が手前側に重なって見えていない領域についても、対象被写体の動きを検出する。これにより、対象被写体のより正確な動きを検出することができる。
 被写体動作検出部41は、モーションキャプチャにより得られた被写体動作データをアバタ動作構築部42に供給する。
 ステップS496においてアバタ動作構築部42は、被写体動作検出部41から供給された被写体動作データ、供給されたアバタ情報、および被写体領域抽出部43から供給された前後領域情報に基づいてアバタ動作データを生成し、画像合成部46に供給する。
 このときアバタ動作構築部42は、前後領域情報に基づいて、対象被写体に対応するアバタの各領域と他の被写体との表示の前後関係(前後の位置関係)を決定し、アバタと他の被写体との前後の位置関係が反映されたアバタ動作データを生成する。
 ステップS496の処理が行われると、その後、ステップS497乃至ステップS500の処理が行われて合成映像生成処理は終了するが、これらの処理は図5のステップS15乃至ステップS18の処理と同様であるので、その説明は省略する。
 但し、ステップS497では、複数の被写体のうちの指定情報により指定された対象被写体の領域に対してのみ被写体領域加工処理、すなわち対象被写体を透明化する処理が行われる。
 この場合、被写体領域加工処理では、例えば図19のステップS165と同様にして、被写体領域データと、外部から供給された適用データとに基づき被写体領域加工データが生成されるなどして、対象被写体が透明化される。なお、この実施の形態では、対象被写体の透明化は、適用データを利用する例に限らず、上述した任意の実施の形態で説明した方法など、どのような方法により行われてもよい。なお、他人の映り込み防止の観点から、複数の被写体のうちの指定情報により指定されていない被写体の領域であって、被写体が人物である領域に対しても被写体を透明化する処理が行われてもよい。
 また、例えば指定情報により透明化対象被写体とアバタ重畳対象被写体とを指定可能な場合には、アバタ重畳対象被写体でもある透明化対象被写体の領域と、アバタ重畳対象被写体ではない透明化対象被写体の領域とで、被写体を透明化する処理として異なる処理が行われるようにしてもよい。例えば、アバタ重畳対象被写体ではない透明化対象被写体の領域は推定により生成した背景の映像によって透明化され、アバタ重畳対象被写体でもある透明化対象被写体の領域は単色の映像やエフェクト映像により透明化されるようにすることもできる。
 その他、他人の映り込み防止の観点から、撮影映像上における対象被写体以外の人物の領域に対しても透明化が行われるようにする場合、以下のような処理を行えばよい。すなわち、例えばステップS492において撮影映像上の人物が対象被写体の候補として検出される。そして、ステップS494では、ステップS492で検出された複数の被写体、すなわち対象被写体の候補のうち、アバタ重畳対象被写体以外の全ての被写体(候補)も透明化対象被写体として選択される。このとき、アバタ重畳対象被写体は基本的には透明化対象被写体として選択されるが、透明化対象被写体として選択されなくてもよい。このようにすれば、撮影映像上の不要な人物の領域が透明化されることになり、他人の映り込みを防止することができる。
 以上のようにして撮像システム11は、3Dマッピングデータに基づいて、被写体同士の重なり合っている部分の前後の位置関係を特定し、その前後の位置関係が反映された合成映像を生成する。特に撮像システム11では、3Dマッピングデータを活用することにより、アバタと、透明化されない他の被写体との位置関係の整合の取れた、より自然な(高品質な)合成映像を得ることができる。また、この場合においても、撮影場所によらず、より簡単かつ確実に対象被写体の映り込みの発生を抑制することができる。
〈第14の実施の形態〉
〈撮像システムの構成例〉
 合成映像に表示させるアバタのサイズを任意に変更できる例について説明する。
 例えば図47に示すように、対象被写体SB31を含む撮影映像P161が得られたとすると、撮影映像P161から対象被写体SB31の領域R161が抽出されて削除(除去)され、その結果得られる背景の映像P162の映像データが背景映像加工データとされる。
 また、上述の適用データを用いる方法など、任意の手法により領域R161に対応する背景等の映像データが被写体領域加工データとして生成され、被写体領域加工データと背景映像加工データとを合成することで、背景が補完された映像P163が得られる。この映像P163は、対象被写体SB31が透明化された撮影映像である。
 さらに、対象被写体SB31に対応するアバタAB31を表示させるためのアバタ動作データが生成される。そして、アバタAB31のサイズが任意に変更(調整)されたアバタ動作データと映像P163とを合成することで、所望のサイズのアバタAB31が映っており、対象被写体SB31の映り込みのない合成映像SP161や合成映像SP162を得ることができる。
 例えば合成映像SP161では、アバタAB31が本来のものよりもスリム化されている。すなわち、アバタAB31のサイズが横方向に縮小されている。また、合成映像SP162では、アバタAB31が本来のサイズよりも全体的に小さいサイズとされている。
 撮像システム11では、対象被写体SB31が透明化された映像P163にアバタAB31を重畳(合成)させて合成映像とするため、アバタAB31のサイズを任意のサイズに変更しても対象被写体SB31の映り込みが生じることはない。
 アバタのサイズを任意に変更(調整)する場合、撮像システム11は、例えば図48に示す構成とされる。
 図48に示す撮像システム11の構成は、基本的には図3に示した撮像システム11の構成と同じであるが、画像合成部46は、外部から供給された、合成映像上におけるアバタの表示サイズを示すアバタサイズ情報に基づいて合成映像を生成する。すなわち、画像合成部46は、合成映像(撮影映像)上に合成するアバタの表示サイズを任意のサイズに調整する。
〈合成映像生成処理の説明〉
 次に、図49のフローチャートを参照して、図48に示した撮像システム11により行われる合成映像生成処理について説明する。
 なお、ステップS531乃至ステップS536の処理は、図5のステップS11乃至ステップS16の処理と同様であるので、その説明は省略する。
 この場合、ステップS535では、例えば図19のステップS165と同様にして、被写体領域データと、外部から供給された適用データとに基づき被写体領域加工データが生成されるなどして、対象被写体が透明化される。なお、この実施の形態では、対象被写体の透明化は、適用データを利用する例に限らず、上述した任意の実施の形態で説明した方法など、どのような方法により行われてもよい。
 ステップS537において画像合成部46は、外部から供給されたアバタサイズ情報に基づきアバタのサイズ調整を行い、合成映像を生成する。
 すなわち、画像合成部46は、アバタ動作構築部42から供給されたアバタ動作データ、被写体領域加工部44から供給された被写体領域加工データ、および背景映像加工部45から供給された背景映像加工データを合成する。
 このとき、画像合成部46は、背景映像加工データに基づく映像上における被写体領域部分に、被写体領域加工データに基づく映像を合成し、背景の映像を生成する。また、画像合成部46は、アバタ動作データに基づくアバタの映像を、アバタサイズ情報により示される表示サイズに調整し、調整後のアバタの映像を背景の映像に合成することで、合成映像の映像データを生成し、ディスプレイ23に供給する。このようにして得られる合成映像では、対象被写体が透明化されているので、アバタの表示サイズによらず、対象被写体の映り込みの発生が抑制される。
 ステップS537の処理が行われると、その後、ステップS538の処理が行われて合成映像生成処理は終了するが、ステップS538の処理は図5のステップS18の処理と同様であるので、その説明は省略する。
 以上のようにして撮像システム11は、アバタサイズ情報に基づいてアバタの表示サイズを調整し、合成映像を生成する。この場合においても、撮影場所によらず、より簡単かつ確実に対象被写体の映り込みの発生を抑制することができる。
〈第15の実施の形態〉
〈撮像システムの構成例〉
 撮影地点(撮影位置)、すなわち撮像部21の位置から対象被写体までの距離に応じて、合成映像上におけるアバタの表示サイズを変更し、より自然な遠近感を表現できるようにした例について説明する。
 撮像システム11では、撮影映像に加えて3Dマッピングも取得されるので、3Dマッピングを活用し、撮像部21から対象被写体までの距離を算出することができる。そこで、例えば図50に示すように、対象被写体までの距離に適したサイズにアバタの表示サイズを修正するようにしてもよい。
 具体的には、例えば図50の上側に示すように撮像部21から対象被写体SB31までの距離が遠い場合には、対象被写体SB31に対応するアバタAB31が比較的小さいサイズで表示される合成映像SP171が生成される。
 これに対して、例えば図中、下側に示すように撮像部21から対象被写体SB31までの距離が近い場合には、対象被写体SB31に対応するアバタAB31が比較的大きいサイズで表示される合成映像SP172が生成される。
 このように、対象被写体SB31までの距離に応じてアバタAB31の表示サイズを調整することで、現実空間に違和感なくアバタAB31が存在しているような合成映像を得ることができる。すなわち、より高品質な(自然な)合成映像を得ることができる。しかも、この例においても対象被写体SB31は透明化されているので、対象被写体SB31の映り込みを抑制することができる。
 対象被写体までの距離に応じてアバタの表示サイズを調整する場合、撮像システム11は、例えば図51に示す構成とされる。
 図51に示す撮像システム11の構成は、基本的には図3に示した撮像システム11の構成と同じであるが、被写体領域抽出部43は、撮像部21(3Dマッピング撮像部31)から対象被写体までの距離を示す被写体距離情報をアバタ動作構築部42に供給する。
 また、アバタ動作構築部42は、被写体領域抽出部43から供給された被写体距離情報に基づいて、アバタの表示サイズを調整する。
〈合成映像生成処理の説明〉
 次に、図52のフローチャートを参照して、図51に示した撮像システム11により行われる合成映像生成処理について説明する。
 なお、ステップS561乃至ステップS563の処理は、図5のステップS11、ステップS12、およびステップS14の処理と同様であるので、その説明は省略する。
 但し、ステップS563では、被写体領域抽出部43は被写体領域データおよび被写体領域外データを生成するのに加えて、被写体距離情報も生成する。
 すなわち、被写体領域抽出部43は、対象被写体の検出結果と3Dマッピングデータとに基づいて撮像部21(撮影位置)から対象被写体までの距離を算出して被写体距離情報を生成し、アバタ動作構築部42に供給する。
 ステップS564においてアバタ動作構築部42は、アバタのサイズ調整を行い、アバタ動作データを生成し、画像合成部46に供給する。
 すなわち、アバタ動作構築部42は、被写体動作検出部41から供給された被写体動作データと、外部から供給されたアバタ情報とに基づいてアバタ動作データを生成する。このときアバタ動作構築部42は、被写体領域抽出部43から供給された被写体距離情報により示される距離に応じたサイズとなるように、アバタの表示サイズを調整し、調整後のサイズでアバタが表示されるアバタ動作データを生成する。
 なお、ここではアバタ動作構築部42においてアバタの表示サイズが調整される例について説明するが、例えば上述した第14の実施の形態における場合と同様に、画像合成部46において被写体距離情報に基づきアバタの表示サイズが調整されてもよい。
 ステップS564の処理が行われると、その後、ステップS565乃至ステップS568の処理が行われて合成映像生成処理は終了するが、これらの処理は図5のステップS15乃至ステップS18の処理と同様であるので、その説明は省略する。
 この場合、ステップS565では、例えば図19のステップS165と同様にして、被写体領域データと、外部から供給された適用データとに基づき被写体領域加工データが生成されるなどして、対象被写体が透明化される。なお、この実施の形態では、対象被写体の透明化は、適用データを利用する例に限らず、上述した任意の実施の形態で説明した方法など、どのような方法により行われてもよい。
 以上のようにして撮像システム11は、被写体距離情報に基づいてアバタの表示サイズを調整し、合成映像を生成する。この場合においても、撮影場所によらず、より簡単かつ確実に対象被写体の映り込みの発生を抑制することができる。
〈第16の実施の形態〉
〈撮像システムの構成例〉
 対象被写体と地面等との接地点を起点としてアバタ表示を行う例について説明する。
 撮像システム11では、撮影映像に加えて3Dマッピングも取得されるので、3Dマッピングを活用し、撮像部21から各被写体までの距離を算出することができ、対象被写体と地面等との接点(接地点)の位置を特定することができる。そこで、例えば図53に示すように、対象被写体の接地点を起点として、その対象被写体に対応するアバタを表示するようにしてもよい。
 具体的には、例えば図53の矢印Q81に示すように、対象被写体SB31が地面に立っており、3Dマッピングから対象被写体SB31と地面との接地点の位置が求められたとする。
 そのような場合、矢印Q82に示すように、求めた接地点を起点として対象被写体SB31に対応するアバタAB31が配置され、合成映像SP181が生成される。すなわち、接地点の位置とアバタAB31の足の端部分とが接するように、アバタAB31の表示位置が決定される。したがって、合成映像SP181上では、求めた接地点の位置、すなわち地面の上にアバタAB31が立っており、より自然な映像表現が実現される。
 同様に、例えば矢印Q83に示すように、対象被写体SB31が地面上に配置された物体OBJ181の上に立っており、3Dマッピングから対象被写体SB31と物体OBJ181との接地点の位置が求められたとする。
 そのような場合、矢印Q84に示すように、求めた接地点を起点として対象被写体SB31に対応するアバタAB31が配置され、合成映像SP182が生成される。したがって、この例においても合成映像SP182では、求めた接地点の位置、すなわち物体OBJ181の上にアバタAB31が立っており、より自然な映像表現が実現される。
 接地点を起点としてアバタ表示を行う場合、撮像システム11は、例えば図54に示す構成とされる。
 図54に示す撮像システム11の構成は、基本的には図3に示した撮像システム11の構成と同じであるが、被写体領域抽出部43は、アバタ配置点位置情報も生成し、画像合成部46に供給する。
 すなわち、被写体領域抽出部43は、対象被写体の抽出結果と、3Dマッピングデータとに基づいて、撮影映像上における対象被写体の接地点の位置、換言すれば対象被写体に対応するアバタの配置位置(表示位置)を示すアバタ配置点位置情報を生成する。
 画像合成部46は、被写体領域抽出部43から供給された、アバタ配置点位置情報に基づいて合成映像を生成する。
〈合成映像生成処理の説明〉
 次に、図55のフローチャートを参照して、図54に示した撮像システム11により行われる合成映像生成処理について説明する。
 なお、ステップS591乃至ステップS594の処理は、図5のステップS11乃至ステップS14の処理と同様であるので、その説明は省略する。
 ステップS595において被写体領域抽出部43は、ステップS594における対象被写体の抽出結果と、3Dマッピングデータとに基づいて、撮影映像上における対象被写体の接地点の位置を特定し、その特定結果に基づいてアバタ配置点位置情報を生成する。被写体領域抽出部43は、生成したアバタ配置点位置情報を画像合成部46に供給する。
 ステップS595の処理が行われると、その後、ステップS596およびステップS597の処理が行われるが、これらの処理は図5のステップS15およびステップS16の処理と同様であるので、その説明は省略する。
 この場合、ステップS596では、例えば図19のステップS165と同様にして、被写体領域データと、外部から供給された適用データとに基づき被写体領域加工データが生成されるなどして、対象被写体が透明化される。なお、この実施の形態では、対象被写体の透明化は、適用データを利用する例に限らず、上述した任意の実施の形態で説明した方法など、どのような方法により行われてもよい。
 ステップS598において画像合成部46は、被写体領域抽出部43から供給されたアバタ配置点位置情報に基づき合成映像を生成し、得られた合成映像の映像データをディスプレイ23に供給する。
 すなわち、画像合成部46は、アバタ動作構築部42から供給されたアバタ動作データ、被写体領域加工部44から供給された被写体領域加工データ、および背景映像加工部45から供給された背景映像加工データを合成する。
 このとき、画像合成部46は、背景映像加工データに基づく映像上における被写体領域部分に、被写体領域加工データに基づく映像を合成し、背景の映像を生成する。また、画像合成部46は、アバタ配置点位置情報により示される接地点の位置を起点として、アバタ動作データに基づくアバタの映像を背景の映像上に合成することで、合成映像の映像データを生成する。このようにして得られる合成映像上では、アバタ配置点位置情報により示される接地点の位置にアバタの下端が配置されている。すなわち、合成映像上の接地点の位置を起点としてアバタが表示されている。
 なお、アバタ配置点位置情報に基づき画像合成部46でアバタの配置位置の調整を行う例について説明したが、アバタの配置位置の調整がアバタ動作構築部42で行われるようにしてもよい。そのような場合、アバタ動作構築部42は、アバタ配置点位置情報に基づいて、アバタ配置点位置情報により示される配置位置(接地点の位置)を起点として配置されたアバタが表示されるアバタ動作データを生成する。
 ステップS598の処理が行われると、その後、ステップS599の処理が行われて合成映像生成処理は終了するが、ステップS599の処理は図5のステップS18の処理と同様であるので、その説明は省略する。
 以上のようにして撮像システム11は、アバタ配置点位置情報に基づいてアバタの表示位置を調整し、合成映像を生成する。この場合においても、撮影場所によらず、より簡単かつ確実に対象被写体の映り込みの発生を抑制することができる。
〈第17の実施の形態〉
〈撮像システムの構成例〉
 撮影映像から抽出した対象被写体以外の部分の映像を任意の別映像に置き換える合成を行う例について説明する。
 例えば背景映像の一部または全部に任意の別映像を追加で合成したり、対象被写体の周囲の物体の映像を任意の他の物体(オブジェクト)の映像に変更したりすることで、所望の世界観を表現し、アバタの世界に入り込んだような体験を提供することができる。
 例えば図56に示すように、対象被写体SB31と、実空間上の他の物体(オブジェクト)としての机OBJ191や窓OBJ192とを含む撮影映像P191が得られたとする。この場合、動時に取得される3DマッピングP192にも対象被写体SB31、机OBJ191、および窓OBJ192が含まれている。
 これらの撮影映像P191と3DマッピングP192に基づき、撮影映像P191から対象被写体SB31の領域R191が抽出されて削除(除去)され、その結果得られる背景の映像P193の映像データが背景映像加工データとされる。
 また、上述の適用データを用いる方法など、任意の手法により領域R191に対応する背景等の映像データが被写体領域加工データとして生成され、被写体領域加工データと背景映像加工データとを合成することで、背景が補完された映像P194が得られる。
 この映像P194は、対象被写体SB31が透明化された撮影映像であり、映像P194上には透明化の対象となっていない、つまり対象被写体ではない机OBJ191や窓OBJ192は表示されたままとなっている。
 ここで、3DマッピングP192を用いれば、映像P194上、すなわち撮影映像P191上における机OBJ191や窓OBJ192までの距離や位置(領域)、実空間の背景として存在している壁や床の位置(領域)などを正確に特定することができる。
 そこで、例えばアバタの世界観を画面上で再現(表現)するために、映像P194上の背景や周辺物体に対する画像加工が行われて映像P195が生成される。
 この例では映像P195上において、もとの机OBJ191と窓OBJ192が仮想オブジェクト(別映像)であるソファOBJ201と、外の景色が見える別の窓OBJ202に置き換えられる画像加工が行われている。また、映像P195では、背景としての壁に新たにシールドOBJ203等の仮想オブジェクトが配置されるとともに、床部分にも仮想オブジェクトとしてのランプが配置されている。
 さらに、このようにして得られた映像P195に、アバタ動作データに基づく、対象被写体SB31に対応するアバタAB31が合成され、対象被写体SB31の映り込みのない合成映像SP191の映像データが生成される。このようにしてアバタの世界観が表現された合成映像SP191を提示することで、あたかもアバタの世界に入り込んだような体験を提供することができる。
 合成映像上にアバタとは異なる任意の背景や仮想オブジェクト等を配置(合成)する場合、撮像システム11は、例えば図57に示す構成とされる。
 図57に示す撮像システム11の構成は、基本的には図3に示した撮像システム11の構成と同じであるが、被写体領域加工部44と背景映像加工部45に対して、外部から仮想データが供給される。
 仮想データは、撮影映像に合成される、すなわち合成映像上に重畳されるアバタとは異なる仮想的なオブジェクト(仮想オブジェクト)や背景の映像を表示させるための映像データである。
 被写体領域加工部44および背景映像加工部45は、供給された仮想データも用いて被写体領域加工データおよび背景映像加工データを生成する。
〈合成映像生成処理の説明〉
 次に、図58のフローチャートを参照して、図57に示した撮像システム11により行われる合成映像生成処理について説明する。
 なお、ステップS631乃至ステップS634の処理は、図5のステップS11乃至ステップS14の処理と同様であるので、その説明は省略する。
 但し、ステップS634では、例えば撮影映像上における仮想データに基づく映像が合成される位置にある被写体の領域の検出も被写体領域抽出部43により行われ、その検出結果や3Dマッピングデータも必要に応じて被写体領域加工部44および背景映像加工部45に供給される。
 ステップS635において被写体領域加工部44は、被写体領域抽出部43から供給された被写体領域データと、外部から供給された仮想データとに基づいて被写体領域加工処理を行い、その結果得られた被写体領域加工データを画像合成部46に供給する。このとき、被写体領域加工部44は、必要に応じて被写体領域抽出部43から供給された被写体の検出結果や3Dマッピングデータも用いて被写体領域加工データを生成する。
 具体的には、例えば図56に示したように、被写体領域である領域R191内の一部に仮想オブジェクトとしての窓OBJ202の一部が配置される場合、被写体領域加工部44は、窓OBJ202の仮想データに基づいて、その窓OBJ202の領域R191内に含まれる部分の映像を生成する。この場合、窓OBJ202に置き換えられる窓OBJ192の領域は、例えば被写体領域抽出部43から供給された検出結果や3Dマッピングデータから特定される。
 また、被写体領域内における仮想データに基づく仮想オブジェクトや背景が配置されない領域については、被写体領域加工部44は、例えば図19のステップS165と同様にして、適用データに基づき被写体領域に対応する部分の映像を生成するなどして、対象被写体を透明化する。
 被写体領域加工部44は、このようにして被写体領域内の領域ごとに生成した映像を並べて合成することで、被写体領域加工データを生成する。これにより、仮想データに基づく仮想オブジェクトや背景、適用データに基づく映像などが表示される被写体領域加工データを得ることができる。
 なお、この実施の形態では、仮想オブジェクトや背景が配置されない領域における対象被写体の透明化は、適用データを利用する例に限らず、上述した任意の実施の形態で説明した方法など、どのような方法により行われてもよい。
 ステップS636において背景映像加工部45は、被写体領域抽出部43から供給された被写体領域外データと、外部から供給された仮想データとに基づいて背景映像加工処理を行い、その結果得られた背景映像加工データを画像合成部46に供給する。このとき、背景映像加工部45は、必要に応じて被写体領域抽出部43から供給された被写体の検出結果や3Dマッピングデータも用いて背景映像加工データを生成する。
 具体的には、例えば図56に示したように、撮影映像P191上の机OBJ191が仮想オブジェクトであるソファOBJ201に置き換えられるとする。この場合、背景映像加工部45は、被写体領域外データに基づく映像上の机OBJ191を含む領域部分を、仮想データに基づくソファOBJ201の映像に置き換えることで背景映像加工データを生成する。このとき、ソファOBJ201に置き換えられる机OBJ191の領域は、例えば被写体領域抽出部43から供給された検出結果や3Dマッピングデータから特定される。
 このようにすることで、実空間の背景に加えて仮想データに基づく仮想オブジェクトや背景などが合成されて表示される背景映像加工データを得ることができる。
 ステップS636の処理が行われると、その後、ステップS637およびステップS638の処理が行われて合成映像生成処理は終了するが、これらの処理は図5のステップS17およびステップS18の処理と同様であるので、その説明は省略する。
 以上のようにして撮像システム11は、仮想データに基づいて被写体領域加工データおよび背景映像加工データを生成し、合成映像を生成する。特に撮像システム11では、3Dマッピングデータを活用することにより、精度よく仮想オブジェクトや背景を合成し、アバタの世界観が表現された合成映像を提示することができる。これにより、あたかもアバタの世界に入り込んだかのような体験を提供することができる。
 また、撮像システム11によれば、撮影場所によらず、より簡単かつ確実に対象被写体の映り込みの発生を抑制することができる。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図59は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部507は、ヘッドマウントディスプレイ、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 所定の被写体を含む撮影映像と距離情報に基づいて、前記被写体のモーションキャプチャを行う被写体動作検出部と、
 前記撮影映像上の前記被写体を見えなくする透明化処理を行い、前記撮影映像に対する前記透明化処理により得られた映像上に、前記モーションキャプチャにより検出された動きをする、前記被写体に対応するアバタを合成するか、または前記撮影映像上に前記透明化処理により得られた前記アバタを合成することで合成映像を生成するデータ制御部と
 を備える撮像システム。
(2)
 前記データ制御部は、前記撮影映像と前記距離情報の少なくとも何れか一方に基づいて前記撮影映像上の前記被写体の領域である被写体領域を抽出し、抽出した前記被写体領域に背景映像を合成することで前記被写体を見えなくする
 (1)に記載の撮像システム。
(3)
 前記データ制御部は、事前に撮影された前記撮影映像、前記撮影映像を撮影する撮像部とは異なる他の撮像部により撮影された他の撮影映像、前記撮影映像の過去のフレーム、または前記撮影映像に基づく推定処理に基づいて前記背景映像を生成する
 (2)に記載の撮像システム。
(4)
 前記データ制御部は、
  前記過去のフレームに、前記被写体領域内の所定の領域に対応する背景の映像が含まれている場合、前記過去のフレームに基づいて前記背景映像における前記所定の領域に対応する領域の映像を生成し、
  前記過去のフレームに、前記被写体領域内の前記所定の領域に対応する背景の映像が含まれていない場合、所定の別映像を前記背景映像における前記所定の領域に対応する領域の映像とする
 (3)に記載の撮像システム。
(5)
 前記データ制御部は、前記撮影映像と前記距離情報の少なくとも何れか一方に基づいて前記撮影映像上の前記被写体の領域である被写体領域を抽出し、抽出した前記被写体領域に、任意の別映像を合成することで前記被写体を見えなくする
 (1)に記載の撮像システム。
(6)
 前記別映像は、図形映像またはエフェクト映像である
 (5)に記載の撮像システム。
(7)
 前記データ制御部は、前記撮影映像と前記距離情報の少なくとも何れか一方に基づいて前記撮影映像上の前記被写体の領域である被写体領域を抽出し、抽出した前記被写体領域に合成する前記アバタのサイズを調整するか、または抽出した前記被写体領域に合成する背景付きの前記アバタの映像を生成することで前記被写体を見えなくする
 (1)に記載の撮像システム。
(8)
 前記データ制御部は、前記撮影映像から前記被写体の領域が検出されず、前記距離情報から前記被写体の領域が検出された場合、前記距離情報のみに基づいて前記撮影映像上の前記被写体の領域である被写体領域を抽出し、前記透明化処理を行う
 (1)に記載の撮像システム。
(9)
 前記データ制御部は、前記撮影映像の撮影位置から前記被写体までの距離に応じて、異なる前記透明化処理を行う
 (1)乃至(8)の何れか一項に記載の撮像システム。
(10)
 前記データ制御部は、前記モーションキャプチャまたは前記透明化処理に失敗した場合、前記合成映像の記録または送信を一時的に停止する
 (1)乃至(9)の何れか一項に記載の撮像システム。
(11)
 前記距離情報の撮影視野の範囲は、前記撮影映像の撮影視野の範囲よりも広い
 (1)乃至(10)の何れか一項に記載の撮像システム。
(12)
 前記データ制御部は、前記距離情報に基づいて、前記撮影映像上の前記被写体と他の被写体とが重なる部分における、前記被写体と前記他の被写体との前後の位置関係を特定し、前記前後の位置関係の特定結果に基づいて前記透明化処理を行う
 (1)乃至(11)の何れか一項に記載の撮像システム。
(13)
 前記データ制御部は、前記合成映像上における前記アバタの表示サイズを任意のサイズに調整する
 (1)乃至(6)の何れか一項に記載の撮像システム。
(14)
 前記データ制御部は、前記合成映像上における前記アバタの表示サイズを、前記撮影映像の撮影位置から前記被写体までの距離に応じたサイズに調整する
 (1)乃至(6)の何れか一項に記載の撮像システム。
(15)
 前記データ制御部は、前記距離情報に基づいて、前記撮影映像上における前記被写体の接地点の位置を特定し、前記接地点を起点として前記アバタの合成を行う
 (1)乃至(14)の何れか一項に記載の撮像システム。
(16)
 前記データ制御部は、前記撮影映像上における前記被写体とは異なる他の被写体の位置に、任意の別映像が合成された前記合成映像を生成する
 (1)乃至(15)の何れか一項に記載の撮像システム。
(17)
 撮像システムが、
 所定の被写体を含む撮影映像と距離情報に基づいて、前記被写体のモーションキャプチャを行い、
 前記撮影映像上の前記被写体を見えなくする透明化処理を行い、前記撮影映像に対する前記透明化処理により得られた映像上に、前記モーションキャプチャにより検出された動きをする、前記被写体に対応するアバタを合成するか、または前記撮影映像上に前記透明化処理により得られた前記アバタを合成することで合成映像を生成する
 映像処理方法。
(18)
 所定の被写体を含む撮影映像と距離情報に基づいて、前記被写体のモーションキャプチャを行い、
 前記撮影映像上の前記被写体を見えなくする透明化処理を行い、前記撮影映像に対する前記透明化処理により得られた映像上に、前記モーションキャプチャにより検出された動きをする、前記被写体に対応するアバタを合成するか、または前記撮影映像上に前記透明化処理により得られた前記アバタを合成することで合成映像を生成する
 ステップを含む処理をコンピュータに実行させるプログラム。
 11 撮像システム, 21 撮像部, 22 データ制御部, 31 3Dマッピング撮像部, 32 画像撮像部, 41 被写体動作検出部, 42 アバタ動作構築部, 43 被写体領域抽出部, 44 被写体領域加工部, 45 背景映像加工部, 46 画像合成部

Claims (18)

  1.  所定の被写体を含む撮影映像と距離情報に基づいて、前記被写体のモーションキャプチャを行う被写体動作検出部と、
     前記撮影映像上の前記被写体を見えなくする透明化処理を行い、前記撮影映像に対する前記透明化処理により得られた映像上に、前記モーションキャプチャにより検出された動きをする、前記被写体に対応するアバタを合成するか、または前記撮影映像上に前記透明化処理により得られた前記アバタを合成することで合成映像を生成するデータ制御部と
     を備える撮像システム。
  2.  前記データ制御部は、前記撮影映像と前記距離情報の少なくとも何れか一方に基づいて前記撮影映像上の前記被写体の領域である被写体領域を抽出し、抽出した前記被写体領域に背景映像を合成することで前記被写体を見えなくする
     請求項1に記載の撮像システム。
  3.  前記データ制御部は、事前に撮影された前記撮影映像、前記撮影映像を撮影する撮像部とは異なる他の撮像部により撮影された他の撮影映像、前記撮影映像の過去のフレーム、または前記撮影映像に基づく推定処理に基づいて前記背景映像を生成する
     請求項2に記載の撮像システム。
  4.  前記データ制御部は、
      前記過去のフレームに、前記被写体領域内の所定の領域に対応する背景の映像が含まれている場合、前記過去のフレームに基づいて前記背景映像における前記所定の領域に対応する領域の映像を生成し、
      前記過去のフレームに、前記被写体領域内の前記所定の領域に対応する背景の映像が含まれていない場合、所定の別映像を前記背景映像における前記所定の領域に対応する領域の映像とする
     請求項3に記載の撮像システム。
  5.  前記データ制御部は、前記撮影映像と前記距離情報の少なくとも何れか一方に基づいて前記撮影映像上の前記被写体の領域である被写体領域を抽出し、抽出した前記被写体領域に、任意の別映像を合成することで前記被写体を見えなくする
     請求項1に記載の撮像システム。
  6.  前記別映像は、図形映像またはエフェクト映像である
     請求項5に記載の撮像システム。
  7.  前記データ制御部は、前記撮影映像と前記距離情報の少なくとも何れか一方に基づいて前記撮影映像上の前記被写体の領域である被写体領域を抽出し、抽出した前記被写体領域に合成する前記アバタのサイズを調整するか、または抽出した前記被写体領域に合成する背景付きの前記アバタの映像を生成することで前記被写体を見えなくする
     請求項1に記載の撮像システム。
  8.  前記データ制御部は、前記撮影映像から前記被写体の領域が検出されず、前記距離情報から前記被写体の領域が検出された場合、前記距離情報のみに基づいて前記撮影映像上の前記被写体の領域である被写体領域を抽出し、前記透明化処理を行う
     請求項1に記載の撮像システム。
  9.  前記データ制御部は、前記撮影映像の撮影位置から前記被写体までの距離に応じて、異なる前記透明化処理を行う
     請求項1に記載の撮像システム。
  10.  前記データ制御部は、前記モーションキャプチャまたは前記透明化処理に失敗した場合、前記合成映像の記録または送信を一時的に停止する
     請求項1に記載の撮像システム。
  11.  前記距離情報の撮影視野の範囲は、前記撮影映像の撮影視野の範囲よりも広い
     請求項1に記載の撮像システム。
  12.  前記データ制御部は、前記距離情報に基づいて、前記撮影映像上の前記被写体と他の被写体とが重なる部分における、前記被写体と前記他の被写体との前後の位置関係を特定し、前記前後の位置関係の特定結果に基づいて前記透明化処理を行う
     請求項1に記載の撮像システム。
  13.  前記データ制御部は、前記合成映像上における前記アバタの表示サイズを任意のサイズに調整する
     請求項1に記載の撮像システム。
  14.  前記データ制御部は、前記合成映像上における前記アバタの表示サイズを、前記撮影映像の撮影位置から前記被写体までの距離に応じたサイズに調整する
     請求項1に記載の撮像システム。
  15.  前記データ制御部は、前記距離情報に基づいて、前記撮影映像上における前記被写体の接地点の位置を特定し、前記接地点を起点として前記アバタの合成を行う
     請求項1に記載の撮像システム。
  16.  前記データ制御部は、前記撮影映像上における前記被写体とは異なる他の被写体の位置に、任意の別映像が合成された前記合成映像を生成する
     請求項1に記載の撮像システム。
  17.  撮像システムが、
     所定の被写体を含む撮影映像と距離情報に基づいて、前記被写体のモーションキャプチャを行い、
     前記撮影映像上の前記被写体を見えなくする透明化処理を行い、前記撮影映像に対する前記透明化処理により得られた映像上に、前記モーションキャプチャにより検出された動きをする、前記被写体に対応するアバタを合成するか、または前記撮影映像上に前記透明化処理により得られた前記アバタを合成することで合成映像を生成する
     映像処理方法。
  18.  所定の被写体を含む撮影映像と距離情報に基づいて、前記被写体のモーションキャプチャを行い、
     前記撮影映像上の前記被写体を見えなくする透明化処理を行い、前記撮影映像に対する前記透明化処理により得られた映像上に、前記モーションキャプチャにより検出された動きをする、前記被写体に対応するアバタを合成するか、または前記撮影映像上に前記透明化処理により得られた前記アバタを合成することで合成映像を生成する
     ステップを含む処理をコンピュータに実行させるプログラム。
PCT/JP2023/006123 2022-03-07 2023-02-21 撮像システムおよび映像処理方法、並びにプログラム WO2023171355A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-034347 2022-03-07
JP2022034347 2022-03-07

Publications (1)

Publication Number Publication Date
WO2023171355A1 true WO2023171355A1 (ja) 2023-09-14

Family

ID=87936890

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/006123 WO2023171355A1 (ja) 2022-03-07 2023-02-21 撮像システムおよび映像処理方法、並びにプログラム

Country Status (1)

Country Link
WO (1) WO2023171355A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012253483A (ja) * 2011-06-01 2012-12-20 Sony Corp 画像処理装置、画像処理方法、およびプログラム
JP2013242835A (ja) * 2012-05-21 2013-12-05 Ntt Docomo Inc 画像コミュニケーションシステム、画像生成装置及びプログラム
WO2013187130A1 (ja) * 2012-06-12 2013-12-19 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム
JP2020035099A (ja) * 2018-08-28 2020-03-05 株式会社コナミデジタルエンタテインメント 画像処理装置、画像処理システム、及びプログラム
JP2020098409A (ja) * 2018-12-17 2020-06-25 ヤフー株式会社 画像処理装置、画像処理方法および画像処理プログラム
JP2020182500A (ja) * 2019-04-26 2020-11-12 株式会社コロプラ プログラム、方法、および情報端末装置
JP2021128542A (ja) * 2020-02-13 2021-09-02 エヌエイチエヌ コーポレーション 情報処理プログラムおよび情報処理システム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012253483A (ja) * 2011-06-01 2012-12-20 Sony Corp 画像処理装置、画像処理方法、およびプログラム
JP2013242835A (ja) * 2012-05-21 2013-12-05 Ntt Docomo Inc 画像コミュニケーションシステム、画像生成装置及びプログラム
WO2013187130A1 (ja) * 2012-06-12 2013-12-19 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム
JP2020035099A (ja) * 2018-08-28 2020-03-05 株式会社コナミデジタルエンタテインメント 画像処理装置、画像処理システム、及びプログラム
JP2020098409A (ja) * 2018-12-17 2020-06-25 ヤフー株式会社 画像処理装置、画像処理方法および画像処理プログラム
JP2020182500A (ja) * 2019-04-26 2020-11-12 株式会社コロプラ プログラム、方法、および情報端末装置
JP2021128542A (ja) * 2020-02-13 2021-09-02 エヌエイチエヌ コーポレーション 情報処理プログラムおよび情報処理システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KURIYAGAWA TOMOKI, GINGA ISHIGURO: "J-013. A Development of CPR Training System using Azure Kinect DK", PROCEEDINGS OF 19TH FORUM ON INFORMATION TECHNOLOGY (FIT2020), 18 August 2020 (2020-08-18), pages 293 - 296, XP093090498, Retrieved from the Internet <URL:https://www.ieice.org/publications/conference-FIT-DVDs/FIT2020/data/pdf/J-013.pdf> [retrieved on 20231011] *

Similar Documents

Publication Publication Date Title
US11210838B2 (en) Fusing, texturing, and rendering views of dynamic three-dimensional models
US11200730B2 (en) Continuous time warp and binocular time warp for virtual and augmented reality display systems and methods
US20190164346A1 (en) Method and apparatus for providing realistic 2d/3d ar experience service based on video image
JP2010033367A (ja) 情報処理装置及び情報処理方法
KR102067823B1 (ko) 비디오 영상기반 2d/3d ar 실감체험 방법 및 장치
WO2021149526A1 (ja) 情報処理装置、情報処理方法及びプログラム
US20210377515A1 (en) Information processing device, information processing method, and program
US11941729B2 (en) Image processing apparatus, method for controlling image processing apparatus, and storage medium
KR20230032893A (ko) 화상처리장치, 화상처리방법 및 기억 매체
JP2022032483A (ja) 画像処理装置、画像処理方法、およびプログラム
US11749141B2 (en) Information processing apparatus, information processing method, and recording medium
JP7234021B2 (ja) 画像生成装置、画像生成システム、画像生成方法、およびプログラム
WO2023171355A1 (ja) 撮像システムおよび映像処理方法、並びにプログラム
JP7159198B2 (ja) 奥行きマップを処理するための装置及び方法
US9225960B2 (en) Apparatus and method for attenuating stereoscopic sense of stereoscopic image
US20150116202A1 (en) Image processing device and method, and program
JP2022184354A (ja) 画像処理装置、画像処理方法及びプログラム
JP2021015417A (ja) 画像処理装置、画像配信システム、および画像処理方法
JP2021149513A (ja) 画像処理装置、画像処理方法、及びプログラム
US20240013492A1 (en) Image processing apparatus, image processing method, and image processing system
US20230415040A1 (en) Image generation apparatus, image generation method, and program
JP5539486B2 (ja) 情報処理装置及び情報処理方法
US11615767B2 (en) Information processing apparatus, information processing method, and recording medium
US20230316640A1 (en) Image processing apparatus, image processing method, and storage medium
US20240112446A1 (en) Image processing device, image processing method, projector device

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23766533

Country of ref document: EP

Kind code of ref document: A1