WO2023047643A1 - 情報処理装置、映像処理方法、プログラム - Google Patents

情報処理装置、映像処理方法、プログラム Download PDF

Info

Publication number
WO2023047643A1
WO2023047643A1 PCT/JP2022/010992 JP2022010992W WO2023047643A1 WO 2023047643 A1 WO2023047643 A1 WO 2023047643A1 JP 2022010992 W JP2022010992 W JP 2022010992W WO 2023047643 A1 WO2023047643 A1 WO 2023047643A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
video
processing
area
information
Prior art date
Application number
PCT/JP2022/010992
Other languages
English (en)
French (fr)
Inventor
尚子 菅野
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to CN202280061768.2A priority Critical patent/CN117941340A/zh
Priority to EP22872402.7A priority patent/EP4407977A1/en
Priority to JP2023549341A priority patent/JPWO2023047643A1/ja
Publication of WO2023047643A1 publication Critical patent/WO2023047643A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/2224Studio circuitry; Studio devices; Studio equipment related to virtual studio applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/10Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from different wavelengths
    • H04N23/11Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from different wavelengths for generating image signals from visible and infrared light wavelengths
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • H04N23/81Camera processing pipelines; Components thereof for suppressing or minimising disturbance in the image signal generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/272Means for inserting a foreground image in a background image, i.e. inlay, outlay
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/272Means for inserting a foreground image in a background image, i.e. inlay, outlay
    • H04N5/275Generation of keying signals

Definitions

  • This technology relates to an information processing device, a video processing method, and a video processing technology implemented as a program.
  • this disclosure proposes a video processing technique that can deal with the effects that occur on the captured video when capturing the video displayed on the display device and the object at the same time.
  • the information processing apparatus determines the display image area of a captured image obtained by capturing a display image of a display device and an object using mask information that separates a display image and an object image in the captured image.
  • An image processing unit is provided for performing image processing or image processing for an object image area determined using the mask information. For example, when a background image or the like is displayed on a display device at the time of photographing, and an existing object such as a person or an object is photographed along with the displayed image, the display image of the display device and the object are reflected in the photographed image. In this photographed image, a display image area in which a display image is reflected and an object image area in which an object is reflected are separated by using mask information, and image processing is performed separately.
  • FIG. 10 is an explanatory diagram of a background image according to camera positions of the imaging system according to the embodiment;
  • FIG. 10 is an explanatory diagram of a background image according to camera positions of the imaging system according to the embodiment;
  • FIG. 4 is an explanatory diagram of a video content production process according to the embodiment;
  • 1 is a block diagram of an imaging system according to an embodiment;
  • FIG. 1 is a block diagram of an information processing device according to an embodiment;
  • FIG. FIG. 10 is an explanatory diagram of a background image according to camera positions of the imaging system according to the embodiment;
  • FIG. 10 is an explanatory diagram of a background image according to camera positions of the imaging system according to the embodiment;
  • FIG. 4 is an explanatory diagram of a video content production process according to the embodiment;
  • 1 is a block diagram of an imaging system according
  • FIG. 10 is an explanatory diagram of moire when a background image is shot;
  • FIG. 4 is an explanatory diagram of a mask according to an embodiment;
  • FIG. 4 is an explanatory diagram of a background area and a foreground area determined by a mask according to the embodiment;
  • FIG. 10 is an explanatory diagram of a photographed image after processing according to the embodiment;
  • FIG. 10 is an explanatory diagram of another example of the camera of the embodiment; 4 is a flowchart of video processing according to the first embodiment; 7 is a flowchart of moiré countermeasure processing according to the embodiment; 7 is a flowchart of moiré countermeasure processing according to the embodiment; 7 is a flowchart of moiré countermeasure processing according to the embodiment; 9 is a flowchart of video processing according to the second embodiment; FIG. 4 is an explanatory diagram of bounding; FIG. 10 is an explanatory diagram of image loss; 10 is a flowchart of video processing according to the third embodiment; FIG. 14 is a flowchart of processing at the time of photographing according to the fourth embodiment; FIG. FIG. 14 is a flowchart of video processing after shooting according to the fourth embodiment; FIG. FIG. 4 is an explanatory diagram of a configuration example of a display panel for a background image according to the embodiment;
  • video or “image” includes both still images and moving images.
  • image refers not only to the state displayed on the display, but also to the image data not displayed on the display.
  • FIG. 1 schematically shows an imaging system 500.
  • This photographing system 500 is a system for photographing as a virtual production, and the drawing shows part of the equipment arranged in the photographing studio.
  • a performance area 501 is provided in which performers 510 perform acting and other performances.
  • a large display device is arranged at least on the back surface of the performance area 501, and further on the left and right sides and on the top surface.
  • the device type of the display device is not limited, the drawing shows an example using an LED wall 505 as an example of a large display device.
  • a single LED wall 505 forms a large panel by connecting and arranging a plurality of LED panels 506 vertically and horizontally.
  • the size of the LED wall 505 referred to here is not particularly limited, but may be any size necessary or sufficient for displaying the background when the performer 510 is photographed.
  • a required number of lights 580 are arranged at required positions such as above or to the side of the performance area 501 to illuminate the performance area 501 .
  • a camera 502 is arranged for filming, for example, movies and other video content.
  • the camera 502 can be moved by a cameraman 512, and can be operated to change the shooting direction, angle of view, and the like.
  • the movement of the camera 502, the angle of view operation, and the like are performed by remote operation.
  • the camera 502 may move or change the angle of view automatically or autonomously. For this reason, the camera 502 may be mounted on a camera platform or a moving object.
  • the performer 510 in the performance area 501 and the video displayed on the LED wall 505 are captured together. For example, by displaying the scenery as the background image vB on the LED wall 505, it is possible to shoot the same image as when the performer 510 is actually acting in the place of the scenery.
  • An output monitor 503 is arranged near the performance area 501 .
  • the image captured by the camera 502 is displayed on the output monitor 503 in real time as a monitor image vM. This allows the director and staff who produce the video content to check the video being shot.
  • the photography system 500 for photographing the performance of the performer 510 against the backdrop of the LED wall 505 in the photography studio has various advantages over greenback photography.
  • post-production after shooting is more efficient than when shooting with a green screen. This is because there are cases where so-called chromakey synthesis can be made unnecessary, and there are cases where color correction and reflection synthesis can be made unnecessary. Also, even if chromakey synthesis is required at the time of shooting, the fact that there is no need to add a background screen also contributes to efficiency.
  • the green tint does not increase, so the correction is unnecessary.
  • the background image vB the reflection on the actual article such as the glass is naturally obtained and photographed, so there is no need to synthesize the reflection image.
  • the background video vB will be explained with reference to FIGS. 2 and 3.
  • FIG. Even if the background image vB is displayed on the LED wall 505 and photographed together with the performer 510, simply displaying the background image vB makes the background of the photographed image unnatural. This is because the background image vB is a two-dimensional image that is actually three-dimensional and has depth.
  • the camera 502 can photograph the performer 510 in the performance area 501 from various directions, and can also perform a zoom operation.
  • the performer 510 does not stop at one place either.
  • the actual appearance of the background of the performer 510 should change according to the position, shooting direction, angle of view, etc. of the camera 502, but such a change cannot be obtained with the background image vB as a plane image. Therefore, the background image vB is changed so that the background, including the parallax, looks the same as it actually does.
  • FIG. 2 shows camera 502 photographing actor 510 from a position on the left side of the figure
  • FIG. 3 shows camera 502 photographing actor 510 from a position on the right side of the figure.
  • the shooting area image vBC is shown within the background image vB.
  • a portion of the background image vB excluding the shooting area image vBC is called an "outer frustum”
  • the shooting area image vBC is called an "inner frustum”.
  • the background image vB described here refers to the entire image displayed as the background including the shooting area image vBC (inner frustum).
  • the range of this shooting area image vBC corresponds to the range actually shot by the camera 502 within the display surface of the LED wall 505 .
  • the photographing area image vBC becomes an image that has been deformed according to the position, photographing direction, angle of view, etc. of the camera 502 so as to express the scene that is actually seen when the position of the camera 502 is set as the viewpoint. ing.
  • 3D background data which is a 3D (three dimensions) model as a background
  • the 3D background data is sequentially rendered in real time based on the viewpoint position of the camera 502. do.
  • the range of the shooting area image vBC is actually set to be slightly wider than the range shot by the camera 502 at that time. This is to prevent the image of the outer frustum from being reflected due to the drawing delay when the range to be photographed changes slightly due to panning, tilting, zooming, etc. of the camera 502. This is to avoid the influence of diffracted light.
  • the image of the shooting area image vBC rendered in real time in this way is combined with the image of the outer frustum.
  • the image of the outer frustum used in the background image vB is rendered in advance based on the 3D background data, and a part of the image of the outer frustum incorporates the image as the shooting area image vBC rendered in real time. Thus, the entire background image vB is generated.
  • the output monitor 503 displays the monitor image vM including the performer 510 and the background, which is the captured image.
  • the background of this monitor image vM is the shooting area image vBC.
  • the background included in the captured image is a real-time rendered image.
  • the background image vB is not only displayed two-dimensionally, but also the shooting area image is displayed so that the same image as when actually shooting on location can be shot. Background video vB including vBC is changed in real time.
  • the production process of video content as a virtual production that shoots with the shooting system 500 will be explained.
  • the video content production process is roughly divided into three stages. They are asset creation ST1, production ST2, and post-production ST3.
  • Asset creation ST1 is the process of creating 3D background data for displaying the background video vB.
  • the background image vB is generated by performing real-time rendering using the 3D background data at the time of shooting. Therefore, 3D background data as a 3D model is created in advance.
  • 3D background data production methods include full CG (Full Computer Graphics), point cloud data (Point Cloud) scanning, and photogrammetry.
  • Full CG is a method of creating 3D models with computer graphics. Although this method requires the most man-hours and time among the three methods, it is suitable for use when an unrealistic image or an image that is actually difficult to shoot is desired to be used as the background image vB.
  • LiDAR lidar
  • 360-degree image is taken from the same position with a camera.
  • This is a method of generating a 3D model from point cloud data by loading data. Compared to full CG, 3D models can be produced in a short time. In addition, it is easier to create a high-definition 3D model than photogrammetry.
  • Photogrammetry is a technique of photogrammetry that analyzes parallax information and obtains dimensions and shapes from two-dimensional images obtained by photographing an object from multiple viewpoints. 3D model production can be done in a short time. Note that point group information acquired by the lidar may be used in generating 3D data by photogrammetry.
  • these methods are used to create a 3D model that becomes 3D background data.
  • the above methods may be used in combination.
  • a part of a 3D model produced by point cloud data scanning or photogrammetry is produced by CG and synthesized.
  • Production ST2 is the process of shooting in a shooting studio as shown in FIG. Elemental technologies in this case include real-time rendering, background display, camera tracking, and lighting control.
  • Real-time rendering is a rendering process for obtaining a shooting area image vBC at each point in time (each frame of the background image vB) as described with reference to FIGS. This renders the 3D background data produced by the asset creation ST1 from a viewpoint corresponding to the position of the camera 502 at each time point.
  • Camera tracking is performed to obtain shooting information from the camera 502, and tracks the position information, shooting direction, angle of view, etc. of the camera 502 at each point in time.
  • Real-time rendering according to the viewpoint position of the camera 502 and the like can be executed by providing the rendering engine with shooting information including these corresponding to each frame.
  • the shooting information is information linked or associated with video as metadata.
  • the shooting information is assumed to include position information of the camera 502 at each frame timing, orientation of the camera, angle of view, focal length, F number (aperture value), shutter speed, lens information, and the like.
  • Lighting control refers to controlling the state of lighting in the imaging system 500, specifically controlling the light intensity, emission color, lighting direction, etc. of the light 580. For example, lighting control is performed according to the time setting and location setting of the scene to be shot.
  • Post-production ST3 indicates various processes performed after shooting. For example, video correction, video adjustment, clip editing, video effects, and the like are performed.
  • Image correction may include color gamut conversion, color matching between cameras and materials, and the like. Color adjustment, brightness adjustment, contrast adjustment, etc. may be performed as image adjustment. As clip editing, clip cutting, order adjustment, time length adjustment, etc. may be performed. As a video effect, synthesis of CG video and special effect video may be performed.
  • FIG. 5 is a block diagram showing the configuration of the photographing system 500 outlined in FIGS. 1, 2, and 3. As shown in FIG.
  • the imaging system 500 shown in FIG. 5 includes the LED wall 505 by the plurality of LED panels 506, camera 502, output monitor 503, and light 580 described above.
  • the imaging system 500 further includes a rendering engine 520, an asset server 530, a sync generator 540, an operation monitor 550, a camera tracker 560, an LED processor 570, a lighting controller 581, and a display controller 590, as shown in FIG.
  • the LED processor 570 is provided corresponding to each LED panel 506 and drives the corresponding LED panel 506 to display images.
  • the sync generator 540 generates a synchronization signal for synchronizing the frame timing of the image displayed by the LED panel 506 and the frame timing of the imaging by the camera 502 and supplies it to each LED processor 570 and the camera 502 . However, this does not prevent the output from the sync generator 540 from being supplied to the rendering engine 520 .
  • the camera tracker 560 generates shooting information by the camera 502 at each frame timing and supplies it to the rendering engine 520 .
  • the camera tracker 560 detects the position of the LED wall 505 or relative position information of the camera 502 with respect to a predetermined reference position and the shooting direction of the camera 502 as one piece of shooting information, and supplies these to the rendering engine 520.
  • a specific detection method by the camera tracker 560 there is a method of randomly arranging reflectors on the ceiling and detecting the position from reflected infrared light emitted from the camera 502 side.
  • a detection method there is also a method of estimating the self-position of the camera 502 based on gyro information mounted on the platform of the camera 502 or the body of the camera 502 or image recognition of the image captured by the camera 502 .
  • the angle of view, focal length, F number, shutter speed, lens information, etc. may be supplied from the camera 502 to the rendering engine 520 as shooting information.
  • the asset server 530 is a server that stores the 3D model produced by the asset creation ST1, that is, the 3D background data in a recording medium, and can read out the 3D model as needed. That is, it functions as a DB (data Base) for 3D background data.
  • DB data Base
  • the rendering engine 520 performs processing for generating a background image vB to be displayed on the LED wall 505 . Therefore, the rendering engine 520 reads the necessary 3D background data from the asset server 530 . The rendering engine 520 then generates an image of the outer frustum used in the background image vB by rendering the 3D background data as viewed from the spatial coordinates specified in advance. In addition, the rendering engine 520, as a process for each frame, uses the shooting information supplied from the camera tracker 560 and the camera 502 to specify the viewpoint position and the like with respect to the 3D background data, and renders the shooting area video vBC (inner frustum). I do.
  • the rendering engine 520 combines the shooting area video vBC rendered for each frame with the pre-generated outer frustum to generate the background video vB as video data for one frame.
  • the rendering engine 520 then transmits the generated video data of one frame to the display controller 590 .
  • the display controller 590 generates a divided video signal nD by dividing one frame of video data into video portions to be displayed on each LED panel 506 and transmits the divided video signal nD to each LED panel 506 .
  • the display controller 590 may perform calibration according to individual differences/manufacturing errors such as color development between display units. Note that these processes may be performed by the rendering engine 520 without providing the display controller 590 . That is, the rendering engine 520 may generate the divided video signal nD, perform calibration, and transmit the divided video signal nD to each LED panel 506 .
  • Each LED processor 570 drives the LED panel 506 based on the received divided video signal nD to display the entire background video vB on the LED wall 505 .
  • the background image vB includes the shooting area image vBC rendered according to the position of the camera 502 at that time.
  • the camera 502 can capture the performance of the performer 510 including the background image vB displayed on the LED wall 505 in this way.
  • the image captured by the camera 502 is recorded on a recording medium inside the camera 502 or by an external recording device (not shown), and is also supplied to the output monitor 503 in real time and displayed as a monitor image vM.
  • An operation image vOP for controlling the rendering engine 520 is displayed on the operation monitor 550 .
  • the engineer 511 can perform necessary settings and operations regarding rendering of the background video vB while viewing the operation image vOP.
  • a lighting controller 581 controls the emission intensity, emission color, irradiation direction, and the like of the light 580 .
  • the lighting controller 581 may, for example, control the lights 580 asynchronously with the rendering engine 520, or may control them in synchronization with the shooting information and rendering processing. Therefore, the lighting controller 581 may perform light emission control according to instructions from the rendering engine 520 or a master controller (not shown).
  • FIG. 6 shows a processing example of the rendering engine 520 in the photographing system 500 having such a configuration.
  • the rendering engine 520 reads the 3D background data to be used this time from the asset server 530 in step S10, and develops it in an internal work area. Then, an image to be used as an outer frustum is generated.
  • the rendering engine 520 repeats the processing from step S30 to step S60 at each frame timing of the background video vB until it determines in step S20 that the display of the background video vB based on the read 3D background data has ended.
  • step S30 the rendering engine 520 acquires shooting information from the camera tracker 560 and the camera 502. This confirms the position and state of the camera 502 to be reflected in the current frame.
  • step S40 the rendering engine 520 performs rendering based on the shooting information. That is, rendering is performed by specifying the viewpoint position for the 3D background data based on the position of the camera 502 to be reflected in the current frame, the shooting direction, the angle of view, or the like. At this time, image processing reflecting focal length, F number, shutter speed, lens information, etc., can also be performed. By this rendering, video data as the shooting area video vBC can be obtained.
  • the rendering engine 520 performs a process of synthesizing the outer frustum, which is the overall background image, and the image reflecting the viewpoint position of the camera 502, that is, the shooting area image vBC. For example, it is a process of synthesizing an image generated by reflecting the viewpoint of the camera 502 with an image of the entire background rendered from a specific reference viewpoint. As a result, the background image vB of one frame displayed on the LED wall 505, that is, the background image vB including the shooting area image vBC is generated.
  • step S60 The processing of step S60 is performed by the rendering engine 520 or the display controller 590.
  • the rendering engine 520 or the display controller 590 generates a divided video signal nD that divides the one-frame background video vB into videos displayed on individual LED panels 506.
  • FIG. Calibration may be performed.
  • each divided video signal nD is transmitted to each LED processor 570 .
  • the background image vB including the shooting area image vBC captured by the camera 502 is displayed on the LED wall 505 at each frame timing.
  • FIG. 7 shows a configuration example when a plurality of cameras 502a and 502b are used.
  • the cameras 502a and 502b are configured to be able to take pictures in the performance area 501 independently.
  • Each camera 502 a , 502 b and each LED processor 570 are also kept synchronized by a sync generator 540 .
  • Output monitors 503a and 503b are provided corresponding to the cameras 502a and 502b, and are configured to display images captured by the corresponding cameras 502a and 502b as monitor images vMa and vMb.
  • camera trackers 560a and 560b are provided corresponding to the cameras 502a and 502b, and detect the positions and shooting directions of the corresponding cameras 502a and 502b, respectively.
  • the shooting information from the camera 502 a and the camera tracker 560 a and the shooting information from the camera 502 b and the camera tracker 560 b are sent to the rendering engine 520 .
  • the rendering engine 520 can perform rendering to obtain the background video vB of each frame using the shooting information on either the camera 502a side or the camera 502b side.
  • FIG. 7 shows an example using two cameras 502a and 502b, it is also possible to use three or more cameras 502 for shooting.
  • a plurality of cameras 502 there is a situation that the shooting area images vBC corresponding to the respective cameras 502 interfere with each other.
  • the shooting area image vBC corresponding to the camera 502a is shown. will also be needed. If each shooting area image vBC corresponding to each camera 502a, 502b is simply displayed, they interfere with each other. Therefore, it is necessary to devise a way to display the shooting area image vBC.
  • the information processing device 70 is a device such as a computer device capable of information processing, particularly video processing.
  • the information processing device 70 is assumed to be a personal computer, a workstation, a mobile terminal device such as a smart phone or a tablet, a video editing device, or the like.
  • the information processing device 70 may be a computer device configured as a server device or an arithmetic device in cloud computing.
  • the information processing device 70 can function as a 3D model creation device that creates a 3D model in the asset creation ST1.
  • the information processing device 70 can also function as a rendering engine 520 that configures the shooting system 500 used in the production ST2.
  • the information processing device 70 can also function as an asset server 530 .
  • the information processing device 70 can also function as a video editing device that performs various video processing in the post-production ST3.
  • the RAM 73 also appropriately stores data necessary for the CPU 71 to execute various processes.
  • the video processing unit 85 is configured as a processor that performs various video processing. For example, it is a processor that can perform one or more of 3D model generation processing, rendering, DB processing, video editing processing, and the like.
  • the video processing unit 85 can be implemented by, for example, a CPU separate from the CPU 71, a GPU (Graphics Processing Unit), a GPGPU (General-purpose computing on graphics processing units), an AI (artificial intelligence) processor, or the like. Note that the video processing unit 85 may be provided as a function within the CPU 71 .
  • the CPU 71 , ROM 72 , RAM 73 , nonvolatile memory section 74 and video processing section 85 are interconnected via a bus 83 .
  • An input/output interface 75 is also connected to this bus 83 .
  • the input/output interface 75 is connected to an input section 76 including operators and operating devices.
  • various operators and operation devices such as a keyboard, mouse, key, dial, touch panel, touch pad, remote controller, etc. are assumed.
  • a user's operation is detected by the input unit 76 , and a signal corresponding to the input operation is interpreted by the CPU 71 .
  • a microphone is also envisioned as input 76 .
  • a voice uttered by the user can also be input as operation information.
  • the input/output interface 75 is connected integrally or separately with a display unit 77 such as an LCD (Liquid Crystal Display) or an organic EL (electro-luminescence) panel, and an audio output unit 78 such as a speaker.
  • the display unit 77 is a display unit that performs various displays, and is configured by, for example, a display device provided in the housing of the information processing device 70, a separate display device connected to the information processing device 70, or the like.
  • the display unit 77 displays various images, operation menus, icons, messages, and the like on the display screen based on instructions from the CPU 71, that is, as a GUI (Graphical User Interface).
  • GUI Graphic User Interface
  • the input/output interface 75 may be connected to a storage section 79 and a communication section 80, each of which is composed of a HDD (Hard Disk Drive), a solid-state memory, or the like.
  • a HDD Hard Disk Drive
  • a solid-state memory or the like.
  • the storage unit 79 can store various data and programs.
  • a DB can also be configured in the storage unit 79 .
  • the storage unit 79 can be used to construct a DB that stores 3D background data groups.
  • the communication unit 80 performs communication processing via a transmission line such as the Internet, and communication with various devices such as an external DB, editing device, and information processing device through wired/wireless communication, bus communication, and the like.
  • the communication unit 80 can access the DB as the asset server 530 and receive shooting information from the camera 502 and camera tracker 560 .
  • the information processing device 70 used in the post-production ST3 it is possible to access the DB as the asset server 530 through the communication section 80.
  • a drive 81 is also connected to the input/output interface 75 as required, and a removable recording medium 82 such as a magnetic disk, optical disk, magneto-optical disk, or semiconductor memory is appropriately loaded.
  • Video data and various computer programs can be read from the removable recording medium 82 by the drive 81 .
  • the read data is stored in the storage unit 79 , and video and audio contained in the data are output from the display unit 77 and the audio output unit 78 .
  • Computer programs and the like read from the removable recording medium 82 are installed in the storage unit 79 as required.
  • software for the processing of the present embodiment can be installed via network communication by the communication unit 80 or via the removable recording medium 82.
  • the software may be stored in advance in the ROM 72, the storage unit 79, or the like.
  • the image captured by the camera 502 in the above virtual production imaging system 500 is referred to as "captured image vC".
  • the range of the subject included in the image of the captured image vC is the same as that of the monitor image vM.
  • the captured image vC is obtained by capturing an object such as the performer 510 and the background image vB of the LED wall 505 by the camera 502 .
  • the video processing of the embodiment basically separates the background area ARb and the foreground area ARf (described later in FIG. 11) from the captured video vC using mask information (mask MK in FIG. 10 described later). Then, image processing for the background area ARb or image processing for the foreground area ARf is performed.
  • the background area ARb is an area within the captured image vC in which the background image vB is displayed.
  • the photographing area image vBC in the background image vB is actually reflected in the photographed image vC.
  • the foreground area ARf is an area within the image in which the foreground object is shown in the captured image vC. For example, it is a region in which a person as the performer 510 or an object that actually exists is displayed.
  • the background area ARb and the foreground area ARf are clearly separated from each other in the photographed image vC, and are individually processed.
  • the image processing includes, for example, moiré reduction processing and image correction processing.
  • FIG. 9 schematically shows a state in which moire (interference fringes) M are generated in the captured image vC.
  • moire interference fringes
  • the occurrence of such moiré M can be avoided by, for example, attaching a moiré removal filter to the LED wall 505, but the cost is high. More simply, the moire M can be reduced (reduced or eliminated) by shooting in a slightly defocused state and blurring the image, or by performing a process of blurring the shot image vC after shooting. However, if such a method is used, even real objects such as the performer 510 will be blurred, so this method cannot always be applied.
  • the background area ARb and the foreground area ARf of the captured image vC can be processed separately.
  • a mask MK as shown in FIG. 10 is generated for one frame of the captured image vC as shown in FIG. This becomes information for separating the area of the photographed object and the area of the image of the LED wall 505 within one frame of the photographed image vC.
  • the background area ARb and the foreground area ARf can be determined as shown in FIG.
  • the boundary between the background area ARb and the foreground area ARf is indicated by a thick dashed line.
  • moire reduction processing such as LPF (low-pass filter) processing is performed only on the background area ARb.
  • LPF low-pass filter
  • a SWIR (Short Wavelength Infra-Red) camera infrared short wavelength camera
  • the SWIR camera it is possible to separate the image of the LED wall 505 where the light source changes drastically and the image of the foreground subject.
  • FIG. 13A shows the wavelength bands that can be captured for each of the RGB camera, SWIR camera, and IR camera (infrared camera).
  • An RGB camera is a camera that captures visible light in a wavelength band from 380 nm to 780 nm, for example.
  • An RGB camera is usually used as the camera 502 for obtaining the captured image vC.
  • the IR camera is a camera that captures near-infrared light from 800 nm to 900 nm.
  • SWIR cameras include, for example, the following types (a), (b), and (c).
  • (c) A camera capable of photographing a wavelength band of around 1150 nm (with a front-to-back tolerance) are just examples.
  • a SWIR camera covers a wider wavelength band than an IR camera, and cameras capable of photographing in a wavelength band from 400 nm to 1700 nm, for example, are commercially available.
  • FIG. 13B shows the quantum efficiency for each wavelength of the commercially available SWIR camera. As shown, high quantum efficiency is achieved in the range from 400 nm to 1700 nm. That is, since the wavelength bands of (b) and (c) can be covered, a SWIR camera having characteristics as shown in FIG. 13B can be applied.
  • part of the light 580 is used to irradiate an object such as the performer 510 with infrared rays, and the object is photographed by the SWIR camera.
  • the image on the LED wall 505 is not reflected and becomes a black image, and the performer 510 and the like reflect infrared light, and some brightness is observed. Therefore, by determining the brightness difference in the frame in the image captured by the SWIR camera, it is possible to generate a mask MK that extracts only the object with high accuracy.
  • a SWIR camera can appropriately detect the range of a person including hair. Hair is less reflective than skin, but it is effective to cover a high wavelength band for detection of the hair region. For example, with a camera capable of photographing near 1150 nm as in (c) above, the reflectance of human hair and the reflectance of human skin are equivalent. However, the reflectance of hair differs depending on gender and race (black hair, blond hair, etc.), and it changes depending on whether the hair is dyed or not. By integrating the band and shooting, the brightness of the skin and hair becomes equal, and the range of the head can be clearly determined.
  • the camera 502 is configured as shown in FIG.
  • An RGB camera 51 and a SWIR camera 52 are arranged in a unit as one camera 502 .
  • the beam splitter 50 splits the incident light so that the incident light enters the RGB camera 51 and the SWIR camera 52 with the same optical axis.
  • the RGB camera 51 outputs an image Prgb that is used as the captured image vC.
  • the SWIR camera 52 outputs an image Pswir for generating the mask MK.
  • the camera 502 By configuring the camera 502 as a coaxial camera including the RGB camera 51 and the SWIR camera 52 in this way, parallax does not occur between the RGB camera 51 and the SWIR camera 52, and the image Prgb and the image Pswir are identical to each other. The timing, the same angle of view, and the same field of view range can be obtained.
  • Mechanical position adjustment and optical axis alignment using a calibration image are performed in advance in a unit as the camera 502 so that the optical axes are aligned. For example, an image for calibration is captured, feature points are detected, and alignment processing is performed in advance. Even if the RGB camera 51 uses a high-resolution camera for producing high-definition video content, the SWIR camera 52 does not need to have a high resolution as well.
  • the SWIR camera 52 may be of any type as long as it can extract an image whose imaging range matches that of the RGB camera 51 . Therefore, the sensor size and image size are not limited to those that match those of the RGB camera 51 .
  • the RGB camera 51 and the SWIR camera 52 should be synchronized in frame timing. Further, according to the zoom operation of the RGB camera 51, the SWIR camera 52 may also be zoomed or the cropping range of the image may be adjusted.
  • SWIR camera 52 and the RGB camera 51 may be arranged in stereo. This is because parallax does not matter if the subject does not move in the depth direction. Also, a plurality of SWIR cameras 52 may be used.
  • the image Prgb and the image Pswir are supplied to the rendering engine 520 .
  • the rendering engine 520 having the configuration in FIG. 8 uses the image Pswir in the image processing unit 85 to generate the mask MK.
  • the rendering engine 520 uses the image Prgb as the captured image vC.
  • the image processing unit 85 separates each frame of the image Prgb into a background area ARb and a foreground area ARf using a mask MK, and performs necessary image processing.
  • the post-processing shot video vCR can be recorded on a recording medium.
  • the captured image vC (processed captured image vCR) is stored in the storage unit 79 . Alternatively, it can be transferred to the asset server 530 or other external device for recording.
  • FIG. 15 shows another configuration example of the camera 502.
  • the mask generator 53 can be composed of, for example, a video processor.
  • a mask generator 53 receives the image Pswir from the SWIR camera 52 and generates a mask MK. Note that when adjusting the clipping range from the image Pswir when generating the mask MK, the mask generation unit 53 also inputs and refers to the image Prgb from the RGB camera 51 .
  • the image Prgb and the mask MK are supplied to the rendering engine 520.
  • the rendering engine 520 can then obtain the mask MK and use the mask MK to separate the background area ARb and the foreground area ARf for each frame of the video Prgb.
  • part of the photographing information is supplied from the camera 502 to the rendering engine 520 as described above, although not shown.
  • the angle of view, focal length, F-number (aperture value), shutter speed, lens information, camera direction, etc. as shooting information are supplied from the camera 502 to the rendering engine 520 as information relating to the RGB camera 51 .
  • the position information of the camera 502 detected by the camera tracker 560, the direction of the camera, and the like are also supplied to the rendering engine 520 as shooting information.
  • First Embodiment> A specific processing example will be described below. As a first embodiment, an example will be given in which the rendering engine 520 performs moire reduction processing on the background area ARb of the captured image vC at the time of capturing. As the camera 502, the configuration of FIG. 14 is assumed.
  • FIG. 16 shows video processing performed by the rendering engine 520 for each frame of the captured video vC.
  • the rendering engine 520 renders the shooting area image vBC for each frame in order to generate the background image vB to be displayed on the LED wall 505 .
  • the rendering engine 520 performs the processing of FIG. 16 for each frame of the captured image vC captured by the camera 502 .
  • step S101 the rendering engine 520 acquires video. That is, one frame of captured video vC transmitted from the camera 502 is processed. Specifically, the rendering engine 520 processes one frame of video Prgb and video Pswir transmitted from the camera 502 . At the same time, the rendering engine 520 also acquires shooting information transmitted from the camera 502 and camera tracker 560 corresponding to the frame.
  • the rendering engine 520 generates a mask MK to be applied to the current frame. That is, the rendering engine 520 uses the image Pswir to generate the mask MK as described above.
  • step S103 the rendering engine 520 uses the mask MK generated in step S102 to identify the background area ARb for the shot video vC of the currently acquired frame, that is, the video Prgb.
  • step S104 the rendering engine 520 performs moire countermeasure processing for the background area ARb.
  • FIG. 17 shows an example of the moire countermeasure processing.
  • the rendering engine 520 determines the degree of moiré occurrence in step S141.
  • processing for determining the degree of moire occurrence processing for measuring how much moire M is actually occurring and processing for estimating how much moire is occurring are conceivable.
  • the degree of moire M includes the degree of area and intensity (clearness (luminance difference) of an interference fringe pattern appearing as moire).
  • a background image vB at the timing at which the frame is captured is acquired for the captured image vC to be processed, that is, the image Prgb from the RGB camera.
  • the rendering engine 520 records the background image vB and at least the shooting area image vBC (inner frustum image) generated by the processing in FIG. leave it to
  • the background area ARb is specified in the captured image vC.
  • the photographing area video vBC referred to is the video signal supplied to the LED wall 505 . Therefore, for the background area ARb of the captured image vC and the background area ARb of the captured area image vBC, after matching the feature points to match the area of the image content, the difference between the values of the corresponding pixels in that area is calculated. is taken, and the difference value is binarized with a certain threshold. Then, if there is no moiré M or other noise, the binarized value is constant for all pixels. In other words, if moiré M, noise, or the like occurs in the captured image vC, a repeated pattern is observed as a binarized value, which can be determined as moiré M.
  • the degree of moire M can be determined from the range in which the interference fringes appear and the luminance difference in the interference fringes (difference in difference values before binarization).
  • Methods for estimating the degree of moire M include the following examples. First, there is a method of acquiring shooting environment information and estimating the degree of occurrence of moire M prior to shooting.
  • the shooting environment information is fixed information in the shooting system 500 .
  • "fixed” means information that does not change for each frame of the shot video vC.
  • the degree of occurrence of the moire M can be estimated. Since the frequency of occurrence of moire M increases as the pitch width increases, it is possible to estimate how much moire M occurs based on the value of the pitch width.
  • determination of the degree of occurrence of moire M based on such shooting environment information may be performed initially before the start of shooting, and the determination result may be referred to in step S141 performed for each frame.
  • Other fixed information such as the type of the light 580, the light emitting state at the time of shooting, and 3D background data for generating the background image vB to be displayed on the LED wall 505 is acquired as the shooting environment information, and the shooting that tends to generate the moiré M is acquired. Whether or not it is the environment may be determined in advance.
  • the degree of occurrence of the moire M can be estimated. For example, when the LED wall 505 is viewed from above, when viewed from below, or when viewed at an angle from the left or right, rather than facing the LED wall 505 straight on. etc., moiré M is likely to occur. In particular, the steeper the angle between the LED wall 505 and the camera 502, the higher the frequency of occurrence of moire. Therefore, when the angle of the camera 502 with respect to the LED wall 505 is obtained, the degree of occurrence of moire M can be estimated from the value of the angle.
  • step S142 determines in step S142 whether moire reduction processing is necessary. If it is determined that the moire M has not occurred, or if it can be determined that the moire M has not occurred, the moire reduction process will not be performed for the current frame, and the moire countermeasure process of FIG. 17 will end from step S142.
  • the rendering engine 520 proceeds from step S142 to step S143, and performs moiré reduction processing on the background area ARb. That is, by performing LPF processing or BPF (band pass filter) processing on the background area ARb at a certain cutoff frequency, the striped portion is smoothed (blurred) and the moiré M is reduced or eliminated. This completes the moire countermeasure processing in FIG.
  • the rendering engine 520 After completing the moiré countermeasure processing shown in FIG. 17 as step S104 in FIG. 16, the rendering engine 520 performs video recording in step S105. That is, for a frame in which the background area ARb has been subjected to moiré reduction processing, the post-processing photographed image vCR, or if the moiré reduction processing is not performed because it is unnecessary, the original photographed image vC is recorded as frame data obtained by photographing on the recording medium. to record.
  • step S104 of FIG. 18 and 19 show another example of the moiré countermeasure processing in step S104 of FIG.
  • the rendering engine 520 first determines the degree of moiré occurrence in step S141, and determines whether or not moiré reduction processing is necessary in step S142. The process up to this point is the same as in FIG.
  • the rendering engine 520 sets the processing intensity of the moire reduction process in step S150.
  • This setting is such that the processing strength is increased when the degree of moire generated is large, and the processing strength is decreased when the degree of moire is small.
  • the intensity of blurring is set by changing the cutoff frequency of LPF processing.
  • the processing intensity is increased when the moire M is observed in the flat portion.
  • the processing intensity is set according to the result of the moire generation degree determination in step S141.
  • the greater the degree of moire M observed from the difference between the background area ARb of the captured video image vC and the area corresponding to the background area ARb in the captured region video vBC the higher the moire reduction processing strength is set.
  • the smaller the value the lower the moiré reduction processing strength is set.
  • moire reduction processing using machine learning may be performed.
  • learning data obtained by performing reduction processing by changing the type of BPF (passband) is prepared in advance, and learning of optimum moiré reduction processing according to various moiré patterns. generate the data.
  • step S150 a process of setting whether to use such a BPF for the moire pattern M in the current frame may be performed.
  • the rendering engine 520 executes moiré reduction processing with the processing intensity set for the background area ARb in step S143.
  • FIG. 19 is an example of setting the processing intensity for each frame and performing moire reduction processing.
  • the rendering engine 520 determines the degree of moire occurrence in step S141, and sets the processing intensity in accordance with the result of the degree of moire occurrence determination in step S150. After setting the processing intensity, the rendering engine 520 performs moiré reduction processing in step S143.
  • moire countermeasure processing examples such as those shown in FIGS. 17, 18, and 19 are conceivable as moire countermeasure processing. Although not shown, still other examples are possible. For example, for each frame, there may be an example in which moire reduction processing is performed by LPF processing or BPF processing with a specific cutoff frequency without determining the degree of moire occurrence.
  • Second Embodiment> An example of image correction processing for the background area ARb will be described as a second embodiment. Previously, it was described that the background image vB displayed on the LED wall 505 may be partially missing or noise may be generated in the captured image vC by capturing the background image vB. There are some examples.
  • the pixels of the LED panel 506 may be visible.
  • the 3D background data is incomplete at the time of imaging, there are cases where the background video vB has insufficient content and image quality and needs to be corrected after imaging.
  • the relationship between the driving speed of the LED panel 506 and the shutter speed of the camera 502 may cause defects in the image.
  • noise may occur due to quantization errors in the background image vB to be displayed or in image signal processing of the camera 502 . For example, in such cases, it is preferable to perform correction processing on the background area ARb.
  • FIG. 20 shows a processing example of the rendering engine 520. As shown in FIG. Similar to FIG. 16, FIG. 20 shows an example of processing executed for each frame of the shot video vC.
  • FIG. 20 shows a processing example of the rendering engine 520. As shown in FIG. Similar to FIG. 16, FIG. 20 shows an example of processing executed for each frame of the shot video vC.
  • the same step numbers are assigned to the same processes as in the flowcharts described above, and redundant detailed descriptions are avoided.
  • step S101 the rendering engine 520 acquires information necessary for one frame of the shot video vC, that is, the video Prgb, the video Pswir, and the shooting information. Then, in step S102, a mask MK of the current frame is generated, and in step S103, the background area ARb in the image Prgb is specified.
  • step S160 the rendering engine 520 performs image correction processing on the background area ARb. For example, processing for correcting loss, noise, etc. as described above is performed. For example, when the pixels of the LED panel 506 are visible, the background area ARb is blurred to make the pixels invisible. Also, when the content and image quality of the background video vB are insufficient, part or all of the background area ARb is replaced with a CG image. Also, if there is a missing LED in the LED wall 505 or if there is an area that does not emit light, the image of that area is replaced with a CG image.
  • the left side of FIG. 21 shows the original image, in which the color of the sky is gradation.
  • bounding may occur due to quantization error.
  • smoothing is performed to eliminate banding.
  • FIG. 22 is an example of defects. For example, when the characters "TOKYO" are displayed in the background image vB, they may appear partially missing as in the image below. In such a case, CG images are used to eliminate defects and correct them as shown in the image above.
  • the rendering engine 520 After performing the image correction processing as described above, the rendering engine 520 performs processing for recording the frame as a shot image vC (post-processing shot image vCR) in step S105 of FIG.
  • vC post-processing shot image vCR
  • FIG. 23 shows a processing example of the rendering engine 520. Similar to FIG. 16, FIG. 23 shows an example of processing executed for each frame of the shot video vC.
  • step S101 the rendering engine 520 acquires information necessary for one frame of the shot video vC, that is, the video Prgb, the video Pswir, and the shooting information. Then, in step S102, a mask MK for the current frame is generated. In step S103A, the background area ARb and the foreground area ARf in the image Prgb are each specified based on the mask MK.
  • step S104 moiré countermeasure processing is performed for the background area ARb as described with reference to FIG. 16 (and FIGS. 17, 18, and 19).
  • step S104 or in addition to step S104, the image correction processing (step S160) described with reference to FIG. 20 may be performed.
  • the rendering engine 520 performs subject determination in the foreground area ARf. For example, here, it is determined whether moire occurs in the image of the object. Specifically, it is determined whether or not moiré M is likely to occur from the clothes of the performer 510 or the like. If the foreground performer 510 wears striped or checkered clothes, moiré M is likely to occur. Therefore, it is determined whether or not the foreground area ARf of the captured image vC includes a striped pattern or a checkered pattern. It should be noted that the existence of a striped pattern may be checked not only for clothes.
  • step S171 the rendering engine 520 determines whether moire reduction processing is necessary based on the determination result in step S170. For example, when the clothes of the performer 510 or the like have a striped pattern or a checkered pattern, it is determined that the moiré reduction process is necessary.
  • the rendering engine 520 proceeds to step S172 and performs moiré reduction processing for the foreground area ARf.
  • LPF processing or BPF processing is performed in the range of the foreground area ARf to reduce moire.
  • the image Pswir of the SWIR camera 52 it is possible to distinguish between the skin area and the clothing area of the subject. This is because the skin is less reflective and the clothes are more reflective. Therefore, the clothing area may be determined from the image Pswir, and the moiré reduction process may be performed only on the clothing area.
  • the degree of occurrence of the moiré M is also determined for the foreground area ARf, and the processing intensity of the moiré reduction processing can be variably set. good.
  • step S171 If it is determined in step S171 that moiré reduction processing is unnecessary, for example, if no striped or checkered clothes are observed, the rendering engine 520 does not perform step S172.
  • step S180 the rendering engine 520 performs image correction processing for the foreground area ARf.
  • brightness adjustment and color adjustment of the foreground area can be considered.
  • automatic exposure control of the camera 502 is performed under the influence of the brightness of the background image vB displayed on the LED wall 505, and the brightness of the image of the object such as the performer 510 may become too high or too low. Therefore, the brightness of such a foreground area ARf is adjusted in accordance with the brightness of the background area ARb.
  • the background image vB displayed on the LED wall 505 makes the color of the image of the object such as the performer 510 unnatural, it is possible to adjust the color of the foreground area ARf.
  • step S105 the rendering engine 520 performs processing for recording the frame as a shot video vC (post-process shot video vCR).
  • the photographed video vC post-processed photographed video vCR
  • the moire M has been reduced in each of the background area ARb and the foreground area ARf and the necessary video processing has been performed is posted. It can be provided to production ST3.
  • the image processing of the foreground area ARf is performed in addition to the image processing of the background area ARb.
  • this is a processing example excluding step S104.
  • the rendering engine 520 performs the processing of FIG. 24 for each frame of the captured video vC during shooting.
  • the rendering engine 520 acquires information necessary for one frame of the shot video vC, that is, the video Prgb, the video Pswir, and the shooting information in step S101, and generates a mask MK for that frame in step S102.
  • step S110 the rendering engine 520 records the frame of the shot video vC (video Prgb) and the shooting information and mask MK as metadata associated with the frame on the recording medium.
  • step S110 the frame of the shot video vC (video Prgb), the shooting information about that frame, and the video Pswir of the same frame timing may be associated and recorded in the recording medium. This is because the mask MK can be generated at a later time by recording the image Pswir.
  • FIG. 25 shows an example of processing in post-production ST3.
  • the information processing device 70 that performs video processing at the stage of post-production ST3.
  • the information processing device 70 may be the rendering engine 520, or may be another information processing device.
  • step S201 the information processing apparatus 70 reads the video content to be processed from the recording medium, and acquires the video and metadata of each frame to be processed. If shooting environment information is recorded corresponding to the video content or the scene in the video content, it is also acquired. For example, it is information about the pixel pitch width of the LED panel 506 .
  • step S202 the information processing device 70 determines frames to be subjected to video processing.
  • the shooting information and shooting environment information of each frame as metadata, it is possible to determine in which frame of the video content to be processed, for example, it is highly likely that moire occurs.
  • the degree of occurrence of moire can be determined from the distance and angular relationship between the camera 502 and the LED wall 505 as described above. Further, by analyzing the image of each frame, it is possible to determine the position of the subject in the performance area 501 and determine the actual degree of moiré M occurrence.
  • the frequency of occurrence of moire is low.
  • the angle between the camera 502 and the LED wall 505 is steep, the pan-focus shooting is performed, and the pitch width of the LED panel 506 is wide, the frequency of occurrence of moire is high.
  • the degree of occurrence of moiré can be determined based on the distance and angle between the camera 502 and the LED wall 505, the pattern of the performer's 510 clothing, and the like.
  • step S202 the information processing device 70 determines the degree of occurrence of moire, and sets frames for which moire countermeasure processing is to be performed. Then, the information processing device 70 performs the processing from step S203 to step S207 for each set frame.
  • step S203 the information processing apparatus 70 identifies one of the frames for which the moire countermeasure processing is set as a processing target.
  • step S204 the information processing device 70 acquires the mask MK for the specified frame.
  • step S205 the information processing device 70 identifies the background area ARb of the frame using the mask MK.
  • step S206 the information processing device 70 performs moire countermeasure processing for the background area ARb. For example, the processes shown in FIGS. 17, 18, and 19 are performed.
  • step S207 the information processing device 70 records the processed video data that has undergone the moire countermeasure processing on the recording medium. For example, it is recorded as one frame of video content after editing.
  • step S208 the existence of an unprocessed frame is confirmed, and if it exists, the process returns to step S203 to specify one of the unprocessed frames as a processing target, and the processing of steps S204 to S207 is similarly performed.
  • the processing in FIG. 25 ends.
  • the background area ARb and the foreground area ARf can be distinguished from each other using the mask MK at the stage of post-production ST3, and moiré countermeasure processing can be performed.
  • image processing such as moiré reduction processing and image correction processing is performed on one or both of the background area ARb and the foreground area ARf substantially in real time during shooting.
  • These video processes may also be performed later in the post-production ST3.
  • the photographed image vC post-processed photographed image vCR
  • the photographed image vC is recorded in association with the photographing information, the mask MK, or the image Pswir. You can do image processing.
  • FIG. 26A is an example in which an LED wall 505 is provided in the performance area 501 including the floor.
  • LED walls 505 are provided on the rear surface, left side surface, right side surface, and floor surface.
  • FIG. 26B shows an example in which LED walls 505 are provided on the top surface, back surface, left side surface, right side surface, and floor surface so as to surround the performance area 501 like a box.
  • FIG. 26C is an example in which a cylindrical inner wall-shaped LED wall 505 is provided.
  • the LED wall 505 has been used as the display device, and the displayed display image has been the background image obtained by rendering the 3D background data.
  • the background area ARb as an example of the display image area and the foreground area ARf as an example of the object image area in the photographed image vC can be separated for image processing.
  • the technology of the present disclosure can be applied without being limited to such a background/foreground relationship.
  • FIG. 26D shows an example in which the display device 515 is arranged side by side with other subjects.
  • a remote performer is displayed on the display device 515 and photographed together with the performer actually in the studio.
  • the captured image includes both the display image and the object image.
  • the mask MK can be used to separate the display image area and the object image area, so the processing of the embodiment can be similarly applied.
  • the captured image includes the image of the display device and the image of the object that actually exists, these areas are distinguished and various image processing is performed.
  • the technology of the present disclosure can be applied in some cases.
  • the information processing apparatus 70 determines a display image area (for example, background area ARb) determined using a mask MK for a display image (for example, background image vB) of a display device and a photographed image vC obtained by photographing an object. or the image processing of the object image area (for example, the foreground area ARf) determined using the mask MK.
  • the mask MK is information for separating the display image and the object image in the captured image vC.
  • the display device is the LED wall 505, and the displayed image is the background image vB obtained by rendering 3D background data.
  • the photographed image vC is assumed to be an image obtained by photographing an object such as a performer 510 or an article against the backdrop of the LED wall 505 displaying the background image vB.
  • each frame of the photographed image vC includes a background area ARb in which the background image vB is projected and a foreground area in which an object such as a performer 510 or an object is projected. ARf will be included.
  • the background area ARb and the foreground area ARf have different effects on the image because the object being photographed is different in that the displayed image is different from the actual object. Therefore, the mask MK is used to divide the background area ARb and the foreground area ARf for each frame of the captured image vC, and image processing is performed individually for one or both of them. As a result, it is possible to individually deal with events on the image caused by the difference in the photographed object, and to correct the image. For example, artifacts occurring only in the background area ARb within the captured image vC can be eliminated. Therefore, it is possible to solve the problem of video produced as virtual production and to promote video production that makes the most of the advantages of virtual production.
  • the video processing unit 85 performs processing for reducing artifacts as the video processing of the background area ARb in the captured video vC (see FIG. 16).
  • Artifacts include moiré, which was exemplified in the first embodiment, as well as a variety of phenomena that require correction or reduction, such as noise on images and unintended changes in color and luminance.
  • the background area ARb can be corrected without affecting the foreground area ARf.
  • the image processing unit 85 performs moire reduction processing as image processing of the background area ARb in the captured image vC (see FIG. 16).
  • moire M may occur in the background area ARb of the photographed image vC. Therefore, the moiré reduction process is performed after specifying the background area ARb.
  • moire can be eliminated or reduced, and the foreground area ARf can be prevented from being affected by the moire reduction process. For example, even if moire is reduced in the background area ARb by LPF processing or the like, it is possible to maintain a high-definition image in the foreground area ARf without performing the LPF processing or the like.
  • the degree of moiré occurrence in the background area ARb is determined, and the moiré reduction process is performed according to the determination result (FIGS. 17 and 17). 18).
  • the moire reduction process is performed when the background area ARb has a level of moire M that requires the moire reduction process, so that the moire reduction process is performed when necessary. can do.
  • the processing intensity is set according to the determination result to perform moiré reduction processing. (See FIGS. 18 and 19).
  • the intensity of the moire reduction process for example, the intensity of blurring, according to the degree of the moire M occurring in the background area ARb, it is possible to effectively reduce the moire.
  • the captured image vC and the background image vB are compared to determine the degree of moiré occurrence (see step S141 in FIG. 17, etc.).
  • the frame as the background image vB displayed on the LED wall 505 and the frame of the captured image vC obtained by capturing the background image vB of the frame and obtaining the difference it is possible to determine the occurrence and degree of moire. can. Thereby, the intensity of moire reduction processing can be appropriately set.
  • the moire generation degree determination is performed based on the shooting information of the camera 502 at the time of shooting or the shooting environment information of the shooting facility (see step S141 in FIG. 17, etc.).
  • the pitch width of the LED panels 506 on the LED wall 505 acquired as the shooting environment information, and the information of the camera 502 at the time of shooting acquired as the shooting information such as the camera position at the time of shooting, the orientation of the camera, the angle of view, etc.
  • moiré It is possible to determine whether or not the state is likely to occur. That is, it is possible to estimate the occurrence and degree of moire. Thereby, the intensity of moire reduction processing can be appropriately set.
  • the image processing unit 85 performs image correction processing of the background area ARb as the image processing of the background area ARb in the captured image vC (see FIG. 20).
  • image loss may occur in the background area ARb of the photographed image vC, or bounding may occur due to quantization error.
  • the image quality of the background area ARb can be improved by performing image correction processing on the background area ARb.
  • the image processing unit 85 performs moire reduction processing as image processing of the foreground area ARf in the captured image vC (see FIG. 23).
  • a moiré pattern M may occur in the foreground area ARf of the captured image vC. Therefore, the moiré reduction process is performed after specifying the foreground area ARf. Thereby, moire can be eliminated or reduced, and the image quality of the foreground area ARf can be improved.
  • step S170 in FIG. 23 determination processing is performed on the clothing of the subject, and moiré reduction processing is performed according to the determination result (step S170 in FIG. 23). , S171 and S172).
  • Moiré M may occur in the foreground area ARf of the captured image vC, but the likelihood of occurrence of moiré M varies depending on the pattern of the clothes. Therefore, it is effective to determine the pattern of the clothes and determine whether or not to execute the moire reduction process or set the processing strength accordingly.
  • an example of image correction processing of the foreground area ARf is given (see step S180 in FIG. 23).
  • luminance processing and color processing are performed as image correction processing.
  • the subject may become dark or, conversely, become too bright. Therefore, correction processing of brightness and color is performed.
  • the background image vB can be corrected to have well-balanced luminance and color tone.
  • the video processing unit 85 performs video processing of the background area ARb or video processing of the foreground area ARf for each frame of the captured video vC during shooting.
  • the rendering engine 520 uses the mask MK to determine the background area ARb and the foreground area ARf for each frame of the captured video vC almost in real time while the camera 502 is shooting. perform video processing for The captured video vC recorded by this can be a video without moire and defects (processed captured video vCR). Therefore, a high-quality shot video vC can be obtained at the stage of production ST2.
  • the video processing unit 85 generates a mask MK for each frame of the captured video during shooting, and determines the background area ARb and the foreground area ARf in that frame. (See step S102 in FIGS. 16, 20 and 23).
  • the rendering engine 520 generates a mask MK using the video Pswir for each frame of the captured video vC while the camera 502 is shooting. This makes it possible to appropriately determine the background area ARb and the foreground area ARf for each frame.
  • the rendering engine 520 can use the mask MK transmitted from the camera 502. In that case, the mask MK does not have to be generated in step S102 of FIGS.
  • the image processing unit 85 reads each frame of the captured image vC from the recording medium, reads the mask MK recorded corresponding to each frame from the recording medium, and reads the frame of the captured image vC.
  • the image processing of the background area ARb or the image processing of the foreground area ARf is performed (see FIG. 25).
  • the mask MK is recorded as metadata in association with the shot video vC.
  • the captured image vC and the mask MK are read from the recording medium, and the mask MK is used to determine the background area ARb and the foreground area ARf for each frame of the captured image vC.
  • Perform video processing As a result, in the post-production ST3, it is possible to obtain a video (photographed video vCR after processing) without moire or defects.
  • the shooting information corresponding to each frame of the shot video vC is read from the recording medium, the frame to be subjected to video processing is determined based on the shooting information, and the frame determined to be subjected to video processing is An example of performing image processing on the background area ARb or image processing on the foreground area ARf has been given (see FIG. 25).
  • By reading shooting information from the recording medium it is possible to determine which frame is to be subjected to video processing. For example, it is possible to estimate in which frame the moire occurs from the shooting information, and to subject it to image processing. This makes it possible to efficiently perform image processing for the background area ARb and the foreground area ARf.
  • the mask MK is generated based on the image Pswir obtained by the SWIR camera 52 that captures the same image as the captured image.
  • an image captured by a SWIR camera that has high sensitivity in a wide wavelength band from the visible light region to the near-infrared region e.g., 400 nm to 1700 nm
  • the SWIR camera 52 is configured such that subject light is incident on the same optical axis as the RGB camera 51 for obtaining a display image (background image vB) and a photographed image vC of an object. (See FIGS. 14 and 15).
  • the RGB camera 51 that obtains the shot video vC and the SWIR camera 52 are arranged as coaxial cameras.
  • the SWIR camera 52 can also obtain an image having the same angle of view as the captured image vC. Therefore, the mask MK generated from the image of the SWIR camera 52 can match the image vC captured by the RGB camera 51, and can appropriately separate the background area ARb and the foreground area ARf.
  • the processing examples of the first, second, third and fourth embodiments can also be combined.
  • the rendering engine 520 and the information processing apparatus 70 used in the post-production ST3 can execute all or part of the processing examples of the first, second, third, and fourth embodiments in combination.
  • the processing examples of the first, second, third and fourth embodiments can also be implemented by cloud computing.
  • the functions of the rendering engine 520 and asset server 530 may be realized by the information processing device 70 as a cloud server.
  • the processing in the post-production ST3 as shown in FIG. 25 of the fourth embodiment may also be realized by the information processing device 70 as a cloud server.
  • the video processing unit 85 in the rendering engine 520 of FIG. 8 is given as an example of the video processing unit of the present technology. may be performed. Alternatively, the camera 502 or the like may have a video processing unit and perform the processing described in the embodiment.
  • the SWIR camera 52 is used to generate the mask MK.
  • a depth camera such as Kinect or LiDAR, or a ToF (Time of Flight) sensor can be used to measure the depth of the subject, and the mask MK can be generated by separating the distance difference between the subject and the background LED.
  • Kinect Kinect
  • LiDAR LiDAR
  • ToF Time of Flight
  • thermography camera can be used to separate a subject using a person's body temperature and generate a mask MK.
  • the program of the embodiment is a program that causes a processor such as a CPU or a DSP, or a device including these, to execute the processing of the video processing unit 85 described above. That is, the program according to the embodiment uses a mask MK that separates the display image (for example, background image vB) of the display device and the object image from the captured image to determine whether the object image is separated from the display image in the captured image vC.
  • This is a program for causing the information processing device 70 to perform image processing of the displayed image area (background area ARb) or image processing of the object image area (foreground area ARf) determined using the mask MK.
  • the information processing device 70 that can be used in the above-described production ST2 and post-production ST3 can be realized by various computer devices.
  • Such a program can be recorded in advance in a HDD as a recording medium built in equipment such as a computer device, or in a ROM or the like in a microcomputer having a CPU.
  • a program can be used on flexible discs, CD-ROMs (Compact Disc Read Only Memory), MO (Magneto Optical) discs, DVDs (Digital Versatile Discs), Blu-ray Discs (registered trademark), magnetic It can be temporarily or permanently stored (recorded) in a removable recording medium such as a disk, semiconductor memory, or memory card.
  • Such removable recording media can be provided as so-called package software.
  • it can also be downloaded from a download site via a network such as a LAN (Local Area Network) or the Internet.
  • LAN Local Area Network
  • Such a program is suitable for widely providing the information processing device 70 of the embodiment.
  • a program for example, by downloading a program to a personal computer, a communication device, a mobile terminal device such as a smartphone or a tablet, a mobile phone, a game device, a video device, a PDA (Personal Digital Assistant), etc., these devices can be used as the information processing device of the present disclosure. 70.
  • the present technology can also adopt the following configuration.
  • an image processing unit that performs image processing of a display image area determined using mask information for separating a display image and an object image in the captured image, or image processing of an object image area determined using the mask information;
  • Information processing equipment (2) the display image displayed on the display device is a background image obtained by rendering 3D background data;
  • the information processing apparatus according to (1), wherein the captured image is an image obtained by capturing an object against a background of a display device that displays the background image.
  • the video processing unit performs processing for reducing artifacts as the video processing of the display video area in the captured video.
  • the video processing unit generates the mask information for each frame of the captured video during shooting, and determines the display video area and the object video area in the frame.
  • the information processing device according to .
  • the video processing unit reads each frame of the captured video from the recording medium, reads mask information recorded corresponding to each frame from the recording medium, and displays the display video area for each frame of the captured video.
  • the information processing apparatus according to any one of (1) to (12) above, which performs video processing or video processing of the object video area.
  • the video processing unit reads shooting information corresponding to each frame of the shot video from a recording medium, determines a frame to be subject to video processing based on the shooting information, and displays the frame determined to be subject to video processing.
  • the information processing apparatus which performs video processing of a video area or video processing of the object video area.
  • the mask information is generated based on an image obtained by an infrared short-wavelength camera that captures the same image as the captured image.
  • the infrared short-wavelength camera is configured such that subject light is incident on the same optical axis as a camera that obtains the display image and the photographed image of the object.
  • the information processing device Image processing of a display image area determined using mask information for separating a display image and an object image in the captured image, or using the mask information, for a captured image obtained by capturing a display image of a display device and an object.
  • Video processing unit 500 Shooting system 501 Performance area 502, 502a, 502b Camera 503 Output monitor 505 LED wall 506 LED panel 520 Rendering engine 530 Asset server 540 Sync generator 550 Operation monitor 560 Camera tracker 570 LED processor 580 Light 581 Lighting controller 590 Display controller vB Background image vBC Shooting area image vC Photographed image vCR Photographed image after processing MK Mask ARb Background area ARf Foreground area

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Studio Devices (AREA)

Abstract

情報処理装置は、表示装置の表示映像とオブジェクトとを撮影した撮影映像に対して、前記撮影映像内の表示映像とオブジェクト映像を分離するマスク情報を用いて判定した表示映像エリアの映像処理、又はマスク情報を用いて判定したオブジェクト映像エリアの映像処理を行う映像処理部を備えるようにする。

Description

情報処理装置、映像処理方法、プログラム
 本技術は、情報処理装置、映像処理方法、プログラムとして実現される映像処理技術に関する。
 映画等の映像コンテンツの制作のための撮影手法として、いわゆるグリーンバックにより演者が演技を行い、後に背景映像を合成する技術が知られている。
 また近年はグリーンバック撮影に代わって、大型の表示装置を設置したスタジオにおいて、表示装置に背景映像を表示させ、その前で演者が演技を行うことで、演者と背景を撮影できる撮影システムも開発され、いわゆるバーチャルプロダクション(Virtual Production)、インカメラVFX(In-Camera VFX)、またはLEDウォールバーチャルプロダクション(LED Wall Virtual Production)として知られている
 下記特許文献1には、背景映像の前で演技する演者を撮影するシステムの技術が開示されている。
 また下記特許文献2には、大型の表示装置を撮影する場合にモアレを防止するためにフィルム状などの光学部材を配置する技術が開示されている。
米国特許出願公開第2020/0145644号明細書 特開2014-202816号公報
 大型の表示装置に背景映像を表示させたうえで、演者及び背景映像をカメラで撮影することで、別途合成する背景映像を用意しなくてもよいことや、演者やスタッフがシーンを視覚的に理解して演技や演技良否の判断をおこなうことができるなど、グリーンバック撮影に比べて利点が多い。ところが、表示させている背景映像をさらにカメラで撮影することで、その撮影映像には、背景映像部分にモアレなどの各種のアーティファクトが生ずる場合がある。即ち映像上に意図しない影響が発生することがある。
 そこで本開示では表示装置に表示された映像とオブジェクトを同時に撮影する場合に、撮影映像に生ずる影響に対応できるようにする映像処理技術を提案する。
 本技術に係る情報処理装置は、表示装置の表示映像とオブジェクトとを撮影した撮影映像に対して、前記撮影映像内の表示映像とオブジェクト映像を分離するマスク情報を用いて判定した表示映像エリアの映像処理、又は前記マスク情報を用いて判定したオブジェクト映像エリアの映像処理を行う映像処理部を備える。
 例えば撮影のときに背景映像などを表示装置に表示させ、その表示映像とともに人や物といった実在するオブジェクトを撮影した場合、撮影映像には、表示装置の表示映像とオブジェクトが映り込む。この撮影映像において、表示映像が映り込んだ表示映像エリアと、オブジェクトが映り込んだオブジェクト映像エリアとを、マスク情報を用いて区分して、個別に映像処理を行うようにする。
本技術の実施の形態の撮影システムの説明図である。 実施の形態の撮影システムのカメラ位置に応じた背景映像の説明図である。 実施の形態の撮影システムのカメラ位置に応じた背景映像の説明図である。 実施の形態の映像コンテンツ制作工程の説明図である。 実施の形態の撮影システムのブロック図である。 実施の形態の撮影システムの背景映像生成のフローチャートである。 実施の形態の複数カメラを用いた撮影システムのブロック図である。 実施の形態の情報処理装置のブロック図である。 背景映像を撮影した場合のモアレの説明図である。 実施の形態のマスクの説明図である。 実施の形態のマスクで判定される背景エリアと前景エリアの説明図である。 実施の形態の処理後撮影映像の説明図である。 SWIRカメラの説明図である。 実施の形態のカメラの説明図である。 実施の形態のカメラの他の例の説明図である。 第1の実施の形態の映像処理のフローチャートである。 実施の形態のモアレ対応処理のフローチャートである。 実施の形態のモアレ対応処理のフローチャートである。 実施の形態のモアレ対応処理のフローチャートである。 第2の実施の形態の映像処理のフローチャートである。 バウンディングの説明図である。 画像の欠損の説明図である。 第3の実施の形態の映像処理のフローチャートである。 第4の実施の形態の撮影時の処理のフローチャートである。 第4の実施の形態の撮影後の映像処理のフローチャートである。 実施の形態の背景映像の表示パネルの構成例の説明図である。
 以下、実施の形態を次の順序で説明する。
<1.撮影システム及びコンテンツ制作>
<2.情報処理装置の構成>
<3.バーチャルプロダクションに適用できる映像処理>
<4.第1の実施の形態>
<5.第2の実施の形態>
<6.第3の実施の形態>
<7.第4の実施の形態>
<8.背景映像の表示パネルの構成例>
<9.まとめ及び変型例>
 なお、本開示において「映像」或いは「画像」とは静止画、動画のいずれをも含む。また「映像」とはディスプレイに表示されている状態を指すだけでなく、ディスプレイに表示されていない状態の映像データについても「映像」と表記する。
<1.撮影システム及び映像コンテンツ制作>
 本開示の技術を適用できる撮影システム及び映像コンテンツの制作について説明する。
 図1は撮影システム500を模式的に示している。この撮影システム500はバーチャルプロダクションとしての撮影を行うシステムで、図では撮影スタジオに配置される機材の一部を示している。
 撮影スタジオにおいては演者510が演技その他のパフォーマンスを行うパフォーマンスエリア501が設けられる。このパフォーマンスエリア501の少なくとも背面、さらには左右側面や上面には、大型の表示装置が配置される。表示装置のデバイス種別は限定されないが、図では大型の表示装置の一例としてLEDウォール505を用いる例を示している。
 1つのLEDウォール505は、複数のLEDパネル506を縦横に連結して配置することで、大型のパネルを形成する。ここでいうLEDウォール505のサイズは特に限定されないが、演者510の撮影を行うときに背景を表示するサイズとして必要な大きさ、或いは十分な大きさであればよい。
 パフォーマンスエリア501の上方、或いは側方などの必要な位置に、必要な数のライト580が配置され、パフォーマンスエリア501に対して照明を行う。
 パフォーマンスエリア501の付近には、例えば映画その他の映像コンテンツの撮影のためのカメラ502が配置される。カメラ502は、カメラマン512が位置を移動させることができ、また撮影方向や、画角等の操作を行うことができる。もちろんリモート操作によってカメラ502の移動や画角操作等が行われるものも考えられる。またカメラ502が自動的もしくは自律的に移動や画角変更を行うものであってもよい。このためにカメラ502が雲台や移動体に搭載される場合もある。
 カメラ502によっては、パフォーマンスエリア501における演者510と、LEDウォール505に表示されている映像がまとめて撮影される。例えばLEDウォール505に背景映像vBとして風景が表示されることで、演者510が実際にその風景の場所に居て演技をしている場合と同様の映像を撮影できることになる。
 パフォーマンスエリア501の付近にはアウトプットモニタ503が配置される。このアウトプットモニタ503にはカメラ502で撮影されている映像がモニタ映像vMとしてリアルタイム表示される。これにより映像コンテンツの制作を行う監督やスタッフが、撮影されている映像を確認することができる。
 このように、撮影スタジオにおいてLEDウォール505を背景にした演者510のパフォーマンスを撮影する撮影システム500では、グリーンバック撮影に比較して各種の利点がある。
 例えば、グリーンバック撮影の場合、演者が背景やシーンの状況を想像しにくく、それが演技に影響するということがある。これに対して背景映像vBを表示させることで、演者510が演技しやすくなり、演技の質が向上する。また監督その他のスタッフにとっても、演者510の演技が、背景やシーンの状況とマッチしているか否かを判断しやすい。
 またグリーンバック撮影の場合よりも撮影後のポストプロダクションが効率化される。これは、いわゆるクロマキー合成が不要とすることができる場合や、色の補正や映り込みの合成が不要とすることができる場合があるためである。また、撮影時にクロマキー合成が必要とされた場合においても、背景用スクリーンを追加不要とされることも効率化の一助となっている。
 グリーンバック撮影の場合、演者の身体、衣装、物にグリーンの色合いが増してしまうため、その修正が必要となる。またグリーンバック撮影の場合、ガラス、鏡、スノードームなどの周囲の光景が映り込む物が存在する場合、その映り込みの画像を生成し、合成する必要があるが、これは手間のかかる作業となっている。
 これに対し、図1の撮影システム500で撮影する場合、グリーンの色合いが増すことはないため、その補正は不要である。また背景映像vBを表示させることで、ガラス等の実際の物品への映り込みも自然に得られて撮影されているため、映り込み映像の合成も不要である。
 ここで、背景映像vBについて図2、図3で説明する。背景映像vBを、LEDウォール505に表示させて、演者510とともに撮影を行うにしても、単純に背景映像vBを表示させるのみでは、撮影された映像は背景が不自然になる。実際には立体で奥行きもある背景を平面的に背景映像vBとしているためである。
 例えばカメラ502は、パフォーマンスエリア501の演者510に対して、多様な方向から撮影することができ、またズーム操作も行うことができる。演者510も一カ所に立ち止まっているわけではない。するとカメラ502の位置、撮影方向、画角などに応じて、演者510の背景の実際の見え方は変化するはずであるが、平面映像としての背景映像vBではそのような変化が得られない。そこで背景が、視差を含めて、実際の見え方と同様になるように背景映像vBを変化させる。
 図2はカメラ502が図の左側の位置から演者510を撮影している様子を示し、また図3はカメラ502が図の右側の位置から演者510を撮影している様子を示している。各図において、背景映像vB内に撮影領域映像vBCを示している。
 なお背景映像vBのうちで撮影領域映像vBCを除いた部分は「アウターフラスタム」と呼ばれ、撮影領域映像vBCは「インナーフラスタム」と呼ばれる。
 ここで説明している背景映像vBとは、撮影領域映像vBC(インナーフラスタム)を含んで背景として表示される映像全体を指す。
 この撮影領域映像vBC(インナーフラスタム)の範囲は、LEDウォール505の表示面内で、カメラ502によって実際に撮影される範囲に相当する。そして撮影領域映像vBCは、カメラ502の位置、撮影方向、画角等に応じて、実際にそのカメラ502の位置を視点としたときに見える光景を表現するように変形されたような映像となっている。
 具体的には、撮影領域映像vBCは、背景としての3D(three dimensions)モデルである3D背景データを用意し、その3D背景データに対して、リアルタイムで逐次、カメラ502の視点位置に基づいてレンダリングする。
 なお、実際には撮影領域映像vBCの範囲は、その時点でカメラ502によって撮影される範囲よりも少し広い範囲とされる。これはカメラ502のパン、チルトやズームなどにより撮影される範囲が若干変化したときに、描画遅延によってアウターフラスタムの映像が映り込んでしまうことを防止するためや、アウターフラスタムの映像からの回折光による影響を避けるためである。
 このようにリアルタイムでレンダリングされた撮影領域映像vBCの映像は、アウターフラスタムの映像と合成される。背景映像vBで用いられるアウターフラスタムの映像は、予め3D背景データに基づいてレンダリングしたものであるが、そのアウターフラスタムの映像の一部に、リアルタイムでレンダリングした撮影領域映像vBCとして映像を組み込むことで、全体の背景映像vBを生成している。
 これにより、カメラ502を前後左右に移動させたり、ズーム操作を行ったりしても、演者510とともに撮影される範囲の背景は、実際のカメラ502の移動に伴う視点位置変化に応じた映像として撮影されることになる。
 図2、図3に示すように、アウトプットモニタ503には、演者510と背景を含むモニタ映像vMが表示されるが、これが撮影された映像である。このモニタ映像vMにおける背景は、撮影領域映像vBCである。つまり撮影された映像に含まれる背景は、リアルタイムレンダリングされた映像となる。
 このように実施の形態の撮影システム500においては、単に背景映像vBを平面的に表示させるだけではなく、実際にロケを行った場合と同様の映像を撮影することができるように、撮影領域映像vBCを含む背景映像vBをリアルタイムに変化させるようにしている。
 なお、LEDウォール505に表示させた背景映像vBの全体ではなく、カメラ502によって映り込む範囲としての撮影領域映像vBCのみをリアルタイムにレンダリングすることで、システムの処理負担も軽減される。
 ここで、撮影システム500で撮影を行うバーチャルプロダクションとしての映像コンテンツの制作工程を説明しておく。図4に示すように、映像コンテンツ制作工程は3つの段階に大別される。アセットクリエイションST1、プロダクションST2、ポストプロダクションST3である。
 アセットクリエイションST1は、背景映像vBを表示するための3D背景データを制作する工程である。上述のように背景映像vBは、撮影の際に3D背景データを用いてリアルタイムでレンダリングを行って生成する。そのために予め3Dモデルとしての3D背景データを制作しておく。
 3D背景データの制作手法の例として、フルCG(Full Computer Graphics)、点群データ(Point Cloud)スキャン、フォトグラメトリ(Photogrammetry)という例がある。
 フルCGは、3Dモデルをコンピュータグラフィックスで制作する手法である。3つの手法の中で最も工数や時間を要する手法となるが、非現実的な映像や、実際には撮影が困難な映像などを背景映像vBとしたい場合に用いられることが好適となる。
 点群データスキャンは、ある位置から例えばライダー(LiDAR)を用いて距離測定を行うとともに、同じ位置からカメラで360度の画像を撮影し、ライダーで測距した点の上にカメラで撮影した色データを載せることで点群データによる3Dモデルを生成する手法である。フルCGに比較して、短い時間で3Dモデル制作ができる。またフォトグラメトリより高精細の3Dモデルを制作しやすい。
 フォトグラメトリは、物体を複数視点から撮影して得た2次元画像から、視差情報を解析して寸法・形状を求める写真測量の技術である。3Dモデル制作を短時間で行うことができる。
 なお、フォトグラメトリによる3Dデータ生成において、ライダーで取得した点群情報を用いても良い。
 アセットクリエイションST1では、例えばこれらの手法を用いて3D背景データとなる3Dモデルを制作する。もちろん上記手法を複合的に用いてもよい。例えば点群データスキャンやフォトグラメトリで制作した3Dモデルの一部をCGで制作し、合成するなどである。
 プロダクションST2は、図1に示したような撮影スタジオにおいて撮影を行う工程である。この場合の要素技術として、リアルタイムレンダリング、背景表示、カメラトラッキング、照明コントロールなどがある。
 リアルタイムレンダリングは、図2、図3で説明したように各時点(背景映像vBの各フレーム)で撮影領域映像vBCを得るためのレンダリング処理である。これはアセットクリエイションST1で制作した3D背景データに対して、各時点のカメラ502の位置等に応じた視点でレンダリングを行うものである。
 このようにリアルタイムレンダリングを行って撮影領域映像vBCを含む各フレームの背景映像vBを生成し、LEDウォール505に表示させる。
 カメラトラッキングは、カメラ502による撮影情報を得るために行われ、カメラ502の各時点の位置情報、撮影方向、画角などをトラッキングする。これらを含む撮影情報を各フレームに対応させてレンダリングエンジンに提供することで、カメラ502の視点位置等に応じたリアルタイムレンダリングが実行できる。
 撮影情報はメタデータとして映像と紐づけられたり対応づけられたりする情報である。
 撮影情報としては各フレームタイミングでのカメラ502の位置情報、カメラの向き、画角、焦点距離、F値(絞り値)、シャッタースピード、レンズ情報などを含むことが想定される。
 照明コントロールとは、撮影システム500における照明の状態をコントロールすることで、具体的にはライト580の光量、発光色、照明方向などの制御を行う。例えば撮影するシーンの時刻設定や場所の設定などに応じた照明コントロールが行われる。
 ポストプロダクションST3は、撮影後に行われる各種処理を示している。例えば映像の補正、映像の調整、クリップ編集、映像エフェクトなどが行われる。
 映像の補正としては、色域変換や、カメラや素材間の色合わせなどが行われる場合がある。
 映像の調整として色調整、輝度調整、コントラスト調整などが行われる場合がある。
 クリップ編集として、クリップのカット、順番の調整、時間長の調整などが行われる場合がある。
 映像エフェクトとして、CG映像や特殊効果映像の合成などが行われる場合がある。
 続いてプロダクションST2で用いられる撮影システム500の構成を説明する。
 図5は、図1、図2、図3で概要を説明した撮影システム500の構成を示すブロック図である。
 図5に示す撮影システム500は、上述した、複数のLEDパネル506によるLEDウォール505、カメラ502、アウトプットモニタ503、ライト580を備える。そしてさらに撮影システム500は、図5に示すように、レンダリングエンジン520、アセットサーバ530、シンクジェネレータ540、オペレーションモニタ550、カメラトラッカー560、LEDプロセッサ570、ライティングコントローラ581、ディスプレイコントローラ590を備える。
 LEDプロセッサ570は、各LEDパネル506に対応して設けられ、それぞれ対応するLEDパネル506の映像表示駆動を行う。
 シンクジェネレータ540は、LEDパネル506による表示映像のフレームタイミングと、カメラ502による撮像のフレームタイミングの同期をとるための同期信号を発生し、各LEDプロセッサ570及びカメラ502に供給する。但し、シンクジェネレータ540からの出力をレンダリングエンジン520に供給することを妨げるものではない。
 カメラトラッカー560は、各フレームタイミングでのカメラ502による撮影情報を生成し、レンダリングエンジン520に供給する。例えばカメラトラッカー560は撮影情報の1つとして、LEDウォール505の位置或いは所定の基準位置に対する相対的なカメラ502の位置情報や、カメラ502の撮影方向を検出し、これらをレンダリングエンジン520に供給する。
 カメラトラッカー560による具体的な検出手法としては、天井にランダムに反射板を配置して、それらに対してカメラ502側から照射された赤外光の反射光から位置を検出する方法がある。また検出手法としては、カメラ502の雲台やカメラ502の本体に搭載されたジャイロ情報や、カメラ502の撮影映像の画像認識によりカメラ502の自己位置推定する方法もある。
 またカメラ502からレンダリングエンジン520に対しては、撮影情報として画角、焦点距離、F値、シャッタースピード、レンズ情報などが供給される場合もある。
 アセットサーバ530は、アセットクリエイションST1で制作された3Dモデル、即ち3D背景データを記録媒体に格納し、必要に応じて3Dモデルを読み出すことができるサーバである。即ち3D背景データのDB(data Base)として機能する。
 レンダリングエンジン520は、LEDウォール505に表示させる背景映像vBを生成する処理を行う。このためレンダリングエンジン520は、アセットサーバ530から必要な3D背景データを読み出す。そしてレンダリングエンジン520は、3D背景データをあらかじめ指定された空間座標から眺めた形でレンダリングしたものとして背景映像vBで用いるアウターフラスタムの映像を生成する。
 またレンダリングエンジン520は、1フレーム毎の処理として、カメラトラッカー560やカメラ502から供給された撮影情報を用いて3D背景データに対する視点位置等を特定して撮影領域映像vBC(インナーフラスタム)のレンダリングを行う。
 さらにレンダリングエンジン520は、予め生成したアウターフラスタムに対し、フレーム毎にレンダリングした撮影領域映像vBCを合成して1フレームの映像データとしての背景映像vBを生成する。そしてレンダリングエンジン520は、生成した1フレームの映像データをディスプレイコントローラ590に送信する。
 ディスプレイコントローラ590は、1フレームの映像データを、各LEDパネル506で表示させる映像部分に分割した分割映像信号nDを生成し、各LEDパネル506に対して分割映像信号nDの伝送を行う。このときディスプレイコントローラ590は、表示部間の発色などの個体差/製造誤差などに応じたキャリブレーションを行っても良い。
 なお、ディスプレイコントローラ590を設けず、これらの処理をレンダリングエンジン520が行うようにしてもよい。つまりレンダリングエンジン520が分割映像信号nDを生成し、キャリブレーションを行い、各LEDパネル506に対して分割映像信号nDの伝送を行うようにしてもよい。
 各LEDプロセッサ570が、それぞれ受信した分割映像信号nDに基づいてLEDパネル506を駆動することで、LEDウォール505において全体の背景映像vBが表示される。その背景映像vBには、その時点のカメラ502の位置等に応じてレンダリングされた撮影領域映像vBCが含まれている。
 カメラ502は、このようにLEDウォール505に表示された背景映像vBを含めて演者510のパフォーマンスを撮影することができる。カメラ502の撮影によって得られた映像は、カメラ502の内部又は図示しない外部の記録装置において記録媒体に記録されるほか、リアルタイムでアウトプットモニタ503に供給され、モニタ映像vMとして表示される。
 オペレーションモニタ550では、レンダリングエンジン520の制御のためのオペレーション画像vOPが表示される。エンジニア511はオペレーション画像vOPを見ながら背景映像vBのレンダリングに関する必要な設定や操作を行うことができる。
 ライティングコントローラ581は、ライト580の発光強度、発光色、照射方向などを制御する。ライティングコントローラ581は、例えばレンダリングエンジン520とは非同期でライト580の制御を行うものとしてもよいし、或いは撮影情報やレンダリング処理と同期して制御を行うようにしてもよい。そのためレンダリングエンジン520或いは図示しないマスターコントローラ等からの指示によりライティングコントローラ581が発光制御を行うようにしてもよい。
 このような構成の撮影システム500におけるレンダリングエンジン520の処理例を図6に示す。
 レンダリングエンジン520は、ステップS10でアセットサーバ530から、今回使用する3D背景データを読み出し、内部のワークエリアに展開する。
 そしてアウターフラスタムとして用いる映像を生成する。
 その後レンダリングエンジン520は、ステップS20で、読み出した3D背景データに基づく背景映像vBの表示終了と判定するまで、ステップS30からステップS60の処理を、背景映像vBのフレームタイミング毎に繰り返す。
 ステップS30でレンダリングエンジン520は、カメラトラッカー560やカメラ502からの撮影情報を取得する。これにより、現フレームで反映させるカメラ502の位置や状態を確認する。
 ステップS40でレンダリングエンジン520は、撮影情報に基づいてレンダリングを行う。即ち現在のフレームに反映させるカメラ502の位置、撮影方向、或いは画角等に基づいて3D背景データに対する視点位置を特定してレンダリングを行う。このとき、焦点距離、F値、シャッタースピード、レンズ情報などを反映した映像処理を行うこともできる。このレンダリングによって撮影領域映像vBCとしての映像データを得ることができる。
 ステップS50でレンダリングエンジン520は、全体の背景映像であるアウターフラスタムと、カメラ502の視点位置を反映した映像、即ち撮影領域映像vBCを合成する処理を行う。例えばある特定の基準視点でレンダリングした背景全体の映像に対して、カメラ502の視点を反映して生成した映像を合成する処理である。これにより、LEDウォール505で表示される1フレームの背景映像vB、つまり撮影領域映像vBCを含む背景映像vBが生成される。
 ステップS60の処理は、レンダリングエンジン520又はディスプレイコントローラ590で行う。ステップS60でレンダリングエンジン520又はディスプレイコントローラ590は、1フレームの背景映像vBについて、個別のLEDパネル506に表示される映像に分割した分割映像信号nDを生成する。キャリブレーションを行う場合もある。そして各分割映像信号nDを各LEDプロセッサ570に送信する。
 以上の処理により、各フレームタイミングで、カメラ502で撮像される撮影領域映像vBCを含む背景映像vBがLEDウォール505に表示されることになる。
 ところで図5では1台のカメラ502のみを示したが、複数台のカメラ502で撮影を行うこともできる。図7は複数のカメラ502a,502bを使用する場合の構成例を示している。カメラ502a,502bは、それぞれ独立してパフォーマンスエリア501における撮影を行うことができるようにされる。また各カメラ502a,502b及び各LEDプロセッサ570は、シンクジェネレータ540により同期が維持される。
 カメラ502a,502bに対応して、アウトプットモニタ503a,503bが設けられ、それぞれ対応するカメラ502a,502bによって撮影された映像を、モニタ映像vMa,vMbとして表示するように構成される。
 またカメラ502a,502bに対応して、カメラトラッカー560a,560bが設けられ、それぞれ対応するカメラ502a,502bの位置や撮影方向を検出する。カメラ502a及びカメラトラッカー560aからの撮影情報や、カメラ502b及びカメラトラッカー560bからの撮影情報は、レンダリングエンジン520に送信される。
 レンダリングエンジン520は、カメラ502a側、或いはカメラ502b側のいずれか一方の撮影情報を用いて、各フレームの背景映像vBを得るためのレンダリングを行うことができる。
 なお図7では2台のカメラ502a、502bを用いる例を示したが、3台以上のカメラ502を用いて撮影を行うことも可能である。
 但し、複数のカメラ502を用いる場合、それぞれのカメラ502に対応する撮影領域映像vBCが干渉するという事情がある。例えば図7のように2台のカメラ502a、502bを用いる例では、カメラ502aに対応する撮影領域映像vBCを示しているが、カメラ502bの映像を用いる場合、カメラ502bに対応する撮影領域映像vBCも必要になる。単純に各カメラ502a、502bに対応するそれぞれの撮影領域映像vBCを表示させると、それらが互いに干渉する。このため撮影領域映像vBCの表示に関する工夫が必要とされる。
<2.情報処理装置の構成>
 次に、アセットクリエイションST1、プロダクションST2、ポストプロダクションST3で用いることができる情報処理装置70の構成例を図8で説明する。
 情報処理装置70は、コンピュータ機器など、情報処理、特に映像処理が可能な機器である。この情報処理装置70としては、具体的には、パーソナルコンピュータ、ワークステーション、スマートフォンやタブレット等の携帯端末装置、ビデオ編集装置等が想定される。また情報処理装置70は、クラウドコンピューティングにおけるサーバ装置や演算装置として構成されるコンピュータ装置であってもよい。
 本実施の形態の場合、具体的には情報処理装置70は、アセットクリエイションST1において3Dモデルを制作する3Dモデル制作装置として機能できる。
 また情報処理装置70は、プロダクションST2で用いる撮影システム500を構成するレンダリングエンジン520として機能できる。さらに情報処理装置70はアセットサーバ530としても機能できる。
 また情報処理装置70は、ポストプロダクションST3における各種映像処理を行う映像編集装置としても機能できる。
 図8に示す情報処理装置70のCPU71は、ROM72や例えばEEP-ROM(Electrically Erasable Programmable Read-Only Memory)などの不揮発性メモリ部74に記憶されているプログラム、または記憶部79からRAM73にロードされたプログラムに従って各種の処理を実行する。RAM73にはまた、CPU71が各種の処理を実行する上において必要なデータなども適宜記憶される。
 映像処理部85は各種の映像処理を行うプロセッサとして構成される。例えば3Dモデル生成処理、レンダリング、DB処理、映像編集処理などのいずれか、或いは複数の処理を行うことができるプロセッサとされる。
 この映像処理部85は例えば、CPU71とは別体のCPU、GPU(Graphics Processing Unit)、GPGPU(General-purpose computing on graphics processing units)、AI(artificial intelligence)プロセッサ等により実現できる。
 なお映像処理部85はCPU71内の機能として設けられてもよい。
 CPU71、ROM72、RAM73、不揮発性メモリ部74、映像処理部85は、バス83を介して相互に接続されている。このバス83にはまた、入出力インタフェース75も接続されている。
 入出力インタフェース75には、操作子や操作デバイスよりなる入力部76が接続される。例えば入力部76としては、キーボード、マウス、キー、ダイヤル、タッチパネル、タッチパッド、リモートコントローラ等の各種の操作子や操作デバイスが想定される。
 入力部76によりユーザの操作が検知され、入力された操作に応じた信号はCPU71によって解釈される。
 入力部76としてはマイクロフォンも想定される。ユーザの発する音声を操作情報として入力することもできる。
 また入出力インタフェース75には、LCD(Liquid Crystal Display)或いは有機EL( electro-luminescence)パネルなどよりなる表示部77や、スピーカなどよりなる音声出力部78が一体又は別体として接続される。
 表示部77は各種表示を行う表示部であり、例えば情報処理装置70の筐体に設けられるディスプレイデバイスや、情報処理装置70に接続される別体のディスプレイデバイス等により構成される。
 表示部77は、CPU71の指示に基づいて表示画面上に各種の画像、操作メニュー、アイコン、メッセージ等、即ちGUI(Graphical User Interface)としての表示を行う。
 入出力インタフェース75には、HDD(Hard Disk Drive)や固体メモリなどより構成される記憶部79や通信部80が接続される場合もある。
 記憶部79は、各種のデータやプログラムを記憶することができる。記憶部79においてDBを構成することもできる。
 例えば情報処理装置70がアセットサーバ530として機能する場合、記憶部79を利用して3D背景データ群を格納するDBを構築できる。
 通信部80は、インターネット等の伝送路を介しての通信処理や、外部のDB、編集装置、情報処理装置等の各種機器との有線/無線通信、バス通信などによる通信を行う。
 例えば情報処理装置70がレンダリングエンジン520として機能する場合、通信部80によりアセットサーバ530としてのDBにアクセスしたり、カメラ502やカメラトラッカー560からの撮影情報を受信したりすることができる。
 またポストプロダクションST3に用いる情報処理装置70の場合も、通信部80によりアセットサーバ530としてのDBにアクセスすることなども可能である。
 入出力インタフェース75にはまた、必要に応じてドライブ81が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブル記録媒体82が適宜装着される。
 ドライブ81により、リムーバブル記録媒体82からは映像データや、各種のコンピュータプログラムなどを読み出すことができる。読み出されたデータは記憶部79に記憶されたり、データに含まれる映像や音声が表示部77や音声出力部78で出力されたりする。またリムーバブル記録媒体82から読み出されたコンピュータプログラム等は必要に応じて記憶部79にインストールされる。
 この情報処理装置70では、例えば本実施の形態の処理のためのソフトウェアを、通信部80によるネットワーク通信やリムーバブル記録媒体82を介してインストールすることができる。或いは当該ソフトウェアは予めROM72や記憶部79等に記憶されていてもよい。
<3.バーチャルプロダクションに適用できる映像処理>
 バーチャルプロダクションに適用できる本実施の形態の映像処理について説明する。
 上述のバーチャルプロダクションによる撮影システム500によりカメラ502で撮影された映像を「撮影映像vC」と表記する。通常、撮影映像vCの映像に含まれる被写体の範囲はモニタ映像vMと同様となる。
 そして撮影映像vCは、カメラ502により演者510等のオブジェクトとLEDウォール505の背景映像vBを撮影したものである。
 実施の形態の映像処理は、基本的には、撮影映像vCについて、マスク情報(後述の図10のマスクMK)を用いて背景エリアARbと前景エリアARf(図11で後述)を分離する。そして背景エリアARbについての映像処理、或いは前景エリアARfについての映像処理を行うものである。
 背景エリアARbとは、撮影映像vC内で、背景映像vBが映っている映像内領域のことである。上述の説明から理解されるように、実際には背景映像vBのうちの撮影領域映像vBCが撮影映像vCに映り込んでいる。
 前景エリアARfとは、撮影映像vC内で、前景となるオブジェクトが映っている映像内領域のことである。例えば演者510としての人物や、物品など、実際に存在する被写体が映されている領域である。
 撮影映像vC内で、この背景エリアARbと前景エリアARfを明確に分離し、個別に映像処理を行うようにする。
 映像処理としては、具体的には、例えばモアレ低減処理や、映像修正処理などがある。
 まずこの事情について述べる。上述のようにLEDウォール505を背景にして撮影を行うこととすると次のような状況が想定される。
・LEDウォール505に表示された背景映像vBを撮影することで撮影映像vCにモアレが発生してしまう場合がある。
・LEDウォール505に表示された背景映像vBを撮影することで撮影映像vCに背景の一部の欠損やノイズが発生してしまう場合がある。その場合、例えば撮影後にCG画像をはめ込むなどの修正を行う必要が生ずる。
 モアレの発生について述べる。図9は、撮影映像vCにモアレ(干渉縞)Mが発生した状態を模式的に示している。
 このようなモアレMの発生は、例えばLEDウォール505にモアレ除去フィルタを貼って回避することができるが、コスト的に高額となる。より簡易には、若干デフォーカス状態として撮影して映像をぼかすことや、撮影後に撮影映像vCに映像をぼかす処理を行うことで、モアレMを低減(軽減又は除去)させることができる。
 ところがそのようにすると、演者510等の実在のオブジェクトまでぼけた映像となってしまうため常に適用できる手法ではない。
 例えばこのような場合にも対応できるように、本実施の形態では、撮影映像vCについて、背景エリアARbと前景エリアARfを分離して処理できるようにする。
 例えば図9のような撮影映像vCの1フレームについて、図10のようなマスクMKを生成する。これは撮影映像vCの1フレーム内において、撮影されたオブジェクトの領域とLEDウォール505の映像の領域とを分離する情報となる。
 この図9に示すフレームについて、図10に示すマスクMKを適用することで、図11に示すように背景エリアARbと前景エリアARfをそれぞれ判定できることになる。この図11では説明上、背景エリアARbと前景エリアARfの境界を太破線で示した。
 例えばこのように背景エリアARbを特定したら、背景エリアARbにのみ例えばLPF(ローパスフィルタ)処理などとしてモアレ低減処理を行う。
 すると図12のようにモアレMが図12のように除去(又は軽減)された処理後撮影映像vCRを得ることができる。この場合、前景エリアARfにはモアレ低減処理の影響は生じない。
 以上はモアレ低減の例であるが、例えば背景エリアARbのみの修正、編集を行いたい場合、前景エリアARfのモアレを低減したい場合、前景エリアARfの修正、編集を行いたい場合などもある。それらのような場合も、マスクMKを用いて背景エリアARbと前景エリアARfを分離できるようにすることで、前景エリアARfのみ、或いは背景エリアARbのみの映像処理が可能となる。
 ここでマスクMKの生成のための構成例を述べる。
 本実施の形態では、マスクMKの生成のために、SWIR(Short Wavelength Infra-Red)カメラ(赤外線短波長カメラ)を用いる。SWIRカメラを用いることによって、光源変化の激しいLEDウォール505の映像と前景となる被写体の映像の分離ができる。
 図13Aに、RGBカメラ、SWIRカメラ、IRカメラ(赤外光カメラ)のそれぞれについて撮影できる波長帯を示している、
 RGBカメラは例えば380nmから780nmの波長帯で可視光を撮影するカメラである。通常、撮影映像vCを得るためのカメラ502としてはRGBカメラが用いられる。
 IRカメラは800nmから900nmの近赤外光を撮影するカメラである。
 SWIRカメラとしては例えば次の(a)(b)(c)のような種類がある。
(a)900nmから2500nmの波長帯域を撮影できるカメラ
(b)900nmから1700nmの波長帯域を撮影できるカメラ
(c)1150nm付近(前後許容誤差あり)の波長帯域を撮影できるカメラ
 これらは一例であるが、例えばSWIRカメラは、IRカメラより広い波長帯域をカバーするもので、例えば400nmから1700nmなどの波長帯域で撮影を行うことができるカメラが市販されている。図13Bに市販のSWIRカメラの波長毎の量子効率を示した。図示のとおり、400nmから1700nmの範囲で高い量子効率を実現している。すなわち上記(b)や(c)の波長帯域をカバーできているため図13Bのような特性のSWIRカメラであれば適用可能である。
 撮影システム500では、例えばライト580の一部を用いて、演者510等のオブジェクトに対して赤外線を照射し、SWIRカメラで撮影する。近赤外線帯では、LEDウォール505の映像は反射せずに黒映像となり、演者510等は赤外光を反射してある程度の輝度が観測される。従ってSWIRカメラの撮影映像においてフレーム内の輝度差分を判定することで、オブジェクトのみを高精度で抽出するマスクMKを生成できる。
 なお、IRカメラでも演者510等に反射した赤外光を観測できるが、IRカメラの場合、人物の髪の毛をシルエットとして検出することが難しい。一方でSWIRカメラの場合は、髪の毛も含めて人物の範囲を適切に検出することができる。
 髪の毛は肌に比べて反射しづらいが、髪の毛の領域の検出のためには高い波長帯をカバーできることが有効である。例えば上記(c)のように1150nm付近を撮影できるカメラであれば、人の髪の毛の反射率と肌の反射率が同等となる。
 但し、髪の毛の反射率は男女や人種(黒髪・ブロンド髪等)でも異なるし、毛染めの有り無しでも変わるが、例えば図13Bのような特性のSWIRカメラであれば、850nmから1700nmの波長帯域を積分して撮影することで、肌と髪の明るさが同等になり、頭部の範囲を明確に判定できるようになる。
 このようなSWIRカメラを利用するために、例えばカメラ502を図14のように構成する。
 1台のカメラ502としてのユニット内に、RGBカメラ51とSWIRカメラ52を配置する。そしてビームスプリッタ50により入射光を分離し、それぞれ同一の光軸の状態で入射光がRGBカメラ51とSWIRカメラ52に入射されるようにする。
 RGBカメラ51からは撮影映像vCとして用いられる映像Prgbが出力される。SWIRカメラ52からは、マスクMKの生成のための映像Pswirが出力される。
 このようにカメラ502を、RGBカメラ51とSWIRカメラ52を備えた同軸カメラとして構成することで、RGBカメラ51とSWIRカメラ52は、視差が発生せず、映像Prgbと映像Pswirは、互いに同一のタイミング及び同一の画角、視野範囲の映像となるようにすることができる。
 光軸が一致するように予めカメラ502としてのユニット内で機械的な位置調整とともにキャリブレーション用の映像を用いた光軸位置合わせが行われる。例えばキャリブレーション用の映像を撮影し、特徴点を検出して位置合わせを行う処理を事前に行うようにする。
 なお高精細な映像コンテンツ制作のためにRGBカメラ51は高解像度のカメラを用いる場合でも、SWIRカメラ52も同様に高解像度とする必要はない。SWIRカメラ52は撮影範囲がRGBカメラ51と一致する映像を抽出できるものであればよい。従ってセンササイズや画サイズはRGBカメラ51と一致するものに限定されない。
 また撮影時に、RGBカメラ51とSWIRカメラ52は、フレームタイミングの同期がとられるようにする。
 またRGBカメラ51のズーム操作に応じて、SWIRカメラ52もズームが行われたり画像の切り出し範囲が調整されたりするようにするとよい。
 なおSWIRカメラ52とRGBカメラ51はステレオ配置でも構わない。被写体が奥行方向に移動しない場合は、視差は問題にならないためである。
 またSWIRカメラ52は複数台でも構わない。
 例えば撮影システム500におけるカメラ502として図14のような構成を用いる場合は、映像Prgb、映像Pswirがレンダリングエンジン520に供給される。
 図8の構成のレンダリングエンジン520は、映像処理部85で映像Pswirを用いてマスクMKの生成を行う。またレンダリングエンジン520は、映像Prgbを撮影映像vCとして用いるが、映像処理部85で、映像Prgbの各フレームについて、マスクMKを用いて背景エリアARbと前景エリアARfを分離し、必要な映像処理を行ったうえで、処理後撮影映像vCRを、記録媒体に記録させることができる。例えば撮影映像vC(処理後撮影映像vCR)を記憶部79に記憶する。或いはアセットサーバ530その他の外部装置に転送して記録させることができる。
 図15はカメラ502としての他の構成例を示している。
 この場合、図14の構成に加えて、カメラ502としてのユニット内にマスク生成部53を備えるようにしている。マスク生成部53は、例えば映像処理プロセッサで構成できる。マスク生成部53はSWIRカメラ52からの映像Pswirを入力してマスクMKの生成を行う。なおマスクMKの生成の際に映像Pswirからの切り出し範囲を調整する場合は、マスク生成部53は、RGBカメラ51からの映像Prgbも入力して参照することになる。
 このカメラ502からは、映像PrgbとマスクMKがレンダリングエンジン520に供給される。その場合レンダリングエンジン520は、マスクMKを取得して、映像Prgbの各フレームについて、マスクMKを用いて背景エリアARbと前景エリアARfを分離することができる。
 なお図示していないが、図14,図15の構成の場合でも、上述したように撮影情報の一部がカメラ502からレンダリングエンジン520に供給される。
 例えば撮影情報としての画角、焦点距離、F値(絞り値)、シャッタースピード、レンズ情報、カメラの向きなどは、RGBカメラ51に関する情報として、カメラ502からレンダリングエンジン520に供給される。またカメラトラッカー560で検出されカメラ502の位置情報やカメラの向きなども、撮影情報としてレンダリングエンジン520に供給される。
<4.第1の実施の形態>
 以下、具体的な処理例を説明していく。第1の実施の形態として、撮影時にレンダリングエンジン520が撮影映像vCについて背景エリアARbのモアレ低減処理を行う例を挙げる。カメラ502としては図14の構成を想定する。
 図16はレンダリングエンジン520が撮影映像vCのフレーム毎に行う映像処理を示している。
 上述の図6のようにレンダリングエンジン520は、LEDウォール505に表示する背景映像vBの生成のために、フレーム毎に撮影領域映像vBCのレンダリングを行っている。それと並行してレンダリングエンジン520は、カメラ502で撮影された撮影映像vCのフレーム毎に図16の処理を行う。
 ステップS101でレンダリングエンジン520は、映像取得を行う。つまりカメラ502から送信されてくる1フレームの撮影映像vCを処理対象とする。
 具体的にはレンダリングエンジン520は、カメラ502から送信されてくる1フレームの映像Prgb、映像Pswirを処理対象とすることになる。同時にレンダリングエンジン520は、当該フレームに対応してカメラ502やカメラトラッカー560から送信されてくる撮影情報も取得する。
 ステップS102でレンダリングエンジン520は、今回のフレームに適用するマスクMKを生成する。即ちレンダリングエンジン520は上述のように映像Pswirを用いてマスクMKの生成を行う。
 ステップS103でレンダリングエンジン520は、ステップS102で生成したマスクMKを用いて、今回取得したフレームの撮影映像vC、つまり映像Prgbについての背景エリアARbを特定する。
 ステップS104でレンダリングエンジン520は、背景エリアARbについてモアレ対応処理を行う。モアレ対応処理の例を図17に示す。
 レンダリングエンジン520は、ステップS141でモアレ発生度合判定を行う。
 モアレ発生度合判定の処理としては、実際にどの程度のモアレMが発生しているかを測定する処理や、どの程度のモアレが発生しているかを推定する処理が考えられる。
 またモアレMの度合とは、面積的な度合や、強度(モアレとして現れる干渉縞模様の明瞭さ(輝度差))がある。
 まず実際に発生しているモアレMの度合を測定する処理例としては次の手法がある。
 処理対象の撮影映像vC、つまりRGBカメラからの映像Prgbに対して、そのフレームを撮影したタイミングの背景映像vBを取得する。なお、このためにレンダリングエンジン520は、フレーム毎に図6の処理で生成する背景映像vB、少なくとも撮影領域映像vBC(インナーフラスタムの映像)を、記録媒体に記録しておき、後に参照できるようにしておく。
 撮影映像vCにおいて、背景エリアARbは特定されている。また参照した撮影領域映像vBCは、LEDウォール505に供給した映像信号である。従って撮影映像vCの背景エリアARbと、その撮影領域映像vBCにおける背景エリアARbについて、特徴点のマッチングを行って映像内容の領域を一致させたうえで、その領域内で対応する画素の値の差分をとっていき、差分値を或る閾値で二値化する。すると、モアレMやその他のノイズ等がなければ、二値化した値は全ての画素で一定となる。
 換言すれば、撮影映像vCにモアレMやノイズ等が生じていると、二値化した値として繰り返しのパターンが観測され、それはモアレMと判定できる。その干渉縞が現れる範囲や、干渉縞内の輝度差(二値化前の差分値の差)によりモアレMの度合が判定できる。
 モアレMの度合を推定する手法としては、つぎのような例がある。
 まず撮影環境情報を取得して、撮影に先立ってモアレMの発生度合を推定する手法がある。撮影環境情報とは、撮影システム500における固定的な情報である。ここでの「固定的」とは撮影映像vCのフレーム毎に変化しない情報という意味である。
 例えば撮影環境情報として、LEDパネル506の画素のピッチ幅を取得しておくことで、モアレMの発生度合を推定できる。ピッチ幅が広いほどモアレMの発生頻度が高くなるため、ピッチ幅の値で、モアレMがどの程度発生するかが推定できる。
 なお、このような撮影環境情報によるモアレMの発生度合の判定は、撮影の開始前に初期的に行っておき、フレーム毎に行うステップS141では、その判定結果を参照するのみでよい。またライト580の種別、撮影時の発光状態、LEDウォール505に表示させる背景映像vBを生成する3D背景データなどの他の固定的な情報を撮影環境情報として取得し、モアレMを発生させやすい撮影環境であるか否かを予め判定してもよい。
 またフレーム毎に対応する撮影情報を用いてフレーム毎にモアレMの発生度合を推定する手法がある。
 撮影情報におけるカメラ502の位置情報から、LEDウォール505とカメラ502の距離を求めることで、モアレMの発生度合を推定できる。距離が近くなるほどモアレMの発生頻度が高くなるためである。従って距離の値に応じてモアレMの度合を推定できる。
 また撮影情報におけるカメラ502の向きの情報から、カメラ502のLEDウォール505に対する角度を求めることで、モアレMの発生度合を推定できる。例えばLEDウォール505に対して正面に正対して撮影する場合よりも、LEDウォール505を上方から見て撮影する場合、下方から見上げるように撮影する場合、左又は右から角度をつけて撮影した場合などは、モアレMが発生しやすい。特にLEDウォール505とカメラ502の角度が急峻になるほどモアレ発生頻度が高くなる。従って、カメラ502のLEDウォール505に対する角度を求めたら、その角度の値によってモアレMの発生度合を推定できることになる。
 図17のステップS141で以上のような処理のいずれか、或いは複数でモアレ発生度合を判定したら、レンダリングエンジン520はステップS142でモアレ低減処理が必要か否かを判定する。
 モアレMが発生していない、或いは発生していないと同等程度と判定できる場合は、今回のフレームについては、モアレ低減処理は行わないとし、ステップS142から図17のモアレ対応処理を終える。
 一方、モアレMの発生、又はある度合以上のモアレMの発生と判定された場合は、レンダリングエンジン520はステップS142からステップS143に進んで、背景エリアARbについてモアレ低減処理を実行する。
 即ち背景エリアARbに対して或るカットオフ周波数でLPF処理又はBPF(バンドパスフィルタ)処理を行うことで、縞状になっている部分を平滑化し(ぼかし)、モアレMを軽減又は解消する。これにより図17のモアレ対応処理を終える。
 図16のステップS104として以上の図17のようなモアレ対応処理を終えたら、レンダリングエンジン520はステップS105で映像記録を行う。
 即ち背景エリアARbにモアレ低減処理を施したフレームについては、処理後撮影映像vCRを、又はモアレ低減処理は不要として行わなかった場合は元の撮影映像vCを、撮影により得たフレームデータとして記録媒体に記録させる。
 レンダリングエンジン520が以上の処理を撮影映像vCのフレーム毎に行うことで、プロダクションST2としての撮影の際に、必要に応じてモアレ低減処理が施された映像コンテンツが記録されることになる。
 図6のステップS104のモアレ対応処理の他の例を図18,図19に示す。
 図18の例では、レンダリングエンジン520は、まずステップS141でモアレ発生度合判定を行い、ステップS142でモアレ低減処理が必要か否かを判定する。ここまでは図17と同様である。
 図18の例の場合、モアレ低減処理を行う場合、レンダリングエンジン520はステップS150でモアレ低減処理の処理強度の設定を行う。
 これは、発生しているモアレの度合が大きければ処理強度を高くし、モアレの度合が小さければ処理強度を弱めるような設定である。
 例えばLPF処理のカットオフ周波数を変更してぼかし具合の強度を設定する。
 またフレーム内の映像のエッジ検出を行うことで、映像の平坦部の検出が可能であるため、平坦部でモアレMが観測される場合は、処理強度を高めると言ったことも考えられる。
 具体的には、ステップS141のモアレ発生度合判定の結果に応じて処理強度を設定する。例えば撮影映像vCの背景エリアARbと、その撮影領域映像vBCにおける背景エリアARbに相当する領域の差分から観測されるモアレMの度合が大きいほどモアレ低減処理強度を高く設定し、モアレMの度合が小さいほどモアレ低減処理強度を低く設定する。
 また例えばLEDパネル506のピッチ幅が広いほどモアレ低減処理強度を高く設定し、ピッチ幅が狭いほどモアレ低減処理強度を低く設定する。
 また例えば、LEDウォール505とカメラ502の距離が近いほどモアレ低減処理強度を高く設定し、遠いほど低く設定する。
 また例えば、LEDウォール505とカメラ502の角度が急峻になるほどモアレ低減処理強度を高く設定し、90度(直交の位置関係)に近いほど低く設定する。
 また機械学習を用いたモアレ低減処理を行うようにしてもよい。
 例えば各種のモアレのパターンや強度に応じて、BPFの種類(通過帯域)を変えて低減処理を行った学習データを予め用意し、各種のモアレMのパターンに応じて最適なモアレ低減処理の学習データを生成しておく。そしてステップS150では、今回のフレームにおけるモアレMのパターンについて、そのようなBPFを用いるかを設定する処理としてもよい。
 ステップS150で処理強度の設定をおこなったら、レンダリングエンジン520はステップS143で背景エリアARbについて設定した処理強度でモアレ低減処理を実行する。
 次に図19の例は、各フレームについて処理強度を設定してモアレ低減処理を行う例である。
 レンダリングエンジン520はステップS141でモアレ発生度合判定を行い、ステップS150でモアレ発生度合判定の結果に応じて処理強度の設定を行う。そして処理強度を設定したらレンダリングエンジン520はステップS143でモアレ低減処理を行う。
 以上のようにモアレ対応処理としては、図17、図18、図19のような例が考えられる。図示しないが、さらに他の例も考えられる。例えば各フレームについて、モアレ発生度合判定を行わずに、特定のカットオフ周波数のLPF処理又はBPF処理でモアレ低減処理が行われるような例も考えられる。
<5.第2の実施の形態>
 第2の実施の形態として背景エリアARbの映像修正処理を行う例を説明する。
 先に、LEDウォール505に表示された背景映像vBを撮影することで撮影映像vCに背景の一部の欠損やノイズが発生してしまう場合があると述べたが、具体的には次のような事例がある。
 例えば被写体とLEDウォール505が近く、被写体をズーム撮影した際に、LEDパネル506のピクセルが見えてしまう場合がある。
 また例えば撮像時に3D背景データが未完成であった場合など、背景映像vBの内容や画質が不十分で、撮影後に修正が必要な場合がある。
 またLEDウォール505におけるLEDが欠損していた場合や、発光していない領域があった場合に、その領域の映像が欠損する。
 またLEDパネル506の駆動速度とカメラ502のシャッタースピードの関係で映像に欠損が生ずることがある。
 また表示される背景映像vBやカメラ502の撮像信号処理の際の量子化誤差に起因するノイズが生ずる場合がある。
 例えばこれらのような場合に、背景エリアARbについて修正処理を行うことが好適となる。
 図20にレンダリングエンジン520の処理例を示す。図16と同様に図20は、撮影映像vCの1フレーム毎に実行する処理例である。
 なお、以下のフローチャートにおいて既述のフローチャートと同一の処理については同一のステップ番号を付し、重複した詳細な説明は避ける。
 レンダリングエンジン520は、ステップS101で撮影映像vCの1フレームについて必要な情報、即ち映像Prgb、映像Pswir、撮影情報を取得する。
 そしてステップS102で今回のフレームのマスクMKを生成し、ステップS103で映像Prgbにおける背景エリアARbを特定する。
 ステップS160でレンダリングエンジン520は、背景エリアARbについて映像修正処理を行う。例えば上述いたような欠損やノイズ等を修正する処理を行う。
 例えばLEDパネル506のピクセルが見えてしまうような場合に、背景エリアARbをぼかしてピクセルが見えないようにする。
 また背景映像vBの内容や画質が不十分であったときに、背景エリアARbの一部又は全部をCG画像に差し替える。
 またLEDウォール505におけるLEDが欠損していた場合や、発光していない領域があった場合に、その領域の映像をCG画像に差し替える。
 またLEDパネル506の駆動速度とカメラ502のシャッタースピードの関係で映像に欠損が生じた場合に、その領域の映像をCG画像に差し替える。
 また表示される背景映像vBやカメラ502の撮像信号処理の際の量子化誤差に起因するノイズが生じている場合に、ノイズ低減処理を行う。
 図21,図22に例を示す。
 図21の左側は本来の映像を示し、空の部分の色合いがグラデーションとなっている例である。これが図の右側に示すように、量子化誤差によりバウンディング(筋のような模様)が発生することがある。このようなときに、バンディングを消すような平滑化を行う。
 図22は欠損の例である。例えば背景映像vBに「TOKYO」という文字が表示されていたときに、図の下の映像のように一部が欠損して見える場合がある。このような場合にCG映像を用いて欠損を解消し、図の上の映像のように修正する。
 レンダリングエンジン520は、以上のような映像修正処理を行った後、図20のステップS105で当該フレームを、撮影映像vC(処理後撮影映像vCR)として記録する処理を行う。
 このような処理により、プロダクションST2の工程で、欠損やノイズが修正された撮影映像vCを記録してポストプロダクションST3に提供できる。
<6.第3の実施の形態>
 第3の実施の形態として、撮影時に、背景エリアARbの映像処理に加え、前景エリアARfの映像処理も行う例を説明する。
 図23にレンダリングエンジン520の処理例を示す。図16と同様に図23は、撮影映像vCの1フレーム毎に実行する処理例である。
 レンダリングエンジン520は、ステップS101で撮影映像vCの1フレームについて必要な情報、即ち映像Prgb、映像Pswir、撮影情報を取得する。
 そしてステップS102で今回のフレームのマスクMKを生成する。
 ステップS103Aでは、マスクMKに基づいて、映像Prgbにおける背景エリアARbと前景エリアARfをそれぞれ特定する。
 ステップS104では、図16(及び図17,図18,図19)で説明したように背景エリアARbについてのモアレ対応処理を行う。
 なお、ステップS104に代えて、或いはステップS104に加えて、図20で説明した映像修正処理(ステップS160)を行うようにしてもよい。
 ステップS170でレンダリングエンジン520は、前景エリアARfにおける被写体判定を行う。
 例えばここではオブジェクトの映像にモアレが生じているかの判定を行う。具体的には演者510等の衣服から、モアレMが発生しやすいか否かを判定する。
 前景になる演者510がストライプ柄やチェック柄の衣服を着用している場合、モアレMが発生しやすい。そこで、撮影映像vCの前景エリアARfにおいてストライプ柄やチェックの柄が含まれているか否かを判定する。なお、衣服に限らず、縞状の模様の存在を確認してもよい。
 また、ステップS170の前景エリアARfの被写体判定として、実際にモアレMが発生しているか否かを検出するようにしてもよい。
 ステップS171でレンダリングエンジン520は、ステップS170の判定結果から、モアレ低減処理が必要か否かを判定する。例えば演者510等の衣服がストライプ柄やチェック柄であったときは、モアレ低減処理が必要と判定する。
 その場合、レンダリングエンジン520はステップS172に進み、前景エリアARfについてのモアレ低減処理を行う。
 例えば前景エリアARfの範囲でLPF処理或いはBPF処理を行ってモアレ低減を行う。またSWIRカメラ52の映像Pswirによれば、被写体の肌領域と衣服領域を区別することが可能である。肌は反射しづらく、衣服はよく反射するためである。
 そこで、映像Pswirから衣服領域を判定し、その衣服領域のみモアレ低減処理を行うようにしてもよい。
 また、第1の実施の形態における背景エリアARbについてのモアレ対応処理で説明したように、前景エリアARfについても、モアレMの発生度合判定を行い、モアレ低減処理の処理強度を可変設定してもよい。
 ステップS171でモアレ低減処理が不要と判定した場合、例えばストライプ柄やチェック柄の衣服が観測されなかった場合は、レンダリングエンジン520はステップS172の処理は行わない。
 次にステップS180でレンダリングエンジン520は、前景エリアARfの映像修正処理を行う。例えば前景エリアの輝度調整や色調整を行うことが考えられる。
 例えばLEDウォール505に表示される背景映像vBの輝度の影響でカメラ502の自動露出制御が行われることで、演者510等のオブジェクトの映像の輝度が高すぎたり低すぎたりすることがある。そこで、そのような前景エリアARfの輝度を、背景エリアARbの輝度に合わせて調整するようにする。
 また例えばLEDウォール505に表示される背景映像vBの影響で、演者510等のオブジェクトの映像の色合いが不自然になったような場合に、前景エリアARfの色調整を行うことも考えられる。
 以上の処理を経た後、レンダリングエンジン520はステップS105で、当該フレームを、撮影映像vC(処理後撮影映像vCR)として記録する処理を行う。
 このような処理により、プロダクションST2の工程で、背景エリアARb、前景エリアARfのそれぞれについてモアレMが低減されたり、必要な映像処理が施されたりした撮影映像vC(処理後撮影映像vCR)をポストプロダクションST3に提供できる。
 なお、図23の例では、背景エリアARbの映像処理に加えて前景エリアARfの映像処理を行う例としたが、前景エリアARfの映像処理のみが行われる処理例も考えられる。例えば図23においてステップS104を除いた処理例である。
<7.第4の実施の形態>
 第4の実施の形態として、撮影後、例えばポストプロダクションST3の段階で、背景エリアARbと前景エリアARfを区別した映像処理を行う例を挙げる。
 このため撮影時にはレンダリングエンジン520が撮影映像vCのフレーム毎に図24の処理を行うようにする。
 レンダリングエンジン520は、ステップS101で撮影映像vCの1フレームについて必要な情報、即ち映像Prgb、映像Pswir、撮影情報を取得し、ステップS102でそのフレームのマスクMKを生成する。
 ステップS110でレンダリングエンジン520は、撮影映像vC(映像Prgb)のフレームと、そのフレームに関連づけられたメタデータとして撮影情報及びマスクMKを記録媒体に記録する。
 このようにすることで、後の時点で撮影映像vCの各フレームを処理対象とするときに、対応する撮影情報及びマスクMKを取得することができる。
 なお、ステップS110では、撮影映像vC(映像Prgb)のフレームと、そのフレームについての撮影情報と、同じフレームタイミングの映像Pswirを関連づけて記録媒体に記録するようにしてもよい。映像Pswirを記録することで後の時点でマスクMKを生成できるためである。
 ポストプロダクションST3における処理例を図25に示す。例えばポストプロダクションST3の段階で映像処理を行う情報処理装置70の処理である。この情報処理装置70はレンダリングエンジン520であってもよいし、他の情報処理装置であってもよい。
 ステップS201で情報処理装置70は、処理対象とする映像コンテンツを記録媒体から読み出し、各フレームの映像及びメタデータを処理対象として取得する。
 なお映像コンテンツ、或いは映像コンテンツ内のシーンに対応して撮影環境情報が記録されている場合は、それも取得する。例えばLEDパネル506の画素のピッチ幅の情報などである。
 ステップS202で情報処理装置70は、映像処理対象とするフレームを判定する。
 メタデータとして、各フレームの撮影情報や撮影環境情報が記録されていることで、処理対象とする映像コンテンツのどのフレームで、例えばモアレが発生している可能性が高いかを判定することができる。例えば上述のようにカメラ502とLEDウォール505の距離、角度関係などから、モアレの発生度合判定ができる。
 また各フレームの映像を解析することで、パフォーマンスエリア501における被写体の位置を判定することや、実際のモアレMの発生度合を判定することもできる。
 例えば、前景エリアARfのオブジェクトとLEDウォール505の距離が十分に遠く、被写体の顔を望遠レンズ(F値から判定)で撮影し背景をぼかしている場合は、モアレ発生頻度は低い。
 また例えば、被写体とLEDウォール505の距離が近く、カメラ502とLEDウォール505の角度が急峻で、かつパンフォーカスで撮影し、LEDパネル506のピッチ幅が広い場合は、モアレ発生頻度は高い。
 さらに、先に述べたように、カメラ502とLEDウォール505の距離、角度、或いは演者510の衣服の柄などにより、モアレの発生度合判定が可能である。
 情報処理装置70は、ステップS202で、このようなモアレの発生度合判定を行って、モアレ対応処理を行うフレームを設定する。そして情報処理装置70は、設定した各フレームについてそれぞれ、ステップS203からステップS207の処理を行う。
 ステップS203で情報処理装置70は、モアレ対応処理を行うと設定したフレームの1つを処理対象として特定する。
 ステップS204で情報処理装置70は、特定したフレームについてのマスクMKを取得する。
 ステップS205で情報処理装置70は、マスクMKを用いて当該フレームの背景エリアARbを特定する。
 ステップS206で情報処理装置70は、背景エリアARbについてモアレ対応処理を行う。例えば図17,図18,図19の例のような処理を行う。
 そしてステップS207で情報処理装置70は、モアレ対応処理を経た処理後の映像データを、記録媒体に記録する。例えば編集後の映像コンテンツの1フレームとして記録する。
 ステップS208で、未処理のフレームの存在を確認し、存在すれば、ステップS203に戻って、未処理のフレームの1つを処理対象として特定し、同様にステップS204からステップS207の処理を行う。
 モアレ対応処理を行うと設定したフレームの全てについて以上の処理を終えたら図25の処理を終える。
 例えばこのように、ポストプロダクションST3の段階でマスクMKを用いて背景エリアARbと前景エリアARfを区別し、モアレ対応処理を行うことができる。
 なお、撮影映像vC(RGBカメラの映像Prgb)とともにSWIRカメラの映像Pswirが記録されている場合、図25のステップS204の段階でマスクMKを生成するという処理例も考えられる。
 また、図25の例に限らず、ポストプロダクションST3の段階で、背景エリアARbの映像修正処理、前景エリアARfのモアレ低減処理、前景エリアARfの映像修正処理が行われるようにすることもできる。
 また、第1,第2,第3の実施の形態のように撮影時にほぼリアルタイムで、背景エリアARb、前景エリアARfの一方又は両方について、モアレ低減処理や映像修正処理などの映像処理を行った後に、ポストプロダクションST3においてもこれらの映像処理が行われるようにしてもよい。
 例えば図16,図20、図23の各ステップS105でも、撮影映像vC(処理後撮影映像vCR)と共に、撮影情報やマスクMK或いは映像Pswirを関連づけて記録することで、ポストプロダクションST3において、再度の映像処理を行うことができるようになる。
<8.背景映像の表示パネルの構成例>
 図1でLEDウォール505の例を説明したが、ここで背景映像vBの表示パネルの他の例を挙げておく。背景映像vBの表示パネルは各種の構成が考えられる。
 図26Aはパフォーマンスエリア501における床の部分も含めてLEDウォール505が設けられている例である。この場合、背面、左側面、右側面、床面にそれぞれLEDウォール505が設けられている。
 図26Bは、パフォーマンスエリア501をボックス上に囲うように上面、背面、左側面、右側面、床面にそれぞれLEDウォール505が設けられている例である。
 図26Cは、円筒内壁状のLEDウォール505が設けられている例である。
 ここまで表示装置としてLEDウォール505を挙げ、表示される表示映像は、3D背景データをレンダリングした背景映像である例を挙げた。そしてその場合、撮影映像vCにおいて表示映像エリアの例としての背景エリアARbと、オブジェクト映像エリアとしての前景エリアARfの例で、これらを分離して映像処理を行うことができるようにした。
 本開示の技術はこのような背景、前景という関係に限らず適用できる。
 例えば図26Dは、表示装置515が他の被写体と並ぶように設けられている例である。例えばテレビジョン放送のスタジオなどで、リモート出演する出演者を表示装置515に表示させ実際にスタジオに居る出演者とともに撮影するような場合である。
 この場合、背景、前景という明確な区別はないが、撮影映像には、表示映像とオブジェクト映像が混在することになる。そのような場合も、マスクMKを用いて表示映像エリアとオブジェクト映像エリアを分離することができるため、実施の形態の処理を同様に適用できることになる。
 これ以外にも多様な例が考えられるが、撮影した映像内に、表示装置の映像と、実際に存在するオブジェクトの映像が含まれる場合に、それらのエリアを区別して、各種の映像処理を行う場合に本開示の技術を適用できる。
<9.まとめ及び変形例>
 以上の実施の形態によれば次のような効果が得られる。
 実施の形態の情報処理装置70は、表示装置の表示映像(例えば背景映像vB)とオブジェクトとを撮影した撮影映像vCに対して、マスクMKを用いて判定した表示映像エリア(例えば背景エリアARb)の映像処理、又はマスクMKを用いて判定したオブジェクト映像エリア(例えば前景エリアARf)の映像処理を行う映像処理部85を備える。マスクMKは撮影映像vC内で表示映像とオブジェクト映像を分離する情報である。
 これにより、表示装置に表示された映像と実在するオブジェクトを同時に撮影する場合において、撮影映像内に含まれる表示映像のエリアとオブジェクト映像のエリアで、それぞれ別個に映像処理を施すことができる。従って表示映像と実在するオブジェクトであることの違いに応じた処理を、映像内で適切に行うことができる。
 第1,第2,第3,第4の実施の形態では、表示装置としてLEDウォール505を挙げ、表示される表示映像は、3D背景データをレンダリングした背景映像vBである例を挙げた。また撮影映像vCは、背景映像vBを表示するLEDウォール505を背景にしてオブジェクト、例えば演者510や物品を撮影した映像であるとした。
 LEDウォール505に表示された背景映像vBを撮影することで、撮影映像vCの各フレームには、背景映像vBが映された背景エリアARbと、演者510や物などのオブジェクトが映された前景エリアARfが含まれることになる。これら背景エリアARbと前景エリアARfは、撮影している対象が、表示映像と実物という点で異なることで、映像上で異なる影響が生ずる。そこで撮影映像vCのフレーム毎に、マスクMKを用いて背景エリアARbと前景エリアARfを区分して、一方又は両方について、個別に映像処理を行うようにする。これにより、撮影した対象の違いにより生じた映像上の事象について、個別に対応し、映像の修正等を行うことができる。例えば撮影映像vC内で背景エリアARbのみに生じていたアーティファクトを解消できる。従ってバーチャルプロダクションとして制作される映像の問題を解消し、バーチャルプロダクションの利点を生かした映像制作を促進できる。
 実施の形態では、映像処理部85が、撮影映像vCにおける背景エリアARbの映像処理として、アーティファクトを低減する処理を行う例を挙げた(図16参照)。
 アーティファクトとしては、第1の実施の形態で例示したモアレの他、映像上のノイズ、意図しない色や輝度の変化など、修正や低減が求められる多様な事象が考えられる。これにより 前景エリアARfに影響を及ぼさずに背景エリアARbの修正等を行うことができる。
 第1の実施の形態では、映像処理部85が、撮影映像vCにおける背景エリアARbの映像処理として、モアレ低減処理を行う例を挙げた(図16参照)。
 LEDウォール505に表示された背景映像vBを撮影することで、撮影映像vCの背景エリアARbにはモアレMが生じてしまうことがある。従って背景エリアARbを特定した上でモアレ低減処理を行う。これによりモアレを解消又は軽減できるとともに、前景エリアARfにはモアレ低減処理の影響を及ぼさないようにすることができる。例えば背景エリアARbにはLPF処理等でモアレを低減しても、前景エリアARfではLPF処理等を施さずに高精細な画像を維持するといったことが可能である。
 第1の実施の形態では、撮影映像vCにおける背景エリアARbの映像処理として、背景エリアARbにおけるモアレ発生度合判定を行い、判定結果に応じてモアレ低減処理を行う例を挙げた(図17,図18参照)。
 撮影映像vCの各フレームについて、背景エリアARbに低減処理が必要なレベルのモアレMが生じている場合にモアレ低減処理を行うようにすることで、必要な場合にモアレ低減処理が行われるようにすることができる。
 第1の実施の形態では、撮影映像vCにおける背景エリアARbの映像処理として、背景エリアARbにおけるモアレ発生度合判定を行い、判定結果に応じて処理強度を設定してモアレ低減処理を行う例を挙げた(図18、図19参照)。
 背景エリアARbに発生しているモアレMの度合いに応じてモアレ低減処理の強度、例えばぼかし具合の強度を設定することで、モアレの低減に有効な処理とすることができる。
 第1の実施の形態では、撮影映像vCと背景映像vBを比較してモアレ発生度合判定を行う例を挙げた(図17のステップS141等参照)。
 LEDウォール505に表示された背景映像vBとしてのフレームと、そのフレームの背景映像vBを撮影した撮影映像vCのフレームを比較し、差分を取得することで、モアレの発生や度合いを判定することができる。これによりモアレ低減処理の強度を適切に設定できる。
 第1の実施の形態のでは、撮影時のカメラ502の撮影情報、又は撮影施設の撮影環境情報に基づいてモアレ発生度合判定を行う例を挙げた(図17のステップS141等参照)。
 撮影環境情報として取得するLEDウォール505におけるLEDパネル506のピッチ幅や、撮影情報として取得する撮影時のカメラ502の情報、例えば撮影時のカメラ位置、カメラの向き、画角などを参照すると、モアレが発生しやすい状態か否かを判定できる。つまりモアレの発生や度合いを推定することができる。これによりモアレ低減処理の強度を適切に設定できる。
 第2の実施の形態では、映像処理部85が、撮影映像vCにおける背景エリアARbの映像処理として、背景エリアARbの映像修正処理を行う例を挙げた(図20参照)。
 LEDウォール505に表示された背景映像vBを撮影することで、撮影映像vCの背景エリアARbには画像欠損が生じたり、量子化誤差によるバウンディングが生じたりすることなどがある。このような場合に背景エリアARbについて映像修正処理を行うことで、背景エリアARbの映像品質を向上させることができる。
 第3の実施の形態では、映像処理部85が、撮影映像vCにおける前景エリアARfの映像処理として、モアレ低減処理を行う例を挙げた(図23参照)。
 撮影映像vCの前景エリアARfにモアレMが生じてしまうことがある。そこで前景エリアARfを特定した上でモアレ低減処理を行う。これによりモアレを解消又は軽減でき、前景エリアARfの映像の品質を向上させることができる。
 第3の実施の形態では、撮影映像vCにおける前景エリアARfの映像処理として、被写体の衣服についての判定処理を行い、判定結果に応じてモアレ低減処理を行う例を挙げた(図23のステップS170,S171,S172参照)。
 撮影映像vCの前景エリアARfにモアレMが生じてしまうことがあるが、特に衣服の柄によってモアレMが発生しやすさが異なる。そこで衣服の柄の判定を行って、それに応じてモアレ低減処理を実行するか否かを決めたり、或いは処理強度を設定したりすることは有効な処理となる。
 第3の実施の形態では、撮影映像vCにおける前景エリアARfの映像処理として、前景エリアARfの映像修正処理を行う例を挙げた(図23のステップS180参照)。
 例えば映像修正処理として、輝度処理や色処理を行う。LEDウォール505に表示された背景映像vBの輝度や、色、或いは照明とのバランスなどにより、被写体が暗くなってしまうことや、逆に明るくなりすぎていることなどがある。そこで輝度や色合いの修正処理を行う。これにより背景映像vBとバランスのよい輝度や色合いの映像に修正できることになる。
 第1,第2,第3の実施の形態では、映像処理部85は、撮影時に、撮影映像vCのフレーム毎に、背景エリアARbの映像処理、又は前景エリアARfの映像処理を行うものとした。
 例えばレンダリングエンジン520は、カメラ502による撮影を行っているときに、ほぼリアルタイムで、撮影映像vCのフレーム毎に、マスクMKを用いて背景エリアARbと前景エリアARfを判定し、いずれか、又は両方についての映像処理を行う。これにより記録される撮影映像vCは、モアレや欠損のない映像(処理後撮影映像vCR)とすることができる。従ってプロダクションST2の段階で高品質な撮影映像vCを得ることができる。
 第1,第2,第3の実施の形態では、映像処理部85は、撮影時に、前記撮影映像のフレーム毎に、マスクMKを生成して、そのフレームにおける背景エリアARbと前景エリアARfを判定するものとした(図16,図20、図23のステップS102参照)。
 例えばレンダリングエンジン520は、カメラ502による撮影を行っているときに、撮影映像vCのフレーム毎に、映像Pswirを用いてマスクMKを生成する。これによりフレーム毎に適切に背景エリアARbと前景エリアARfの判定が可能になる。
 なお、図15のようにカメラ502でマスクMKを生成する場合は、レンダリングエンジン520はカメラ502から送信されたマスクMKを用いることができる。その場合、図16,図20、図23、図24のステップS102でマスクMKを生成しなくてもよく、レンダリングエンジン520の処理負担が軽減される。
 第4の実施の形態では、映像処理部85は、撮影映像vCの各フレームを記録媒体から読み出すとともに、各フレームに対応して記録されたマスクMKを記録媒体から読み出して、撮影映像vCのフレーム毎に、背景エリアARbの映像処理、又は前景エリアARfの映像処理を行う例を挙げた(図25参照)。
 例えば撮影時にマスクMKをメタデータとして撮影映像vCと関連付けて記録しておく。そして撮影後の時点で、記録媒体から撮影映像vCとマスクMKを読み出し、撮影映像vCのフレーム毎に、マスクMKを用いて背景エリアARbと前景エリアARfを判定し、いずれか、又は両方についての映像処理を行う。これによりポストプロダクションST3において、モアレや欠損のない映像(処理後撮影映像vCR)を得ることができる。
 第4の実施の形態では、撮影映像vCの各フレームに対応する撮影情報を記録媒体から読み出し、撮影情報に基づいて、映像処理対象とするフレームを判定し、映像処理対象と判定したフレームについて、背景エリアARbの映像処理、又は前景エリアARfの映像処理を行う例を挙げた(図25参照)。
 記録媒体から撮影情報を読み出すことで、どのフレームを映像処理対象とするかを判定することができる。例えば撮影情報から、どのフレームでモアレが発生しているかを推定し、映像処理対象とすることができる。これにより背景エリアARbや前景エリアARfについての映像処理を効率的に行うことができる。
 実施の形態においては、マスクMKは、撮影映像と同一の映像を撮影するSWIRカメラ52で得られる映像Pswirに基づいて生成されるものとした。
 例えば可視光線領域から近赤外線領域(例えば400nmから1700nm)までの広い波長帯域に高感度を有するSWIRカメラによる映像は、オブジェクト(特に人)と、光源変化の激しい背景映像vBを適切に分離できるものとなる。これによりマスクMKを生成することで、背景エリアARbと前景エリアARfを適切に判別できる。
 実施の形態では、SWIRカメラ52は、表示映像(背景映像vB)とオブジェクトを撮影した撮影映像vCを得るRGBカメラ51と、同じ光軸で被写体光が入射される構成とされているものとした(図14,図15参照)。
 例えばカメラ502は、撮影映像vCを得るRGBカメラ51と、SWIRカメラ52を、同軸カメラとして配置したものとする。これにより、撮影映像vCと同じ画角の映像をSWIRカメラ52でも得ることができる。従ってSWIRカメラ52の映像から生成したマスクMKは、RGBカメラ51による撮影映像vCに合致したものとでき、背景エリアARbと前景エリアARfを適切に分離できるものとなる。
 第1,第2,第3,第4の実施の形態の処理例は組み合わせることもできる。つまりレンダリングエンジン520や、ポストプロダクションST3で用いる情報処理装置70において、第1,第2,第3,第4の実施の形態の処理例の全部又は一部を組み合わせて実行することもできる。
 第1,第2,第3,第4の実施の形態の処理例は、クラウドコンピューティングにより実施することもできる。例えばプロダクションST2においてレンダリングエンジン520やアセットサーバ530の機能をクラウドサーバとしての情報処理装置70が実現するようにしてもよい。またポストプロダクションST3における第4の実施の形態の図25のような処理もクラウドサーバとしての情報処理装置70が実現するようにしてもよい。
 また本技術の映像処理部の例として図8のレンダリングエンジン520における映像処理部85を挙げたが、例えばレンダリングエンジン520以外の情報処理装置において映像処理部が設けられ、実施の形態で説明した処理を行うようにしてもよい。或いはカメラ502等が映像処理部を有して、実施の形態で説明した処理を行うようにしてもよい。
 また実施の形態の説明では、マスクMKの生成のためにSWIRカメラ52を用いるものとしたが、実在する被写体の領域の特定するためのマスクMKを生成のためにSWIRカメラ52以外のものを用いてもよい。
 例えばKinectやLiDARのようなデプスカメラ、ToF(Time of Flight)センサを用いて、被写体の奥行を計測し、被写体と背景LEDの距離差分で分離することで、マスクMKを生成することもできる。
 また例えば、サーモグラフィカメラを用いて、人物の体温を利用して被写体を分離してマスクMKを生成することもできる。
 実施の形態のプログラムは、上述の映像処理部85の処理を、例えばCPU、DSP等のプロセッサ、或いはこれらを含むデバイスに実行させるプログラムである。
 即ち実施の形態のプログラムは、表示装置の表示映像(例えば背景映像vB)とオブジェクトとを撮影した撮影映像に対して、撮影映像vC内の表示映像とオブジェクト映像を分離するマスクMKを用いて判定した表示映像エリア(背景エリアARb)の映像処理、又はマスクMKを用いて判定したオブジェクト映像エリア(前景エリアARf)の映像処理を情報処理装置70に実行させるプログラムである。
 このようなプログラムにより、上述したプロダクションST2やポストプロダクションST3に利用できる情報処理装置70を、各種のコンピュータ装置により実現できる。
 このようなプログラムはコンピュータ装置等の機器に内蔵されている記録媒体としてのHDDや、CPUを有するマイクロコンピュータ内のROM等に予め記録しておくことができる。また、このようなプログラムは、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)、MO(Magneto Optical)ディスク、DVD(Digital Versatile Disc)、ブルーレイディスク(Blu-ray Disc(登録商標))、磁気ディスク、半導体メモリ、メモリカードなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。
 また、このようなプログラムは、リムーバブル記録媒体からパーソナルコンピュータ等にインストールする他、ダウンロードサイトから、LAN(Local Area Network)、インターネットなどのネットワークを介してダウンロードすることもできる。
 またこのようなプログラムによれば、実施の形態の情報処理装置70の広範な提供に適している。例えばパーソナルコンピュータ、通信機器、スマートフォンやタブレット等の携帯端末装置、携帯電話機、ゲーム機器、ビデオ機器、PDA(Personal Digital Assistant)等にプログラムをダウンロードすることで、これらの装置を本開示の情報処理装置70として機能させることができる。
 なお、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。
 なお本技術は以下のような構成も採ることができる。
 (1)
 表示装置の表示映像とオブジェクトとを撮影した撮影映像に対して、
 前記撮影映像内の表示映像とオブジェクト映像を分離するマスク情報を用いて判定した表示映像エリアの映像処理、又は前記マスク情報を用いて判定したオブジェクト映像エリアの映像処理を行う映像処理部を備えた
 情報処理装置。
 (2)
 前記表示装置に表示される表示映像は3D背景データをレンダリングした背景映像であり、
 前記撮影映像は、前記背景映像を表示する表示装置を背景にしてオブジェクトを撮影した映像である
 上記(1)に記載の情報処理装置。
 (3)
 前記映像処理部は、前記撮影映像における前記表示映像エリアの映像処理として、アーティファクトを低減する処理を行う
 上記(1)又は(2)に記載の情報処理装置。
 (4)
 前記映像処理部は、前記撮影映像における前記表示映像エリアの映像処理として、モアレ低減処理を行う
 上記(1)から(3)のいずれかに記載の情報処理装置。
 (5)
 前記映像処理部は、前記撮影映像における前記表示映像エリアの映像処理として、前記表示映像エリアにおけるモアレ発生度合判定を行い、判定結果に応じてモアレ低減処理を行う
 上記(1)から(4)のいずれかに記載の情報処理装置。
 (6)
 前記映像処理部は、前記撮影映像における前記表示映像エリアの映像処理として、前記表示映像エリアにおけるモアレ発生度合判定を行い、判定結果に応じて処理強度を設定してモアレ低減処理を行う
 上記(1)から(5)のいずれかに記載の情報処理装置。
 (7)
 前記映像処理部は、前記撮影映像と前記表示映像を比較して前記モアレ発生度合判定を行う
 上記(5)又は(6)に記載の情報処理装置。
 (8)
 前記映像処理部は、撮影時のカメラの撮影情報、又は撮影施設の撮影環境情報に基づいて前記モアレ発生度合判定を行う
 上記(5)から(7)のいずれかに記載の情報処理装置。
 (9)
 前記映像処理部は、前記撮影映像における前記表示映像エリアの映像処理として、前記表示映像エリアの映像修正処理を行う
 上記(1)から(8)のいずれかに記載の情報処理装置。
 (10)
 前記映像処理部は、前記撮影映像における前記オブジェクト映像エリアの映像処理として、モアレ低減処理を行う
 上記(1)から(9)のいずれかに記載の情報処理装置。
 (11)
 前記映像処理部は、前記撮影映像における前記オブジェクト映像エリアの映像処理として、被写体の衣服についての判定処理を行い、判定結果に応じてモアレ低減処理を行う
 上記(1)から(10)のいずれかに記載の情報処理装置。
 (12)
 前記映像処理部は、前記撮影映像における前記オブジェクト映像エリアの映像処理として、前記オブジェクト映像エリアの映像修正処理を行う
 上記(1)から(11)のいずれかに記載の情報処理装置。
 (13)
 前記映像処理部は、撮影時に、前記撮影映像のフレーム毎に、前記表示映像エリアの映像処理、又は前記オブジェクト映像エリアの映像処理を行う
 上記(1)から(12)のいずれかに記載の情報処理装置。
 (14)
 前記映像処理部は、撮影時に、前記撮影映像のフレーム毎に、前記マスク情報を生成して、フレームにおける前記表示映像エリアと前記オブジェクト映像エリアを判定する
 上記(1)から(13)のいずれかに記載の情報処理装置。
 (15)
 前記映像処理部は、前記撮影映像の各フレームを記録媒体から読み出すとともに、各フレームに対応して記録されたマスク情報を記録媒体から読み出して、前記撮影映像のフレーム毎に、前記表示映像エリアの映像処理、又は前記オブジェクト映像エリアの映像処理を行う
 上記(1)から(12)のいずれかに記載の情報処理装置。
 (16)
 前記映像処理部は、前記撮影映像の各フレームに対応する撮影情報を記録媒体から読み出し、撮影情報に基づいて、映像処理対象とするフレームを判定し、映像処理対象と判定したフレームについて、前記表示映像エリアの映像処理、又は前記オブジェクト映像エリアの映像処理を行う
 上記(15)に記載の情報処理装置。
 (17)
 前記マスク情報は、撮影映像と同一の映像を撮影する赤外線短波長カメラで得られる映像に基づいて生成される
 上記(1)から(16)のいずれかに記載の情報処理装置。
 (18)
 前記赤外線短波長カメラは、前記表示映像とオブジェクトを撮影した撮影映像を得るカメラと、同じ光軸で被写体光が入射される構成とされている
 上記(17)に記載の情報処理装置。
 (19)
 情報処理装置が、
 表示装置の表示映像とオブジェクトとを撮影した撮影映像に対して、前記撮影映像内の表示映像とオブジェクト映像を分離するマスク情報を用いて判定した表示映像エリアの映像処理、又は前記マスク情報を用いて判定したオブジェクト映像エリアの映像処理を行う
 映像処理方法。
 (20)
 表示装置の表示映像とオブジェクトとを撮影した撮影映像に対して、前記撮影映像内の表示映像とオブジェクト映像を分離するマスク情報を用いて判定した表示映像エリアの映像処理、又は前記マスク情報を用いて判定したオブジェクト映像エリアの映像処理を
 情報処理装置に実行させるプログラム。
70 情報処理装置、
71 CPU
85 映像処理部
500 撮影システム
501 パフォーマンスエリア
502,502a,502b カメラ
503 アウトプットモニタ
505 LEDウォール
506 LEDパネル
520 レンダリングエンジン
530 アセットサーバ
540 シンクジェネレータ
550 オペレーションモニタ
560 カメラトラッカー
570 LEDプロセッサ
580 ライト
581 ライティングコントローラ
590 ディスプレイコントローラ
vB 背景映像
vBC 撮影領域映像
vC 撮影映像
vCR 処理後撮影映像
MK マスク
ARb 背景エリア
ARf 前景エリア

Claims (20)

  1.  表示装置の表示映像とオブジェクトとを撮影した撮影映像に対して、
     前記撮影映像内の表示映像とオブジェクト映像を分離するマスク情報を用いて判定した表示映像エリアの映像処理、又は前記マスク情報を用いて判定したオブジェクト映像エリアの映像処理を行う映像処理部を備えた
     情報処理装置。
  2.  前記表示装置に表示される表示映像は3D背景データをレンダリングした背景映像であり、
     前記撮影映像は、前記背景映像を表示する表示装置を背景にしてオブジェクトを撮影した映像である
     請求項1に記載の情報処理装置。
  3.  前記映像処理部は、前記撮影映像における前記表示映像エリアの映像処理として、アーティファクトを低減する処理を行う
     請求項1に記載の情報処理装置。
  4.  前記映像処理部は、前記撮影映像における前記表示映像エリアの映像処理として、モアレ低減処理を行う
     請求項1に記載の情報処理装置。
  5.  前記映像処理部は、前記撮影映像における前記表示映像エリアの映像処理として、前記表示映像エリアにおけるモアレ発生度合判定を行い、判定結果に応じてモアレ低減処理を行う
     請求項1に記載の情報処理装置。
  6.  前記映像処理部は、前記撮影映像における前記表示映像エリアの映像処理として、前記表示映像エリアにおけるモアレ発生度合判定を行い、判定結果に応じて処理強度を設定してモアレ低減処理を行う
     請求項1に記載の情報処理装置。
  7.  前記映像処理部は、前記撮影映像と前記表示映像を比較して前記モアレ発生度合判定を行う
     請求項5に記載の情報処理装置。
  8.  前記映像処理部は、撮影時のカメラの撮影情報、又は撮影施設の撮影環境情報に基づいて前記モアレ発生度合判定を行う
     請求項5に記載の情報処理装置。
  9.  前記映像処理部は、前記撮影映像における前記表示映像エリアの映像処理として、前記表示映像エリアの映像修正処理を行う
     請求項1に記載の情報処理装置。
  10.  前記映像処理部は、前記撮影映像における前記オブジェクト映像エリアの映像処理として、モアレ低減処理を行う
     請求項1に記載の情報処理装置。
  11.  前記映像処理部は、前記撮影映像における前記オブジェクト映像エリアの映像処理として、被写体の衣服についての判定処理を行い、判定結果に応じてモアレ低減処理を行う
     請求項1に記載の情報処理装置。
  12.  前記映像処理部は、前記撮影映像における前記オブジェクト映像エリアの映像処理として、前記オブジェクト映像エリアの映像修正処理を行う
     請求項1に記載の情報処理装置。
  13.  前記映像処理部は、撮影時に、前記撮影映像のフレーム毎に、前記表示映像エリアの映像処理、又は前記オブジェクト映像エリアの映像処理を行う
     請求項1に記載の情報処理装置。
  14.  前記映像処理部は、撮影時に、前記撮影映像のフレーム毎に、前記マスク情報を生成して、フレームにおける前記表示映像エリアと前記オブジェクト映像エリアを判定する
     請求項1に記載の情報処理装置。
  15.  前記映像処理部は、前記撮影映像の各フレームを記録媒体から読み出すとともに、各フレームに対応して記録されたマスク情報を記録媒体から読み出して、前記撮影映像のフレーム毎に、前記表示映像エリアの映像処理、又は前記オブジェクト映像エリアの映像処理を行う
     請求項1に記載の情報処理装置。
  16.  前記映像処理部は、前記撮影映像の各フレームに対応する撮影情報を記録媒体から読み出し、撮影情報に基づいて、映像処理対象とするフレームを判定し、映像処理対象と判定したフレームについて、前記表示映像エリアの映像処理、又は前記オブジェクト映像エリアの映像処理を行う
     請求項15に記載の情報処理装置。
  17.  前記マスク情報は、撮影映像と同一の映像を撮影する赤外線短波長カメラで得られる映像に基づいて生成される
     請求項1に記載の情報処理装置。
  18.  前記赤外線短波長カメラは、前記表示映像とオブジェクトを撮影した撮影映像を得るカメラと、同じ光軸で被写体光が入射される構成とされている
     請求項17に記載の情報処理装置。
  19.  情報処理装置が、
     表示装置の表示映像とオブジェクトとを撮影した撮影映像に対して、前記撮影映像内の表示映像とオブジェクト映像を分離するマスク情報を用いて判定した表示映像エリアの映像処理、又は前記マスク情報を用いて判定したオブジェクト映像エリアの映像処理を行う
     映像処理方法。
  20.  表示装置の表示映像とオブジェクトとを撮影した撮影映像に対して、前記撮影映像内の表示映像とオブジェクト映像を分離するマスク情報を用いて判定した表示映像エリアの映像処理、又は前記マスク情報を用いて判定したオブジェクト映像エリアの映像処理を
     情報処理装置に実行させるプログラム。
PCT/JP2022/010992 2021-09-21 2022-03-11 情報処理装置、映像処理方法、プログラム WO2023047643A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202280061768.2A CN117941340A (zh) 2021-09-21 2022-03-11 信息处理装置、视频处理方法和程序
EP22872402.7A EP4407977A1 (en) 2021-09-21 2022-03-11 Information processing apparatus, image processing method, and program
JP2023549341A JPWO2023047643A1 (ja) 2021-09-21 2022-03-11

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-153299 2021-09-21
JP2021153299 2021-09-21

Publications (1)

Publication Number Publication Date
WO2023047643A1 true WO2023047643A1 (ja) 2023-03-30

Family

ID=85720347

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/010992 WO2023047643A1 (ja) 2021-09-21 2022-03-11 情報処理装置、映像処理方法、プログラム

Country Status (4)

Country Link
EP (1) EP4407977A1 (ja)
JP (1) JPWO2023047643A1 (ja)
CN (1) CN117941340A (ja)
WO (1) WO2023047643A1 (ja)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11327004A (ja) * 1998-05-19 1999-11-26 Taito Corp カメラ画像背景マスクシステム
JP2000338000A (ja) * 1999-03-23 2000-12-08 Hitachi Ltd 電子ディスプレイ装置の画素欠陥検査方法、および、電子ディスプレイ装置の製造方法
JP2003143464A (ja) * 2001-10-31 2003-05-16 Konica Corp 証明写真用の撮影装置及び画像処理方法
JP2012085233A (ja) * 2010-10-14 2012-04-26 Sharp Corp 映像処理装置、映像処理方法、及びプログラム
JP2014202816A (ja) 2013-04-02 2014-10-27 株式会社エス・エム・エイ Ledディスプレイ装置
WO2015025697A1 (ja) * 2013-08-20 2015-02-26 オリンパスメディカルシステムズ株式会社 内視鏡システム、内視鏡システムの作動方法
JP2017033256A (ja) * 2015-07-31 2017-02-09 キヤノン株式会社 画像処理装置、コミュニケーションシステム、画像処理方法、及びプログラム
US20200143592A1 (en) * 2018-11-06 2020-05-07 Lucasfilm Entertainment Company Ltd. LLC Immersive content production system
JP2021009543A (ja) * 2019-07-01 2021-01-28 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11327004A (ja) * 1998-05-19 1999-11-26 Taito Corp カメラ画像背景マスクシステム
JP2000338000A (ja) * 1999-03-23 2000-12-08 Hitachi Ltd 電子ディスプレイ装置の画素欠陥検査方法、および、電子ディスプレイ装置の製造方法
JP2003143464A (ja) * 2001-10-31 2003-05-16 Konica Corp 証明写真用の撮影装置及び画像処理方法
JP2012085233A (ja) * 2010-10-14 2012-04-26 Sharp Corp 映像処理装置、映像処理方法、及びプログラム
JP2014202816A (ja) 2013-04-02 2014-10-27 株式会社エス・エム・エイ Ledディスプレイ装置
WO2015025697A1 (ja) * 2013-08-20 2015-02-26 オリンパスメディカルシステムズ株式会社 内視鏡システム、内視鏡システムの作動方法
JP2017033256A (ja) * 2015-07-31 2017-02-09 キヤノン株式会社 画像処理装置、コミュニケーションシステム、画像処理方法、及びプログラム
US20200143592A1 (en) * 2018-11-06 2020-05-07 Lucasfilm Entertainment Company Ltd. LLC Immersive content production system
JP2021009543A (ja) * 2019-07-01 2021-01-28 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム

Also Published As

Publication number Publication date
EP4407977A1 (en) 2024-07-31
CN117941340A (zh) 2024-04-26
JPWO2023047643A1 (ja) 2023-03-30

Similar Documents

Publication Publication Date Title
US11877086B2 (en) Method and system for generating at least one image of a real environment
Matsuyama et al. 3D video and its applications
US20150294492A1 (en) Motion-controlled body capture and reconstruction
US20110222757A1 (en) Systems and methods for 2D image and spatial data capture for 3D stereo imaging
WO2023007817A1 (ja) 情報処理装置、映像処理方法、プログラム
JPWO2019031259A1 (ja) 画像処理装置および方法
JP7489960B2 (ja) 画像の合成のための方法及びデータ処理システム
AU2022275382A1 (en) System and method for visual enhancement of a scene during capture thereof
WO2024004584A1 (ja) 情報処理装置、情報処理方法、プログラム
JP6292968B2 (ja) 疑似hdr画像推定装置及び方法
JP2016015017A (ja) 撮像装置、投光装置、および画像処理方法、ビームライト制御方法、並びにプログラム
WO2023047643A1 (ja) 情報処理装置、映像処理方法、プログラム
JP5555046B2 (ja) 画像入力装置、画像入力方法及び画像入力プログラム
WO2023095742A1 (ja) 情報処理装置、情報処理方法
WO2023047645A1 (ja) 情報処理装置、映像処理方法、プログラム
WO2024048295A1 (ja) 情報処理装置、情報処理方法、プログラム
WO2023176269A1 (ja) 情報処理装置、情報処理方法、プログラム
WO2020084894A1 (ja) マルチカメラシステム、制御値算出方法及び制御装置
WO2023238646A1 (ja) 情報処理装置、情報処理方法、プログラム、情報処理システム
JP5227883B2 (ja) 合成映像生成システム、照明制御装置及びプログラム
WO2024042893A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2023223759A1 (ja) 情報処理装置、情報処理方法、撮影システム
JP2002260017A (ja) 3次元形状データ生成方法および装置
KR102245223B1 (ko) 비정형 투사면에 다층구조 빔프로젝션 콘텐츠 전시를 위한 영상 처리 시스템 및 그 방법
JP2024098589A (ja) 撮像装置、プログラム

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2023549341

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 18690275

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 202280061768.2

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2022872402

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2022872402

Country of ref document: EP

Effective date: 20240422