WO2024075525A1 - 情報処理装置およびプログラム - Google Patents

情報処理装置およびプログラム Download PDF

Info

Publication number
WO2024075525A1
WO2024075525A1 PCT/JP2023/034199 JP2023034199W WO2024075525A1 WO 2024075525 A1 WO2024075525 A1 WO 2024075525A1 JP 2023034199 W JP2023034199 W JP 2023034199W WO 2024075525 A1 WO2024075525 A1 WO 2024075525A1
Authority
WO
WIPO (PCT)
Prior art keywords
pose
information
image
reliability
self
Prior art date
Application number
PCT/JP2023/034199
Other languages
English (en)
French (fr)
Inventor
雄生 杉江
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2024075525A1 publication Critical patent/WO2024075525A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects

Definitions

  • This technology relates to an information processing device and a program, and in particular to an information processing device and a program that enable video production to be carried out more efficiently.
  • the background image is displayed on a large display installed in the studio, and the performers act in front of the display, allowing the performers and the background to be filmed. This not only allows the performers and staff to visually understand the scene during filming and judge the quality of their acting, but also reduces the amount of editing work required after filming.
  • the camera's position and shooting direction are estimated by self-location estimation, and the background image displayed on the large display is changed according to the estimation results.
  • the area in the background image that includes the part captured by the camera changes according to the estimation results of the camera's position, etc., and such an area is called the inner frustum.
  • the above-mentioned camera self-position estimation is also used for green screen shooting and general AR (Augmented Reality) video content shooting.
  • a technology related to self-location estimation a technology has been proposed that calculates the reliability of a drone's self-location estimation and displays a warning or controls flight depending on that reliability (see, for example, Patent Document 1). Furthermore, a technology has been proposed in which, when a user is wearing a wearable device on their head while watching content, if the reliability of the wearable device's self-location estimation decreases, a distress signal is sent to another user's wearable device in order to correct the self-location (see, for example, Patent Document 2).
  • the information processing device includes an association unit that associates an image captured by a camera, pose information of the camera obtained by self-position estimation, and the pose reliability of the pose information.
  • the program of the first aspect of the present technology includes a step of associating an image captured by a camera, pose information of the camera obtained by self-position estimation, and the pose reliability of the pose information.
  • an image captured by a camera is associated with pose information of the camera obtained by self-position estimation, and the pose reliability of the pose information.
  • the information processing device includes a control unit that performs processing based on a pre-associated image captured by a camera, pose information of the camera obtained by self-position estimation, and the pose reliability of the pose information.
  • the program of the second aspect of the present technology includes a step of performing processing based on a pre-associated image captured by a camera, pose information of the camera obtained by self-position estimation, and the pose reliability of the pose information.
  • processing is performed based on pre-associated images captured by a camera, pose information of the camera obtained by self-position estimation, and the pose reliability of the pose information.
  • FIG. 1 is a diagram illustrating an example of the configuration of an imaging system.
  • 11A and 11B are diagrams illustrating background images according to camera positions.
  • 11A and 11B are diagrams illustrating background images according to camera positions.
  • FIG. 1 is a diagram illustrating a video content production process.
  • FIG. 2 is a diagram illustrating a configuration of a peripheral portion of a camera in the imaging system.
  • FIG. 13 is a diagram illustrating self-location estimation and pose reliability.
  • FIG. 2 is a diagram illustrating an example of the configuration of an image capture processing unit.
  • FIG. 13 is a diagram illustrating another example of the configuration of the self-location estimation unit.
  • 13 is a flowchart illustrating a data output process.
  • FIG. 1 is a diagram illustrating the composition of CG images.
  • FIG. 1 is a diagram illustrating the composition of CG images.
  • FIG. 13 is a diagram illustrating selection of a pose confidence threshold depending on an application.
  • FIG. 13 is a diagram illustrating the use of pose confidence.
  • 11A and 11B are diagrams illustrating processing when there is pose information and pose reliability and when there is no pose information and pose reliability.
  • FIG. 13 is a diagram showing a UI and a display screen when there is no pose information and pose reliability.
  • FIG. 13 is a diagram showing a UI and a display screen when pose information and pose reliability are present.
  • 11 is a diagram illustrating switching between using pose information as is and not using pose information as is.
  • FIG. FIG. 1 illustrates an example of the configuration of an information processing device.
  • 11 is a flowchart illustrating a video synthesis process.
  • FIG. 1 illustrates an example of the configuration of a computer.
  • This technology enables more efficient video production by associating images captured by a camera, camera pose information that indicates the results of self-position estimation, and pose reliability that indicates the reliability of the pose information.
  • sociate means, for example, that one piece of data can be used (linked) when processing the other piece of data.
  • captured image, pose information, and pose reliability data (files) can take any form.
  • the image, pose information, and pose reliability may be combined into one data (file), or each may be separate data (file).
  • the pose information and pose reliability associated with an image may be transmitted over a transmission path separate from that of the image.
  • the pose information and pose reliability associated with an image may be recorded on a recording medium separate from that of the image (or on a different recording area of the same recording medium).
  • the image, pose information, and pose reliability may be combined into a single stream of data or a single file.
  • the image, pose information, and pose reliability may be associated by assigning a single (identical) ID that is uniquely identifiable.
  • this "association" may be a part of the data (file) rather than the entire data.
  • the pose information and pose reliability may be associated with any unit, such as multiple frames of the image or one frame.
  • video or “image” includes both still images and videos.
  • video does not only refer to the state in which it is displayed on a display, but may also refer comprehensively to video data that is not displayed on a display.
  • background video before it is displayed on a display and video captured by a camera are not actually displayed video but are video data, but for convenience they will be referred to as “background video” or “captured video”, etc.
  • FIG. 1 is a schematic diagram of a photography system 11.
  • This photography system 11 is a system that performs photography as a virtual production, and FIG. 1 shows some of the equipment that is placed in a photography studio.
  • the film studio is provided with a performance area 22 where performers 21 act or perform other performances.
  • Large display devices are placed at least on the rear of this performance area 22, as well as on the left and right sides and top.
  • Figure 1 shows an example of an LED wall 23 being used as a large display device.
  • One LED wall 23 is formed by connecting and arranging multiple LED panels 24 vertically and horizontally. By arranging and connecting multiple LED panels 24 in this way, a large panel can be formed as the LED wall 23.
  • the size of the LED wall 23 is not particularly limited, but it should be large enough or necessary to display the background when filming the performer 21.
  • the required number of lights 25 are placed in necessary positions in the photography studio, such as above or to the sides of the performance area 22, and these lights 25 illuminate the performance area 22.
  • a camera 26 is positioned near the performance area 22, for example to film movies or other video content.
  • the cameraman 27 can move the position of the camera 26 and can also control the shooting direction and angle of view of the camera 26.
  • the movement of the camera 26 and the angle of view can be controlled by remote operation.
  • the camera 26 may also move or change the angle of view automatically or autonomously.
  • the camera 26 may be mounted on a camera platform or a moving body.
  • the camera 26 captures (simultaneously) the performer 21 in the performance area 22 and the image displayed on the LED wall 23.
  • An output monitor 28 is placed near the performance area 22. On this output monitor 28, for example, the image captured by the camera 26 is displayed in real time as a monitor image vM. This allows the director and staff producing the video content to check the image captured by the camera 26.
  • the shooting system 11 which shoots the performance of the performer 21 with the LED wall 23 as a background in a shooting studio, has various advantages over green screen shooting.
  • shooting with the shooting system 11 may make so-called chromakey compositing unnecessary, or may make color correction and reflection compositing unnecessary. Even when chromakey compositing is necessary, it is only necessary to display green and blue images during shooting, so there is no need to add a physical background screen, which also helps to improve efficiency.
  • the camera 26 can capture images of the performer 21 in the performance area 22 from a variety of directions and can also zoom in.
  • the performer 21 does not have to stand still in one place.
  • the actual appearance of the background for performer 21 should change depending on the position of camera 26, the shooting direction, the angle of view, etc., but such changes cannot be obtained with background image vB as a flat image. Therefore, by changing background image vB, the background is made to look the same as it actually does, including parallax.
  • Figure 2 shows the camera 26 photographing the performer 21 from a position on the left side of the figure
  • Figure 3 shows the camera 26 photographing the performer 21 from a position on the right side of the figure.
  • the part of the background image vB excluding the shooting area image vBC is called the "outer frustum," and the shooting area image vBC is called the “inner frustum.”
  • the background image vB described here refers to the entire image displayed as the background, including the shooting area image vBC (inner frustum).
  • the range of this shooting area image vBC corresponds to the range within the display surface of the LED wall 23 that is actually captured by the camera 26.
  • the shooting area image vBC is an image that expresses the scene that can be seen when the viewpoint is actually the position of the camera 26, depending on the position of the camera 26, the shooting direction, the angle of view, etc.
  • 3D background data which is a 3D (three dimensional) model
  • the video (image) obtained by sequentially rendering the 3D background data in real time based on the viewpoint position of the camera 26 is displayed.
  • the range of the shooting area image vBC is slightly wider than the range captured by the camera 26 at that time.
  • the captured area image (vBC) rendered in real time in this way is then composited with the outer frustum image.
  • the outer frustum image used in the background image vB may be rendered in advance based on 3D background data, or may be rendered in real time for each frame or for each intermittent frame, and the entire background image vB is generated by incorporating the image of the shooting area image vBC (inner frustum) into part of the outer frustum image.
  • the outer frustum image is also rendered every frame, just like the inner frustum, but here we will use a still image as an example, and in the following explanation we will mainly use the example of rendering only the first frame of the outer frustum image.
  • the output monitor 28 displays a monitor image vM including the performer 21 and the background, and this monitor image vM is an image captured by the camera 26.
  • the background in this monitor image vM is the shooting area image vBC.
  • the background included in the captured image is a real-time rendered image.
  • the background image vB is not simply displayed two-dimensionally, but the background image vB including the shooting area image vBC is changed in real time so that an image similar to that obtained by actually shooting a landscape can be captured.
  • the video content production process is broadly divided into three stages. That is, the video content production process mainly consists of asset creation ST1, production ST2, and post-production ST3.
  • Asset creation ST1 is the process of producing 3D background data for displaying background image vB.
  • background image vB is generated by rendering in real time using 3D background data during shooting. For this reason, 3D background data is produced in advance as a 3D model.
  • Examples of techniques for producing 3D background data include full computer graphics (CG), point cloud scanning, and photogrammetry.
  • CG full computer graphics
  • point cloud scanning point cloud scanning
  • photogrammetry photogrammetry
  • Full CG is a method of creating 3D models using computer graphics. Of the three methods, full CG requires the most man-hours and time, but it is best used when you want to use unrealistic images or images that are difficult to actually shoot as background images vB.
  • Point cloud data scanning is a technique in which distances are measured from a certain position using, for example, LiDAR (Light Detection And Ranging), while also taking 360-degree images from the same position using a camera, and a 3D model is generated from point cloud data by overlaying the color data captured by the camera on top of the points measured by the LiDAR.
  • LiDAR Light Detection And Ranging
  • Point cloud data scanning can produce 3D models in a shorter time than full CG. Point cloud data scanning also has the advantage of making it easier to produce high-resolution 3D models than photogrammetry.
  • Photogrammetry is a photographic technique that determines the dimensions and shape of an object by analyzing parallax information from two-dimensional images taken from multiple viewpoints.
  • Photogrammetry allows for the creation of 3D models in a short amount of time. Note that point cloud information acquired by LIDAR can also be used to generate 3D data using photogrammetry.
  • Asset Creation ST1 these methods are used to create a 3D model that will become the 3D background data.
  • the above methods may be used in combination.
  • a portion of a 3D model created using point cloud data scanning or photogrammetry may be created in CG and then composited.
  • Production ST2 is the process of filming in a film studio like the one shown in Figure 1.
  • the core technologies used in this case include real-time rendering, background display, camera tracking, lighting control, etc.
  • Real-time rendering is a rendering process for obtaining the shooting area image vBC at each point in time (each frame of the background image vB) as explained in Figures 2 and 3. This involves rendering the 3D background data created in asset creation ST1 from a viewpoint that corresponds to the position of the camera 26 at each point in time.
  • Camera tracking is performed to obtain meta information from the camera 26, and is a process that tracks the position information, shooting direction, angle of view, etc. of the camera 26 at each point in time.
  • Meta information is information that is linked or associated with video. It is assumed that meta information includes the position information of the camera 26 at each frame timing, the camera direction, angle of view, focal length, F-number (aperture value), shutter speed, lens information, etc.
  • the meta information includes the position information of the camera 26 and information indicating the camera's orientation, which is pose information indicating the result of the self-position estimation described above, and the meta information also includes a pose reliability indicating the reliability of the pose information.
  • Lighting control refers to controlling the lighting conditions in the shooting system 11, specifically controlling the light intensity, light color, lighting direction, etc. of the light 25. For example, lighting control is performed according to the time settings and location settings of the scene to be shot.
  • Post-production ST3 refers to the various processes that are carried out after shooting.
  • post-production ST3 involves image correction, image adjustment, clip editing, image effects, etc.
  • Image correction may involve color gamut conversion or color matching between cameras or materials.
  • Image adjustment may involve color adjustment, brightness adjustment, contrast adjustment, etc.
  • Clip editing may involve cutting clips, adjusting the order, or adjusting the length of time, while video effects may involve compositing CG video and special effects video.
  • the filming studio is set up, including the installation of the LED wall 23, and then the placement of the cameras 26 and output monitors 28 is performed as a pre-setup.
  • the video content is actually shot by the shooting system 11, and the video (image) obtained by shooting is checked.
  • a video (moving image) obtained by shooting with the camera 26, and in particular a single frame constituting a moving image, will also be referred to as a captured image.
  • the video (images) of the content obtained by filming are sent out, and the sent out video is edited (post-production) in the above-mentioned post-production ST3.
  • the upper part of Figure 5 shows the configuration of the part of the shooting system 11 that is used to shoot the video content that is produced as part of the work of production ST2.
  • the imaging system 11 is provided with an imaging processing section 51 including a camera 26 as a component for imaging, and a CG generation processor 52 as a component for generating the imaging area image vBC (inner frustum).
  • an imaging processing section 51 including a camera 26 as a component for imaging, and a CG generation processor 52 as a component for generating the imaging area image vBC (inner frustum).
  • the photography processing unit 51 has a camera 26, a sensor unit 61, and a self-position estimation unit 62.
  • the CG generation processor 52 is provided in a device such as a PC (Personal Computer) or a server, and realizes the rendering engine described above.
  • the camera 26 When shooting, the camera 26 shoots a scene consisting of the shooting area image vBC (inner frustum) that is the background displayed on the LED wall 23, and the real performer 21 that is the foreground. At this time, the sensor unit 61 and the self-position estimation unit 62 are used to obtain pose information of the camera 26.
  • vBC inner frustum
  • the sensor unit 61 is attached to the camera 26 and includes an image sensor, a gyro sensor, a distance measurement sensor such as LiDAR, and a positioning sensor such as a GPS (Global Positioning System) sensor.
  • the sensor unit 61 performs sensing to estimate the self-position of the camera 26, and outputs the resulting sensor output signal to the self-position estimation unit 62.
  • the self-position estimation unit 62 estimates the self-position based on the sensor output signal supplied from the sensor unit 61, and outputs the pose information and pose reliability obtained as a result.
  • the self-location estimation unit 62 may be a small device attached to the camera 26, or may be a device such as a PC or server that is installed separately from the camera 26.
  • At least one of the sensor unit 61 and the self-position estimation unit 62 may be provided inside the camera 26.
  • the pose information and pose reliability obtained by the self-position estimation unit 62 are supplied to the CG generation processor 52, for example, via Ethernet.
  • the CG generation processor 52 performs rendering processing based on the 3D background data prepared in advance and the pose information and pose reliability provided by the shooting processing unit 51 (self-position estimation unit 62), and generates the shooting area image vBC.
  • the angle of view, focal length, F-number, etc. of the camera 26 are also supplied to the CG generation processor 52 and are used to generate the shooting area image vBC as necessary.
  • the CG generation processor 52 appropriately supplies the background image vB including the obtained shooting area image vBC to the LED wall 23 via a display controller (not shown) or the like for display. This makes it possible to display the shooting area image vBC according to the position and shooting direction of the camera 26.
  • the captured image, pose information, and pose reliability are associated.
  • one or more pieces of pose information and pose reliability at each time may be associated with the entire captured image.
  • the captured image is a moving image
  • the timing of acquisition of the pose information may not match each frame of the moving image.
  • the frames of the moving image and the pose information may not be synchronized.
  • pose information and pose reliability synchronized with each frame of the moving image can be obtained by interpolation processing or the like. Even if the captured image is a still image, pose information and pose reliability synchronized with the captured image can be obtained in the same way as in the case of a moving image.
  • a video file is generated that contains the captured image, and the pose information and pose reliability at the time of capturing the captured image, and the resulting video file is supplied to a device such as a PC that performs processing such as video effects.
  • the captured image, pose information, and pose reliability are associated by storing them in the same video file, for example.
  • the video file may be recorded in memory and supplied to a device such as a PC, or may be supplied to a device such as a PC directly or via a network in a format that complies with any standard.
  • the captured image stored in the video file may be a RAW image, or may be a YC image consisting of a luminance signal and color difference signals, obtained by performing development processing on the RAW image.
  • the self-location estimation of the camera 26 may be achieved by any method, but for example, the self-location estimation unit 62 performs SLAM (Simultaneous Localization and Mapping) to estimate the self-location.
  • SLAM Simultaneous Localization and Mapping
  • SLAM the position of the camera 26 is identified and the environment map is created in parallel.
  • a signal of an image captured by an image sensor provided in the sensor unit 61 (image signal) is supplied to the self-position estimation unit 62 as a sensor output signal.
  • the self-location estimation unit 62 estimates the three-dimensional positions of the feature points by analyzing the trajectories of the feature points contained in the image based on the sensor output signal, and also estimates the position and orientation of the camera 26, thereby obtaining pose information.
  • the self-location estimation unit 62 also creates an environmental map, which is a map of the surroundings, using the three-dimensional position information of the feature points extracted from the image.
  • the pose information (x, y, z, p, t, r) shown in the upper right of the figure is obtained. That is, the pose information obtained includes the x-, y-, and z-coordinates indicating the spatial position of the camera 26, and the pan p, tilt t, and roll r, which are angles indicating the orientation of the camera 26.
  • the pose information variance ( ⁇ x, ⁇ y, ⁇ z, ⁇ p, ⁇ t, ⁇ r) and inlier ratio can be used to calculate the pose reliability.
  • These variances and inlier ratios are information obtained during the self-localization process.
  • the variance of pose information is the variance of each element that makes up the pose information, such as coordinates and angles, and the smaller this variance is, the higher (larger) the pose reliability can be.
  • the inlier ratio is the ratio between the total number of feature points extracted from an image and the number of inliers, which is the number of feature points that are considered to be inliers, that is, the number of feature points that are considered to be usable for self-localization estimation. The larger the inlier ratio, the higher the pose reliability.
  • Depth SLAM uses the sensor output signal obtained from a distance sensor, i.e., the distance z from the distance sensor to the subject obtained by distance measurement using the dTof (direct Time of Flight) method, to obtain pose information.
  • the variance ⁇ z of the distance z obtained during the self-location estimation process, or the number of peaks in the distance z (multimodality), can be used to calculate the pose reliability, as shown in the bottom right of the figure.
  • the distance sensor measures distance multiple times in a relatively short period of time, so a histogram of distance z, as shown by arrow Q21, for example, is obtained.
  • the variance ⁇ z of distance z in this histogram can then be used to calculate the pose reliability.
  • the smaller the variance ⁇ z the higher (larger) the pose reliability can be.
  • the histogram of distance z may have multiple peaks, as shown by arrow Q22, and the number of such peaks can be used to calculate the pose reliability. In this case, the fewer the number of peaks, the higher the pose reliability can be.
  • FIG. 7 is a diagram showing a more detailed example of the configuration of the shooting processing unit 51. As shown in FIG.
  • the image capture processing unit 51 has a camera 26, a sensor unit 61, and a self-position estimation unit 62.
  • the camera 26 has a shooting unit 91, an ISP (Image Signal Processor) unit 92, a display unit 93, an input unit 94, and a control unit 95.
  • the control unit 95 also has an SDI (Serial Digital Interface) output unit 101, a file output unit 102, and a pause superimposition unit 103.
  • SDI Serial Digital Interface
  • the shooting unit 91 is made up of a fixed or interchangeable lens and an image sensor, and shoots subjects such as the performer 21 and the shooting area video vBC, and supplies the resulting content video, i.e., each frame (image) of the video, to the ISP unit 92.
  • the ISP unit 92 is made up of a processor and performs various image processing such as pixel defect correction and color separation processing on the image supplied from the image capture unit 91 as appropriate, and supplies the resulting captured image to the control unit 95.
  • image processing such as pixel defect correction and color separation processing
  • the captured image from the ISP unit 92 is supplied to the SDI output unit 101 and file output unit 102 of the control unit 95. Note that when the captured image is a RAW image, some processing such as color separation processing is not performed.
  • the display unit 93 is, for example, an electronic viewfinder or a small display, and displays various images such as captured images and menu images supplied from the control unit 95.
  • the input unit 94 is, for example, a button or switch, and supplies signals to the control unit 95 in response to operations by the user (cameraman 27).
  • the control unit 95 controls the overall operation of the camera 26.
  • the control unit 95 controls the photographing unit 91 to take photographs, and supplies a through image based on the photographed image supplied from the ISP unit 92 to the display unit 93 to display it.
  • the control unit 95 also has an SDI output unit 101, a file output unit 102, and a pause superimposition unit 103.
  • the SDI output unit 101 generates a video signal of the captured image conforming to the SDI format based on the captured image supplied from the ISP unit 92, and supplies it to the pause superimposition unit 103.
  • SDI format is used as an example here, video signals in any other format may be generated as video signals for transmission.
  • the file output unit 102 generates a video signal, i.e., a video file, in any format, such as a RAW video compression format, that includes the captured image supplied from the ISP unit 92, and supplies it to the pause superimposition unit 103.
  • a video signal i.e., a video file
  • any format such as a RAW video compression format
  • the pose superimposition unit 103 receives pose information and pose reliability from the self-position estimation unit 62, and functions as an association unit that associates the captured image, pose information, and pose reliability.
  • the pose superimposition unit 103 outputs a video signal obtained by associating the captured image (video signal) in SDI format supplied from the SDI output unit 101 with the pose information and pose reliability supplied from the self-position estimation unit 62 to the downstream of the camera 26.
  • the pause information and the pause reliability are superimposed (embedded) in a predetermined period (section), such as the blanking period of an SDI format video signal, to associate the pause information and the pause reliability with the captured image.
  • a predetermined period such as the blanking period of an SDI format video signal
  • the video signal of the captured image is output to a device such as the output monitor 28, a switcher, or a PC.
  • the video signal of the captured image may be output to a device such as a monitor installed outside the shooting studio for checking the image.
  • the pose superimposition unit 103 outputs a video signal (video file) obtained by associating the captured image supplied from the file output unit 102 with the pose information and pose reliability supplied from the self-position estimation unit 62.
  • the pose information and pose reliability are stored as metadata or the like in the video file of the captured image, thereby associating the captured image with the captured image.
  • the destination of the video file is, for example, a removable recording medium attached to the camera 26, or a device such as a post-production PC connected to the camera 26 by wire or wirelessly.
  • the captured image, pose information, and pose reliability may be associated with a unique ID such as a UUID (Universally Unique Identifier) or UMID (Unique Material Identifier).
  • UUID Universally Unique Identifier
  • UMID Unique Material Identifier
  • the captured image, pose information, and pose reliability are assigned the same ID.
  • a file containing the assigned ID and the captured image and another file different from the first file containing the assigned ID, pose information, and pose reliability may be generated.
  • the captured image to which an ID has been assigned and the pose information and pose reliability to which the same ID has been assigned may be transmitted (sent) separately to an external device such as a post-production PC.
  • a sensor unit 61 is attached to the camera 26.
  • the sensor unit 61 may be detachable from the camera 26, or may be integrated with the camera 26 and not detachable.
  • the sensor unit 61 has a sensor selection section 121 and sensor sections 122-1 through 122-N.
  • the sensor selection unit 121 selects a sensor unit to be used for self-location estimation from among the N sensor units 122-1 to 122-N, i.e., a sensor unit suitable for self-location estimation, based on a control signal supplied from the self-location estimation unit 62.
  • Sensor units 122-1 to 122-N are composed of, for example, an image sensor, a gyro sensor, a distance measurement sensor such as LiDAR, a positioning sensor such as a GPS sensor, and perform sensing to estimate the self-position of camera 26, and output the resulting sensor output signal.
  • sensor units 122-1 to 122-N when there is no need to distinguish between sensor units 122-1 to 122-N, they will simply be referred to as sensor units 122.
  • the sensor selection unit 121 can drive only the sensor unit 122 selected based on a control signal from the self-location estimation unit 62 to perform sensing, and the sensor output signal obtained by sensing can be supplied to the self-location estimation unit 62.
  • the sensor selection unit 121 may cause all N sensor units 122 to perform sensing, and only the sensor output signal of the sensor unit 122 selected from among the N sensor units 122 based on a control signal may be supplied to the self-position estimation unit 62.
  • the self-location estimation unit 62 can perform self-location estimation more stably. In other words, more reliable pose information can be obtained continuously.
  • the self-position estimation unit 62 has a self-position calculation unit 141, a UDP (User Datagram Protocol) transmission unit 142, and a sensor control unit 143.
  • UDP User Datagram Protocol
  • the self-position calculation unit 141 is composed of, for example, a processor, and estimates the self-position of the camera 26 based on the sensor output signals of one or more sensor units 122 supplied from the sensor unit 61. In other words, the pose information and pose reliability of the camera 26 are calculated by the self-position estimation.
  • the self-position calculation unit 141 supplies the pose information and pose reliability obtained by self-position estimation to the pose superposition unit 103 of the camera 26.
  • the self-position calculation unit 141 also supplies the pose information and pose reliability to the UDP transmission unit 142, and supplies the pose reliability to the sensor control unit 143.
  • the UDP transmission unit 142 transmits the pose information and pose reliability provided by the self-position calculation unit 141 to a device such as a PC that is connected to the self-position estimation unit 62 via a network by communication according to UDP.
  • the destination of the pose information and pose reliability sent by the UDP sending unit 142 is a device equipped with the CG generation processor 52 shown in FIG. 5.
  • the sensor control unit 143 switches the sensor unit 122 used for self-position estimation, i.e., switches the sensor output signal used for self-position estimation, based on the pose reliability supplied from the self-position calculation unit 141.
  • the sensor control unit 143 selects a sensor unit 122 to be used for self-position estimation from the N sensor units 122 provided in the sensor unit 61 based on the pose reliability, and supplies a control signal indicating the selection result to the sensor unit 61.
  • the sensor control unit 143 can be configured to select a predetermined sensor unit 122 when shooting begins, and then reselect the sensor unit 122 (sensor output signal) when the pose reliability falls below a predetermined threshold, i.e., switch the sensor unit 122.
  • the N sensor units 122 are image sensors whose imaging directions (sensing directions) are different from each other.
  • the N sensor units 122 are image sensors that are arranged facing in different directions from each other.
  • sensor unit 122-1 is selected, and self-position estimation is performed based on the sensor output signal obtained by sensor unit 122-1, but at some point the pose reliability falls below a predetermined threshold.
  • the sensor control unit 143 selects another sensor unit 122, such as sensor unit 122-2, which is predetermined for sensor unit 122-1, as a new sensor unit 122 to be used for self-position estimation, and outputs a control signal indicating the selection result.
  • an inappropriate direction such as the ceiling or walls, that reduces the reliability of the pose of the self-position estimation when viewed from the camera 26 (sensor unit 61).
  • N sensor units 122 are made up of sensors of different types.
  • the sensor control unit 143 selects a sensor unit 122 consisting of a type of sensor different from an image sensor, such as a distance measurement sensor, as a new sensor unit 122 to be used for self-position estimation, and outputs a control signal indicating the selection result.
  • the sensor unit 122 used for self-position estimation may be selected based on the sensor output signal. Also, an example will be described here in which the sensor control unit 143 selects the sensor unit 122 based on the pose reliability, and supplies a control signal indicating the selection result to the sensor unit 61 (sensor selection unit 121). In this case, the sensor selection unit 121 selects the sensor unit 122 indicated by the control signal as the sensor unit 122 to be used for self-position estimation.
  • the sensor control unit 143 may output the pose reliability as a control signal, and the sensor selection unit 121 may select the sensor unit 122 to be used for self-position estimation based on the pose reliability supplied as the control signal.
  • the sensor output signals of all N sensor units 122 may be supplied to the self-position calculation unit 141 at once.
  • the self-position calculation unit 141 performs self-position estimation using the sensor output signal of the sensor unit 122 selected by the sensor control unit 143 from the N sensor output signals supplied.
  • a part or all of the above-described photographing processing unit 51 functions as an information processing device that associates photographed images, pose information, and pose reliability.
  • a part or all of the components of the sensor unit 61 may be provided in the camera 26, and a part or all of the components of the self-position estimation unit 62 may be provided in the camera 26.
  • some components of the camera 26, such as the pose superimposition unit 103, may be provided in the self-location estimation unit 62, or some or all of the self-location estimation unit 62, the pose superimposition unit 103, etc. may be provided in the sensor unit 61.
  • the time code of a photographed image can be associated with the pause information.
  • the self-location estimation unit 62 has a self-location calculation unit 141, a UDP transmission unit 142, a sensor control unit 143, and a file generation unit 151.
  • the configuration of the self-location estimation unit 62 shown in FIG. 8 is a configuration in which a file generation unit 151 is further provided in addition to the self-location estimation unit 62 shown in FIG. 7.
  • the file generation unit 151 is supplied with the time code of the captured image from the control unit 95 of the camera 26, and is also supplied with pose information from the self-position calculation unit 141. Note that in addition to the pose information, the pose reliability may also be supplied from the self-position calculation unit 141 to the file generation unit 151.
  • the file generation unit 151 associates the time code with the pause information by generating a file in which the supplied time code and pause information are stored.
  • the file generation unit 151 When the file generation unit 151 generates a file containing the time code and pause information of the captured image, it outputs (supplies) the file to any output destination, such as a removable recording medium, the CG generation processor 52, a post-production device such as a PC, or a server that constitutes a cloud.
  • the file may also store the pose reliability of the pose information, and the time code, pose information, and pose reliability may be associated with each other.
  • information related to the time of the captured image such as the frame number of the captured image, may be associated with the pose information.
  • the association of the time code (captured image) and the pose information may be performed in any other way, such as by assigning a unique ID as described above.
  • the image capture processing unit 51 When the camera 26 starts capturing images, the image capture processing unit 51 performs the data output process shown in FIG. 9. The data output process performed by the image capture processing unit 51 will be described below with reference to the flowchart in FIG. 9.
  • step S11 the control unit 95 acquires the captured image.
  • the ISP unit 92 performs image processing on the image output from the image capture unit 91, and outputs the captured image obtained as a result.
  • the SDI output unit 101 and file output unit 102 of the control unit 95 acquire the captured image output from the ISP unit 92 in this manner.
  • the SDI output unit 101 also generates a captured image conforming to the SDI format, i.e., a video signal of the captured image, and supplies it to the pause superimposition unit 103, and the file output unit 102 generates a video signal (moving image file) in a specified format and supplies it to the pause superimposition unit 103.
  • sensing by the sensor unit 122 also begins at the same time that imaging by the camera 26 begins.
  • the sensor selection unit 121 selects a sensor unit 122 to be used for self-position estimation from among the multiple sensor units 122 in response to a control signal supplied from the sensor control unit 143, and supplies the sensor output signal obtained from the selected sensor unit 122 to the self-position calculation unit 141.
  • step S12 the self-position calculation unit 141 acquires the sensor output signal obtained by one or more sensor units 122 output from the sensor unit 61.
  • step S13 the self-position calculation unit 141 performs self-position estimation based on the sensor output signal acquired in step S12. For example, in step S13, SLAM is performed as the self-position estimation, thereby obtaining pose information and pose reliability.
  • the self-position calculation unit 141 supplies the pose information and pose reliability obtained by self-position estimation to the pose superposition unit 103 and UDP transmission unit 142 of the camera 26, and also supplies the pose reliability to the sensor control unit 143.
  • step S14 the pose superimposition unit 103 outputs the captured image, pose information, and pose reliability in association with each other.
  • the pause information and pause reliability can be transferred without making any changes to the existing transmission system, such as adding wiring, and the pause information and pause reliability can be utilized at the destination.
  • the pose superimposition unit 103 associates the captured image with the pose information and pose reliability supplied from the self-position estimation unit 62 by storing the pose information and pose reliability in the video file of the captured image supplied from the file output unit 102, and outputs the resulting video file.
  • the pose information and pose reliability are stored in the video file as metadata of the captured image.
  • the UDP transmission unit 142 transmits the pose information and pose reliability supplied from the self-position calculation unit 141 to a device in which the CG generation processor 52 is installed, by communication according to UDP. This allows the CG generation processor 52 to perform rendering processing based on the 3D background data, the pose information, and the pose reliability, and generate the shooting area image vBC.
  • step S15 the sensor control unit 143 controls switching of the sensor unit 122 used for self-position estimation based on the pose reliability provided by the self-position calculation unit 141.
  • the sensor control unit 143 does not switch the sensor unit 122, but continues to use the sensor unit 122 that is currently being used. In other words, the sensor unit 122 that is currently being used is selected as the sensor unit 122 to be used for self-position estimation.
  • the sensor control unit 143 switches the sensor unit 122. For example, the sensor control unit 143 selects a sensor unit 122 that has been determined in advance as the sensor unit 122 to be used after switching, in place of the sensor unit 122 currently being used.
  • the sensor control unit 143 supplies the sensor unit 61 with a control signal indicating the sensor unit 122 after switching.
  • the sensor selection unit 121 then switches the sensor unit 122 that outputs a sensor output signal to the self-position calculation unit 141 in response to the control signal from the sensor control unit 143.
  • the pose reliability when processing is performed according to the pose reliability, such as displaying a warning to notify that the pose reliability has decreased based on the pose reliability using the CG generation processor 52, the camera 26, etc. as necessary, it is not necessary for the sensor control unit 143 to perform switching control of the sensor unit 122. Conversely, when the sensor control unit 143 performs switching control of the sensor unit 122, it is not necessary for the CG generation processor 52, the camera 26, etc. to perform processing according to the pose reliability, such as displaying a warning to notify that the pose reliability has decreased. In this case, the pose reliability does not need to be supplied to the camera 26 or the CG generation processor 52.
  • step S16 the control unit 95 determines whether or not to end the process of outputting the captured image in association with the pose information and the pose reliability. For example, if the capture of the captured image has ended, it is determined that the process is to end.
  • step S16 If it is determined in step S16 that the process is not yet to end, the process returns to step S11 and the above-mentioned process is repeated.
  • each component of the image capture processing unit 51 stops the processing it is currently performing, and the data output processing ends.
  • the captured image, pose information, and pose reliability associated in step S14 of the data output process are recorded on a removable recording medium by the pose superimposition unit 103 in the form of a video file or the like, or are transmitted from the pose superimposition unit 103 to a device such as a PC for post-production via communication.
  • the video file recorded on a removable recording medium is supplied to a device such as a PC for post-production.
  • the image capture processing unit 51 performs self-position estimation when capturing an image, and outputs the captured image in association with the pose information and pose reliability obtained by self-position estimation.
  • pose information and pose reliability can be utilized during shooting and post-production, making video production more efficient.
  • the pose confidence associated with a captured image can be utilized during or after capture.
  • a warning message indicating the decrease in pose reliability can be displayed to prevent a decrease in efficiency of the shooting work.
  • the warning display may be, for example, by the camera 26, the output monitor 28, the LED wall 23, etc.
  • the presentation of the warning that the pose reliability has decreased is not limited to a visual presentation, but may be by sound or vibration, or may be a combination of one or more of the presentation methods of display, sound, vibration, etc.
  • the pose reliability can be used to determine whether or not to use the pose information as is in the compositing process.
  • Figure 10 shows an example of compositing a CG image or the like as a video effect.
  • the compositing process may be performed during shooting, or it may be performed in post-production after shooting.
  • a tree is displayed as a background on an LED wall 23 in the shooting studio, and the performer 21 performs in front of the LED wall 23. Then, the shooting area image vBC on the LED wall 23 and the performer 21 are photographed by the camera 26 as subjects.
  • the pose information is used to synthesize a CG image of the horse HR11 into the image captured by the camera 26, and the resulting image can be displayed as the monitor image vM on the output monitor 28.
  • This type of compositing process can be performed in post-production after filming, but by performing it during filming, the filming staff can check whether the image is as intended by viewing the monitor image vM on the output monitor 28.
  • the pose information and pose reliability associated with a captured image can be used both during and after capture.
  • the threshold value for the pose reliability may be changed depending on the purpose of the pose information, in other words, the application that uses the pose information. This allows for more appropriate use of the pose information and pose reliability, making video production even more efficient.
  • the uses referred to here are, for example, shooting images using the LED wall 23, green screen shooting, post-production, etc. Even in post-production, different uses can be used depending on the editing content, such as compositing CG images in the foreground, and the shooting technique, such as green screen shooting.
  • Figure 11 shows examples of pose reliability thresholds depending on the application.
  • the pose reliability thresholds are used, for example, to display a warning that notifies users that the pose reliability has decreased.
  • the horizontal axis indicates time, i.e., the time code of the captured image, and the vertical axis indicates the pose reliability.
  • the applications include foreground compositing and background compositing, and a warning is displayed when the pose reliability falls below a threshold.
  • the foreground synthesis application here is when pose information and pose reliability are used in the process of synthesizing a CG image (AR) that will be the foreground with a shot image in post-production.
  • background synthesis applications include cases where pose information and pose reliability are used in the process of synthesizing a background image during or after shooting, such as shooting using an LED wall 23 or shooting against a green screen.
  • background synthesis applications include, for example, generating a shooting area image vBC.
  • curve L11 shows the pose reliability at each time.
  • Line L12 shows the pose reliability threshold for foreground synthesis, and line L13 shows the pose reliability threshold for background synthesis.
  • a warning is displayed if the pose reliability value shown on curve L11 falls below the threshold value shown on line L12.
  • a warning is displayed if the pose reliability value shown on curve L11 falls below the threshold value shown on line L13.
  • the threshold for foreground synthesis is set higher than the threshold for background synthesis, shown by line L13.
  • the pose reliability threshold may be different for use during shooting and for use during post-production after shooting. In such a case, it is conceivable to make the pose reliability threshold for use during shooting smaller than the pose reliability threshold for use during post-production.
  • the above-mentioned changing (setting) of the pose reliability threshold according to the application may be performed on the application program side without the need for user operation, or may be performed by the user specifying an application program, etc.
  • the application program launched on the device such as a PC sets the pose reliability threshold value determined for the purpose corresponding to itself (the application program).
  • a specific example of changing (setting) the pose reliability threshold is when the camera 26 or CG generation processor 52 displays a warning depending on the result of comparing the pose reliability with the threshold during shooting.
  • the control unit 95 selects (sets) a threshold value for the purpose of the pose information during shooting, such as background synthesis, from among pose reliability threshold values prepared in advance for multiple purposes. In other words, the control unit 95 switches the pose reliability threshold value for determining whether or not to issue a warning depending on the purpose of the pose information.
  • control unit 95 may select the threshold value in response to the cameraman 27's operation on the input unit 94, or may select the threshold value in response to the set mode, etc., without requiring the cameraman 27 to operate.
  • control unit 95 sequentially receives pose information and pose reliability from the self-position calculation unit 141, it compares the supplied pose reliability with the selected threshold, and when the pose reliability falls below the threshold, it causes the display unit 93 to display a warning that the pose reliability has decreased.
  • the cameraman 27 looking at the electronic viewfinder as the display unit 93 can notice shooting mistakes and the like at an early stage.
  • the shooting staff and the like do not need to constantly check the monitor image vM on the output monitor 28 to see if there are any shooting mistakes or deterioration of image quality. These things make it possible to improve the efficiency of the shooting work.
  • the CG generation processor 52 may select a pose reliability threshold value according to the application, and sequentially compare the selected threshold value with the pose reliability values supplied from the UDP transmission unit 142.
  • the CG generation processor 52 when the pose reliability falls below a threshold, the CG generation processor 52 generates a background image vB in which a warning indicating that the pose reliability has decreased is superimposed on the outer frustum portion. The CG generation processor 52 then supplies the generated background image vB to the LED wall 23 via a display controller (not shown) or the like for display.
  • the pose reliability threshold used by the sensor control unit 143 of the self-position estimation unit 62 to control switching of the sensor unit 122 may also be selected (set) depending on the purpose of the pose information.
  • Another specific example of changing (setting) the pose reliability threshold may be when switching between using pose information as is or using pose information obtained by existing camera tracking in post-production.
  • the compositing process requires pose information of the camera 26 to determine the composite position of the CG image on the shot image, etc.
  • the pose information obtained by the self-position estimation unit 62 can be used as is for the synthesis process.
  • the horizontal axis indicates time, i.e., the time code of the captured image, and the vertical axis indicates the pose reliability.
  • curve L21 indicates the pose reliability at each time
  • straight lines L22 and L23 indicate the pose reliability thresholds selected (set) based on the foreground synthesis purpose, which is the purpose of the synthesis process.
  • two thresholds are selected for foreground compositing purposes.
  • the thresholds indicated by lines L22 and L23 are set according to the purpose.
  • one threshold such as the threshold indicated by line L22
  • the other threshold such as the threshold indicated by line L23
  • the pose information is sufficiently reliable, and the pose information associated with the captured image is used as is in the synthesis process.
  • the pose information is used as is in the synthesis process.
  • the pose information associated with the captured image can be used directly in the compositing process, eliminating the need to determine the pose information in post-production. This reduces post-production processing time and allows for more efficient video production.
  • the pose information cannot be said to be sufficiently reliable, so the final pose information is obtained by existing camera tracking.
  • the pose information obtained by existing camera tracking is then used for the synthesis process.
  • pose information is obtained using existing camera tracking.
  • the pose information associated with the captured image is used as the initial value for the pose information to be calculated, and existing camera tracking is performed.
  • the conventional camera tracking referred to here is a process that calculates pose information based only on captured images, and this type of conventional camera tracking is called match move processing.
  • the pose information associated with the captured image is used as an initial value, and the pose information is calculated by match move processing.
  • estimating pose information i.e., estimating the position and orientation of the camera 26
  • the search range for the solution will be wide, which will slow down the convergence of the process and also increase the possibility that the estimated pose information will be a locally optimal solution.
  • pose information that is reasonably reliable is used as the initial value, the match move process will converge faster and the solution can be searched for locally, resulting in more reliable, i.e. more likely, pose information.
  • the pose information associated with the captured image may not be reliable. Therefore, relatively reliable pose information from a time prior to the current time is used as the initial value to perform existing camera tracking, and the resulting pose information is used for the synthesis process.
  • the previous relatively reliable pose information is used as the initial value, and the final pose information is obtained by existing camera tracking.
  • the pose information to be used as the initial value is selected from the pose information for each point in time prior to the current point in time, as shown by curve L21, for example.
  • the pose information that is set as the initial value may be specified by the user, or may be selected by the application program based on the pose reliability at each point in time, without the need for a user specification operation.
  • the pose information at a point corresponding to point PI11 on curve L21, which is prior to the point at which the pose reliability is below the threshold indicated by line L23 and at which the pose reliability is equal to or greater than the threshold indicated by line L23, is selected as the initial value.
  • the match move process can converge more quickly and the processing load can be reduced compared to when existing camera tracking is performed without specifying an initial value.
  • pose reliability in post-production to determine whether or not to use pose information as is, video production can be carried out more efficiently.
  • pose information and pose reliability can be used more appropriately, making video production even more efficient.
  • processing is performed as shown, for example, on the left side of FIG. 13.
  • the above-mentioned match move processing existing camera tracking
  • lens distortion correction is performed on the captured image, correcting distortion caused by the lens in the captured image. This makes the captured image closer to the state when it is captured with an ideal lens without distortion, allowing for more accurate feature point tracking in the subsequent stages.
  • moving subject masking is performed on the captured image after lens distortion correction.
  • the area of the moving subject in the captured image becomes noise, so moving subject masking removes the area of the moving subject from the estimation target area when estimating self-location.
  • the user specifies the area of the moving subject as appropriate.
  • the amount of motion obtained by tracking feature points is used to estimate the self-position (3D camera position) in the captured image.
  • a ground area is selected from the captured image, and the CG image is synthesized based on the selection result and the result of self-position estimation, that is, the CG image is positioned.
  • a captured image and the pose information and pose reliability associated with the captured image are input.
  • CG image placement CG image placement
  • Figures 14 and 15 show examples of the UI (User Interface) and display screen transitions when the processing described with reference to Figure 13 is performed.
  • Figure 14 shows an example of the UI and display screen when processing is performed when there is no pose information and pose reliability associated with the captured image, as shown on the left side of Figure 13.
  • UI161 shown in the lower right of FIG. 14 is displayed on the display screen.
  • This UI161 is provided with buttons that display the words “unti-distortion,” “masking,” “tracking,” and “3D camera pose.”
  • lens distortion correction is performed, and lens distortion etc. is displayed on the display screen as appropriate as shown by arrow Q62. If there will be no lens changes on camera 26, this lens distortion correction only needs to be set once at the beginning.
  • a ground area is selected on the captured image showing feature points, etc., and the CG image is then positioned on the captured image as shown by arrow Q70.
  • FIG. 15 shows an example of a UI and display screen when processing is performed when there is pose information and pose reliability associated with a captured image, as shown on the right side of FIG. 13.
  • UI161 when a captured image and the pose information and pose reliability associated with the captured image are input, UI161 is displayed on the display screen. In this case, UI161 further displays a button B81 with the text "use pose meta" displayed.
  • a screen related to pose information such as pose information associated with the captured image, i.e., the results of self-position estimation obtained together with the captured image, is displayed on the display screen, as indicated by arrow Q81.
  • a switch may be made between using the pose information as is for the synthesis process (arrangement of CG images) and obtaining pose information by existing camera tracking and using that information for the synthesis process.
  • the switch described with reference to FIG. 12 may be made.
  • a threshold value according to the use of the pose information is selected on the device (application program) side, and the threshold value is compared with the pose reliability.
  • curve L91 indicates the pose reliability for each frame, with the vertical and horizontal axes indicating the pose reliability and frame (time).
  • a larger threshold PR11 and a smaller threshold PR12 are selected (set) as pose reliability thresholds according to the application.
  • the threshold PR12 may be set to a constant value regardless of the application.
  • the pose confidence associated with the captured images is compared with the selected thresholds PR11 and PR12, starting from the first frame.
  • the pose information associated with the captured image is selected as the pose information to be used in the synthesis process (arrangement of the CG image).
  • the dialog (confirmation window) indicated by arrow Q92 is displayed on the display screen.
  • This dialog displays a text message asking whether to use the pose information as the initial value to estimate the self-position, i.e., conventional camera tracking (match move processing), as well as buttons for responding (answering) to the text message.
  • the pose information associated with the captured image of frame FLM12 is used as the initial value, match move processing is performed based on the captured image, and the resulting pose information is used as the pose information for the compositing process (positioning of the CG image).
  • a message is displayed prompting the user to select a frame to be used as the initial value, as indicated by arrow Q93.
  • a cursor for selecting a frame of pose information to be used as the initial value is displayed, and the user moves the cursor to select the desired frame. In other words, the user selects the pose information to be used as the initial value.
  • the pose information associated with the captured image in the frame selected by the user is used as the initial value, and match move processing is performed based on the captured image.
  • the pose information obtained as a result is then used as the pose information for the compositing process (positioning of the CG image).
  • ⁇ Configuration Example of Information Processing Device> The above-mentioned post-production processing is carried out in an information processing device such as a PC.
  • Fig. 17 shows an example of the configuration of such an information processing device.
  • the information processing device 181 shown in FIG. 17 performs post-production processing based on previously associated photographed images, pose information, and pose reliability, which are supplied directly or indirectly from the camera 26.
  • the processing referred to here includes processing performed after the above-mentioned photographed images are input, such as calculating appropriate pose information and synthesizing CG video (images) on the photographed images.
  • the information processing device 181 has an input unit 191, a display unit 192, a recording unit 193, a communication unit 194, and a control unit 195.
  • the input unit 191 is made up of a mouse, keyboard, etc., and supplies signals according to user operations to the control unit 195.
  • the display unit 192 is made up of a display, etc., and displays various images, such as captured images and a screen for compositing CG images, under the control of the control unit 195.
  • the recording unit 193 is composed of, for example, a non-volatile memory, and records various data such as captured images and application programs for specific purposes supplied from the control unit 195, and supplies the recorded data to the control unit 195 as necessary.
  • the communication unit 194 communicates with an external device.
  • the communication unit 194 transmits data supplied from the control unit 195 to an external device, and receives any data transmitted from an external device, such as a video file in which a captured image is stored in association with pose information and pose reliability, and supplies the data to the control unit 195.
  • the control unit 195 controls the operation of the entire information processing device 181.
  • control unit 195 switches the pose reliability threshold depending on the use of the pose information, and calculates the pose information by self-position estimation (match move processing) based on the captured image as appropriate depending on the result of comparing the pose reliability with the threshold after switching.
  • control unit 195 also performs processing such as synthesizing a CG video (image) on the captured image in response to a signal from the input unit 191.
  • a video file in which a captured image is stored in association with pose information and pose reliability is acquired in advance from the camera 26 and recorded in the recording unit 193.
  • the control unit 195 then reads the specified application program from the recording unit 193 and starts it.
  • control unit 195 reads out a specified video file from the recording unit 193 in response to an operation by the user, and appropriately displays the UI 161 shown in FIG. 16 on the display unit 192.
  • the information processing device 181 performs the video synthesis process shown in FIG. 18 as a process for synthesizing a CG image with a captured image.
  • step S81 the control unit 195 sets a threshold value according to the purpose, such as the post-production described above.
  • control unit 195 selects a larger threshold th1 and a smaller threshold th2 than the threshold th1, which are predetermined for the launched application program, as pose reliability thresholds according to the application.
  • the thresholds th1 and th2 correspond to the thresholds PR11 and PR12 described with reference to FIG. 16, for example.
  • the control unit 195 also performs the following processing on each frame of the video content stored in the video file read from the recording unit 193 in order as the frame to be processed.
  • step S82 the control unit 195 determines whether the pose reliability of the frame to be processed is less than the threshold th1.
  • step S82 If it is determined in step S82 that the pose reliability is not less than the threshold th1, that is, that the pose reliability is equal to or greater than the threshold th1, then the pose information associated with the captured image is sufficiently reliable, and processing then proceeds to step S83.
  • step S83 the control unit 195 selects the pose information associated with the captured image of the frame to be processed as the pose information to be used in the CG image synthesis process. After the process of step S83 is performed, the process proceeds to step S88.
  • step S84 the control unit 195 determines whether the pose reliability of the frame to be processed is less than the threshold th2.
  • step S84 If it is determined in step S84 that the pose reliability is not less than the threshold th2, that is, that the pose reliability is equal to or greater than the threshold th2 and less than the threshold th1, then processing proceeds to step S85.
  • the control unit 195 appropriately causes the display unit 192 to display a dialog for selecting whether or not to perform self-position estimation with the pose information as the initial value, and performs the process of step S85 in response to the user's operation on the dialog.
  • step S85 the control unit 195 uses the pose information associated with the captured image of the frame to be processed as an initial value and performs self-location estimation based on the captured image.
  • the above-mentioned match move processing is performed as the self-location estimation.
  • the control unit 195 uses the pose information obtained by self-position estimation as the final pose information to be used in the CG image synthesis process, and then the process proceeds to step S88.
  • step S84 If it is determined in step S84 that the pose reliability is less than the threshold th2, the process proceeds to step S86.
  • the control unit 195 appropriately displays a cursor or a text message on the display unit 192 for selecting a frame of pose information to be used as an initial value, and prompts the user to select a frame (pose information). The user then operates the input unit 191 to select a frame of pose information to be used as an initial value from among frames that precede the frame to be processed.
  • step S86 the control unit 195 selects a frame of pose information to be used as the initial value, i.e., the pose information to be used as the initial value, in response to a signal supplied from the input unit 191 by user operation.
  • the pose information used as the initial value here is pose information that has been previously associated with the captured image.
  • step S87 the control unit 195 uses the pose information of the frame selected in step S86 as an initial value to perform self-position estimation based on the captured image.
  • the above-mentioned match move processing is performed as the self-position estimation.
  • the control unit 195 uses the pose information obtained by self-position estimation as the final pose information to be used in the CG image synthesis process, and then the process proceeds to step S88.
  • step S88 is then performed.
  • step S88 the control unit 195 performs a synthesis process to synthesize a specified CG image onto the captured image of the frame to be processed, based on the pose information to be used for the synthesis process of the CG image. At this time, the selection result of the ground area, etc. is also used as appropriate.
  • step S88 will not be performed.
  • step S89 the control unit 195 determines whether or not to end the process of combining the captured image with the CG image. For example, in step S89, it is determined that the process is to end when all frames have been processed.
  • step S89 If it is determined in step S89 that the process is not yet to end, then the process returns to step S82, and the above-mentioned process is repeated. In other words, a new frame is processed, and the CG image is composited with the photographed image of that frame.
  • each unit of the information processing device 181 stops the processing it is currently performing, and the video synthesis processing ends.
  • the information processing device 181 compares the pose reliability with the threshold value set for each purpose of the pose information, obtains pose information according to the comparison result, and synthesizes the CG image with the captured image.
  • the information processing device 181 by using pose information and pose reliability that are pre-associated with the captured image, post-production processing time can be reduced and video production can be carried out more efficiently.
  • the process based on pose reliability described here is the process of synthesizing a CG image with a photographed image, which is performed in post-production.
  • this is not limited to this, and various other processes can be performed based on the pose reliability associated with a photographed image, such as displaying a warning to notify of a decrease in pose reliability during shooting, etc.
  • Example of computer configuration The above-mentioned series of processes can be executed by hardware or software.
  • the series of processes is executed by software
  • the programs constituting the software are installed in a computer.
  • the computer includes a computer built into dedicated hardware, and a general-purpose personal computer, for example, capable of executing various functions by installing various programs.
  • FIG. 19 is a block diagram showing an example of the hardware configuration of a computer that executes the above-mentioned series of processes using a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the computer may also be provided with a GPU (Graphics Processing Unit).
  • an input/output interface 505 Connected to the input/output interface 505 are an input unit 506, an output unit 507, a recording unit 508, a communication unit 509, and a drive 510.
  • the input unit 506 includes a keyboard, mouse, microphone, imaging element, etc.
  • the output unit 507 includes a display, speaker, etc.
  • the recording unit 508 includes a hard disk, non-volatile memory, etc.
  • the communication unit 509 includes a network interface, etc.
  • the drive 510 drives a removable recording medium 511 such as a magnetic disk, optical disk, magneto-optical disk, or semiconductor memory.
  • the CPU 501 loads a program recorded in the recording unit 508, for example, into the RAM 503 via the input/output interface 505 and the bus 504, and executes the program, thereby performing the above-mentioned series of processes.
  • the program executed by the computer (CPU 501) can be provided by being recorded on a removable recording medium 511 such as a package medium, for example.
  • the program can also be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • a program can be installed in the recording unit 508 via the input/output interface 505 by inserting a removable recording medium 511 into the drive 510.
  • the program can also be received by the communication unit 509 via a wired or wireless transmission medium and installed in the recording unit 508.
  • the program can be pre-installed in the ROM 502 or the recording unit 508.
  • the program executed by the computer may be a program in which processing is performed chronologically in the order described in this specification, or a program in which processing is performed in parallel or at the required timing, such as when called.
  • this technology can be configured as cloud computing, in which a single function is shared and processed collaboratively by multiple devices over a network.
  • each step described in the above flowchart can be executed by a single device, or can be shared and executed by multiple devices.
  • one step includes multiple processes
  • the multiple processes included in that one step can be executed by one device, or can be shared and executed by multiple devices.
  • this technology can also be configured as follows:
  • An information processing device comprising: an association unit that associates an image captured by a camera, pose information of the camera obtained by self-position estimation, and a pose reliability of the pose information.
  • the sensor control unit switches the sensor output signal used for the self-position estimation to the sensor output signal of the sensor in a different sensing direction.
  • An information processing device comprising: a control unit that performs processing based on a captured image captured by a camera, pose information of the camera obtained by self-position estimation, and a pose reliability of the pose information, which are associated in advance.
  • the control unit switches a threshold value of the pose reliability depending on an application of the pose information, and performs processing depending on a result of comparison between the pose reliability and the threshold value.
  • the control unit calculates final pose information by self-position estimation based on the captured image.
  • a program for causing a computer to execute a process including a step of performing processing based on a captured image captured by a camera, pose information of the camera obtained by self-position estimation, and pose reliability of the pose information, which are associated in advance.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Studio Devices (AREA)

Abstract

本技術は、映像制作をより効率的に行うことができるようにする情報処理装置およびプログラムに関する。 情報処理装置は、カメラにより撮影された撮影画像と、自己位置推定により得られたカメラのポーズ情報と、ポーズ情報のポーズ信頼度とを関連付ける関連付け部を備える。本技術はバーチャルプロダクションとしての撮影を行う撮影システムに適用することができる。

Description

情報処理装置およびプログラム
 本技術は、情報処理装置およびプログラムに関し、特に、映像制作をより効率的に行うことができるようにした情報処理装置およびプログラムに関する。
 近年、映画等の映像コンテンツの制作のための撮影手法として、バーチャルプロダクションや、LED(Light Emitting Diode)ウォールバーチャルプロダクションなどと呼ばれる手法が知られている。バーチャルプロダクションは、インカメラVFX(Visual Effects)とも呼ばれている。
 このような撮影手法では、スタジオに設置された大型のディスプレイに背景映像を表示させ、そのディスプレイの前で演者が演技を行うことで、演者と背景を撮影することができる。したがって、撮影時に演者やスタッフがシーンを視覚的に理解して演技や演技良否の判断を行うことができるだけでなく、撮影後の編集処理も軽減させることができる。
 ところで、上述の撮影手法では、実際の風景を背景に撮影した場合と同等の映像を撮影できるようにするため、自己位置推定によりカメラの位置や撮影方向を推定し、その推定結果に応じて、大型のディスプレイに表示させる背景映像を変化させている。特に、背景映像における、カメラにより撮影される部分を含む領域がカメラの位置等の推定結果に応じて変化し、このような領域はインナーフラスタムと呼ばれている。
 以上のようなカメラの自己位置推定は、グリーンバック撮影や一般的なAR(Augmented Reality)映像コンテンツの撮影などにも用いられている。
 また、自己位置推定に関する技術として、ドローンでの自己位置推定の信頼度を算出し、その信頼度に応じて警告表示や飛行制御を行う技術が提案されている(例えば、特許文献1参照)。さらに、ユーザが頭部にウェアラブル端末を装着してコンテンツを視聴しているときに、そのウェアラブル端末の自己位置推定の信頼度が低下すると、自己位置の補正を行うために、他のユーザのウェアラブル端末に救援信号を送信する技術も提案されている(例えば、特許文献2参照)。
特開2022-12173号公報 国際公開第2021/176947号
 しかしながら、上述した技術では、映像コンテンツの撮影時やポストプロダクションと呼ばれる撮影後の編集時への適用は考えられていなかった。
 本技術は、このような状況に鑑みてなされたものであり、映像制作をより効率的に行うことができるようにするものである。
 本技術の第1の側面の情報処理装置は、カメラにより撮影された撮影画像と、自己位置推定により得られた前記カメラのポーズ情報と、前記ポーズ情報のポーズ信頼度とを関連付ける関連付け部を備える。
 本技術の第1の側面のプログラムは、カメラにより撮影された撮影画像と、自己位置推定により得られた前記カメラのポーズ情報と、前記ポーズ情報のポーズ信頼度とを関連付けるステップを含む。
 本技術の第1の側面においては、カメラにより撮影された撮影画像と、自己位置推定により得られた前記カメラのポーズ情報と、前記ポーズ情報のポーズ信頼度とが関連付けられる。
 本技術の第2の側面の情報処理装置は、予め関連付けられた、カメラにより撮影された撮影画像と、自己位置推定により得られた前記カメラのポーズ情報と、前記ポーズ情報のポーズ信頼度とに基づく処理を行う制御部を備える。
 本技術の第2の側面のプログラムは、予め関連付けられた、カメラにより撮影された撮影画像と、自己位置推定により得られた前記カメラのポーズ情報と、前記ポーズ情報のポーズ信頼度とに基づく処理を行うステップを含む。
 本技術の第2の側面においては、予め関連付けられた、カメラにより撮影された撮影画像と、自己位置推定により得られた前記カメラのポーズ情報と、前記ポーズ情報のポーズ信頼度とに基づく処理が行われる。
撮影システムの構成例を示す図である。 カメラ位置に応じた背景映像について説明する図である。 カメラ位置に応じた背景映像について説明する図である。 映像コンテンツの制作工程について説明する図である。 撮影システムにおけるカメラの周辺部分の構成について説明する図である。 自己位置推定とポーズ信頼度について説明する図である。 撮影処理部の構成例を示す図である。 自己位置推定ユニットの他の構成例を示す図である。 データ出力処理を説明するフローチャートである。 CG映像の合成について説明する図である。 用途に応じたポーズ信頼度の閾値の選択について説明する図である。 ポーズ信頼度の活用について説明する図である。 ポーズ情報とポーズ信頼度がある場合とない場合の処理を説明する図である。 ポーズ情報とポーズ信頼度がない場合のUIと表示画面を示す図である。 ポーズ情報とポーズ信頼度がある場合のUIと表示画面を示す図である。 ポーズ情報をそのまま用いるか否かの切り替えについて説明する図である。 情報処理装置の構成例を示す図である。 映像合成処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈撮影システムおよび映像コンテンツ制作について〉
 本技術は、カメラにより撮影された画像と、自己位置推定の結果を示すカメラのポーズ情報と、ポーズ情報の信頼度を示すポーズ信頼度とを関連付けることで、映像制作をより効率的に行うことができるようにするものである。
 なお、ここでいう「関連付ける」という用語は、例えば、一方のデータを処理する際に他方のデータを利用し得る(リンクさせ得る)ようにすることを意味する。すなわち、撮影された画像、ポーズ情報、およびポーズ信頼度のデータ(ファイル)としての形態は任意である。
 例えば画像と、ポーズ情報と、ポーズ信頼度とが、1つのデータ(ファイル)としてまとめられてもよいし、それぞれ個別のデータ(ファイル)としてもよい。
 例えば画像に関連付けられたポーズ情報とポーズ信頼度は、その画像とは別の伝送路上で伝送されるようにしてもよい。また、例えば画像に関連付けられたポーズ情報やポーズ信頼度は、その画像とは別の記録媒体(または同一の記録媒体の別の記録エリア)に記録されるようにしてもよい。勿論、画像とポーズ情報とポーズ信頼度とをまとめて、1つのストリームデータにしたり、1つのファイルにしたりしてもよい。
 さらに、例えば画像と、ポーズ情報と、ポーズ信頼度とに対して、一意に識別可能な1つの(同一の)IDを付与することにより関連付けられるようにしてもよい。
 その他、この「関連付け」は、データ全体でなく、データ(ファイル)の一部であってもよい。例えば、画像が複数フレームからなる動画像である場合、ポーズ情報やポーズ信頼度が、画像の複数フレームや1フレームなどといった任意の単位に対して関連付けられるようにしてもよい。
 また、本開示において「映像」または「画像」とは静止画、動画のいずれをも含むこととする。さらに「映像」とはディスプレイに表示されている状態を指すだけでなく、ディスプレイに表示されていない状態の映像データについても包括的に「映像」と表記する場合がある。例えば実施の形態において、ディスプレイでの表示に至る前における背景映像や、カメラによる撮影映像は、実際に表示されている映像ではなく映像データであるが、便宜上「背景映像」、「撮影映像」等と表記する。
 それでは、以下、本技術のより具体的な実施の形態について説明する。
 特に、以下では本技術をバーチャルプロダクションとしての撮影を行う撮影システムに適用した場合を例として説明を行う。
 図1は撮影システム11を模式的に示す図である。この撮影システム11はバーチャルプロダクションとしての撮影を行うシステムであり、図1では撮影スタジオに配置される機材の一部が示されている。
 撮影スタジオには、演者21が演技やその他のパフォーマンスを行うパフォーマンスエリア22が設けられている。このパフォーマンスエリア22の少なくとも背面、さらには左右側面や上面には、大型の表示装置が配置される。
 表示装置のデバイス種別は限定されないが、図1では大型の表示装置の一例としてLEDウォール23を用いる例が示されている。
 1つのLEDウォール23は、複数のLEDパネル24を縦横に連結して配置することにより形成されている。このように複数のLEDパネル24を並べて連結することにより、LEDウォール23として大型のパネルを形成することができる。
 なお、LEDウォール23のサイズは特に限定されないが、演者21の撮影を行うときに背景を表示するサイズとして必要な大きさ、または十分な大きさであればよい。
 撮影スタジオにおけるパフォーマンスエリア22の上方や側方などの必要な位置には、必要な数だけライト25が配置され、それらのライト25によってパフォーマンスエリア22に対する照明が行われる。
 パフォーマンスエリア22の付近には、例えば映画やその他の映像コンテンツの撮影のためのカメラ26が配置される。
 カメラマン27はカメラ26の位置を移動させることができ、またカメラ26の撮影方向や、画角等の操作を行うこともできる。
 勿論、リモート操作によってカメラ26の移動や画角操作等が行われることも考えられる。また、カメラ26が自動的もしくは自律的に移動や画角変更を行ってもよい。そのためにカメラ26が雲台や移動体に搭載される場合もある。
 カメラ26によって、パフォーマンスエリア22における演者21と、LEDウォール23に表示されている映像がまとめて(同時に)撮影される。
 例えばLEDウォール23に背景映像vBとして風景が表示されることで、演者21が実際にその風景の場所に居て演技をしている場合と同様の映像を撮影できることになる。
 パフォーマンスエリア22の付近にはアウトプットモニタ28が配置されている。このアウトプットモニタ28には、例えばカメラ26で撮影されている映像がモニタ映像vMとしてリアルタイム表示される。これにより映像コンテンツの制作を行う監督やスタッフは、カメラ26により撮影されている映像を確認することができる。
 以上のように、撮影スタジオにおいてLEDウォール23を背景にした演者21のパフォーマンスを撮影する撮影システム11では、グリーンバック撮影と比較して各種の利点がある。
 例えば、グリーンバック撮影の場合、演者が背景やシーンの状況を想像しにくく、そのことが演技に影響するということがある。これに対して背景映像vBを表示させることで、演者21が演技しやすくなり、演技の質が向上する。また監督やその他のスタッフにとっても、演者21の演技が背景やシーンの状況とマッチしているか否かを判断しやすい。
 さらに、撮影システム11での撮影を行う場合、グリーンバック撮影の場合よりも撮影後のポストプロダクションが効率化される。
 これは、撮影システム11での撮影により、いわゆるクロマキ合成を不要とすることができる場合や、色の補正や映り込みの合成を不要とすることができる場合があるためである。また、クロマキ合成が必要とされた場合においても、撮影時に緑や青の映像を表示するだけで済むため、物理的な背景用スクリーンの追加が不要であることも効率化の一助となっている。
 グリーンバック撮影の場合、演者の身体、衣装、物にグリーンの色合いが増してしまうため、その修正が必要となる。また、グリーンバック撮影の場合、ガラス、鏡、スノードームなどの周囲の光景が映り込む物が被写体として存在する場合、その映り込みの画像を生成し、合成する必要があるが、これは手間のかかる作業となっている。
 これに対し、図1の撮影システム11で撮影する場合、カメラ26で撮影して得られる映像上において、被写体のグリーンの色合いが増すことはないため、その補正は不要である。また、背景映像vBを表示させることで、ガラス等の実際の物品への映り込みも自然に得られて撮影されているため、映り込み映像の合成も不要である。
 ここで、背景映像vBについて、図2および図3を参照して説明する。なお、図2および図3において、図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 背景映像vBを、LEDウォール23に表示させて、演者21とともに撮影を行うにしても、単純に背景映像vBを表示させるのみでは、撮影された映像は背景が不自然なものとなる。実際には立体で奥行きもある背景を平面的に背景映像vBとしているためである。
 例えばカメラ26は、パフォーマンスエリア22の演者21に対して、多様な方向から撮影を行うことができ、またズーム操作も行うことができる。演者21も一カ所に立ち止まっているわけではない。
 するとカメラ26の位置、撮影方向、画角などに応じて、演者21の背景の実際の見え方は変化するはずであるが、平面映像としての背景映像vBではそのような変化が得られない。そこで、背景映像vBを変化させることで、背景が視差を含めて実際の見え方と同様になるようにされる。
 図2は、カメラ26が図中の左側の位置から演者21を撮影している様子を示しており、図3はカメラ26が図中の右側の位置から演者21を撮影している様子を示している。
 図2および図3において、背景映像vB内に撮影領域映像vBCが示されている。
 なお、背景映像vBのうちで撮影領域映像vBCを除いた部分は「アウターフラスタム」と呼ばれ、撮影領域映像vBCは「インナーフラスタム」と呼ばれる。ここで説明している背景映像vBとは、撮影領域映像vBC(インナーフラスタム)を含んで背景として表示される映像全体を指す。
 この撮影領域映像vBC(インナーフラスタム)の範囲は、LEDウォール23の表示面内で、カメラ26によって実際に撮影される範囲に相当する。そして撮影領域映像vBCは、カメラ26の位置、撮影方向、画角等に応じて、実際にそのカメラ26の位置を視点としたときに見える光景を表現するような映像となっている。
 具体的には、撮影領域映像vBCには、背景としての3D(three dimensions)モデルである3D背景データを用意し、その3D背景データに対してリアルタイムで逐次、カメラ26の視点位置に基づいてレンダリングを行うことで得られた映像(画像)が表示される。
 なお、実際には撮影領域映像vBCの範囲は、その時点でカメラ26によって撮影される範囲よりも少し広い範囲とされる。
 これはカメラ26のパン、チルトやズームなどにより撮影される範囲が若干変化したときに、描画遅延によってアウターフラスタムの映像が映り込んでしまうことを防止するためや、アウターフラスタムの映像からの回折光による影響を避けるためである。
 このようにリアルタイムでレンダリングされた撮影領域映像vBCは、アウターフラスタムの映像と合成される。
 背景映像vBで用いられるアウターフラスタムの映像は、予め3D背景データに基づいてレンダリングされたものである場合や、毎フレームまたは間欠的なフレーム毎に、リアルタイムにレンダリングされる場合があるが、そのアウターフラスタムの映像の一部に、撮影領域映像vBC(インナーフラスタム)の映像を組み込むことで、全体の背景映像vBが生成される。
 なお、アウターフラスタムの映像もインナーフラスタムと同様に毎フレームレンダリングするケースがあるが、ここでは静止した映像を例にとり、以降の説明では主にアウターフラスタムの映像は先頭フレームのみレンダリングする場合を例として説明する。
 以上のことから、カメラ26を前後左右に移動させたり、ズーム操作を行ったりしても、演者21とともに撮影される範囲の背景は、実際のカメラ26の移動に伴う視点位置やFOV(Field of View(視野))の変化に応じた映像として撮影されることになる。
 図2や図3に示すように、アウトプットモニタ28には、演者21と背景を含むモニタ映像vMが表示されるが、このモニタ映像vMは、カメラ26により撮影された映像である。このモニタ映像vMにおける背景は、撮影領域映像vBCである。つまり撮影された映像に含まれる背景は、リアルタイムレンダリングされた映像となる。
 以上のような撮影システム11においては、単に背景映像vBを平面的に表示させるだけではなく、実際に風景を撮影した場合と同様の映像を撮影することができるように、撮影領域映像vBCを含む背景映像vBをリアルタイムに変化させるようにしている。
 なお、LEDウォール23に表示させた背景映像vBの全体ではなく、カメラ26によって映り込む範囲としての撮影領域映像vBCのみをリアルタイムにレンダリングすることで、システムの処理負担も軽減するような工夫を行ってもよい。
 ここで、撮影システム11で撮影を行うバーチャルプロダクションとしての映像コンテンツの制作工程について説明する。
 図4に示すように、映像コンテンツ制作工程は3つの段階に大別される。すなわち、映像コンテンツの制作工程には、主にアセットクリエイションST1、プロダクションST2、およびポストプロダクションST3がある。
 アセットクリエイションST1は、背景映像vBを表示するための3D背景データを制作する工程である。上述のように背景映像vBは、撮影の際に3D背景データが用いられてリアルタイムでレンダリングが行われて生成される。そのために予め3Dモデルとしての3D背景データが制作される。
 3D背景データの制作手法の例として、フルCG(Full Computer Graphics)、点群データ(Point Cloud)スキャン、フォトグラメトリ(Photogrammetry)などがある。
 フルCGは、3Dモデルをコンピュータグラフィックスで制作する手法である。フルCGは、3つの手法の中で最も工数や時間を要する手法となるが、非現実的な映像や、実際には撮影が困難な映像などを背景映像vBとしたい場合に用いられることが好適となる。
 点群データスキャンは、ある位置から例えばライダ(LiDAR(Light Detection And Ranging))を用いて距離測定を行うとともに、同じ位置からカメラで360度の画像を撮影し、ライダで測距した点の上にカメラで撮影した色データを載せることで点群データによる3Dモデルを生成する手法である。
 点群データスキャンは、フルCGと比較して、短い時間で3Dモデル制作ができる。また、点群データスキャンには、フォトグラメトリより高精細の3Dモデルを制作しやすいという利点がある。
 フォトグラメトリは、物体を複数視点から撮影して得た2次元画像から、視差情報を解析して寸法・形状を求める写真測量の技術である。
 フォトグラメトリでは、3Dモデル制作を短時間で行うことができる。なお、フォトグラメトリによる3Dデータ生成において、ライダで取得した点群情報を用いてもよい。
 アセットクリエイションST1では、例えばこれらの手法が用いられて3D背景データとなる3Dモデルが制作される。勿論、上記手法を複合的に用いてもよい。例えば点群データスキャンやフォトグラメトリで制作した3Dモデルの一部をCGで制作し、合成するなどである。
 プロダクションST2は、図1に示したような撮影スタジオにおいて撮影を行う工程である。この場合の要素技術として、リアルタイムレンダリング、背景表示、カメラトラッキング、照明コントロールなどがある。
 リアルタイムレンダリングは、図2や図3で説明したように各時点(背景映像vBの各フレーム)で撮影領域映像vBCを得るためのレンダリング処理である。これはアセットクリエイションST1で制作した3D背景データに対して、各時点のカメラ26の位置等に応じた視点でレンダリングを行うものである。
 このようにリアルタイムレンダリングが行われて撮影領域映像vBCを含む各フレームの背景映像vBが生成され、LEDウォール23に表示される。
 カメラトラッキングは、カメラ26によるメタ情報を得るために行われ、カメラ26の各時点の位置情報、撮影方向、画角などをトラッキングする処理である。
 カメラ26の各時点の位置情報、撮影方向、画角などを含むメタ情報を各フレームに対応させてレンダリングエンジンに提供することで、カメラ26の視点位置等に応じたリアルタイムレンダリングが実行可能となる。
 メタ情報は映像と紐づけられたり対応づけられたりする情報である。メタ情報としては各フレームタイミングでのカメラ26の位置情報、カメラの向き、画角、焦点距離、F値(絞り値)、シャッタースピード、レンズ情報などを含むことが想定される。
 メタ情報に含まれているカメラ26の位置情報、およびカメラの向きを示す情報からなる情報が、上述の自己位置推定の結果を示すポーズ情報であり、メタ情報には、ポーズ情報の信頼度を示すポーズ信頼度も含まれている。
 照明コントロールとは、撮影システム11における照明の状態をコントロールすることで、具体的にはライト25の光量、発光色、照明方向などの制御である。例えば撮影するシーンの時刻設定や場所の設定などに応じた照明コントロールが行われる。
 ポストプロダクションST3は、撮影後に行われる各種処理を示している。例えばポストプロダクションST3では、映像の補正、映像の調整、クリップ編集、映像エフェクトなどが行われる。
 映像の補正としては、色域変換や、カメラや素材間の色合わせなどが行われる場合がある。映像の調整として色調整、輝度調整、コントラスト調整などが行われる場合がある。
 また、クリップ編集として、クリップのカット、順番の調整、時間長の調整などが行われる場合があり、映像エフェクトとして、CG映像や特殊効果映像の合成などが行われる場合がある。
〈カメラ周辺部分の構成例〉
 続いて、図1に示した撮影システム11におけるカメラ26の周辺部分の構成について説明する。
 図4に示した映像コンテンツ制作工程におけるプロダクションST2とポストプロダクションST3の部分では、より詳細には、例えば図5の矢印Q11に示すような作業が行われる。
 すなわち、まずLEDウォール23が設置されるなどして撮影スタジオの設営が行われ、その後、カメラ26やアウトプットモニタ28の配置等が事前セットアップとして行われる。
 そして、撮影システム11により実際に映像コンテンツの撮影が行われ、撮影により得られた映像(画像)の確認が行われる。
 なお、以下、カメラ26での撮影により得られた、映像(動画像)、特に動画像である映像を構成する1つのフレームを撮影画像とも称することとする。
 以上の撮影スタジオの設営から映像の確認までの作業が上述のプロダクションST2で行われる。なお、映像の確認は、ポストプロダクションST3の作業として行われることもある。
 プロダクションST2の後、撮影で得られたコンテンツの映像(画像)の送出と、送出された映像に対する編集作業(ポストプロダクション)が上述のポストプロダクションST3として行われる。
 図5の上側には、撮影システム11のうち、プロダクションST2の作業として行われる映像コンテンツの撮影を行うための部分の構成が示されている。
 撮影システム11には、撮影のための構成としてカメラ26を含む撮影処理部51が設けられているとともに、撮影領域映像vBC(インナーフラスタム)を生成するための構成としてCG生成プロセッサ52が設けられている。
 撮影処理部51は、カメラ26、センサユニット61、および自己位置推定ユニット62を有している。また、CG生成プロセッサ52は、例えばPC(Personal Computer)やサーバなどの装置に設けられており、上述のレンダリングエンジンを実現する。
 撮影時には、例えばLEDウォール23に表示された背景となる撮影領域映像vBC(インナーフラスタム)と、前景となる実在の演者21とからなる撮影シーンがカメラ26により撮影される。このとき、カメラ26のポーズ情報を得るために、センサユニット61と自己位置推定ユニット62が用いられる。
 センサユニット61は、カメラ26に取り付けられており、イメージセンサ、ジャイロセンサ、LiDAR等の測距センサ、GPS(Global Positioning System)センサ等の測位センサなどからなる。
 センサユニット61は、カメラ26の自己位置推定のためのセンシングを行い、その結果得られたセンサ出力信号を自己位置推定ユニット62に出力する。
 自己位置推定ユニット62は、センサユニット61から供給されたセンサ出力信号に基づいて自己位置推定を行い、その結果得られたポーズ情報やポーズ信頼度を出力する。
 例えば自己位置推定ユニット62は、カメラ26に取り付けられる小型なデバイスであってもよいし、カメラ26とは別に設置されるPCやサーバなどの装置であってもよい。
 また、センサユニット61と自己位置推定ユニット62の少なくとも何れか一方がカメラ26内部に設けられるようにしてもよい。
 撮影時には、自己位置推定ユニット62で得られたポーズ情報とポーズ信頼度が、例えばEthernet経由でCG生成プロセッサ52に供給される。
 CG生成プロセッサ52は、事前に用意された3D背景データと、撮影処理部51(自己位置推定ユニット62)から供給されたポーズ情報およびポーズ信頼度とに基づいてレンダリング処理を行い、撮影領域映像vBCを生成する。
 なお、より詳細には、カメラ26についての画角や焦点距離、F値などもCG生成プロセッサ52に供給され、必要に応じて撮影領域映像vBCの生成に利用される。
 CG生成プロセッサ52は、得られた撮影領域映像vBCを含む背景映像vBを、適宜、図示せぬディスプレイコントローラ等を介してLEDウォール23に供給して表示させる。これにより、カメラ26の位置や撮影方向に応じた撮影領域映像vBCを表示させることができる。
 また、撮影画像とポーズ情報とポーズ信頼度の関連付けが行われる。関連付けにあたっては、撮影画像全体に対して1または複数の各時刻のポーズ情報とポーズ信頼度が関連付けられるようにしてもよい。例えば、撮影画像が動画像である場合、動画像の各フレームと、ポーズ情報の取得タイミング等とが一致しないこともある。すなわち、動画像のフレームとポーズ情報が同期していないこともある。この場合、動画像全体に対して各時刻のポーズ情報とポーズ信頼度を関連付けておけば、後段において、補間処理等により動画像の各フレームに同期したポーズ情報とポーズ信頼度を得ることができる。撮影画像が静止画像である場合でも、動画像における場合と同様にして、撮影画像と同期したポーズ情報およびポーズ信頼度を得ることができる。
 関連付けの具体的な例として、例えば、図中、右側に示すように撮影画像と、その撮影画像の撮影時におけるポーズ情報およびポーズ信頼度とを含む動画ファイルが生成され、得られた動画ファイルが映像エフェクトなどの処理を行うPC等の装置へと供給される。この場合、例えば撮影画像とポーズ情報とポーズ信頼度とを同一の動画ファイルに格納することで関連付けが行われる。
 なお、動画ファイルは、メモリに記録されてPC等の装置へと供給されるようにしてもよいし、任意の規格に準拠したフォーマットで直接またはネットワークを介してPC等の装置へと供給されるようにしてもよい。また、動画ファイルに格納される撮影画像は、RAW画像であってもよいし、RAW画像に対する現像処理を行うことで得られた、いわゆる輝度信号と色差信号からなるYC画像であってもよい。
 ここで、図6を参照して、自己位置推定とポーズ信頼度について説明する。
 カメラ26の自己位置推定は、どのような手法により実現されてもよいが、例えば自己位置推定ユニット62では、自己位置推定としてSLAM(Simultaneous Localization and Mapping)が行われる。
 SLAMでは、カメラ26の位置同定と環境地図作成が並行して実行される。
 この場合、例えばセンサユニット61に設けられたイメージセンサにより撮影された画像の信号(画像信号)がセンサ出力信号として自己位置推定ユニット62に供給される。
 自己位置推定ユニット62は、センサ出力信号に基づく画像に含まれる特徴点の軌跡を解析することで、特徴点の3次元位置を推定するとともに、カメラ26の位置姿勢を推定し、その結果としてポーズ情報を得る。また、自己位置推定ユニット62は、画像から抽出された特徴点の3次元位置情報を用いて周囲の地図である環境地図を作成する。
 このように、センサ出力信号としての画像信号を用いて自己位置推定を行う場合、図中、右上に示すポーズ情報(x,y,z,p,t,r)が得られる。すなわち、ポーズ情報として、カメラ26の空間上の位置を示すx座標、y座標、およびz座標と、カメラ26の向きを示す角度であるパンp、チルt、およびロールrとが得られる。
 この場合、ポーズ情報の分散(Δx,Δy,Δz,Δp,Δt,Δr)やinlier ratioなどをポーズ信頼度の算出に利用することができる。これらの分散やinlier ratioは、自己位置推定の過程で得られる情報である。
 ポーズ情報の分散は、ポーズ情報を構成する座標や角度といった各要素の分散であり、この分散が小さいほど、ポーズ信頼度が高く(大きく)なるようにすることができる。
 また、inlier ratioは、画像から抽出された特徴点の総数と、inlierとされた特徴点、つまり自己位置推定に利用可能とされた特徴点の数であるinlier数との比であり、inlier ratioが大きいほどポーズ信頼度が高くなるようにすることができる。
 さらに、例えば測距センサで得られたセンサ出力信号、つまりdTof(direct Time of Flight)方式での測距により得られた測距センサから被写体までの距離zを利用してポーズ情報を求めるDepth SLAMなどと呼ばれる手法の自己位置推定もある。
 そのような手法でポーズ情報を得る場合、あるいは被写体までの距離を計測する場合には、図中、右下に示すように、自己位置推定の過程で得られる距離zの分散Δzや、距離zのピーク数(多峰性)などをポーズ信頼度の算出に利用することができる。
 すなわち、距離zを利用してポーズ情報を求める場合、測距センサでは比較的短い期間に複数回の測距が行われるため、例えば矢印Q21に示す距離zのヒストグラムが得られる。そこで、そのヒストグラムにおける距離zの分散Δzをポーズ信頼度の算出に利用することができる。この場合、分散Δzが小さいほど、ポーズ信頼度が高く(大きく)なるようにすることができる。
 また、距離zのヒストグラムには、例えば矢印Q22に示すように複数のピークが存在していることもあり、このようなピークの数をポーズ信頼度の算出に利用することができる。この場合、ピーク数が少ないほど、ポーズ信頼度が高くなるようにすることができる。
〈撮影処理部の構成例〉
 図7は、撮影処理部51のより詳細な構成例を示す図である。
 この例では、撮影処理部51はカメラ26、センサユニット61、および自己位置推定ユニット62を有している。
 カメラ26は、撮影部91、ISP(Image Signal Processor)部92、表示部93、入力部94、および制御部95を有している。また、制御部95には、SDI(Serial Digital Interface)出力部101、ファイル出力部102、ポーズ重畳部103が設けられている。
 撮影部91は、固定または交換式のレンズ、および、イメージセンサからなり、演者21や撮影領域映像vBCなどを被写体として撮影を行い、その結果得られたコンテンツの映像、すなわち映像の各フレーム(画像)をISP部92に供給する。
 ISP部92は、プロセッサなどからなり、撮影部91から供給された画像に対して、適宜、画素欠陥補正や色分離処理などの各種の画像処理を施し、その結果得られた撮影画像を制御部95に供給する。特に、この例では、ISP部92からの撮影画像が制御部95のSDI出力部101およびファイル出力部102に供給される。なお、撮影画像がRAW画像とされる場合には、色分離処理など、一部の処理は行われない。
 表示部93は、例えば電子ビューファインダや小型ディスプレイなどからなり、制御部95から供給された撮影画像やメニュー画像など、各種の画像を表示する。入力部94は、例えばボタンやスイッチなどからなり、ユーザ(カメラマン27)の操作に応じた信号を制御部95に供給する。
 制御部95は、カメラ26全体の動作を制御する。例えば制御部95は、撮影部91を制御して撮影を行わせたり、ISP部92から供給された撮影画像に基づくスルー画像を表示部93に供給して表示させたりする。
 また、制御部95は、SDI出力部101、ファイル出力部102、およびポーズ重畳部103を有している。
 SDI出力部101は、ISP部92から供給された撮影画像に基づき、SDI形式に準拠した撮影画像の映像信号を生成し、ポーズ重畳部103に供給する。
 なお、ここではSDI形式を例として説明を行うが、伝送用の映像信号として他のどのような形式の映像信号が生成されるようにしてもよい。
 ファイル出力部102は、ISP部92から供給された撮影画像を含む、例えばRAW動画像圧縮フォーマットなどの任意のフォーマットの映像信号、すなわち動画ファイルを生成し、ポーズ重畳部103に供給する。
 ポーズ重畳部103は、自己位置推定ユニット62からポーズ情報およびポーズ信頼度の供給を受けて、撮影画像とポーズ情報とポーズ信頼度とを関連付ける関連付け部として機能する。
 例えばポーズ重畳部103は、SDI出力部101から供給されたSDI形式の撮影画像(映像信号)と、自己位置推定ユニット62から供給されたポーズ情報およびポーズ信頼度とを関連付けることで得られた映像信号をカメラ26の後段に出力する。
 この場合、例えばSDI形式の映像信号のブランキング期間など、所定の期間(区間)にポーズ情報およびポーズ信頼度を重畳する(埋め込む)ことで撮影画像との関連付けが行われる。そしてポーズ情報およびポーズ信頼度が重畳された映像信号がポーズ重畳部103から出力される。
 このとき、撮影画像の映像信号の出力先は、例えばアウトプットモニタ28やスイッチャ、PC等の装置などとされる。その他、撮影スタジオ外に設置された、映像確認を行うためのモニタ等の装置に撮影画像の映像信号が出力されるようにしてもよい。
 また、例えばポーズ重畳部103は、ファイル出力部102から供給された撮影画像と、自己位置推定ユニット62から供給されたポーズ情報およびポーズ信頼度とを関連付けることで得られた映像信号(動画ファイル)を出力する。
 この場合、例えば撮影画像の動画ファイル内に、ポーズ情報とポーズ信頼度をメタデータなどとして格納することで撮影画像との関連付けが行われる。この例では、動画ファイルの出力先は、例えばカメラ26に装着されたリムーバブル記録媒体や、カメラ26と有線または無線により接続されているポストプロダクション用のPC等の装置などとされる。
 その他、撮影画像とポーズ情報とポーズ信頼度とがUUID(Universally Unique Identifier)やUMID(Unique Material IDentifier)などの一意なIDにより関連付けられるようにしてもよい。
 そのような場合、例えば撮影画像とポーズ情報とポーズ信頼度とに対して同一のIDが付与される。
 そして、例えば付与されたIDおよび撮影画像を含むファイルと、そのファイルとは異なる、付与されたID、ポーズ情報、およびポーズ信頼度を含む別のファイルとが生成されるようにしてもよい。また、例えばIDが付与された撮影画像と、同じIDが付与されたポーズ情報およびポーズ信頼度とが別々にポストプロダクション用のPCなどの外部の装置に伝送(送信)されるようにしてもよい。
 このような場合においても、付与されたIDに基づいて、撮影画像と、その撮影画像に関連付けられたポーズ情報およびポーズ信頼度とを正しく特定することが可能である。
 また、カメラ26には、センサユニット61が取り付けられている。センサユニット61は、カメラ26に着脱可能であってもよいし、カメラ26と一体となっており、着脱できないようになされていてもよい。
 センサユニット61は、センサ選択部121およびセンサ部122-1乃至センサ部122-Nを有している。
 センサ選択部121は、自己位置推定ユニット62から供給される制御信号に基づいて、N個のセンサ部122-1乃至センサ部122-Nのうちの自己位置推定に用いるセンサ部、すなわち自己位置推定に適したセンサ部を選択する。
 センサ部122-1乃至センサ部122-Nは、例えばイメージセンサ、ジャイロセンサ、LiDAR等の測距センサ、GPSセンサ等の測位センサなどからなり、カメラ26の自己位置推定のためのセンシングを行って、その結果得られたセンサ出力信号を出力する。
 なお、以下、センサ部122-1乃至センサ部122-Nを特に区別する必要のない場合、単にセンサ部122とも称する。
 例えばセンサ選択部121は、自己位置推定ユニット62からの制御信号に基づき選択したセンサ部122のみを駆動させてセンシングを行わせ、センシングにより得られたセンサ出力信号が自己位置推定ユニット62に供給されるようにすることができる。
 また、センサ選択部121がN個全てのセンサ部122にセンシングを行わせ、それらのN個のセンサ部122のなかから制御信号に基づき選択されたセンサ部122のセンサ出力信号のみが自己位置推定ユニット62に供給されるようにしてもよい。
 センサ選択部121により自己位置推定の実行に適したセンサ部122を選択することで、自己位置推定ユニット62では、より安定して自己位置推定を行うことができる。すなわち、より確からしいポーズ情報を継続して得ることができる。
 自己位置推定ユニット62は、自己位置演算部141、UDP(User Datagram Protocol)送信部142、およびセンサ制御部143を有している。
 自己位置演算部141は、例えばプロセッサなどからなり、センサユニット61から供給された1または複数のセンサ部122のセンサ出力信号に基づいて、カメラ26の自己位置推定を行う。すなわち、自己位置推定により、カメラ26のポーズ情報およびポーズ信頼度が算出される。
 自己位置演算部141は、自己位置推定により得られたポーズ情報およびポーズ信頼度をカメラ26のポーズ重畳部103に供給する。
 また、自己位置演算部141は、ポーズ情報およびポーズ信頼度をUDP送信部142に供給するとともに、ポーズ信頼度をセンサ制御部143に供給する。
 UDP送信部142は、自己位置演算部141から供給されたポーズ情報およびポーズ信頼度を、UDPに従った通信により、自己位置推定ユニット62とネットワークを介して接続されているPC等の装置へと送信する。
 例えばUDP送信部142によるポーズ情報およびポーズ信頼度の送信先は、図5に示したCG生成プロセッサ52が設けられた装置などとされる。
 センサ制御部143は、自己位置演算部141から供給されたポーズ信頼度に基づいて、自己位置推定に用いるセンサ部122の切り替え、すなわち自己位置推定に用いるセンサ出力信号の切り替えを行う。
 具体的には、センサ制御部143は、ポーズ信頼度に基づいて、センサユニット61に設けられたN個のセンサ部122のうちの自己位置推定に用いるセンサ部122を選択し、その選択結果を示す制御信号をセンサユニット61に供給する。
 例えばセンサ制御部143では、撮影開始時には、予め定められたセンサ部122が選択されるようにし、その後、ポーズ信頼度が所定の閾値未満となったときにセンサ部122(センサ出力信号)を選択し直す、つまりセンサ部122を切り替えるようにすることができる。
 この場合、現時点で自己位置推定に用いられているセンサ部122とはセンシング方向や種別が異なるセンサ部122へと切り替えることが考えられる。
 具体的には、例えばN個の各センサ部122が互いに異なる方向を撮影方向(センシング方向)とするイメージセンサであるとする。すなわち、N個の各センサ部122が互いに異なる方向に向けられて配置されたイメージセンサであるとする。
 また、センサ部122-1が選択されており、センサ部122-1で得られたセンサ出力信号に基づき自己位置推定を行っていたが、ある時点でポーズ信頼度が所定の閾値未満となったとする。
 この場合、センサ制御部143は、例えばセンサ部122-1に対して予め定められたセンサ部122-2等の他のセンサ部122を、自己位置推定に用いる新たなセンサ部122として選択し、その選択結果を示す制御信号を出力する。
 例えば撮影スタジオでは、天井や壁など、カメラ26(センサユニット61)から見て、自己位置推定のポーズ信頼度が低下してしまう被写体のある方向(以下、不適切な方向とも称する)を予め特定することが可能である。
 また、あるセンサ部122が不適切な方向を向いているときに、アウトプットモニタ28のある方向など、カメラ26(センサユニット61)から見て、十分に高いポーズ信頼度が得られる方向(以下、適切な方向とも称する)を向いている他のセンサ部122も予め特定可能である。
 そこで、各センサ部122に対して、それらのセンサ部122が不適切な方向を向いている状態となったときに、適切な方向を向いている他のセンサ部122を予め特定しておけば、ポーズ信頼度が低下したときに適切なセンサ部122を選択することが可能である。
 また、例えばN個のセンサ部122のうちのいくつかのセンサ部122が互いに異なる種別のセンサからなるとする。
 さらに、現時点でセンサ部122としてのイメージセンサが利用されて自己位置推定を行っていたが、ある時点でポーズ信頼度が所定の閾値未満となったとする。
 この場合、センサ制御部143は、例えば測距センサなど、イメージセンサとは異なる種別のセンサからなるセンサ部122を、自己位置推定に用いる新たなセンサ部122として選択し、その選択結果を示す制御信号を出力する。
 このようにすれば、イメージセンサが苦手とする撮影シーンでも、測距センサ等の他の種別のセンサを利用することで、十分なポーズ信頼度で自己位置推定を行うことができるようになる。
 なお、自己位置推定に用いるセンサ部122は、センサ出力信号に基づき選択されてもよい。また、ここではセンサ制御部143がポーズ信頼度に基づきセンサ部122を選択し、その選択結果を示す制御信号をセンサユニット61(センサ選択部121)に供給する例について説明する。この場合、センサ選択部121は、制御信号により示されるセンサ部122を、自己位置推定に用いるセンサ部122として選択することになる。
 しかし、これに限らず、センサ制御部143が制御信号としてポーズ信頼度を出力し、センサ選択部121が制御信号として供給されたポーズ信頼度に基づき、自己位置推定に用いるセンサ部122を選択するようにしてもよい。
 その他、一旦、N個全てのセンサ部122のセンサ出力信号が自己位置演算部141に供給されるようにしてもよい。そのような場合、自己位置演算部141は、供給されたN個のセンサ出力信号のうち、センサ制御部143により選択されたセンサ部122のセンサ出力信号を用いて自己位置推定を行う。
 以上のような撮影処理部51の一部または全部が、撮影画像とポーズ情報とポーズ信頼度とを関連付ける情報処理装置として機能する。
 この場合、例えばセンサユニット61の一部または全部の構成がカメラ26に設けられるようにしてもよいし、自己位置推定ユニット62の一部または全部の構成がカメラ26に設けられるようにしてもよい。
 また、例えばポーズ重畳部103など、カメラ26の一部の構成が自己位置推定ユニット62に設けられるようにしてもよいし、自己位置推定ユニット62の一部または全部や、ポーズ重畳部103などがセンサユニット61に設けられるようにしてもよい。
〈自己位置推定ユニットの他の構成例〉
 なお、ポーズ情報の関連付けの他の例として、撮影画像のタイムコードと、ポーズ情報とを関連付けるようにすることもできる。
 そのような場合、例えば図8に示すように、自己位置推定ユニット62に、撮影画像のタイムコードとポーズ情報の関連付けを行うファイル生成部151を設けることが考えられる。なお、図8において図7における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図8の例では、自己位置推定ユニット62は、自己位置演算部141、UDP送信部142、センサ制御部143、およびファイル生成部151を有している。すなわち、図8に示す自己位置推定ユニット62の構成は、図7に示した自己位置推定ユニット62に、さらにファイル生成部151が設けられた構成となっている。
 ファイル生成部151には、カメラ26の制御部95から撮影画像のタイムコードが供給されるとともに、自己位置演算部141からポーズ情報も供給される。なお、自己位置演算部141からファイル生成部151に、ポーズ情報だけでなくポーズ信頼度も供給されるようにしてもよい。
 ファイル生成部151は、供給されたタイムコードと、ポーズ情報とが格納されたファイルを生成することで、タイムコードとポーズ情報とを関連付ける。ファイル生成部151は、撮影画像のタイムコードとポーズ情報とが含まれたファイルを生成すると、そのファイルをリムーバブル記録媒体、CG生成プロセッサ52、ポストプロダクション用のPC等の装置やクラウドを構成するサーバなど、任意の出力先に出力(供給)する。
 このようなファイルの生成により、撮影画像とポーズ情報とが関連付けられたともいうことができる。なお、ファイルには、ポーズ情報のポーズ信頼度も格納され、タイムコードとポーズ情報とポーズ信頼度が関連付けられてもよい。また、タイムコードに代えて、撮影画像のフレーム番号など、撮影画像の時刻に関する情報がポーズ情報と関連付けられてもよい。その他、タイムコード(撮影画像)とポーズ情報の関連付けは、上述した一意なIDの付与など、どのようにして行われてもよい。
〈データ出力処理の説明〉
 次に、撮影処理部51の動作について説明する。
 撮影処理部51では、カメラ26による撮影が開始されると、図9に示すデータ出力処理が行われる。以下、図9のフローチャートを参照して、撮影処理部51によるデータ出力処理について説明する。
 ステップS11において制御部95は、撮影画像を取得する。
 例えば撮影部91で撮影が行われると、ISP部92では撮影部91から出力された画像に対して画像処理が行われ、その結果得られた撮影画像が出力される。
 制御部95のSDI出力部101やファイル出力部102は、このようにしてISP部92から出力された撮影画像を取得する。また、SDI出力部101は、SDI形式に準拠した撮影画像、すなわち撮影画像の映像信号を生成してポーズ重畳部103に供給し、ファイル出力部102は、所定のフォーマットの映像信号(動画ファイル)を生成してポーズ重畳部103に供給する。
 また、例えば撮影処理部51では、カメラ26による撮影が開始されると同時に、センサ部122によるセンシングも開始される。
 センサ選択部121は、センサ制御部143から供給される制御信号に応じて、複数のセンサ部122のなかから自己位置推定に用いるセンサ部122を選択し、選択したセンサ部122で得られたセンサ出力信号を自己位置演算部141に供給する。
 ステップS12において自己位置演算部141は、センサユニット61から出力された、1または複数のセンサ部122で得られたセンサ出力信号を取得する。
 ステップS13において自己位置演算部141は、ステップS12で取得したセンサ出力信号に基づいて自己位置推定を行う。例えばステップS13では、自己位置推定としてSLAMが行われ、これによりポーズ情報とポーズ信頼度が得られる。
 自己位置演算部141は、自己位置推定により得られたポーズ情報およびポーズ信頼度をカメラ26のポーズ重畳部103とUDP送信部142に供給するとともに、ポーズ信頼度をセンサ制御部143に供給する。
 ステップS14においてポーズ重畳部103は、撮影画像と、ポーズ情報と、ポーズ信頼度とを関連付けて出力する。
 例えばポーズ重畳部103は、SDI出力部101から供給されたSDI形式の撮影画像のブランキング期間に、自己位置推定ユニット62から供給されたポーズ情報およびポーズ信頼度を埋め込むことで関連付けを行い、得られた映像信号を出力する。
 このようにすることで、既存の伝送系に対して配線を追加するなどの変更を加えることなくポーズ情報とポーズ信頼度を転送し、転送先においてポーズ情報やポーズ信頼度を活用することができる。
 また、例えばポーズ重畳部103は、ファイル出力部102から供給された撮影画像の動画ファイルに、自己位置推定ユニット62から供給されたポーズ情報とポーズ信頼度を格納することで撮影画像との関連付けを行い、得られた動画ファイルを出力する。例えばポーズ情報とポーズ信頼度は、撮影画像のメタデータとして動画ファイルに格納される。
 その他、例えばUDP送信部142は、自己位置演算部141から供給されたポーズ情報およびポーズ信頼度を、UDPに従った通信により、CG生成プロセッサ52が設けられた装置などに送信する。これによりCG生成プロセッサ52では、3D背景データと、ポーズ情報およびポーズ信頼度とに基づくレンダリング処理を行い、撮影領域映像vBCを生成することができる。
 ステップS15においてセンサ制御部143は、自己位置演算部141から供給されたポーズ信頼度に基づいて、自己位置推定に用いるセンサ部122の切り替え制御を行う。
 例えばセンサ制御部143は、ポーズ信頼度が所定の閾値以上である場合、センサ部122の切り替えは行わず、現時点で用いられているセンサ部122をそのまま継続して用いる。すなわち、自己位置推定に用いるセンサ部122として、現時点で用いられているセンサ部122がそのまま選択される。
 これに対して、センサ制御部143はポーズ信頼度が所定の閾値未満である場合、センサ部122の切り替えを行う。例えばセンサ制御部143は、現時点で用いられているセンサ部122に対して、予め切り替え用として定められているセンサ部122を切り替え後のセンサ部122として選択する。
 センサ制御部143は、切り替え後のセンサ部122を示す制御信号をセンサユニット61に供給する。するとセンサ選択部121は、センサ制御部143からの制御信号に応じて、自己位置演算部141へとセンサ出力信号を出力するセンサ部122の切り替えを行う。
 なお、後述するようにCG生成プロセッサ52やカメラ26などにより、ポーズ信頼度に基づいて、ポーズ信頼度が低下したことを通知する警告表示を必要に応じて行うなど、ポーズ信頼度に応じた処理を行う場合には、必ずしもセンサ制御部143によるセンサ部122の切り替え制御が行われる必要はない。逆に、センサ制御部143によるセンサ部122の切り替え制御を行う場合には、CG生成プロセッサ52やカメラ26などにおいて、ポーズ信頼度が低下したことを通知する警告表示など、ポーズ信頼度に応じた処理は必ずしも行われる必要はない。この場合、カメラ26やCG生成プロセッサ52へのポーズ信頼度の供給は行われなくてもよい。
 ステップS16において制御部95は、撮影画像をポーズ情報およびポーズ信頼度と関連付けて出力する処理を終了するか否かを判定する。例えば撮影画像の撮影が終了した場合、処理を終了すると判定される。
 ステップS16において、まだ処理を終了しないと判定された場合、その後、処理はステップS11に戻り、上述した処理が繰り返し行われる。
 これに対して、ステップS16において処理を終了すると判定された場合、撮影処理部51の各部は行っている処理を停止させ、データ出力処理は終了する。
 データ出力処理のステップS14で関連付けられた撮影画像とポーズ情報とポーズ信頼度は、動画ファイルなどの形式で、ポーズ重畳部103によりリムーバブル記録媒体に記録されたり、通信によりポーズ重畳部103からポストプロダクション用のPC等の装置へと送信されたりする。例えばリムーバブル記録媒体に記録された動画ファイルは、ポストプロダクション用のPC等の装置へと供給される。
 以上のようにして撮影処理部51は、撮影画像の撮影時に自己位置推定を行い、撮影画像と、自己位置推定により得られたポーズ情報およびポーズ信頼度とを関連付けて出力する。
 このようにすることで、撮影時や撮影後のポストプロダクションなどにおいてポーズ情報およびポーズ信頼度を活用し、映像制作をより効率的に行うことができるようになる。
〈ポーズ信頼度の活用について〉
 撮影画像と関連付けられたポーズ信頼度は、撮影時や撮影後に活用することができる。
 具体的には、例えば撮影時においてポーズ信頼度が低下した場合に、ポーズ信頼度が低下したことを示す警告表示を行うことで撮影作業の効率低下を抑制することができる。
 このとき、警告表示は、例えばカメラ26やアウトプットモニタ28、LEDウォール23などで行うようにすることが考えられる。なお、ポーズ信頼度が低下した旨の警告の提示は、表示による提示に限らず、音や振動などにより行われてもよいし、表示、音、振動などのうちの1または複数の提示方法を組み合わせて行われてもよい。
 また、例えば撮影後のポストプロダクションにおいて、映像エフェクトとしてCG映像等の合成処理を行う場合に、ポーズ情報をそのまま合成処理に用いるか否か等の判定にポーズ信頼度を利用することも考えられる。
 図10に映像エフェクトとしてCG映像等の合成処理を行う例を示す。合成処理は、撮影時に行われるようにしてもよいし、撮影後のポストプロダクションにおいて行われるようにしてもよい。
 この例では、例えば映像コンテンツとして、矢印Q41に示すようなシーンを制作することとする。ここでは、背景として木があり、その木の前に前景として演者21と馬HR11が存在している。特に、馬HR11は演者21の手前側に位置している。
 このようなシーンの撮影を行う場合、例えば矢印Q42に示すように、撮影スタジオではLEDウォール23に背景としての木が表示され、そのLEDウォール23の前で演者21が演技を行う。そして、LEDウォール23上の撮影領域映像vBCと演者21が被写体とされてカメラ26により撮影が行われる。
 このとき、例えば撮影中に、カメラ26において得られた撮影画像に対して、ポーズ情報が用いられて馬HR11のCG映像が合成され、その結果得られた映像がアウトプットモニタ28にモニタ映像vMとして表示されるようにすることができる。
 このような合成処理は、撮影後のポストプロダクションにおいて行われるようにしてもよいが、撮影中に行うことで撮影スタッフ等がアウトプットモニタ28でモニタ映像vMを見て意図通りの映像が得られているかを確認することができる。
 以上のように、撮影画像と関連付けられたポーズ情報およびポーズ信頼度は、撮影時にも撮影後にも活用することができる。
 この場合、例えばポーズ情報の用途、換言すればポーズ情報を利用するアプリケーションに応じて、ポーズ信頼度に関する閾値を変更してもよい。これにより、より適切にポーズ情報およびポーズ信頼度を活用し、映像制作をさらに効率的に行うことができる。
 ここでいう用途とは、例えばLEDウォール23を用いた撮影画像の撮影や、グリーンバック撮影、ポストプロダクションなどである。また、ポストプロダクションでも、前景となるCG映像の合成等の編集内容や、グリーンバック撮影等の撮影手法などによって異なる用途とすることができる。
 図11に用途に応じたポーズ信頼度の閾値の例を示す。ポーズ信頼度の閾値は、例えばポーズ信頼度が低下したことを通知する警告表示などに用いられる。
 図11では、横軸は時間、すなわち撮影画像のタイムコードを示しており、縦軸はポーズ信頼度を示している。
 この例では、例えば用途として、前景合成用途と背景合成用途があるとし、ポーズ信頼度が閾値未満となったタイミングで警告表示が行われる。
 ここでの前景合成用途は、ポストプロダクションで撮影画像に対して前景となるCG映像(AR)を合成する処理にポーズ情報とポーズ信頼度を利用する場合などである。
 また、背景合成用途は、LEDウォール23を用いた撮影やグリーンバック撮影などの撮影時または撮影後において、背景映像を合成する処理にポーズ情報とポーズ信頼度を利用する場合などである。具体的には、背景合成用途は、例えば撮影領域映像vBCの生成を行う場合などである。
 図11では、曲線L11は、各時刻におけるポーズ信頼度を示している。また、直線L12は前景合成用途におけるポーズ信頼度の閾値を示しており、直線L13は背景合成用途におけるポーズ信頼度の閾値を示している。
 したがって、例えば前景合成用途でポーズ情報を利用する場合、曲線L11に示すポーズ信頼度の値が直線L12に示す閾値未満となると警告表示が行われる。同様に、背景合成用途でポーズ情報を利用する場合には、曲線L11に示すポーズ信頼度の値が直線L13に示す閾値未満となると警告表示が行われる。
 ポーズ情報を利用して背景映像や前景映像を合成する場合、ポーズ信頼度が低下すると、すなわちポーズ情報が正確ではなくなると、正しい位置関係で映像を合成することができなくなってしまい、合成で得られる映像の粗が目立ってしまう。
 特に、前景映像を合成するときには、背景映像を合成するときよりも映像の粗が目立ちやすいため、前景合成用途でのポーズ情報の要求精度は、背景合成用途でのポーズ情報の要求精度よりも高い。そのため、直線L12に示す前景合成用途時の閾値は、直線L13に示す背景合成用途時の閾値よりも大きく設定されている。
 なお、例えば前景映像を合成する場合などであっても、撮影時の利用と、撮影後のポストプロダクション時の利用とでポーズ信頼度の閾値が異なるようにしてもよい。そのような場合、撮影時におけるポーズ信頼度の閾値を、ポストプロダクション時のポーズ信頼度の閾値よりも小さくすることが考えられる。
 以上のような、用途に応じたポーズ信頼度の閾値の変更(設定)は、アプリケーションプログラム側でユーザの操作を必要とせずに行われるようにしてもよいし、ユーザがアプリケーションプログラム等を指定することなどにより行われるようにしてもよい。
 例えばPC等の装置において用途ごとにアプリケーションプログラムが用意されている場合には、そのPC等の装置で起動されたアプリケーションプログラムが、ポーズ信頼度の閾値として、自身(アプリケーションプログラム)に対応する用途に対して定められた閾値を設定する。
 ポーズ信頼度の閾値の変更(設定)を行う具体的な例として、例えば撮影時にカメラ26やCG生成プロセッサ52が、ポーズ信頼度と閾値の比較結果に応じて警告表示を行う場合などが考えられる。
 例えばカメラ26の制御部95は、コンテンツの映像の撮影が開始されると、複数の用途ごとに予め用意されたポーズ信頼度の閾値のなかから、背景合成用途などの撮影時のポーズ情報の用途の閾値を選択(設定)する。換言すれば、制御部95は、ポーズ情報の用途に応じて、警告を行うか否かを判定するためのポーズ信頼度の閾値を切り替える。
 この場合、制御部95は、カメラマン27の入力部94に対する操作に応じて閾値を選択してもよいし、カメラマン27の操作を必要とせずに、設定されているモード等に応じて閾値を選択するようにしてもよい。
 制御部95は、逐次、自己位置演算部141からポーズ情報とポーズ信頼度の供給を受けると、供給されたポーズ信頼度と、選択した閾値とを比較し、ポーズ信頼度が閾値未満となると、表示部93にポーズ信頼度が低下した旨の警告を表示させる。
 このような警告表示を行うことで、表示部93としての電子ビューファインダを見ているカメラマン27は、早期に撮影ミス等に気付くことができる。また、撮影スタッフ等もアウトプットモニタ28でモニタ映像vMを見て、撮影ミスや画質の低下などが発生していないかを常に確認する必要がなくなる。これらのことから、撮影作業の効率を向上させることができる。
 また、例えばカメラ26における場合と同様に、CG生成プロセッサ52も用途に応じたポーズ信頼度の閾値を選択し、選択した閾値と、逐次、UDP送信部142から供給されるポーズ信頼度とを比較するようにしてもよい。
 この場合、CG生成プロセッサ52は、ポーズ信頼度が閾値未満となると、ポーズ信頼度が低下した旨の警告がアウターフラスタム部分に重畳された背景映像vBを生成する。そしてCG生成プロセッサ52は、生成した背景映像vBを、図示せぬディスプレイコントローラ等を介してLEDウォール23に供給して表示させる。
 これにより、背景映像vBにおける撮影領域映像vBC外の部分、つまりアウターフラスタム部分に警告を表示させ、撮影に影響を及ぼすことなく撮影ミス等を通知し、撮影作業の効率を向上させることができる。
 その他、例えば自己位置推定ユニット62のセンサ制御部143によるセンサ部122の切り替え制御に用いられるポーズ信頼度の閾値も、ポーズ情報の用途に応じて選択(設定)されるようにしてもよい。
 また、ポーズ信頼度の閾値の変更(設定)を行う他の具体的な例として、例えばポストプロダクションにおいて、ポーズ情報をそのまま用いるか、または既存のカメラトラッキングにより求めたポーズ情報を用いるかを切り替える場合などが考えられる。
 例えば、ポストプロダクションにおいて、撮影画像に前景または背景となるCG映像を合成する合成処理を行う場合、その合成処理では、撮影画像上におけるCG映像の合成位置等を決定するためにカメラ26のポーズ情報が必要となる。
 このとき、自己位置推定ユニット62で得られたポーズ情報のポーズ信頼度が十分に高い場合には、ポーズ情報をそのまま合成処理に用いることが可能である。
 しかし、ポーズ信頼度が低い場合には、ポーズ情報をそのまま合成処理に用いると、CG映像が正しい位置や向きで合成されず、合成後の撮影画像の品質が低下してしまう。
 そこで、例えば図12に示すように、ポーズ信頼度に応じて、ポーズ情報をそのまま合成処理に用いるか、既存のカメラトラッキングにより求めたポーズ情報を合成処理に用いるようにするかを切り替えるようにしてもよい。このようにすることで、効率よく高品質な撮影画像を得ることができる。
 図12では、横軸は時間、すなわち撮影画像のタイムコードを示しており、縦軸はポーズ信頼度を示している。
 また、曲線L21は各時刻におけるポーズ信頼度を示しており、直線L22および直線L23は、合成処理時の用途である前景合成用途に基づき選択(設定)された、ポーズ信頼度の閾値を示している。
 特に、ここでは、前景合成用途に対して2つの閾値が選択されている。なお、ここでは直線L22と直線L23のそれぞれにより示される閾値が用途に応じて設定される例について説明する。しかし、例えば直線L22により示される閾値など、一方の閾値は用途に応じて設定されるが、直線L23により示される閾値など、他方の閾値は用途によらず一定であるなどとされてもよい。
 例えば曲線L21により示されるポーズ信頼度が、直線L22により示される閾値以上である場合、ポーズ情報は十分信頼できるので、撮影画像に関連付けられているポーズ情報がそのまま合成処理で用いられる。
 換言すれば、曲線L21により示されるポーズ信頼度が、直線L22により示される閾値以上である領域R21内となる区間では、ポーズ情報がそのまま合成処理で用いられる。
 このように、ポーズ情報が十分信頼できる場合には、撮影画像に関連付けられたポーズ情報をそのまま合成処理に用いることができるため、ポストプロダクションにおいてポーズ情報を求める必要がなくなる。したがって、その分だけポストプロダクションの処理時間を削減し、映像制作をより効率的に行うことができる。
 また、ポーズ信頼度が、直線L23により示される閾値以上であるが、直線L22により示される閾値未満である場合、ポーズ情報は十分信頼できるとはいえないため、既存のカメラトラッキングにより最終的なポーズ情報が求められる。そして、既存のカメラトラッキングにより求められたポーズ情報が合成処理に用いられる。
 換言すれば、曲線L21により示されるポーズ信頼度が、直線L23により示される閾値以上で、かつ直線L22により示される閾値未満である領域R22内となる区間では、既存のカメラトラッキングによりポーズ情報が求められる。
 但し、この場合、撮影画像に関連付けられたポーズ情報が、これから求めようとするポーズ情報の初期値として用いられて既存のカメラトラッキングが行われる。
 ここでいう、既存のカメラトラッキングとは、撮影画像のみに基づいてポーズ情報を算出する処理であり、このような既存のカメラトラッキングは、マッチムーブ処理と呼ばれている。
 マッチムーブ処理においては、編集者であるユーザが特徴点等を指定するなどの入力作業が必要となることや、処理の収束までに時間がかかることなどから、ポーズ情報を得るまでに膨大な処理時間が必要である。そうすると、ポストプロダクションの作業効率、すなわち映像の制作効率が低下してしまう。
 そこで、本技術では、ポーズ信頼度が直線L23により示される閾値以上で、かつ直線L22により示される閾値未満である場合には、撮影画像に関連付けられたポーズ情報が初期値として活用され、マッチムーブ処理によりポーズ情報が算出される。
 このようにすることで、マッチムーブ処理をより早く収束させて短時間でポーズ情報を得ることができるだけでなく、より確からしいポーズ情報を得ることができる。
 例えば、初期値がない前提からポーズ情報の推定、つまりカメラ26の位置姿勢の推定を開始すると解の探索範囲が広くなるため、処理の収束が遅く、またポーズ情報の推定結果が局所最適解となってしまう可能性も高くなる。
 これに対して、ある程度信頼できるポーズ情報を初期値として活用すれば、マッチムーブ処理の収束も早く、また局所的に解の探索を行えばよくなるため、より信頼できる、つまり、より確からしいポーズ情報を得ることができる。
 また、例えば曲線L21により示されるポーズ信頼度が、直線L23により示される閾値未満である場合、撮影画像に関連付けられているポーズ情報は信頼できない可能性がある。そのため、現時点よりも前の時点における、比較的信頼できるポーズ情報が初期値として用いられて既存のカメラトラッキングが行われ、その結果得られたポーズ情報が合成処理に用いられる。
 換言すれば、曲線L21により示されるポーズ信頼度が、直線L23により示される閾値未満である領域R23内となる区間では、直前の比較的信頼できるポーズ情報が初期値として用いられ、既存のカメラトラッキングにより最終的なポーズ情報が求められる。
 この場合、初期値とされるポーズ情報は、例えば曲線L21により示される、現時点よりも時間的に前の各時点のポーズ情報のなかから選択される。
 なお、初期値とされるポーズ情報は、ユーザにより指定されたものであってもよいし、ユーザの指定操作を必要とせずに、各時点のポーズ信頼度等に基づきアプリケーションプログラムにより選択されたものであってもよい。
 この例では、ポーズ信頼度が直線L23により示される閾値未満となっている時点よりも時間的に前にあり、かつポーズ信頼度が直線L23により示される閾値以上である、曲線L21上の点PI11に対応する時点のポーズ情報が初期値として選択される。
 これは、点PI11に対応する時点においては、ポーズ信頼度が直線L23により示される閾値以上となっているので、この時点のポーズ情報は初期値とするのには十分信頼できるからである。
 このように、現時点よりも時間的に前の時点における、比較的信頼できるポーズ情報を初期値として用いて既存のカメラトラッキングによりポーズ情報を求める場合、初期値を指定せずに既存のカメラトラッキングを行う場合よりも、マッチムーブ処理をより早く収束させるとともに処理負荷も軽減させることができる。
 以上のように、ポストプロダクションにおいて、ポーズ情報をそのまま用いるか否かの切り替えにポーズ信頼度を活用することで、映像制作をより効率的に行うことができる。特に、ポーズ情報の用途に応じてポーズ信頼度の閾値を選択することで、より適切にポーズ情報およびポーズ信頼度を活用し、映像制作をさらに効率的に行うことができる。
 ここで、ポストプロダクションにおいて、撮影画像に関連付けられたポーズ情報およびポーズ信頼度がある場合とない場合の処理の違い、すなわちポーズ情報とポーズ信頼度を活用する場合としない場合の処理の違いの例について説明する。
 ここでは、ポストプロダクションでの処理として、ポーズ情報を利用して撮影画像にCG映像を合成する例について説明する。
 そのような場合、撮影画像に関連付けられたポーズ情報およびポーズ信頼度がないときには、例えば図13の左側に示すように処理が行われる。図13の左側に示す例では、上述のマッチムーブ処理(既存のカメラトラッキング)が行われる。
 具体的には、まず撮影画像が入力されると、撮影画像に対してレンズ歪補正が行われ、撮影画像のレンズに起因する歪みが補正される。これにより、撮影画像は歪みのない理想的なレンズで撮影を行ったときの状態に近くなり、後段において特徴点追跡をより精度よく行うことができるようになる。
 続いて、レンズ歪補正後の撮影画像に対して動被写体マスキングが行われる。自己位置推定時には、撮影画像上における動被写体の領域はノイズとなるので、動被写体マスキングにより動被写体の領域が自己位置推定時の推定対象領域から除外される。このとき、適宜、ユーザにより動被写体の領域が指定される。
 動被写体マスキングが行われると、次に撮影画像に対する特徴点追跡が行われ、撮影画像内の各領域の動き量(オプティカルフロー)が算出される。
 撮影画像に関連付けられたポーズ情報とポーズ信頼度がない場合、以上のレンズ歪補から特徴点追跡までの処理が、自己位置推定のための前処理として行われる。
 そして、前処理が行われると、特徴点追跡により得られた動き量が用いられて、撮影画像に対する自己位置推定(3Dカメラ位置推定)が行われる。
 その後、撮影画像上における地面領域の選択が行われ、その選択結果と自己位置推定の結果とに基づいてCG映像の合成、つまりCG映像の配置が行われる。
 これに対して、撮影画像に関連付けられたポーズ情報およびポーズ信頼度があるときには、例えば図13の右側に示すように処理が行われる。
 すなわち、まず撮影画像と、その撮影画像に関連付けられたポーズ情報およびポーズ信頼度とが入力される。
 そして、入力された撮影画像上における地面領域の選択が行われ、その選択結果と、入力されたポーズ情報とに基づいてCG映像の合成(CG映像の配置)が行われる。
 撮影画像にポーズ情報とポーズ信頼度が関連付けられている場合、既に自己位置推定の結果であるポーズ情報があるため、図中、左側の例で示した前処理と自己位置推定を行う必要がなくなる。すなわち、画像のみに基づくカメラ26の自己位置の推定を行わなくてもよい。
 したがって、ポストプロダクションでの処理負荷や処理時間を軽減させるとともに、ユーザの待ち時間も削減し、映像制作の効率を向上させることができる。
 また、図13を参照して説明した処理が行われるときのUI(User Interface)と表示画面の遷移の例を図14および図15に示す。
 図14は、図13の左側に示した、撮影画像に関連付けられたポーズ情報とポーズ信頼度がない場合の処理が行われるときのUIと表示画面の例を示している。
 この場合、例えば表示画面上には、図14の右下に示すUI161が表示される。このUI161には、文字「unti-distortion」、「masking」、「tracking」、および「3D camera pose」のそれぞれが表示されたボタンが設けられている。
 撮影画像が入力された後、矢印Q61に示すようにUI161上の文字「unti-distortion」が表示されたボタンが操作されるとレンズ歪補正が行われ、適宜、矢印Q62に示すようにレンズ歪等が表示画面上に表示される。このレンズ歪補正は、カメラ26でのレンズ交換がなければ、最初に1度だけ設定を行うだけでよい。
 続いて、矢印Q63に示すようにUI161上の文字「masking」が表示されたボタンが操作されると動被写体マスキングが行われ、矢印Q64に示すように表示画面における撮影画像上の動被写体の領域がマスクされる。
 そして、矢印Q65に示すようにUI161上の文字「tracking」が表示されたボタンが操作されると特徴点追跡が行われ、矢印Q66に示すように特徴点追跡の処理結果が表示画面における撮影画像上に表示される。
 さらに、矢印Q67に示すようにUI161上の文字「3D camera pose」が表示されたボタンが操作されると自己位置推定が行われ、矢印Q68に示すように表示画面上に自己位置推定の結果など、ポーズ情報に関する画面が表示される。
 その後、矢印Q69に示すように、特徴点などが表示された撮影画像上で地面領域の選択が行われると、矢印Q70に示すように撮影画像上でのCG映像の配置が行われる。
 これに対して、図15には、図13の右側に示した、撮影画像に関連付けられたポーズ情報とポーズ信頼度がある場合の処理が行われるときのUIと表示画面の例が示されている。
 図15の例では撮影画像と、その撮影画像に関連付けられたポーズ情報およびポーズ信頼度とが入力されると、表示画面上にはUI161が表示される。この場合、UI161には文字「use pose meta」が表示されたボタンB81がさらに表示されている。
 そして、UI161上のボタンB81が操作されると、表示画面には矢印Q81に示すように、撮影画像に関連付けられているポーズ情報、すなわち撮影画像とともに取得された自己位置推定の結果など、ポーズ情報に関する画面が表示される。
 その後、図14における場合と同様に、特徴点などが表示された撮影画像上で地面領域の選択が行われると、撮影画像上でのCG映像の配置が行われる。
 また、図15に示したように撮影画像に関連付けられたポーズ情報とポーズ信頼度が用いられる場合、撮影画像に関連付けられているポーズ信頼度が低く、ポーズ情報が十分に信頼できるものではないこともある。
 そのような場合、ポーズ信頼度に応じて、ポーズ情報をそのまま合成処理(CG映像の配置)に用いるか、既存のカメラトラッキングによりポーズ情報を求めて合成処理に用いるかの切り替えが行われるようにしてもよい。すなわち、図12を参照して説明した切り替えが行われるようにしてもよい。
 具体的には、例えば図16に示すように、表示画面に表示されたUI161上の文字「use pose meta」が表示されたボタンB81が操作されると、装置(アプリケーションプログラム)側ではポーズ情報の用途に応じた閾値が選択され、閾値とポーズ信頼度の比較が行われる。
 例えば矢印Q91に示すように、連続する複数のフレームの撮影画像と、それらの各撮影画像に関連付けられたポーズ情報およびポーズ信頼度とが入力されたとする。
 矢印Q91に示す部分の上側には各フレームの撮影画像が示されており、矢印Q91に示す部分の下側には各フレーム(撮影画像)におけるポーズ信頼度が示されている。特に、曲線L91は、各フレームにおけるポーズ信頼度を示しており、縦軸および横軸はポーズ信頼度およびフレーム(時間)を示している。
 この例では、図中の縦軸の部分に記されているように、用途に応じたポーズ信頼度の閾値として、より大きい閾値PR11と、より小さい閾値PR12とが選択(設定)されている。なお、閾値PR12は用途によらず一定の値とされてもよい。
 閾値PR11および閾値PR12が選択されると、最初のフレームから順番に、撮影画像に関連付けられたポーズ信頼度と、選択された閾値PR11および閾値PR12との比較が行われていく。
 このとき、例えばフレームFLM11のように、ポーズ信頼度が閾値PR11以上である場合には、撮影画像と関連付けられているポーズ情報が、合成処理(CG映像の配置)に用いるポーズ情報として選択される。
 また、例えばフレームFLM12のように、ポーズ信頼度が閾値PR12以上かつ閾値PR11未満となった場合には、矢印Q92に示すダイアログ(確認ウィンドウ)が表示画面に表示される。
 このダイアログには、ポーズ情報を初期値として自己位置推定、すなわち既存のカメラトラッキング(マッチムーブ処理)を行うかを問う文字メッセージと、文字メッセージに対する応答(回答)のためのボタンなどが表示されている。
 例えば、ユーザがダイアログ上における文字「Yes」が表示された、既存のカメラトラッキングを行う旨のボタンを操作すると、その操作に従って既存のカメラトラッキングが行われる。
 すなわち、フレームFLM12の撮影画像に関連付けられているポーズ情報が初期値として用いられて、撮影画像に基づくマッチムーブ処理が行われ、その結果得られたポーズ情報が合成処理(CG映像の配置)に用いるポーズ情報とされる。
 さらに、例えばフレームFLM13のように、ポーズ信頼度が閾値PR12未満となった場合には、矢印Q93に示すように初期値とするフレームの選択を促すメッセージが表示される。このとき、例えば表示画面上における各フレームの撮影画像やポーズ信頼度が表示された部分に、初期値として用いるポーズ情報のフレームを選択するためのカーソルが表示され、ユーザはカーソルを動かして所望のフレームを選択する。換言すれば、ユーザにより初期値とするポーズ情報が選択される。
 すると、ユーザにより選択されたフレームにおける、撮影画像に関連付けられたポーズ情報が初期値として用いられ、撮影画像に基づくマッチムーブ処理が行われる。そして、その結果得られたポーズ情報が合成処理(CG映像の配置)に用いるポーズ情報とされる。
 このように、ポーズ情報をそのまま用いるか否かの切り替えが行われる場合においても、ユーザが追加で行う必要がある操作は、ダイアログに対する操作程度であり、効率よくポストプロダクションでの作業を進めることができる。
〈情報処理装置の構成例〉
 以上のようなポストプロダクションでの処理は、例えばPCなどの情報処理装置において行われる。図17に、そのような情報処理装置の構成例を示す。
 図17に示す情報処理装置181は、ポストプロダクションでの処理として、直接または間接的にカメラ26から供給された、予め関連付けられている撮影画像とポーズ情報とポーズ信頼度とに基づく処理を行う。ここでいう処理とは、上述した撮影画像の入力後に行われる、適宜ポーズ情報を算出する処理や撮影画像上にCG映像(画像)を合成する処理などである。
 情報処理装置181は、入力部191、表示部192、記録部193、通信部194、および制御部195を有している。
 入力部191は、マウスやキーボードなどからなり、ユーザの操作に応じた信号を制御部195に供給する。表示部192はディスプレイなどからなり、制御部195の制御に従って撮影画像や、CG映像の合成のための画面など、各種の画像を表示する。
 記録部193は、例えば不揮発性のメモリなどからなり、制御部195から供給された撮影画像や、用途ごとのアプリケーションプログラムなどの各種のデータを記録するとともに、必要に応じて記録しているデータを制御部195に供給する。
 通信部194は、外部の装置と通信を行う。例えば通信部194は、制御部195から供給されたデータを外部の装置に送信したり、外部の装置から送信されてきた、撮影画像と、ポーズ情報およびポーズ信頼度とが関連付けられて格納されている動画像ファイルなどの任意のデータを受信して制御部195に供給したりする。
 制御部195は、情報処理装置181全体の動作を制御する。
 例えば制御部195は、ポーズ情報の用途に応じて、ポーズ信頼度の閾値を切り替えたり、切り替え後の閾値とポーズ信頼度との比較結果に応じて、適宜、撮影画像に基づく自己位置推定(マッチムーブ処理)によりポーズ情報を算出したりする。また、例えば制御部195は、入力部191からの信号に応じて、撮影画像上にCG映像(画像)を合成するなどの処理も行う。
〈映像合成処理の説明〉
 続いて、情報処理装置181の動作について説明する。
 例えば情報処理装置181では、撮影画像と、ポーズ情報およびポーズ信頼度とが関連付けられて格納されている動画像ファイルが予めカメラ26から取得され、記録部193に記録されているとする。
 このような状態で、ポストプロダクションでの処理として、撮影画像にCG映像を合成する処理を実行させるために、ユーザが入力部191を操作し、ポストプロダクションの専用のアプリケーションプログラムの起動を指示したとする。
 すると、制御部195は、指定されたアプリケーションプログラムを記録部193から読み出して起動させる。
 また、例えば制御部195は、ユーザによる操作に応じて、指定された動画像ファイルを記録部193から読み出し、適宜、図16に示したUI161を表示部192に表示させる。このような状態で、ユーザによりUI161上の文字「use pose meta」が表示されたボタンB81が操作されると、情報処理装置181は、撮影画像にCG映像を合成する処理として、図18に示す映像合成処理を行う。
 以下、図18のフローチャートを参照して、情報処理装置181による映像合成処理について説明する。
 ステップS81において制御部195は、上述したポストプロダクションなどの用途に応じた閾値の設定を行う。
 例えば制御部195は、起動させたアプリケーションプログラムに対して予め定められた、より大きい閾値th1と、閾値th1よりも小さい閾値th2を、用途に応じたポーズ信頼度の閾値として選択する。
 閾値th1および閾値th2は、例えば図16を参照して説明した閾値PR11および閾値PR12に対応する。
 また、制御部195は、記録部193から読み出した動画ファイルに格納されているコンテンツの映像の各フレームを順番に処理対象のフレームとして以下の処理を行う。
 ステップS82において制御部195は、処理対象のフレームのポーズ信頼度が閾値th1未満であるか否かを判定する。
 ステップS82において、ポーズ信頼度が閾値th1未満でない、つまりポーズ信頼度が閾値th1以上であると判定された場合、撮影画像に関連付けられたポーズ情報は十分信頼できるものであるので、その後、処理はステップS83へと進む。
 ステップS83において制御部195は、処理対象のフレームの撮影画像に関連付けられているポーズ情報を、そのままCG映像の合成処理に用いるポーズ情報として選択する。ステップS83の処理が行われると、その後、処理はステップS88へと進む。
 また、ステップS82において、ポーズ信頼度が閾値th1未満であると判定された場合、ステップS84において制御部195は、処理対象のフレームのポーズ信頼度が閾値th2未満であるか否かを判定する。
 ステップS84において、ポーズ信頼度が閾値th2未満でない、つまりポーズ信頼度が閾値th2以上で、かつ閾値th1未満であると判定された場合、その後、処理はステップS85へと進む。
 この場合、撮影画像に関連付けられたポーズ情報は、ある程度は信頼できるが、十分に信頼できるとはいえないものであるので、ステップS85の処理が行われる。このとき、制御部195は、適宜、ポーズ情報を初期値とした自己位置推定を行うかを選択させるためのダイアログを表示部192に表示させ、ダイアログに対するユーザの操作に応じてステップS85の処理を行う。
 ステップS85において制御部195は、処理対象のフレームの撮影画像に関連付けられているポーズ情報を初期値として用いて、撮影画像に基づく自己位置推定を行う。ここでは自己位置推定として、上述のマッチムーブ処理が行われる。
 制御部195は、自己位置推定により得られたポーズ情報を、CG映像の合成処理に用いる最終的なポーズ情報とし、その後、処理はステップS88へと進む。
 また、ステップS84において、ポーズ信頼度が閾値th2未満であると判定された場合、その後、ステップS86の処理が行われる。
 この場合、撮影画像に関連付けられたポーズ情報は、信頼できないものである可能性が高い。そこで、例えば制御部195は、適宜、表示部192に、初期値として用いるポーズ情報のフレームを選択するためのカーソルや文字メッセージなどを表示させ、ユーザにフレーム(ポーズ情報)の選択を促す。すると、ユーザは入力部191を操作することで、処理対象のフレームよりも時間的に前のフレームのなかから、初期値として用いるポーズ情報のフレームを選択する。
 すると、ステップS86において制御部195は、ユーザの操作により入力部191から供給された信号に応じて、初期値として用いるポーズ情報のフレーム、すなわち初期値として用いるポーズ情報を選択する。ここで初期値として用いられるポーズ情報は、予め撮影画像に関連付けられているポーズ情報である。
 ステップS87において制御部195は、ステップS86で選択されたフレームのポーズ情報を初期値として用いて、撮影画像に基づく自己位置推定を行う。ここでは自己位置推定として、上述のマッチムーブ処理が行われる。
 制御部195は、自己位置推定により得られたポーズ情報を、CG映像の合成処理に用いる最終的なポーズ情報とし、その後、処理はステップS88へと進む。
 ステップS83の処理、ステップS85の処理、またはステップS87の処理が行われると、その後、ステップS88の処理が行われる。
 ステップS88において制御部195は、CG映像の合成処理に用いるとしたポーズ情報に基づいて、処理対象のフレームの撮影画像上に所定のCG映像を合成する合成処理を行う。このとき、適宜、地面領域の選択結果なども用いられる。
 なお、処理対象のフレームにおいて、ユーザによりCG映像の合成が指示されていない場合には、ステップS88の処理は行われない。
 ステップS89において制御部195は、撮影画像にCG映像を合成する処理を終了するか否かを判定する。例えばステップS89では、全てのフレームが処理対象として処理された場合に、終了すると判定される。
 ステップS89において、まだ処理を終了しないと判定された場合、その後、処理はステップS82に戻り、上述した処理が繰り返し行われる。すなわち、新たなフレームが処理対象とされて、そのフレームの撮影画像にCG映像が合成される。
 これに対して、ステップS89において処理を終了すると判定された場合、情報処理装置181の各部は、行っている処理を停止し、映像合成処理は終了する。
 以上のようにして情報処理装置181は、ポーズ情報の用途ごとに設定した閾値とポーズ信頼度とを比較し、その比較結果に応じてポーズ情報を求めて撮影画像にCG映像を合成する。
 情報処理装置181では、撮影画像と予め関連付けられたポーズ情報およびポーズ信頼度を用いることで、ポストプロダクションの処理時間を削減し、映像制作をより効率的に行うことができる。
 しかも、ポーズ情報の用途に応じてポーズ信頼度の閾値を選択(設定)することで、より適切にポーズ情報およびポーズ信頼度を活用し、映像制作をさらに効率的に行うことができる。
 なお、ここではポーズ信頼度に基づく処理として、ポストプロダクションで行われる、撮影画像にCG映像を合成する処理を例として説明した。しかし、これに限らず、撮影画像に関連付けられたポーズ信頼度に基づく処理として、撮影時等におけるポーズ信頼度の低下を通知する警告表示など、様々な処理を行うことが可能である。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図19は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。なお、コンピュータには、GPU(Graphics Processing Unit)が設けられるようにしてもよい。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 カメラにより撮影された撮影画像と、自己位置推定により得られた前記カメラのポーズ情報と、前記ポーズ情報のポーズ信頼度とを関連付ける関連付け部を備える
 情報処理装置。
(2)
 1または複数のセンサのセンサ出力信号に基づいて、前記自己位置推定を行う自己位置演算部をさらに備える
 (1)に記載の情報処理装置。
(3)
 前記ポーズ信頼度に基づいて、前記自己位置推定に用いる前記センサ出力信号を切り替えるセンサ制御部をさらに備える
 (2)に記載の情報処理装置。
(4)
 前記センサ制御部は、前記自己位置推定に用いる前記センサ出力信号を、異なるセンシング方向の前記センサの前記センサ出力信号に切り替える
 (3)に記載の情報処理装置。
(5)
 前記センサ制御部は、前記自己位置推定に用いる前記センサ出力信号を、異なる種別の前記センサの前記センサ出力信号に切り替える
 (3)に記載の情報処理装置。
(6)
 前記ポーズ信頼度に応じて警告を行う制御部をさらに備える
 (1)乃至(5)の何れか一項に記載の情報処理装置。
(7)
 前記制御部は、前記警告を行うか否かを判定するための前記ポーズ信頼度の閾値を、前記ポーズ情報の用途に応じて切り替える
 (6)に記載の情報処理装置。
(8)
 前記関連付け部は、前記撮影画像、前記ポーズ情報、および前記ポーズ信頼度を同一ファイルに格納することで前記関連付けを行う
 (1)乃至(7)の何れか一項に記載の情報処理装置。
(9)
 前記関連付け部は、前記撮影画像の信号の所定区間に、前記ポーズ情報および前記ポーズ信頼度を埋め込むことで前記関連付けを行う
 (1)乃至(7)の何れか一項に記載の情報処理装置。
(10)
 前記関連付け部は、前記撮影画像、前記ポーズ情報、および前記ポーズ信頼度に対して同一のIDを付与することで前記関連付けを行う
 (1)乃至(7)の何れか一項に記載の情報処理装置。
(11)
 前記撮影画像は、動画像である
 (1)乃至(10)の何れか一項に記載の情報処理装置。
(12)
 カメラにより撮影された撮影画像と、自己位置推定により得られた前記カメラのポーズ情報と、前記ポーズ情報のポーズ信頼度とを関連付ける
 ステップを含む処理をコンピュータに実行させるプログラム。
(13)
 予め関連付けられた、カメラにより撮影された撮影画像と、自己位置推定により得られた前記カメラのポーズ情報と、前記ポーズ情報のポーズ信頼度とに基づく処理を行う制御部を備える
 情報処理装置。
(14)
 前記制御部は、前記ポーズ情報の用途に応じて前記ポーズ信頼度の閾値を切り替え、前記ポーズ信頼度と前記閾値との比較結果に応じた処理を行う
 (13)に記載の情報処理装置。
(15)
 前記制御部は、前記ポーズ信頼度が前記閾値未満である場合、前記撮影画像に基づく自己位置推定により最終的な前記ポーズ情報を算出する
 (14)に記載の情報処理装置。
(16)
 前記制御部は、前記ポーズ信頼度が前記閾値未満である場合、前記ポーズ情報を初期値として用いて、前記撮影画像に基づく自己位置推定により最終的な前記ポーズ情報を算出する
 (15)に記載の情報処理装置。
(17)
 前記制御部は、処理対象のフレームの前記ポーズ信頼度が、前記閾値よりも小さい他の閾値未満である場合、前記処理対象のフレームよりも前の他のフレームの前記ポーズ情報を初期値として用いて、前記撮影画像に基づく自己位置推定により最終的な前記ポーズ情報を算出する
 (15)または(16)に記載の情報処理装置。
(18)
 前記制御部は、前記ポーズ情報に基づいて、前記撮影画像に他の画像を合成する
 (13)乃至(17)の何れか一項に記載の情報処理装置。
(19)
 前記撮影画像は、動画像である
 (13)乃至(18)の何れか一項に記載の情報処理装置。
(20)
 予め関連付けられた、カメラにより撮影された撮影画像と、自己位置推定により得られた前記カメラのポーズ情報と、前記ポーズ情報のポーズ信頼度とに基づく処理を行う
 ステップを含む処理をコンピュータに実行させるプログラム。
 11 撮影システム, 23 LEDウォール, 26 カメラ, 28 アウトプットモニタ, 51 撮影処理部, 52 CG生成プロセッサ, 61 センサユニット, 62 自己位置推定ユニット, 95 制御部, 103 ポーズ重畳部, 121 センサ選択部, 122-1乃至122-N,122 センサ部, 141 自己位置演算部, 143 センサ制御部

Claims (20)

  1.  カメラにより撮影された撮影画像と、自己位置推定により得られた前記カメラのポーズ情報と、前記ポーズ情報のポーズ信頼度とを関連付ける関連付け部を備える
     情報処理装置。
  2.  1または複数のセンサのセンサ出力信号に基づいて、前記自己位置推定を行う自己位置演算部をさらに備える
     請求項1に記載の情報処理装置。
  3.  前記ポーズ信頼度に基づいて、前記自己位置推定に用いる前記センサ出力信号を切り替えるセンサ制御部をさらに備える
     請求項2に記載の情報処理装置。
  4.  前記センサ制御部は、前記自己位置推定に用いる前記センサ出力信号を、異なるセンシング方向の前記センサの前記センサ出力信号に切り替える
     請求項3に記載の情報処理装置。
  5.  前記センサ制御部は、前記自己位置推定に用いる前記センサ出力信号を、異なる種別の前記センサの前記センサ出力信号に切り替える
     請求項3に記載の情報処理装置。
  6.  前記ポーズ信頼度に応じて警告を行う制御部をさらに備える
     請求項1に記載の情報処理装置。
  7.  前記制御部は、前記警告を行うか否かを判定するための前記ポーズ信頼度の閾値を、前記ポーズ情報の用途に応じて切り替える
     請求項6に記載の情報処理装置。
  8.  前記関連付け部は、前記撮影画像、前記ポーズ情報、および前記ポーズ信頼度を同一ファイルに格納することで前記関連付けを行う
     請求項1に記載の情報処理装置。
  9.  前記関連付け部は、前記撮影画像の信号の所定区間に、前記ポーズ情報および前記ポーズ信頼度を埋め込むことで前記関連付けを行う
     請求項1に記載の情報処理装置。
  10.  前記関連付け部は、前記撮影画像、前記ポーズ情報、および前記ポーズ信頼度に対して同一のIDを付与することで前記関連付けを行う
     請求項1に記載の情報処理装置。
  11.  前記撮影画像は、動画像である
     請求項1に記載の情報処理装置。
  12.  カメラにより撮影された撮影画像と、自己位置推定により得られた前記カメラのポーズ情報と、前記ポーズ情報のポーズ信頼度とを関連付ける
     ステップを含む処理をコンピュータに実行させるプログラム。
  13.  予め関連付けられた、カメラにより撮影された撮影画像と、自己位置推定により得られた前記カメラのポーズ情報と、前記ポーズ情報のポーズ信頼度とに基づく処理を行う制御部を備える
     情報処理装置。
  14.  前記制御部は、前記ポーズ情報の用途に応じて前記ポーズ信頼度の閾値を切り替え、前記ポーズ信頼度と前記閾値との比較結果に応じた処理を行う
     請求項13に記載の情報処理装置。
  15.  前記制御部は、前記ポーズ信頼度が前記閾値未満である場合、前記撮影画像に基づく自己位置推定により最終的な前記ポーズ情報を算出する
     請求項14に記載の情報処理装置。
  16.  前記制御部は、前記ポーズ信頼度が前記閾値未満である場合、前記ポーズ情報を初期値として用いて、前記撮影画像に基づく自己位置推定により最終的な前記ポーズ情報を算出する
     請求項15に記載の情報処理装置。
  17.  前記制御部は、処理対象のフレームの前記ポーズ信頼度が、前記閾値よりも小さい他の閾値未満である場合、前記処理対象のフレームよりも前の他のフレームの前記ポーズ情報を初期値として用いて、前記撮影画像に基づく自己位置推定により最終的な前記ポーズ情報を算出する
     請求項15に記載の情報処理装置。
  18.  前記制御部は、前記ポーズ情報に基づいて、前記撮影画像に他の画像を合成する
     請求項13に記載の情報処理装置。
  19.  前記撮影画像は、動画像である
     請求項13に記載の情報処理装置。
  20.  予め関連付けられた、カメラにより撮影された撮影画像と、自己位置推定により得られた前記カメラのポーズ情報と、前記ポーズ情報のポーズ信頼度とに基づく処理を行う
     ステップを含む処理をコンピュータに実行させるプログラム。
PCT/JP2023/034199 2022-10-05 2023-09-21 情報処理装置およびプログラム WO2024075525A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022160646 2022-10-05
JP2022-160646 2022-10-05

Publications (1)

Publication Number Publication Date
WO2024075525A1 true WO2024075525A1 (ja) 2024-04-11

Family

ID=90608002

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/034199 WO2024075525A1 (ja) 2022-10-05 2023-09-21 情報処理装置およびプログラム

Country Status (1)

Country Link
WO (1) WO2024075525A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017057054A1 (ja) * 2015-09-30 2017-04-06 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2021043486A (ja) * 2019-09-06 2021-03-18 株式会社東芝 位置推定装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017057054A1 (ja) * 2015-09-30 2017-04-06 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2021043486A (ja) * 2019-09-06 2021-03-18 株式会社東芝 位置推定装置

Similar Documents

Publication Publication Date Title
US8730302B2 (en) Method and system for enhancing 3D effects for 3D video rendering
US20240259518A1 (en) Information processing device, video processing method, and program
CN106165413B (zh) 自动色度键背景发生器
JP2010183384A (ja) 撮影カメラ学習装置及びそのプログラム
WO2024004584A1 (ja) 情報処理装置、情報処理方法、プログラム
WO2024075525A1 (ja) 情報処理装置およびプログラム
US20150131961A1 (en) Computer generated imagery compositors
US20230077552A1 (en) Video Game Engine Assisted Virtual Studio Production Process
WO2020082286A1 (zh) 虚拟现实实时拍摄监看系统及控制方法
JP7378963B2 (ja) 画像処理装置、画像処理方法、及び、コンピュータプログラム
WO2020189510A1 (ja) 画像処理装置、画像処理方法、コンピュータプログラム及び記憶媒体
US20160246817A1 (en) Method and apparatus for generating lens-related metadata
WO2023047645A1 (ja) 情報処理装置、映像処理方法、プログラム
KR20050015737A (ko) 조명제어에 의한 사실적 영상합성 방법
WO2023223759A1 (ja) 情報処理装置、情報処理方法、撮影システム
WO2023223758A1 (ja) スイッチャー装置、制御方法、撮影システム
WO2024048295A1 (ja) 情報処理装置、情報処理方法、プログラム
WO2024042893A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2023238646A1 (ja) 情報処理装置、情報処理方法、プログラム、情報処理システム
CN114175616A (zh) 图像处理设备、图像处理方法和程序
JP4899733B2 (ja) 画像生成方法及び画像生成システム
JP2003046842A (ja) 仮想シーン撮影方法及びその装置
WO2023090038A1 (ja) 情報処理装置、映像処理方法、プログラム
WO2023176269A1 (ja) 情報処理装置、情報処理方法、プログラム
WO2023047643A1 (ja) 情報処理装置、映像処理方法、プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23874654

Country of ref document: EP

Kind code of ref document: A1