WO2020209108A1 - 画像処理装置、3dモデル生成方法、およびプログラム - Google Patents

画像処理装置、3dモデル生成方法、およびプログラム Download PDF

Info

Publication number
WO2020209108A1
WO2020209108A1 PCT/JP2020/014171 JP2020014171W WO2020209108A1 WO 2020209108 A1 WO2020209108 A1 WO 2020209108A1 JP 2020014171 W JP2020014171 W JP 2020014171W WO 2020209108 A1 WO2020209108 A1 WO 2020209108A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
subject
imaging
unit
region
Prior art date
Application number
PCT/JP2020/014171
Other languages
English (en)
French (fr)
Inventor
高橋 宏彰
徹也 福安
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to JP2021513570A priority Critical patent/JPWO2020209108A1/ja
Priority to CN202080026862.5A priority patent/CN113647093A/zh
Priority to US17/594,052 priority patent/US20220172474A1/en
Publication of WO2020209108A1 publication Critical patent/WO2020209108A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/243Image signal generators using stereoscopic image cameras using three or more 2D image sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/189Recording image signals; Reproducing recorded image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Definitions

  • the present technology relates to an image processing device, a 3D model generation method, and a program.
  • an image processing device in multi-view shooting for 3D model generation, an image processing device, a 3D model generation method, which can reduce shooting failures. And about the program.
  • a method such as Visual Hull which cuts out a three-dimensional shape of a subject using a plurality of captured images from different directions, is used (see, for example, Patent Document 1). Since the accuracy of the 3D model is improved by increasing the number of cameras, it is preferable to shoot the subject with a large number of cameras from different directions.
  • This technology was made in view of such a situation, and makes it possible to reduce shooting failures in multi-view shooting for 3D model generation.
  • the image processing device on one aspect of the present technology corresponds to a generation unit that generates a 3D region of an imaging range generated from a plurality of multi-viewpoint images, a region image that projects the 3D region onto a specific viewpoint, and the specific viewpoint.
  • a determination unit for determining the shooting status of the subject of the imaging device based on the subject image from the imaging device is provided.
  • the 3D model generation method of one aspect of the present technology is a 3D model generation method for generating a 3D model of a subject, which includes a step of generating a 3D region of an imaging range generated from a plurality of multi-viewpoint images and the 3D region. Based on the area image projected onto the specific viewpoint and the subject image from the imaging device corresponding to the specific viewpoint, the step of determining the shooting status of the subject of the imaging device, and the plurality of multi-viewpoint images. It has a step of generating a 3D model of the subject.
  • the program of one aspect of the present technology uses a computer to generate a 3D region of an imaging range generated from a plurality of multi-viewpoint images, a region image in which the 3D region is projected onto a specific viewpoint, and the specific viewpoint. This is for functioning as a determination unit for determining the shooting status of the subject of the imaging device based on the subject image from the corresponding imaging device.
  • a 3D region of an imaging range generated from a number of multi-viewpoint images is generated, a region image obtained by projecting the 3D region onto a specific viewpoint, and a subject from an imaging device corresponding to the specific viewpoint.
  • the shooting condition of the subject of the imaging device is determined based on the image.
  • the image processing device of one aspect of the present technology can be realized by causing a computer to execute a program.
  • the program to be executed by the computer can be provided by transmitting through a transmission medium or by recording on a recording medium.
  • the image processing device may be an independent device or an internal block constituting one device.
  • FIG. 1 shows the configuration example of the image processing system which applied this technology. It is a figure explaining the notification example of an image processing system. It is a block diagram which shows the structural example of the 1st Embodiment of an image processing apparatus. It is a figure which shows the processing example which calculates the 3D area. It is a figure which shows the processing example of the effective domain mask image. It is a figure which shows the example of the visual camera information. It is a figure which shows the processing example of the silhouette extraction part. It is a figure explaining the camera determination process of the determination part. It is a flowchart explaining the 1st imaging range determination process. It is a block diagram which shows the structural example of the 2nd Embodiment of an image processing apparatus.
  • FIG. 1 shows a configuration example of an image processing system to which the present technology is applied.
  • the image processing system of FIG. 1 is composed of, for example, N image pickup devices CAM-1 to CAM-N, an image processing device 11, and a display device 12.
  • the image pickup devices CAM-1 to CAM-N (N> 1) are arranged so as to surround the person who is the subject, take a picture of the subject, and image the captured image obtained as a result of the image processing device.
  • the captured image is sequentially supplied from each imaging device CAM to the image processing device 11 as a moving image or a serial number still image.
  • the plurality of captured images supplied from the imaging devices CAM-1 to CAM-N are a plurality of multi-viewpoint images having different viewpoints for capturing the subject.
  • N 8
  • an example is shown in which eight image pickup devices CAM-1 to CAM-8 are arranged so as to surround the subject.
  • the image processing device 11 generates a 3D model of an object with the subject as an object from a plurality of captured images supplied from each of the imaging devices CAM-1 to CAM-N.
  • the data of the 3D model of the generated object is composed of, for example, the image data of the captured image of the subject obtained by each imaging device CAM and the 3D shape data representing the 3D shape of the subject.
  • the 3D shape data may be, for example, a depth image corresponding to an image captured by a plurality of image pickup devices CAM, a point cloud representing a three-dimensional position of an object as a set of points, or between vertices (Vertex) and vertices. It is represented by a polygon mesh represented by the connection of.
  • the display device 12 displays a predetermined image supplied from the image processing device 11.
  • the image processing device 11 acquires the captured image once stored in a predetermined storage unit such as a data server, and obtains a 3D model of the object. Can also be generated. It is also possible to generate a 3D model of an object by combining the captured images acquired from the imaging devices CAM-1 to CAM-N and the captured images stored in the storage unit.
  • the moving image generated by each imaging device CAM is composed of an captured image (RGB image) including an RGB wavelength, but is a multispectral image including an IR (infrared) image. May be good.
  • each image pickup apparatus CAM may perform a plurality of times of photographing by changing the exposure condition, the light source position, the light source color, and the like, and supply the captured image obtained as a result to the image processing apparatus 11.
  • each image pickup device CAM is equipped with a distance measuring sensor, measures the distance to the subject, and in addition to the RGB captured image which is the texture information of the subject, the distance to the subject is used as a depth value for each pixel of the captured image.
  • a depth image stored in correspondence may also be generated and supplied to the image processing device 11.
  • the distance measuring sensor may be arranged independently of each imaging device CAM. In this case, the number of the imaging device CAM and the distance measuring sensor (distance measuring device) may be different.
  • the image processing device 11 may be a server device on the cloud
  • the display device 12 may be a device including a display such as a smartphone (mobile terminal).
  • Communication may be performed by directly connecting the plurality of image pickup devices CAM and the image processing device 11 and between the image processing device 11 and the display device 12, or LAN (Local Area Network), Communication may be performed by being connected via a predetermined network such as the Internet.
  • the image processing device 11 can generate a thumbnail image from the captured images transmitted from each of the N imaging devices CAM during shooting and display the thumbnail image on the display device 12.
  • the thumbnail image to be displayed on the display device 12 may be all thumbnail images corresponding to the images captured by each of the N image pickup devices CAM, or one image corresponding to the image captured by one representative image pickup device CAM.
  • a thumbnail image (representative thumbnail image) may be used.
  • a plurality of thumbnail images corresponding to a plurality of predetermined imaging device CAMs may be used.
  • the thumbnail image is an image in which the resolution and the frame rate are reduced with respect to the captured image obtained by the imaging device CAM.
  • the image processing device 11 may determine whether or not the subject is out of the imaging range of the predetermined imaging device CAM due to the movement of the subject during shooting, and notify the user that the subject is out of the imaging range. It can.
  • the user here is a photographer or a person who is a subject.
  • FIG. 2 shows an example of notification when the image processing device 11 determines whether or not the subject is out of the imaging range of the predetermined imaging device CAM and notifies the user that the subject is out of the imaging range.
  • a of FIG. 2 is an example of notifying the user that the subject is out of the imaging range of the imaging device CAM-5 by displaying the message (characters) of “WARNING: CAM05” on the display device 12 in a dialog. Shown.
  • FIG. 2B shows an example in which the user is notified that the subject is out of the imaging range of the imaging device CAM-5 by superimposing the message “WARNING: CAM05” on the representative thumbnail image displayed on the display device 12. Is shown.
  • the silhouette image of the subject generated from the captured image obtained by the predetermined imaging device CAM is colored with the area of the subject outside the imaging range, so that the colored region of the subject is taken from the imaging range.
  • An example of notifying the user of the disconnection is shown.
  • the silhouette image is an image in which the area (subject area) of the subject, which is the object to be drawn, is represented by a silhouette. For example, the pixel value of each pixel is binarized to "0" or "1". It is an image. In the silhouette image, for example, the area of the subject is set to the pixel value of "1" and expressed in white, and the area other than the subject is set to the pixel value of "0" and expressed in black.
  • the foot area is colored in red to notify the user that the image is out of the imaging range.
  • the red region is shown by hatching due to the restrictions of the drawing.
  • the image processing device 11 determines the positional relationship between the subject and the imaging range in addition to the object generation function of generating the 3D model of the object with the subject as the object, and when the subject is out of the imaging range. It is equipped with an imaging range determination function that notifies (warns) the user.
  • the user When the user is notified when the subject is out of the imaging range, the user may be notified when the subject is out of the imaging range with one imaging device CAM, or the user is composed of a large number of imaging device CAMs. In this case, the user may be notified when the number of image pickup devices CAM exceeding a predetermined number set in advance is out of the imaging range.
  • the determination unit 36 which will be described later, can set (designate) how many or more units are to be notified.
  • notifying that the subject is out of the predetermined imaging range by displaying characters or images on the display device 12 has been described, but other methods may be used to notify.
  • a beep sound may be output for notification, or a voice such as "Camera No. 5 has come off” or "Foot is protruding" may be output for notification.
  • an additional speaker may be provided, or the speaker of the display device 12 may be used.
  • both the screen display of the display device 12 and the sound output may be performed.
  • the notification information may be stored in the storage unit together with the captured image so that the notification can be notified after the fact.
  • notification information can be embedded as tag information in the captured image or 3D shape data, or a file storing the notification information can be generated and stored separately from the captured image and 3D shape data.
  • the notification can be given by characters, images, sounds, or the like based on the tag information or the notification information included in the file.
  • the image processing range determination function by the image processing device 11 will be described in detail below.
  • the object generation function of the image processing device 11 will be briefly described as being realized by using a general method.
  • FIG. 3 is a block diagram showing a configuration example of the first embodiment of the image processing device 11.
  • the image processing device 11 includes an image input unit 31, a calibration processing unit 32, an effective area calculation unit 33, a silhouette extraction unit 34, a semantic processing unit 35, a determination unit 36, a notification unit 37, a 3D model calculation unit 38, and a storage unit. It is composed of a part 39.
  • the effective domain calculation unit 33 is composed of a 3D area calculation unit 41 and a projection unit 42.
  • the semantic processing unit 35 is provided as an option and can be omitted.
  • the image input unit 31 acquires captured images transmitted from each of the N imaging devices CAM.
  • the captured images are sequentially input as moving images.
  • N images captured from each of the N image pickup devices CAM are supplied to the calibration processing unit 32, the silhouette extraction unit 34, the semantic processing unit 35, the notification unit 37, and the 3D model calculation unit 38.
  • the calibration processing unit 32 performs calibration processing for calculating the camera parameters of each imaging device CAM based on the N images captured by the N imaging device CAMs.
  • the calibration processing unit 32 performs calibration processing using, for example, N images of a chess board having a black and white grid-like chess pattern taken by N image pickup devices CAM.
  • the characteristic parameters representing the characteristics of the image pickup device CAM of each of the N image pickup device CAMs and the external parameters representing the relationship with the other image pickup device CAMs are determined.
  • the characteristic parameters representing the characteristics of the image pickup device CAM by itself include, for example, internal parameters such as the focal length, principal point, and angle of view of the image pickup device CAM, and optical characteristic parameters such as distortion (absortion).
  • the external parameter includes the relative coordinate value (relative position) of the own image pickup device CAM with respect to the other image pickup device CAM.
  • the chess board may be photographed once and the calibration process may be executed before the imaging for 3D model generation.
  • the position of the image pickup device CAM moves or the zoom (angle of view) changes, in addition to the calibration process before the start of shooting, real-time calibration processing based on the detection of feature points of the subject is also performed. There is a need.
  • the calibration process is not limited to the method using the chess board described above, and of course, any other method may be used as long as it is a method capable of determining the required parameters.
  • Various parameters determined by the calibration process are supplied to the effective domain calculation unit 33 (3D area calculation unit 41 and projection unit 42) as camera parameters.
  • the 3D area calculation unit 41 of the effective area calculation unit 33 calculates the 3D area included in the image pickup range of all N image pickup devices CAM based on the camera parameters supplied from the calibration processing unit 32.
  • the 3D region may be calculated using three-dimensional geometry or the like.
  • the calculated 3D area data includes point clouds that represent the three-dimensional positions of objects as a set of points, voxel data that represents a set of rectangular grids, and polygon meshes that represent the connections between vertices (Vertex). , Is supplied to the projection unit 42 in a predetermined 3D data format.
  • the projection unit 42 is supplied with a 3D region included in the imaging range of all N imaging devices CAM from the 3D region calculation unit 41, and camera parameters are supplied from the calibration processing unit 32.
  • the projection unit 42 projects the 3D region from the 3D region calculation unit 41 onto the viewpoint of a predetermined image pickup device CAM that serves as a target camera, and the region corresponding to the 3D region is white (pixel value “1”) other than the 3D region.
  • An effective area mask image (area image) represented by a binary image in which the area of is set to black (pixel value "0") is generated. Since the effective domain mask images are generated for all the image pickup device CAMs with each of the N image pickup device CAMs as a target camera, the same number (that is, N images) as the number N of the image pickup device CAMs is generated.
  • the region represented in white in the effective domain mask image is referred to as a projected 3D region.
  • FIG. 5 is an effective domain mask image in which the 3D region 51 corresponding to the six image pickup devices CAM-1 to CAM-6 shown in FIG. 4 is projected onto the viewpoint of the target camera with the image pickup device CAM-1 as the target camera.
  • An example of 52 is shown.
  • the projected 3D area 53 corresponding to the 3D area 51 is white (pixel value “1”). It is represented by a binary image in which an area other than the projected 3D area 53 is set to black (pixel value “0”).
  • the projection unit 42 provides the number information indicating how many image pickup devices CAM can see the surface of the subject and the camera information indicating which image pickup device CAM can see the surface of the subject.
  • Visual camera information including can be generated.
  • FIG. 6 shows an example of visual camera information when images are taken by five imaging devices CAM-1 to CAM-5.
  • the inside of the projected 3D area 53 of the effective area mask image 52 is divided by the number of image pickup devices CAM that can see the surface of the subject.
  • This number represents the number information indicating the number of image pickup devices CAM that can directly visually recognize the subject.
  • the projection unit 42 supplies the generated N effective area mask images and the visual camera information to the determination unit 36.
  • the silhouette extraction unit 34 generates a silhouette image that extracts the area of the subject, which is the object to be drawn, as a silhouette for each of the N captured images supplied from the image input unit 31.
  • the generated silhouette image is supplied to the determination unit 36.
  • the detection method for detecting the silhouette of the subject in the texture image is not particularly limited, and any method can be adopted.
  • a background subtraction method is used in which a background image 62 in which only a background that does not include a subject is captured is captured in advance and held, and the difference between the captured image 61 and the background image 62 is taken.
  • the silhouette image 63 can be generated.
  • a silhouette image is generated by separating the foreground area and the background area, which are the subject areas, from the distance information of the depth image. can do.
  • an image matting technique such as Graph Cut or chroma key may be used to extract the subject area from only one captured image and generate a silhouette image.
  • the semantic processing unit 35 identifies the semantic information of the object to be captured as a subject in the captured image, and performs the semantic segmentation processing to be added to each predetermined area. For example, when the subject is a person, the semantic processing unit 35 performs the semantic segmentation processing to cover the subject area of the entire person with the head, hands (right hand, left hand), arms (right arm, left arm), and feet (right foot, left foot). ), Body, etc. can be identified and classified by part. When the subject is not a person, the semantic processing unit 35 can identify and add the type of the object such as a ball, a racket, or a car. The semantic processing unit 35 identifies the subject and supplies the semantic information added for each predetermined area to the determination unit 36. This semantic information may be instance semantic segmentation including individual information. By utilizing individual information, it is possible to perform processing focusing on the number of subjects such as one or two people and a specific subject.
  • the determination unit 36 is based on the N effective area mask images corresponding to the N image pickup device CAMs from the projection unit 42 and the N silhouette images supplied from the determination unit 36 of each image pickup device CAM. Determine the shooting status of the subject.
  • the determination unit 36 performs the following other camera determination processing and own camera determination processing with each of the N imaging devices CAM as a target camera.
  • the determination unit 36 uses a pair of an effective domain mask image and a silhouette image corresponding to the image pickup device CAM of the target camera to determine whether or not the subject is out of the image pickup range of the image pickup device CAM other than the target camera. Judgment processing is performed.
  • the determination unit 36 uses a silhouette image corresponding to the image pickup device CAM of the target camera to perform a self-camera determination process of determining whether or not the subject is out of the imaging range of the image pickup device CAM of the target camera.
  • the determination unit 36 has the subject area 71 represented in white in the silhouette image from the projection 3D area 53 represented in white in the effective area mask image 52. Whether or not it protrudes is compared for each pixel of the subject area 71.
  • the determination unit 36 determines whether or not the subject area 71 represented in white in the silhouette image is in contact with the four sides of the outer circumference of the silhouette image 63. The comparison is made for each pixel of the subject area 71.
  • the semantic processing unit 35 can be provided as an option, but when the semantic processing unit 35 is provided, the determination unit 36 uses the semantic information from the semantic processing unit 35 to display the projection 3D region 53. It is possible to identify a part of the subject (for example, the right foot or the left hand) or an object (ball) that protrudes from the subject.
  • the determination unit 36 indicates the result of whether or not the image is out of the imaging range of each image pickup device CAM which is the target camera, and when the determination result is out of the image pickup range, which image pickup device CAM is used.
  • the device specific information is supplied to the notification unit 37.
  • the determination information may be supplied to the notification unit 37 at all times, or may be supplied to the notification unit 37 only when it is out of the imaging range.
  • the semantic processing unit 35 when the determination unit 36 deviates from the imaging range, the semantic identification information such as an object or a part of the subject outside the imaging range is also a part of the determination information. Can be supplied to the notification unit 37.
  • the notification unit 37 when the notification unit 37 notifies the user that the image is out of the imaging range together with the captured image and the silhouette image, the silhouette image or the captured image of the target camera is out of the imaging range. Is also supplied from the determination unit 36 to the notification unit 37.
  • the notification unit 37 Based on the determination information from the determination unit 36, the notification unit 37 generates notification information for notifying the user that the specific imaging device CAM is out of the imaging range, and outputs the notification information to the display device 12.
  • the notification information is display control information for displaying a dialog of a message including information on the imaging device CAM that is out of the imaging range.
  • the notification information is the information of the imaging device CAM that is out of the imaging range and the display control information for displaying the silhouette image or the captured image.
  • the silhouette image and the captured image can be reduced as necessary and output to the display device 12 as thumbnail images.
  • the notification information is voice control information including an acoustic signal.
  • the notification information may be both screen display and voice, or either one.
  • the semantic processing unit 35 When the semantic processing unit 35 is provided, notifications such as "the foot is out of the imaging range” and “the ball is out of the imaging range” can be notified.
  • the display device 12 Based on the notification information from the notification unit 37, the display device 12 notifies the user that it is out of the imaging range in the specific imaging device CAM.
  • the 3D model calculation unit 38 generates a 3D model of an object with the subject as an object using the captured images of the subject supplied from each of the N image pickup devices CAM, and the 3D model data (3D model) of the generated object. Data) is supplied to the storage unit 39.
  • the 3D model calculation unit 38 generates a silhouette image in which the subject area is extracted by extracting the difference between the captured image including the subject supplied from the imaging device CAM and the background image. Then, the 3D model calculation unit 38 generates a 3D model of the object by a method such as Visual Hull using a plurality of silhouette images in different directions of each of the N image pickup devices CAM and camera parameters.
  • the silhouette image and the camera parameters may be acquired from the calibration processing unit 32 and the silhouette extraction unit 34, or may be calculated separately. Details regarding the generation of 3D models of objects are omitted herein.
  • the storage unit 39 stores the 3D model data generated by the 3D model calculation unit 38.
  • the stored 3D model data is provided to a reproduction device or the like that reproduces the 3D model of the object as needed, and is reproduced (restored) by the reproduction device.
  • the image processing device 11 is configured as described above.
  • the image pickup range determination function and the object generation function that can be executed by the image processing device 11 may be realized by different devices instead of the same device.
  • the image processing device 11 that executes the imaging range determination function is, for example, an image input unit 31, a calibration processing unit 32, an effective area calculation unit 33, a silhouette extraction unit 34, a semantic processing unit 35, a determination unit 36, and , The notification unit 37.
  • the image processing device 11 that executes the object generation function is composed of, for example, an image input unit 31, a 3D model calculation unit 38, and a storage unit 39.
  • First imaging range determination process Next, the first imaging range determination process according to the first embodiment of the image processing apparatus 11 will be described with reference to the flowchart of FIG. This process is started at the same time as, for example, shooting is started by N image pickup devices CAM.
  • step S1 the image input unit 31 acquires the captured images transmitted from each of the N imaging devices CAM.
  • the acquired N captured images are supplied to the calibration processing unit 32, the silhouette extraction unit 34, the semantic processing unit 35, the notification unit 37, and the 3D model calculation unit 38.
  • step S2 the calibration processing unit 32 performs a calibration process for calculating the camera parameters of each imaging device CAM based on the N images captured by the N imaging device CAMs.
  • characteristic parameters internal parameters and optical characteristic parameters representing the characteristics of each imaging device CAM and external parameters representing the relative positional relationship between the imaging device CAMs are obtained.
  • step S3 the 3D area calculation unit 41 calculates the 3D area included in the image pickup range of all N image pickup devices CAM based on the camera parameters supplied from the calibration processing unit 32.
  • step S4 the projection unit 42 generates an effective domain mask image in which the 3D region calculated by the 3D region calculation unit 41 is projected onto the viewpoint of each imaging device CAM.
  • N effective area mask images are generated, which is the same as the number of image pickup devices CAM.
  • the projection unit 42 also generates visual camera information indicating the number of imaging device CAMs in which the imaging range of the imaging device CAM is directly visible, and camera information indicating which imaging device CAM is visible. can do.
  • the generated N effective domain mask images and N visual camera information are supplied to the determination unit 36.
  • step S5 the silhouette extraction unit 34 generates N silhouette images from the N captured images supplied from the image input unit 31.
  • the generated N silhouette images are supplied to the determination unit 36.
  • step S6 the semantic processing unit 35 generates semantic information by executing a semantic segmentation process on the N captured images supplied from the image input unit 31 and supplies the semantic information to the determination unit 36. This process can be omitted when it is not necessary to identify a part of an object or a person outside the imaging range of the imaging device CAM.
  • step S7 the determination unit 36 determines whether or not the subject is out of the imaging range of the image pickup apparatus CAM based on the N effective area mask images from the projection unit 42 and the N silhouette images from the determination unit 36. Performs camera determination processing to determine whether or not. More specifically, the determination unit 36 performs other camera determination processing for determining whether or not the subject is out of the imaging range of the imaging device CAM other than the target camera, and whether or not the subject is out of the imaging range of the imaging device CAM of the target camera. Performs self-camera judgment processing to determine whether or not. Judgment information indicating the determination results of the other camera determination process and the own camera determination process executed with each image pickup device CAM as the target camera is supplied from the determination unit 36 to the notification unit 37.
  • step S8 the notification unit 37 generates notification information for notifying the user that the specific imaging device CAM is out of the imaging range based on the determination information from the determination unit 36, and outputs the notification information to the display device 12. If it is not out of the imaging range of any imaging device CAM, no special notification information is required.
  • step S9 the display device 12 notifies the user that it is out of the imaging range in the specific imaging device CAM based on the notification information from the notification unit 37.
  • the first imaging range determination process when a plurality of imaging devices CAM that are photographing a subject deviate from the imaging range, the user can be notified, so that in multi-viewpoint imaging for 3D model generation. , You can reduce shooting failures.
  • the determination unit 36 determines whether or not the subject is out of the imaging range of the imaging apparatus CAM, but in addition to whether or not the subject is completely out of the imaging range, It may also be determined whether or not the subject is likely to be out of the imaging range when the subject moves a little more, and the user may be notified. In this case, when the subject area deviates from the projected 3D area 53 obtained by projecting the 3D area 51 calculated by the 3D area calculation unit 41 onto the viewpoint of the target camera by a predetermined ratio (for example, 10%), the subject is placed. It can be notified that the image is likely to be out of the imaging range.
  • a predetermined ratio for example, 10%
  • the subject when the motion vector of the subject is detected and the position of the subject predicted after a predetermined time is outside the projection 3D area 53, the subject is notified that the subject is likely to be out of the imaging range. it can. Further, it may be notified when a specific amount protrudes from the projected 3D area 53, or when it is detected that a specific part protrudes based on the semantic information obtained by the semantic processing unit 35. You may do so.
  • the first imaging range determination process described with reference to FIG. 9 is repeatedly executed every time a new captured image captured by the N imaging devices CAM is input, but the process that does not change due to the update of the captured image is It can be omitted as appropriate.
  • the calibration process of step S2 and the process of generating the effective domain mask image of steps S3 and S4 need to be executed only once at the first time when the positions and angles of view of the N imaging devices CAM are the same. ..
  • it may be executed before taking a picture to generate a 3D model.
  • the 3D model generation process by the 3D model calculation unit 38 is also executed in parallel with the above-mentioned imaging range determination process. Will be done.
  • the imaging range determination process and the 3D model generation process may be executed independently or in cooperation with each other.
  • the subject is imaged by the imaging device CAM by supplying the determination information indicating that the subject is out of the imaging range of the imaging device CAM from the determination unit 36 to the 3D model calculation unit 38.
  • Generation of the 3D model may be stopped or interrupted if it is out of range.
  • FIG. 10 is a block diagram showing a configuration example of a second embodiment of the image processing device 11.
  • FIG. 10 the parts corresponding to the first embodiment shown in FIG. 3 are designated by the same reference numerals, and the description of the parts will be omitted as appropriate.
  • the image processing device 11 has a configuration that emphasizes the accuracy of determining whether or not the subject is out of the image pickup range of the image pickup device CAM, whereas the second embodiment has a configuration.
  • the image processing device 11 has a configuration in which real-time performance is emphasized.
  • the image processing device 11 uses only the images captured by the M (N> M) image pickup devices CAM selected from the N image pickup device CAMs, and the subject is the image pickup device CAM. Performs camera determination processing to determine whether or not the image is out of the imaging range.
  • the image processing device 11 according to the second embodiment of FIG. 10 is different from the first embodiment in that a camera selection unit 81 and a reduction processing unit 82 are newly provided.
  • the camera selection unit 81 is supplied with the camera parameters of each imaging device CAM from the calibration processing unit 32.
  • the camera selection unit 81 selects M (N> M) image pickup devices CAM from among N image pickup device CAMs.
  • the camera selection unit 81 can be manually selected by the user's designation, or can be automatically selected without the user's designation.
  • the camera selection unit 81 displays the arrangement and angle of view information of each image pickup device CAM on the display device 12 based on the camera parameters of each image pickup device CAM, and displays M image pickup device CAMs to be used. Let the user specify.
  • the camera selection unit 81 groups a plurality of image pickup device CAMs having similar arrangements into one group based on the camera parameters of each image pickup device CAM, and sets M N image pickup device CAMs. Classify into the group of. Then, the camera selection unit 81 selects M image pickup devices CAM to be used by selecting one image pickup device CAM for each group.
  • the camera selection unit 81 uses an image pickup device CAM in which the face of the person is captured as a reference image pickup device CAM, and an image pickup device CAM or a camera whose position is farther from the reference image pickup device CAM.
  • the imaging device CAMs whose positions are symmetrical to the selected imaging device CAM may be selected in order until the number becomes M.
  • the camera selection unit 81 supplies camera selection information that identifies the selected M imaging devices CAM to the 3D area calculation unit 41 of the effective area calculation unit 33 and the reduction processing unit 82.
  • the 3D area calculation unit 41 of the effective area calculation unit 33 calculates the 3D area included in the image pickup range of the M image pickup device CAMs using the camera parameters of the M image pickup device CAMs selected by the camera selection unit 81. To do.
  • the 3D area calculation process using the N camera parameters of the first embodiment is changed to the 3D area calculation process using the M camera parameters, so that the processing load is reduced.
  • the processing load is further reduced by setting the resolution of points or vertices representing the three-dimensional shape of the object when calculating the 3D area, the voxel size, etc. to coarser setting values than those in the first embodiment. May be good.
  • the projection unit 42 generates M effective area mask images by projecting the 3D area calculated by the 3D area calculation unit 41 onto the viewpoints of each of the M image pickup devices CAM. Further, the projection unit 42 reduces the generated M effective area mask images according to the reduction ratio of the reduction processing executed by the reduction processing unit 82.
  • the reduction processing unit 82 corresponds to M image pickup device CAMs selected by the camera selection section 81 from among the N images captured by the N image pickup device CAMs supplied from the image input unit 31. Select M captured images. Then, the reduction processing unit 82 generates a low-resolution image (hereinafter, referred to as a low-resolution image) in which the selected M images are reduced by a predetermined reduction rate. For example, when the captured image supplied from the image input unit 31 has a resolution of 1920x1080 called HD (High Definition) or a 4K resolution having a resolution four times that of HD, the reduction processing unit 82 performs the captured image. Is reduced to a 640x480 low resolution image called VGA.
  • HD High Definition
  • VGA Low Resolution
  • the method of reduction processing is not particularly limited, and any method can be selected.
  • the nearest neighbor method linear interpolation, bicubic method, area averaging method, and the like can be adopted.
  • a method of simply thinning out the number of pixels in each of the horizontal direction and the vertical direction at a predetermined ratio such as 1/2 or 1/4 may be used.
  • the reduction ratio of the reduction processing unit 82 and the reduction ratio when the projection unit 42 reduces the effective area mask image are set to be the same in advance.
  • the silhouette extraction unit 34, the semantic processing unit 35, and the determination unit 36 perform the first operation except that processing is performed on M images selected from N images and the resolution is a low resolution image. It is similar to the form of.
  • Second imaging range determination process Next, with reference to the flowchart of FIG. 11, the second image pickup range determination process according to the second embodiment of the image processing apparatus 11 will be described. This process is started at the same time as, for example, shooting is started by N image pickup devices CAM.
  • steps S21 and S22 are the same as steps S1 and S2 of the first imaging range determination process of FIG. 9, the description thereof will be omitted.
  • step S23 the camera selection unit 81 selects M units (N> M) of image pickup device CAMs from among N units of image pickup device CAMs.
  • the camera selection unit 81 supplies camera selection information that identifies the selected M imaging devices CAM to the 3D area calculation unit 41 of the effective area calculation unit 33 and the reduction processing unit 82.
  • step S24 the 3D region included in the imaging range of the M imaging devices CAM is calculated using the camera parameters of the M imaging device CAMs selected by the camera selection unit 81.
  • step S25 the projection unit 42 generates M effective area mask images obtained by projecting the 3D area calculated by the 3D area calculation unit 41 onto the viewpoints of each of the M image pickup devices CAM, and at a predetermined reduction ratio. to shrink.
  • the M effective domain mask images after the reduction process are supplied to the determination unit 36.
  • the projection unit 42 may generate visual camera information as in the first embodiment.
  • step S26 the reduction processing unit 82 selects M captured images corresponding to the M image pickup device CAM selected by the camera selection unit 81 from the N captured images supplied from the image input unit 31. Select and reduce at a predetermined reduction rate. The reduced M low-resolution images are supplied to the silhouette extraction unit 34 and the semantic processing unit 35.
  • step S27 the silhouette extraction unit 34 generates M silhouette images from the M low resolution images supplied from the reduction processing unit 82.
  • the generated M silhouette images are supplied to the determination unit 36.
  • step S28 the semantic processing unit 35 generates semantic information by executing a semantic segmentation process on the M low-resolution images supplied from the reduction processing unit 82, and supplies the semantic information to the determination unit 36. Note that this process may be omitted when real-time performance is particularly prioritized.
  • step S29 the determination unit 36 determines whether or not the subject is out of the imaging range of the image pickup apparatus CAM based on the M effective area mask images from the projection unit 42 and the M silhouette images from the determination unit 36. Performs camera determination processing to determine whether or not.
  • This process is the same as the first imaging range determination process except that M images and silhouette images are used instead of N images.
  • steps S30 and S31 are the same as steps S8 and S9 of the first imaging range determination process in FIG. 9, description thereof will be omitted.
  • the second imaging range determination process when the plurality of imaging devices CAM that are photographing the subject deviate from the imaging range, the user can be notified, so that in multi-viewpoint imaging for 3D model generation, You can reduce shooting failures.
  • the second imaging range determination process it is determined whether or not the subject is out of the imaging range of the imaging device CAM by using only the images captured by the N imaging device CAMs among the M imaging device CAMs. Since the camera determination process is performed, the processing load can be reduced and the real-time property can be improved.
  • the image processing device 11 is provided with a processing unit for changing the resolution of the captured image to a low resolution.
  • the image processing device CAM can be used.
  • the captured image supplied may have a low resolution.
  • the captured image used for the 3D model generation process executed in parallel with the second imaging range determination process also has a low resolution. If you want to make the captured image used for the 3D model generation process a high resolution image, after confirming the imaging range in the second imaging range determination process, change the resolution setting of the imaging device CAM to high resolution and 3D. It may be executed in a time-division manner as if the model generation process is executed.
  • FIG. 12 is a block diagram showing a configuration example of a third embodiment of the image processing device 11.
  • FIG. 12 the parts corresponding to the first embodiment shown in FIG. 3 are designated by the same reference numerals, and the description of the parts will be omitted as appropriate.
  • the image processing device 11 according to the third embodiment is common to the second embodiment in that it has a configuration in which arithmetic processing is reduced and the processing load is reduced.
  • the effective domain calculation unit 33 does not change the process itself for generating the effective domain mask image, but changes the number of captured images and the resolution, whereas the third embodiment is effective. It differs from the second embodiment in that the area calculation unit 33 changes the process of generating the effective area mask image.
  • the 3D area calculation unit 91 approximates the imaging range of each of the N imaging devices CAM with the shape of a quadrangular pyramid based on the camera parameters supplied from the calibration processing unit 32. To calculate.
  • the range (Zmax, Zmin) in the depth direction in FIG. 13 is set (input) as a parameter.
  • the 3D area calculation unit 91 calculates the coordinates of the eight vertices of the quadrangular pyramid as the imaging range of the imaging device CAM for each imaging device CAM and supplies the coordinates to the projection unit 92.
  • the projection unit 92 performs the following processing with each of the N imaging devices CAM that generate the effective domain mask image as the target camera.
  • the projection unit 92 projects the coordinates of the eight vertices of the quadrangular pyramids of the N imaging devices CAM supplied from the 3D area calculation unit 91 onto the viewpoint of the target camera, thereby performing a simple 3D of the N quadrangular pyramids. Generate N quadrangular pyramid projection areas that project the area onto the projection plane of the target camera.
  • the processing of the projection unit 92 will be described with reference to FIG. In FIG. 14, in order to make the figure easier to understand, assuming that the target camera is the imaging device CAM-3, the imaging ranges of the two imaging devices CAM-1 and CAM-2 are projected onto the viewpoint of the imaging device CAM-3. An example will be described.
  • a in FIG. 14 shows a state in which the imaging range of the imaging device CAM-1 is viewed from the viewpoint of the imaging device CAM-3, which is the target camera.
  • This state can be generated by projecting the imaging range of the imaging device CAM-1 onto the viewpoint of the imaging device CAM-3, which is the target camera.
  • FIG. 14 shows a state in which the imaging range of the imaging device CAM-2 is viewed from the viewpoint of the imaging device CAM-3, which is the target camera.
  • This state can be generated by projecting the imaging range of the imaging device CAM-2 onto the viewpoint of the imaging device CAM-3, which is the target camera.
  • the projection unit 92 generates an effective area mask image in which the area where all the N square pyramid projection areas overlap is used as the projection 3D area of the target camera.
  • C in FIG. 14 shows a conceptual diagram of an effective domain mask image generated by superimposing the imaging range of the imaging device CAM-1 and the imaging range of the imaging device CAM-2.
  • the effective domain mask image of C in FIG. 14 corresponds to the effective domain mask image 52 shown in FIG. 5 in the first embodiment, and is actually a binary image similar to the effective domain mask image 52 of FIG. Become.
  • the region indicated by hatching is the region where the imaging range of the imaging device CAM-1 and the imaging range of the imaging device CAM-2 overlap, and corresponds to the projection 3D region 53 of the target camera.
  • the projection unit 92 can generate visual camera information.
  • the visual camera information in the third embodiment includes the number information indicating how many imaging devices CAM the projection surface (imaging range) of the target camera is visible from, and which imaging the projection surface (imaging range) of the target camera is. It is composed of camera information indicating whether it is visible from the device CAM.
  • D in FIG. 14 shows an example of the number of units information showing how many imaging devices CAM can see the imaging range of the target camera.
  • the imaging range of the target camera is divided into four areas 101 to 104, and the number information according to the projection state of A to C of FIG. 14 is stored in each of the areas 101 to 104. ing.
  • the number information is "1". Since the area 102 is an area in which the image pickup device CAM-3 and the image pickup device CAM-2 can be seen, the number information is "2". Since the area 103 is an area where the image pickup devices CAM-1 to CAM-3 can be seen, the number information is "3”. Since the area 104 is an area in which the image pickup device CAM-1 and the image pickup device CAM-3 can be seen, the number information is "2".
  • E in FIG. 14 shows an example of camera information indicating from which imaging device CAM the imaging range of the target camera is visible.
  • the imaging range of the imaging device CAM-3 which is the target camera, is divided into four areas 101 to 104, and the camera information according to the projection state of A to C of FIG. 14 is the area 101 to 104. It is stored in each of 104 areas.
  • Area 101 is an area where only the image pickup device CAM-3 can be seen, so there is no camera information.
  • camera information indicating that the image is visible from the imaging device CAM-2 other than itself is recorded.
  • camera information indicating that the image is visible from the imaging devices CAM-1 and CAM-2 other than the self is recorded.
  • camera information indicating that the image is visible from the imaging device CAM-1 other than itself is recorded.
  • steps S3 and S4 of the first image pickup range determination process described with reference to FIG. 9 are the following steps S3'and S4'. Is replaced by.
  • step S3' the 3D area calculation unit 91 approximates the imaging range of each of the N imaging devices CAM with a quadrangular pyramid based on the camera parameters supplied from the calibration processing unit 32.
  • step S4' the projection unit 92 performs the following processing with each of the N imaging devices CAM that generate the effective domain mask image as the target camera.
  • the projection unit 92 projects the coordinates of the eight vertices of the quadrangular pyramids of the N imaging devices CAM supplied from the 3D area calculation unit 91 onto the viewpoint of the target camera, thereby performing a simple 3D of the N quadrangular pyramids.
  • the projection unit 92 generates an effective area mask image in which the area where all the N square pyramid projection areas overlap is used as the projection 3D area of the target camera.
  • the effective domain calculation unit 33 calculates the imaging range of the quadrangular pyramid shape of each of the N imaging devices CAM, and integrates the imaging ranges of all the N units to calculate the 3D region. Then, the integrated 3D region was projected onto the viewpoint of each imaging device CAM to generate an effective domain mask image of the target camera. That is, the effective domain calculation unit 33 of the first embodiment performs processing in the order of calculation, integration, and projection of N imaging ranges.
  • the effective area calculation unit 33 calculates the imaging range of the quadrangular pyramid of each of the N imaging device CAMs and projects them onto the viewpoint of each imaging device CAM. N quadrangular pyramid projection areas are generated, and the projected N quadrangular pyramid projection areas are integrated to generate an effective area mask image as a projection 3D area of the target camera. That is, the effective domain calculation unit 33 of the third embodiment performs processing in the order of calculation, projection, and integration of N imaging ranges.
  • the 3D area calculation unit 41 of the first embodiment integrates the imaging range of the N imaging devices CAM from the N images (a plurality of multi-viewpoint images) of each of the N imaging device CAMs. It can be said that it is a generation unit that generates an area.
  • the 3D area calculation unit 91 of the third embodiment generates N 3D regions of each of the N image pickup devices CAM from N images (a plurality of multi-viewpoint images) of each of the N image pickup device CAMs. It can be said that it is a generation unit.
  • the third imaging range determination process when the plurality of imaging devices CAM that are photographing the subject deviate from the imaging range, the user can be notified, so that in multi-viewpoint imaging for 3D model generation, You can reduce shooting failures.
  • N image pickup device CAMs are arranged on the outer periphery of the subject so as to surround the subject, but the arrangement of the image pickup device CAM is different. Not limited to this.
  • a plurality of image pickup devices CAM are arranged so as to face outward, or as shown in B of FIG. 15, a plurality of image pickup device CAMs such as a stage of a concert hall. May be arranged so that is oriented in a specific direction in a concentrated manner.
  • Computer configuration example> The series of processes described above can be executed by hardware or by software.
  • the programs constituting the software are installed on the computer.
  • the computer includes a microcomputer embedded in dedicated hardware and, for example, a general-purpose personal computer capable of executing various functions by installing various programs.
  • FIG. 16 is a block diagram showing a configuration example of computer hardware that executes the above-mentioned series of processes programmatically.
  • a CPU Central Processing Unit
  • ROM ReadOnly Memory
  • RAM RandomAccessMemory
  • An input / output interface 305 is further connected to the bus 304.
  • An input unit 306, an output unit 307, a storage unit 308, a communication unit 309, and a drive 310 are connected to the input / output interface 305.
  • the input unit 306 includes a keyboard, a mouse, a microphone, a touch panel, an input terminal, and the like.
  • the output unit 307 includes a display, a speaker, an output terminal, and the like.
  • the storage unit 308 includes a hard disk, a RAM disk, a non-volatile memory, and the like.
  • the communication unit 309 includes a network interface and the like.
  • the drive 310 drives a removable recording medium 311 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 301 loads the program stored in the storage unit 308 into the RAM 303 via the input / output interface 305 and the bus 304 and executes the above-described series. Is processed.
  • the RAM 303 also appropriately stores data and the like necessary for the CPU 301 to execute various processes.
  • the program executed by the computer (CPU301) can be recorded and provided on a removable recording medium 311 as a package medium or the like, for example. Programs can also be provided via wired or wireless transmission media such as local area networks, the Internet, and digital satellite broadcasting.
  • the program can be installed in the storage unit 308 via the input / output interface 305 by mounting the removable recording medium 311 in the drive 310. Further, the program can be received by the communication unit 309 and installed in the storage unit 308 via a wired or wireless transmission medium. In addition, the program can be pre-installed in the ROM 302 or the storage unit 308.
  • the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a device in which a plurality of modules are housed in one housing are both systems. ..
  • this technology can have a cloud computing configuration in which one function is shared by a plurality of devices via a network and processed jointly.
  • each step described in the above flowchart can be executed by one device or shared by a plurality of devices.
  • one step includes a plurality of processes
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • the present technology can have the following configurations.
  • a generator that generates a 3D area of the imaging range generated from multiple multi-viewpoint images
  • An image processing device including a determination unit that determines a shooting status of a subject of the imaging device based on a region image obtained by projecting the 3D region onto a specific viewpoint and a subject image from an imaging device corresponding to the specific viewpoint.
  • the determination unit determines whether or not the subject is out of the imaging range of the plurality of imaging devices that have captured the plurality of multi-viewpoint images by using the pair of the region image and the subject image (1). ).
  • the image processing apparatus includes a determination unit that determines a shooting status of a subject of the imaging device based on a region image obtained by projecting the 3D region onto a specific viewpoint and a subject image from an imaging device corresponding to the specific viewpoint.
  • the determination unit determines whether or not the subject is likely to deviate from the imaging range of the plurality of image pickup devices that have captured the plurality of multi-viewpoint images by using the pair of the region image and the subject image.
  • the image processing apparatus according to (1) or (2) above.
  • a semantic processing unit for identifying the semantic information of the subject The image processing apparatus according to any one of (1) to (5) above, wherein the determination unit uses the semantic information of the subject for determination.
  • a calculation unit for calculating camera parameters of the plurality of image pickup devices that have captured the plurality of multi-viewpoint images based on the plurality of multi-viewpoint images is further provided.
  • the generation unit generates one 3D region included in the imaging range of all the imaging devices that have captured the plurality of multi-viewpoint images.
  • the image processing apparatus according to any one of (1) to (8), further comprising a projection unit that generates a region image in which the 3D region is projected onto the specific viewpoint.
  • the image processing apparatus according to any one of (1) to (9) above, wherein the region image is a binary image.
  • a silhouette extraction unit for generating a silhouette image obtained by extracting the area of the subject as a silhouette from each of the plurality of multi-viewpoint images is further provided.
  • the determination unit determines the shooting status of the subject of the image pickup apparatus based on the area image and the silhouette image as the subject image. apparatus.
  • a selection unit for selecting a part of the imaging devices from the plurality of imaging devices corresponding to the plurality of multi-viewpoint images is further provided.
  • the generator generates a 3D region of the imaging range generated from the multi-viewpoint image corresponding to the selected partial imaging apparatus.
  • the image processing apparatus according to any one of.
  • a reduction processing unit that reduces the plurality of multi-viewpoint images at a predetermined reduction ratio is further provided.
  • the image processing device according to any one of (1) to (12) above, wherein the determination unit determines the shooting status of the subject of the image pickup device based on the reduced area image and the subject image.
  • the generation unit generates a plurality of the 3D regions that approximate the imaging range of each of the plurality of imaging devices corresponding to the plurality of multi-viewpoint images.
  • the determination unit determines the shooting status of the subject of the image pickup device based on the area image obtained by projecting the plurality of the 3D regions onto the specific viewpoint and the subject image from the image pickup device corresponding to the specific viewpoint.
  • the image processing apparatus according to any one of 1) to (13).
  • the image processing apparatus according to any one of (1) to (15), further comprising a notification unit that notifies the user of the determination result of the determination unit.
  • the notification unit refers to the determination result stored in a predetermined storage unit and notifies the user.
  • a 3D model generation method including a step of generating a 3D model of a subject based on the plurality of multi-viewpoint images.
  • Computer A generator that generates a 3D area of the imaging range generated from multiple multi-viewpoint images, A program for functioning as a determination unit for determining the shooting status of a subject of the imaging device based on a region image obtained by projecting the 3D region onto a specific viewpoint and a subject image from an imaging device corresponding to the specific viewpoint.
  • CAM-1 to CAM-8 imaging device 11 image processing device, 12 display device, 31 image input unit, 32 calibration processing unit, 33 effective area calculation unit, 34 silhouette extraction unit, 35 semantic processing unit, 36 judgment unit, 37 Notification unit, 38 3D model calculation unit, 41 3D area calculation unit, 42 projection unit, 81 camera selection unit, 82 reduction processing unit, 91 3D area calculation unit, 92 projection unit, 301 CPU, 302 ROM, 303 RAM, 306 Input unit, 307 output unit, 308 storage unit, 309 communication unit, 310 drive

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Computational Linguistics (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Abstract

本技術は、3Dモデル生成のための多視点撮影において、撮影の失敗を減らすことができるようにする画像処理装置、3Dモデル生成方法、およびプログラムに関する。 画像処理装置は、複数の多視点画像から生成された撮像範囲の3D領域を生成する3D領域計算部と、3D領域を特定視点に投影した領域画像と、特定視点に対応する撮像装置からの被写体画像とに基づいて、撮像装置の被写体の撮影状況を判定する判定部とを備える。本技術は、例えば、3Dモデル生成のための画像処理装置等に適用できる。

Description

画像処理装置、3Dモデル生成方法、およびプログラム
 本技術は、画像処理装置、3Dモデル生成方法、およびプログラムに関し、特に、3Dモデル生成のための多視点撮影において、撮影の失敗を減らすことができるようにした画像処理装置、3Dモデル生成方法、およびプログラムに関する。
 多視点で撮影された動画像から被写体の3Dモデルを生成し、任意の視聴位置に応じた3Dモデルの仮想視点画像を生成することで自由な視点の画像を提供する技術がある。この技術は、ボリューメトリックキャプチャ技術などとも呼ばれている。
 3Dモデルの生成には、異なる方向からの複数の撮像画像を用いて被写体の3次元形状の削り出しを行うVisual Hull等の手法が用いられる(例えば、特許文献1参照)。カメラの台数を増やすことで、3Dモデルの精度が向上するため、異なる方向から多数のカメラで被写体を撮影することが好ましい。
国際公開第2018/150933号
 しかしながら、カメラの台数が多いと、被写体が動いた場合に、あるカメラの撮像範囲から外れてしまうことがあり、撮影のやり直しが必要になる場合があった。
 本技術は、このような状況に鑑みてなされたものであり、3Dモデル生成のための多視点撮影において、撮影の失敗を減らすことができるようにするものである。
 本技術の一側面の画像処理装置は、複数の多視点画像から生成された撮像範囲の3D領域を生成する生成部と、前記3D領域を特定視点に投影した領域画像と、前記特定視点に対応する撮像装置からの被写体画像とに基づいて、前記撮像装置の被写体の撮影状況を判定する判定部とを備える。
 本技術の一側面の3Dモデル生成方法は、被写体の3Dモデルを生成する3Dモデル生成方法であって、複数の多視点画像から生成された撮像範囲の3D領域を生成するステップと、前記3D領域を特定視点に投影した領域画像と、前記特定視点に対応する撮像装置からの被写体画像とに基づいて、前記撮像装置の被写体の撮影状況を判定するステップと、前記複数の多視点画像に基づいて被写体の3Dモデルを生成するステップとを有する。
 本技術の一側面のプログラムは、コンピュータを、複数の多視点画像から生成された撮像範囲の3D領域を生成する生成部と、前記3D領域を特定視点に投影した領域画像と、前記特定視点に対応する撮像装置からの被写体画像とに基づいて、前記撮像装置の被写体の撮影状況を判定する判定部として機能させるためのものである。
 本技術の一側面においては、数の多視点画像から生成された撮像範囲の3D領域が生成され、前記3D領域を特定視点に投影した領域画像と、前記特定視点に対応する撮像装置からの被写体画像とに基づいて、前記撮像装置の被写体の撮影状況が判定される。
 なお、本技術の一側面の画像処理装置は、コンピュータにプログラムを実行させることにより実現することができる。コンピュータに実行させるプログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。
 画像処理装置は、独立した装置であっても良いし、1つの装置を構成している内部ブロックであっても良い。
本技術を適用した画像処理システムの構成例を示す図である。 画像処理システムの通知例を説明する図である。 画像処理装置の第1実施の形態の構成例を示すブロック図である。 3D領域を計算する処理例を示す図である。 有効領域マスク画像の処理例を示す図である。 視認カメラ情報の例を示す図である。 シルエット抽出部の処理例を示す図である。 判定部のカメラ判定処理を説明する図である。 第1の撮像範囲判定処理を説明するフローチャートである。 画像処理装置の第2実施の形態の構成例を示すブロック図である。 第2の撮像範囲判定処理を説明するフローチャートである。 画像処理装置の第3実施の形態の構成例を示すブロック図である。 第3実施の形態の3D領域計算部の処理を説明する図である。 第3実施の形態の投影部の処理を説明する図である。 カメラ配置のその他の例を示す図である。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
 以下、本技術を実施するための形態(以下、実施の形態という)について説明する。なお、説明は以下の順序で行う。
1.画像処理システムの構成例
2.画像処理装置の第1実施の形態
3.第1の撮像範囲判定処理
4.画像処理装置の第2実施の形態
5.第2の撮像範囲判定処理
6.画像処理装置の第3実施の形態
7.第3の撮像範囲判定処理
8.カメラ配置のその他の例
9.コンピュータ構成例
<1.画像処理システムの構成例>
 図1は、本技術を適用した画像処理システムの構成例を示している。
 図1の画像処理システムは、例えば、N台の撮像装置CAM-1乃至CAM-N、画像処理装置11、および、表示装置12により構成される。
 撮像装置CAM-1乃至CAM-N(N>1)は、図1に示されるように、被写体である人物を囲むように配置されて被写体を撮影し、その結果得られる撮像画像を画像処理装置11に供給する。撮像画像は、動画像または連番静止画像として各撮像装置CAMから画像処理装置11へ順次供給される。撮像装置CAM-1乃至CAM-Nから供給される複数の撮像画像は、被写体を撮影する視点が異なる複数の多視点画像である。図1の例では、N=8とされ、8台の撮像装置CAM-1乃至CAM-8が被写体を取り囲むように配置された例が示されている。
 画像処理装置11は、撮像装置CAM-1乃至CAM-Nそれぞれから供給される複数の撮像画像から、被写体をオブジェクトとしたオブジェクトの3Dモデルを生成する。生成されたオブジェクトの3Dモデルのデータは、例えば、各撮像装置CAMにより得られた被写体の撮像画像の画像データと、被写体の3D形状を表した3D形状データとで構成される。3D形状データは、例えば、複数の撮像装置CAMで撮影された撮像画像に対応するデプス画像でもよいし、オブジェクトの3次元位置を点の集合で表したポイントクラウドや、頂点(Vertex)と頂点間のつながりで表したポリゴンメッシュなどで表される。
 表示装置12は、画像処理装置11から供給される所定の画像を表示する。
 なお、画像処理装置11は、撮像装置CAM-1乃至CAM-Nから撮像画像を直接取得する代わりに、データサーバなど所定の記憶部に一旦記憶された撮像画像を取得して、オブジェクトの3Dモデルを生成することもできる。また、撮像装置CAM-1乃至CAM-Nから取得した撮像画像と、記憶部に記憶された撮像画像の組み合わせにより、オブジェクトの3Dモデルを生成することもできる。
 本実施の形態では、各撮像装置CAMが生成する動画像は、RGBの波長を含む撮像画像(RGB画像)で構成されるものとするが、IR(赤外線)画像を含むマルチスペクトル画像であってもよい。
 また、各撮像装置CAMは、露光条件、光源位置、または、光源色などの撮像条件を変えて複数回撮影を行い、その結果得られる撮像画像を画像処理装置11に供給してもよい。
 さらに、各撮像装置CAMは、測距センサを備え、被写体までの距離も測定し、被写体のテクスチャ情報であるRGBの撮像画像に加えて、被写体までの距離をデプス値として撮像画像の各画素に対応させて格納したデプス画像も生成し、画像処理装置11に供給してもよい。また、測距センサは各撮像装置CAMとは独立に配置してもよい。この場合、撮像装置CAMと測距センサ(測距装置)の個数は異なってもよい。
 画像処理装置11は、クラウド上のサーバ装置であってもよく、表示装置12は、スマートフォン(携帯端末)などのディスプレイを備える装置でもよい。複数の撮像装置CAMと画像処理装置11との間、および、画像処理装置11と表示装置12との間は、直接接続されることで通信を行ってもよいし、LAN(Local Area Network)、インターネット等の所定のネットワークを介して接続されて通信を行ってもよい。
 オブジェクトの3Dモデルの生成では、撮像装置CAMの台数を増やすことで、3Dモデルの精度が向上するため、異なる方向から多数の撮像装置CAMで被写体を撮影することが好ましい。しかしながら、撮像装置CAMの台数が多いと、被写体が動いた場合に、1以上の撮像装置CAMの撮像範囲から外れてしまうことがあり、撮影のやり直しが必要になる場合がある。
 画像処理装置11は、撮影中に、N台の撮像装置CAMそれぞれから送信されてくる撮像画像からサムネイル画像を生成し、表示装置12に表示させることができる。なお、表示装置12に表示させるサムネイル画像は、N台の撮像装置CAMそれぞれの撮像画像に対応する全てのサムネイル画像でもよいし、代表する1台の撮像装置CAMによる撮像画像に対応する1枚のサムネイル画像(代表サムネイル画像)でもよい。また、所定の複数台の撮像装置CAMに対応する複数枚のサムネイル画像でもよい。サムネイル画像とは、撮像装置CAMで得られた撮像画像に対して、解像度やフレームレートを落とした画像である。
 また、画像処理装置11は、撮影中に被写体が動いたことにより、被写体が所定の撮像装置CAMの撮像範囲から外れたか否かを判定し、撮像範囲から外れたことをユーザに通知することができる。ここでのユーザは、撮影者や被写体となっている人物である。
 図2は、画像処理装置11が、被写体が所定の撮像装置CAMの撮像範囲から外れたか否かを判定して、撮像範囲から外れたことをユーザに通知する場合の通知例を示している。
 図2のAは、表示装置12に、「WARNING:CAM05」のメッセージ(文字)をダイアログで表示することにより、被写体が撮像装置CAM-5の撮像範囲から外れたことをユーザに通知する例を示している。
 図2のBは、表示装置12に表示された代表サムネイル画像に「WARNING:CAM05」のメッセージを重畳することにより、被写体が撮像装置CAM-5の撮像範囲から外れたことをユーザに通知する例を示している。
 なお、N台の撮像装置CAMに対応する全てのサムネイル画像を表示する場合には、被写体が撮像範囲から外れた撮像装置CAMのサムネイル画像に「WARNING」のメッセージを重畳してユーザに通知すればよい。
 図2のCは、所定の撮像装置CAMで得られた撮像画像から生成した被写体のシルエット画像に、撮像範囲から外れた被写体の領域を色付けすることにより、被写体の色付けされた領域が撮像範囲から外れたことをユーザに通知する例を示している。
 シルエット画像とは、描画対象のオブジェクトである被写体の領域(被写体領域)をシルエットで表した画像であり、例えば、各画素の画素値が「0」または「1」に2値化された2値画像である。シルエット画像は、例えば、被写体の領域が「1」の画素値に設定され、白色で表現され、被写体以外の領域が「0」の画素値に設定され、黒色で表現される。
 図2のCの例では、シルエット画像の白色で表された被写体領域のうち、足の領域が赤色で着色されて、撮像範囲から外れたことをユーザに通知している。なお、図2では、図面の制約上、赤色の領域がハッチングで示されている。
 以上のように、画像処理装置11は、被写体をオブジェクトとして、オブジェクトの3Dモデルを生成するオブジェクト生成機能に加え、被写体と撮像範囲との位置関係を判定して、被写体が撮像範囲外となるときにユーザに通知(警告)する撮像範囲判定機能を備える。
 なお、被写体が撮像範囲外となるときにユーザに通知する場合に、1台の撮像装置CAMで撮像範囲から外れた場合に、ユーザに通知してもよいし、多数の撮像装置CAMで構成される場合には、予め設定した所定の台数以上の撮像装置CAMで撮像範囲から外れた場合に、ユーザに通知するようにしてもよい。この場合、後述する判定部36において何台以上で通知するかを設定(指定)することができる。
 また、図2の例は、表示装置12に文字または画像を表示することで、被写体が所定の撮像範囲から外れたことを通知する例を説明したが、その他の方法で通知してもよい。例えば、ビープ音を出力して通知したり、「5番のカメラが外れました」や、「足がはみ出ています」などの音声を出力して通知してもよい。ビープ音や音声による音で通知する場合、スピーカを追加で設けてもよいし、表示装置12のスピーカを用いてもよい。また、表示装置12の画面表示と、音による出力の両方を行ってもよい。また、即時的な通知に代えて通知情報を撮像画像とともに記憶部に記憶し、事後的に通知できるようにしてもよい。例えば、撮像画像または3D形状データにタグ情報として通知情報を埋め込んだり、撮像画像および3D形状データとは別に、通知情報を格納したファイルを生成し、記憶させることができる。ユーザが撮像画像や3Dモデルを見たときに、タグ情報またはファイルに含まれる通知情報に基づく、文字、画像、または、音などにより、通知を行うことができる。
 以下では、画像処理装置11による撮像範囲判定機能について詳しく説明する。なお、画像処理装置11によるオブジェクト生成機能については、一般的な手法を用いて実現することとして、簡単な説明とする。
<2.画像処理装置の第1実施の形態>
 図3は、画像処理装置11の第1実施の形態の構成例を示すブロック図である。
 画像処理装置11は、画像入力部31、キャリブレーション処理部32、有効領域算出部33、シルエット抽出部34、セマンティック処理部35、判定部36、通知部37、3Dモデル計算部38、および、記憶部39により構成される。有効領域算出部33は、3D領域計算部41と投影部42で構成される。なお、セマンティック処理部35は、オプションとして設ける構成であり、省略することができる。
 画像入力部31は、N台の撮像装置CAMそれぞれから送信されてくる撮像画像を取得する。撮像画像は、動画像として順次入力される。N台の撮像装置CAMそれぞれからのN枚の撮像画像は、キャリブレーション処理部32、シルエット抽出部34、セマンティック処理部35、通知部37、および、3Dモデル計算部38に供給される。
 キャリブレーション処理部32は、N台の撮像装置CAMで撮影されたN枚の撮像画像に基づいて、各撮像装置CAMのカメラパラメータを算出するキャリブレーション処理を行う。キャリブレーション処理部32は、例えば、白と黒の格子状のチェスパターンが付されたチェスボードをN台の撮像装置CAMで撮影したN枚の撮像画像を用いて、キャリブレーション処理を行う。キャリブレーション処理により、N台の撮像装置CAMそれぞれの単体での撮像装置CAMの特性を表す特性パラメータと、他の撮像装置CAMとの関係を表す外部パラメータとが決定される。単体での撮像装置CAMの特性を表す特性パラメータには、例えば、撮像装置CAMの焦点距離、主点、画角などの内部パラメータと、歪み(収差)などの光学特性パラメータとが含まれる。外部パラメータは、他の撮像装置CAMに対する自分の撮像装置CAMの相対座標値(相対位置)を含む。
 なお、N台の撮像装置CAMの位置が固定されている場合には、3Dモデル生成のための撮影前に、1度、チェスボードを撮影し、キャリブレーション処理を実行すればよい。撮像装置CAMの位置が移動したり、ズーム(画角)などが変更される場合には、撮影開始前のキャリブレーション処理に加えて、被写体の特徴点検出などに基づくリアルタイムのキャリブレーション処理も行う必要がある。
 なお、キャリブレーション処理は、上述したチェスボードを用いた方法に限定されず、所要のパラメータを決定できる手法であれば、その他の方法でももちろんよい。キャリブレーション処理により決定された各種のパラメータは、カメラパラメータとして、有効領域算出部33(の3D領域計算部41および投影部42)に供給される。
 有効領域算出部33の3D領域計算部41は、キャリブレーション処理部32から供給されるカメラパラメータに基づいて、N台全ての撮像装置CAMの撮像範囲に含まれる3D領域を計算する。
 図4は、N=6として、6台の撮像装置CAM-1乃至CAM-6それぞれの撮像範囲に含まれる領域である3D領域51を3D領域計算部41が計算する処理例を示している。
 N台全ての撮像装置CAMの撮像範囲に含まれる3D領域を計算する手法としては、例えば、カメラパラメータに従って各撮像装置CAMの撮像範囲を投影し、3次元形状の削り出しを行うVisual Hullの手法などを用いることができる。その他、3次元幾何などを用いて、3D領域を計算してもよい。算出した3D領域を表すデータは、オブジェクトの3次元位置を点の集合で表したポイントクラウドや、直方体格子の集合で表したボクセルデータ、頂点(Vertex)と頂点間のつながりで表したポリゴンメッシュなど、所定の3Dデータ形式で、投影部42に供給される。
 投影部42には、3D領域計算部41から、N台全ての撮像装置CAMの撮像範囲に含まれる3D領域が供給されるとともに、キャリブレーション処理部32から、カメラパラメータが供給される。
 投影部42は、3D領域計算部41からの3D領域を、ターゲットカメラとなる所定の撮像装置CAMの視点に投影し、3D領域に相当する領域を白色(画素値「1」)、3D領域以外の領域を黒色(画素値「0」)に設定した2値画像で表した有効領域マスク画像(領域画像)を生成する。有効領域マスク画像は、N台の撮像装置CAMそれぞれをターゲットカメラとして、全ての撮像装置CAMについて生成されるので、撮像装置CAMの台数Nと同じ枚数(即ちN枚)、生成される。以下、有効領域マスク画像において白色で表される領域を、投影3D領域と称する。
 図5は、図4に示した6台の撮像装置CAM-1乃至CAM-6に対応する3D領域51を、撮像装置CAM-1をターゲットカメラとして、ターゲットカメラの視点に投影した有効領域マスク画像52の例を示している。
 有効領域マスク画像52は、3D領域51を撮像装置CAM-1の視点に投影した投影面(撮像範囲)のうち、3D領域51に相当する投影3D領域53を白色(画素値「1」)、投影3D領域53以外の領域を黒色(画素値「0」)に設定した2値画像で表される。
 さらに、投影部42は、被写体の表面を何台の撮像装置CAMが見ることができるかを示した台数情報と、どの撮像装置CAMが被写体の表面を見ることができるかを示すカメラ情報とを含む視認カメラ情報を生成することができる。
 図6は、5台の撮像装置CAM-1乃至CAM-5で撮像したときの視認カメラ情報の例を示している。
 図6に示されるように、有効領域マスク画像52の投影3D領域53の内部が、被写体の表面を見ることができる撮像装置CAMの台数で区分されている。この台数が、被写体を直接視認できる撮像装置CAMの台数を示す台数情報を表す。3D領域51の表面上の各点を各撮像装置CAMに投影することによりターゲットの撮像装置CAMから直接視認できるかを判定することができる。どの撮像装置CAMが被写体(3D領域51)の表面を見ることができるかがわかれば、合計で何台の撮像装置CAMから被写体(3D領域51)の表面が見えているかも集計することができる。
 図3に戻り、投影部42は、生成したN枚の有効領域マスク画像と、視認カメラ情報を、判定部36に供給する。
 シルエット抽出部34は、画像入力部31から供給されるN枚の撮像画像それぞれに対して、描画対象のオブジェクトである被写体の領域をシルエットとして抽出したシルエット画像を生成する。生成されたシルエット画像は、判定部36に供給される。
 テクスチャ画像内の被写体のシルエットを検出する検出方法は、特に限定されず、任意の手法を採用することができる。例えば、図7に示されるように、被写体を含まない背景のみが撮像された背景画像62を予め撮像して保持しておき、撮像画像61と背景画像62との差分をとる背景差分法を用いることにより、シルエット画像63を生成することができる。
 また、被写体までの距離がデプス値として格納されたデプス画像も取得されている場合には、デプス画像の距離情報から被写体領域である前景領域と背景領域とを分離することで、シルエット画像を生成することができる。
 あるいはまた、Graph Cut、クロマキーなどのイメージマッティング技術を用いて、1枚の撮像画像のみから被写体領域を抽出し、シルエット画像を生成してもよい。
 セマンティック処理部35は、撮像画像に被写体として写る物体のセマンティック情報を識別して、所定の領域ごとに付加するセマンティックセグメンテーション処理を行う。例えば、被写体が人物である場合には、セマンティック処理部35は、セマンティックセグメンテーション処理により、人物全体の被写体領域を、頭、手(右手、左手)、腕(右腕、左腕)、足(右足、左足)、胴体、などのように部分ごとに識別し、分類することができる。被写体が人物ではない場合には、セマンティック処理部35は、ボール、ラケット、車など、物体の種類を識別して付加することができる。セマンティック処理部35は、被写体を識別して所定の領域ごとに付加したセマンティック情報を、判定部36に供給する。このセマンティック情報は、個体情報を含むインスタンスセマンティックセグメンテーションであってもよい。個体情報を活用することによって、例えば、一人、二人など被写体数や特定の被写体に着目した処理が可能となる。
 判定部36は、投影部42からのN台の撮像装置CAMに対応するN枚の有効領域マスク画像と、判定部36から供給されるN枚のシルエット画像とに基づいて、各撮像装置CAMの被写体の撮影状況を判定する。
 具体的には、判定部36は、N台の撮像装置CAMそれぞれをターゲットカメラとして、次の他カメラ判定処理と自カメラ判定処理とを行う。判定部36は、ターゲットカメラの撮像装置CAMに対応する有効領域マスク画像とシルエット画像とのペアを用いて、被写体がターゲットカメラ以外の撮像装置CAMの撮像範囲から外れたか否かを判定する他カメラ判定処理を行う。また、判定部36は、ターゲットカメラの撮像装置CAMに対応するシルエット画像を用いて、被写体がターゲットカメラの撮像装置CAMの撮像範囲から外れたか否かを判定する自カメラ判定処理を行う。
 他カメラ判定処理では、判定部36は、図8のAに示されるように、シルエット画像において白色で表された被写体領域71が、有効領域マスク画像52において白色で表された投影3D領域53からはみ出たか否かを、被写体領域71の画素ごとに比較する。
 自カメラ判定処理では、判定部36は、図8のBに示されるように、シルエット画像において白色で表された被写体領域71が、シルエット画像63の外周の4辺と接しているか否かを、被写体領域71の画素ごとに比較する。
 なお、上述したように、セマンティック処理部35をオプションとして設けることができるが、セマンティック処理部35を設けた場合、判定部36は、セマンティック処理部35からのセマンティック情報を用いて、投影3D領域53からはみ出た被写体の部位(例えば、右足や左手など)や物体(ボール)などを特定することができる。
 判定部36は、判定結果を示す判定情報として、ターゲットカメラである各撮像装置CAMの撮像範囲から外れたか否かの結果と、撮像範囲から外れた場合に、どの撮像装置CAMで外れたかを示す装置特定情報とを通知部37に供給する。なお、判定情報は、常時、通知部37に供給してもよいし、撮像範囲から外れた場合のみ、通知部37に供給するようにしてもよい。
 また、セマンティック処理部35が設けられている場合には、判定部36は、撮像範囲から外れた場合に、撮像範囲から外れた被写体の物体や部位などのセマンティック特定情報も、判定情報の一部として、通知部37に供給することができる。
 さらに、図2のBおよびCのように、通知部37が撮像画像やシルエット画像とともに撮像範囲から外れたことをユーザに通知する場合には、撮像範囲から外れたターゲットカメラのシルエット画像や撮像画像も、判定部36から通知部37に供給される。
 通知部37は、判定部36からの判定情報に基づいて、特定の撮像装置CAMにおいて撮像範囲から外れたことをユーザに通知する通知情報を生成し、表示装置12に出力する。
 通知情報は、図2のAに示したダイアログ表示の場合は、撮像範囲から外れた撮像装置CAMの情報を含むメッセージのダイアログを表示させる表示制御情報である。また、図2のBまたはCの例では、通知情報は、撮像範囲から外れた撮像装置CAMの情報と、シルエット画像または撮像画像を表示させる表示制御情報となる。シルエット画像や撮像画像は、必要に応じて縮小処理などを施し、サムネイル画像として表示装置12に出力することができる。
 また、ビープ音や「5番のカメラが外れました」などの音を出力してユーザに通知する場合には、通知情報は、音響信号を含む音声制御情報となる。通知情報は、画面の表示と音声の両方でもよいし、いずれか一方でもよい。セマンティック処理部35が設けられている場合には、「足が撮像範囲からはみ出ました」、「ボールが撮像範囲外です」などのような通知が可能である。表示装置12は、通知部37からの通知情報に基づいて、特定の撮像装置CAMにおいて撮像範囲から外れたことをユーザへ通知する。
 3Dモデル計算部38は、N台の撮像装置CAMそれぞれから供給される被写体の撮像画像を用いて、被写体をオブジェクトとしたオブジェクトの3Dモデルを生成し、生成したオブジェクトの3Dモデルのデータ(3Dモデルデータ)を記憶部39に供給する。
 例えば、3Dモデル計算部38は、撮像装置CAMから供給される被写体を含む撮像画像と背景画像との差分を抽出することにより、被写体領域を抽出したシルエット画像を生成する。そして、3Dモデル計算部38は、N台の撮像装置CAMそれぞれの異なる方向の複数枚のシルエット画像とカメラパラメータを用いて、Visual Hull等の手法により、オブジェクトの3Dモデルを生成する。シルエット画像とカメラパラメータは、キャリブレーション処理部32とシルエット抽出部34から取得してもよいし、別途算出してもよい。オブジェクトの3Dモデルの生成についての詳細は本明細書では省略する。
 記憶部39は、3Dモデル計算部38で生成された3Dモデルデータを記憶する。記憶された3Dモデルデータは、オブジェクトの3Dモデルを再生する再生装置などに必要に応じて提供され、再生装置で再生(復元)される。
 画像処理装置11は、以上のように構成される。
 なお、画像処理装置11が実行可能な撮像範囲判定機能とオブジェクト生成機能は、同一の装置ではなく、別々の装置で実現してもよい。その場合、撮像範囲判定機能を実行する画像処理装置11は、例えば、画像入力部31、キャリブレーション処理部32、有効領域算出部33、シルエット抽出部34、セマンティック処理部35、判定部36、および、通知部37により構成される。オブジェクト生成機能を実行する画像処理装置11は、例えば、画像入力部31、3Dモデル計算部38、および、記憶部39により構成される。
<3.第1の撮像範囲判定処理>
 次に、図9のフローチャートを参照して、画像処理装置11の第1実施の形態による第1の撮像範囲判定処理について説明する。この処理は、例えば、N台の撮像装置CAMで撮影が開始されると同時に開始される。
 初めに、ステップS1において、画像入力部31は、N台の撮像装置CAMそれぞれから送信されてくる撮像画像を取得する。取得したN枚の撮像画像は、キャリブレーション処理部32、シルエット抽出部34、セマンティック処理部35、通知部37、および、3Dモデル計算部38に供給される。
 ステップS2において、キャリブレーション処理部32は、N台の撮像装置CAMで撮影されたN枚の撮像画像に基づいて、各撮像装置CAMのカメラパラメータを算出するキャリブレーション処理を行う。この処理により、各撮像装置CAMの特性を表す特性パラメータ(内部パラメータと光学特性パラメータ)と、撮像装置CAM間の相対位置関係を表す外部パラメータとが得られる。
 ステップS3において、3D領域計算部41は、キャリブレーション処理部32から供給されたカメラパラメータに基づいて、N台全ての撮像装置CAMの撮像範囲に含まれる3D領域を計算する。
 ステップS4において、投影部42は、3D領域計算部41で計算された3D領域を、各撮像装置CAMの視点に投影した有効領域マスク画像を生成する。有効領域マスク画像は、撮像装置CAMの台数と同じN枚生成される。また、投影部42は、撮像装置CAMの撮像範囲が直接見えている撮像装置CAMの台数を示した台数情報や、どの撮像装置CAMから見えているかを示すカメラ情報を表した視認カメラ情報も生成することができる。生成されたN枚の有効領域マスク画像と、N枚の視認カメラ情報は、判定部36に供給される。
 ステップS5において、シルエット抽出部34は、画像入力部31から供給されたN枚の撮像画像から、N枚のシルエット画像を生成する。生成されたN枚のシルエット画像は、判定部36に供給される。
 ステップS6において、セマンティック処理部35は、画像入力部31から供給されたN枚の撮像画像に対してセマンティックセグメンテーション処理を実行することによりセマンティック情報を生成して、判定部36に供給する。この処理は、撮像装置CAMの撮像範囲から外れた物体や人物の部位を特定する必要がない場合には、省略することができる。
 ステップS7において、判定部36は、投影部42からのN枚の有効領域マスク画像と、判定部36からのN枚のシルエット画像とに基づいて、被写体が撮像装置CAMの撮像範囲から外れたか否かを判定するカメラ判定処理を行う。より具体的には、判定部36は、被写体がターゲットカメラ以外の撮像装置CAMの撮像範囲から外れたか否かを判定する他カメラ判定処理と、ターゲットカメラの撮像装置CAMの撮像範囲から外れたか否かを判定する自カメラ判定処理を行う。各撮像装置CAMをターゲットカメラとして実行される他カメラ判定処理と自カメラ判定処理の判定結果を示す判定情報が、判定部36から通知部37に供給される。
 ステップS8において、通知部37は、判定部36からの判定情報に基づいて、特定の撮像装置CAMにおいて撮像範囲から外れたことをユーザに通知する通知情報を生成し、表示装置12に出力する。どの撮像装置CAMの撮像範囲からも外れていない場合には、特に通知情報は不要である。
 ステップS9において、表示装置12は、通知部37からの通知情報に基づいて、特定の撮像装置CAMにおいて撮像範囲から外れたことをユーザへ通知する。
 以上で、第1の撮像範囲判定処理が終了する。第1の撮像範囲判定処理によれば、被写体を撮影している複数の撮像装置CAMにおいて撮像範囲から外れた場合に、ユーザに通知することができるので、3Dモデル生成のための多視点撮影において、撮影の失敗を減らすことができる。
 上述した第1の撮像範囲判定処理において、判定部36は、被写体が撮像装置CAMの撮像範囲から外れたか否かを判定するようにしたが、完全に撮像範囲から外れたか否かに加えて、被写体がもう少し移動した場合に撮像範囲から外れそうな状態であるか否かについても判定し、ユーザに通知してもよい。この場合、3D領域計算部41が計算した3D領域51をターゲットカメラの視点に投影した投影3D領域53より所定の割合(例えば、10%)だけ狭い範囲を被写体領域が外れた場合に、被写体が撮像範囲から外れそうな状態であるとして、通知することができる。あるいは、被写体の動きベクトルを検出して、所定時間後に予測される被写体の位置が、投影3D領域53の外側となる場合に、被写体が撮像範囲から外れそうな状態であるとして、通知することができる。また、投影3D領域53から特定量はみ出した場合に、通知するようにしてもよいし、セマンティック処理部35で求めたセマンティック情報に基づき、特定の部位がはみ出したことを検出した場合に、通知するようにしてもよい。
 図9で説明した第1の撮像範囲判定処理は、N台の撮像装置CAMで撮影された新たな撮像画像が入力される度に繰り返し実行されるが、撮像画像の更新で変更がない処理は適宜省略することができる。例えば、ステップS2のキャリブレーション処理、ステップS3およびS4の有効領域マスク画像を生成する処理は、N台の撮像装置CAMの位置や画角が同じ場合には、最初の1度だけ実行すればよい。あるいはまた、3Dモデルを生成する撮影を行う前に実行してもよい。
 N台の撮像装置CAMそれぞれで撮影された撮像画像が、順次、画像処理装置11に入力されると、上述した撮像範囲判定処理と並行して、3Dモデル計算部38による3Dモデル生成処理も実行される。撮像範囲判定処理と3Dモデル生成処理とは、独立して実行してもよいし、連携して実行することも可能である。例えば、撮像範囲判定処理において、被写体が撮像装置CAMの撮像範囲から外れたことを示す判定情報を、判定部36から3Dモデル計算部38にも供給するようにして、被写体が撮像装置CAMの撮像範囲から外れた場合に、3Dモデルの生成を中止または中断してもよい。
<4.画像処理装置の第2実施の形態>
 図10は、画像処理装置11の第2実施の形態の構成例を示すブロック図である。
 図10において、図3に示した第1実施の形態と対応する部分については同一の符号を付してあり、その部分の説明は適宜省略する。
 上述した第1実施の形態にかかる画像処理装置11は、被写体が撮像装置CAMの撮像範囲から外れるか否かの判定の正確性を重視した構成であるのに対して、第2実施の形態にかかる画像処理装置11は、リアルタイム性を重視した場合の構成である。
 第2実施の形態では、画像処理装置11は、N台の撮像装置CAMのなかから選択されたM台(N>M)の撮像装置CAMの撮像画像のみを用いて、被写体が撮像装置CAMの撮像範囲から外れたか否かを判定するカメラ判定処理を行う。
 図10の第2実施の形態にかかる画像処理装置11は、カメラ選択部81と縮小処理部82が新たに設けられている点で、第1実施の形態と相違する。
 カメラ選択部81には、キャリブレーション処理部32から、各撮像装置CAMのカメラパラメータが供給される。
 カメラ選択部81は、N台の撮像装置CAMのなかから、M台(N>M)の撮像装置CAMを選択する。カメラ選択部81は、ユーザの指定により手動で選択することもできるし、ユーザが指定せずに自動で選択することもできる。
 カメラ選択部81は、手動で選択する場合、各撮像装置CAMのカメラパラメータに基づいて、各撮像装置CAMの配置や画角情報を表示装置12に表示させ、使用するM台の撮像装置CAMをユーザに指定させる。
 一方、自動で選択する場合、カメラ選択部81は、各撮像装置CAMのカメラパラメータに基づいて、配置が近い複数台の撮像装置CAMを1つのグループにまとめ、N台の撮像装置CAMをM個のグループに分類する。そして、カメラ選択部81は、グループごとに1台の撮像装置CAMを選択することで、使用するM台の撮像装置CAMを選択する。あるいは、カメラ選択部81は、被写体が人物である場合、人物の顔が写っている撮像装置CAMを基準の撮像装置CAMとし、基準の撮像装置CAMに対して、位置が離れた撮像装置CAMや、選択した撮像装置CAMと対称な位置となる撮像装置CAMを、M個となるまで順番に選択してもよい。
 カメラ選択部81は、選択したM個の撮像装置CAMを特定するカメラ選択情報を、有効領域算出部33の3D領域計算部41と、縮小処理部82に供給する。
 有効領域算出部33の3D領域計算部41は、カメラ選択部81で選択されたM個の撮像装置CAMのカメラパラメータを用いて、M台の撮像装置CAMの撮像範囲に含まれる3D領域を計算する。第2実施の形態では、第1実施の形態のN台のカメラパラメータを使った3D領域計算処理から、M台のカメラパラメータを使った3D領域計算処理に変更されるので、処理負荷が軽減される。また、3D領域を計算する際のオブジェクトの3次元形状を表すポイントまたは頂点の解像度や、ボクセルサイズなどを、第1実施の形態よりも粗い設定値とすることで、処理負荷をさらに軽減してもよい。
 投影部42は、3D領域計算部41で計算された3D領域を、M台の撮像装置CAMそれぞれの視点に投影したM枚の有効領域マスク画像を生成する。また、投影部42は、生成したM枚の有効領域マスク画像を、縮小処理部82が実行する縮小処理の縮小率に応じて、縮小する。
 縮小処理部82は、画像入力部31から供給されるN台の撮像装置CAMで撮影されたN枚の撮像画像のなかから、カメラ選択部81で選択されたM個の撮像装置CAMに対応するM枚の撮像画像を選択する。そして、縮小処理部82は、選択したM枚の撮像画像を、予め決定された所定の縮小率で縮小させた低解像度の撮像画像(以下、低解像度画像と称する。)を生成する。例えば、画像入力部31から供給される撮像画像が、HD(High Definition)と呼ばれる、1920x1080の解像度や、HDの4倍の解像度を有する4K解像度である場合、縮小処理部82は、その撮像画像を、VGAと呼ばれる、640x480の低解像度画像に縮小する。縮小処理の手法は特に限定されず、任意の手法を選択することができる。例えば、最近傍法、線形補間、バイキュービック法、面積平均法などを採用することができる。また、単純に、水平方向および垂直方向それぞれの画素数を、1/2や1/4など所定の比率で間引く方法でもよい。
 縮小処理部82の縮小率と、投影部42が有効領域マスク画像を縮小する際の縮小率は、予め同じに設定される。
 シルエット抽出部34、セマンティック処理部35、および判定部36は、N枚から選択されたM枚の画像で処理を行う点、解像度が低解像度の画像とされている点を除いて、第1実施の形態と同様である。
 第2実施の形態のその他の点は、上述した第1実施の形態と同様である。
<5.第2の撮像範囲判定処理>
 次に、図11のフローチャートを参照して、画像処理装置11の第2実施の形態による第2の撮像範囲判定処理について説明する。この処理は、例えば、N台の撮像装置CAMで撮影が開始されると同時に開始される。
 ステップS21およびS22の処理は、図9の第1の撮像範囲判定処理のステップS1およびS2と同様であるので、説明は省略する。
 ステップS23において、カメラ選択部81は、N台の撮像装置CAMのなかから、M台(N>M)の撮像装置CAMを選択する。カメラ選択部81は、選択したM個の撮像装置CAMを特定するカメラ選択情報を、有効領域算出部33の3D領域計算部41と、縮小処理部82に供給する。
 ステップS24において、カメラ選択部81で選択されたM個の撮像装置CAMのカメラパラメータを用いて、M台の撮像装置CAMの撮像範囲に含まれる3D領域を計算する。
 ステップS25において、投影部42は、3D領域計算部41で計算された3D領域を、M台の撮像装置CAMそれぞれの視点に投影したM枚の有効領域マスク画像を生成し、所定の縮小率で縮小する。縮小処理後のM枚の有効領域マスク画像は、判定部36に供給される。なお、投影部42は、第1の実施の形態と同様に、視認カメラ情報を生成してもよい。
 ステップS26において、縮小処理部82は、画像入力部31から供給されたN枚の撮像画像のなかから、カメラ選択部81で選択されたM個の撮像装置CAMに対応するM枚の撮像画像を選択し、所定の縮小率で縮小する。縮小後のM枚の低解像度画像は、シルエット抽出部34とセマンティック処理部35に供給される。
 ステップS27において、シルエット抽出部34は、縮小処理部82から供給されたM枚の低解像度画像から、M枚のシルエット画像を生成する。生成されたM枚のシルエット画像は、判定部36に供給される。
 ステップS28において、セマンティック処理部35は、縮小処理部82から供給されたM枚の低解像度画像に対してセマンティックセグメンテーション処理を実行することによりセマンティック情報を生成して、判定部36に供給する。なお、この処理は、リアルタイム性を特に優先する場合、省略してよい。
 ステップS29において、判定部36は、投影部42からのM枚の有効領域マスク画像と、判定部36からのM枚のシルエット画像とに基づいて、被写体が撮像装置CAMの撮像範囲から外れたか否かを判定するカメラ判定処理を行う。この処理は、N枚ではなく、M枚の有効領域マスク画像とシルエット画像を用いる点以外は、第1の撮像範囲判定処理と同様である。
 ステップS30およびS31は、図9の第1の撮像範囲判定処理のステップS8およびS9と同様であるので、説明は省略する。
 以上で、第2の撮像範囲判定処理が終了する。第2の撮像範囲判定処理においても、被写体を撮影している複数の撮像装置CAMにおいて撮像範囲から外れた場合に、ユーザに通知することができるので、3Dモデル生成のための多視点撮影において、撮影の失敗を減らすことができる。
 第2の撮像範囲判定処理によれば、M台の撮像装置CAMのなかのN台の撮像装置CAMの撮像画像のみを用いて、被写体が撮像装置CAMの撮像範囲から外れたか否かを判定するカメラ判定処理を行うので、処理負荷を軽減し、リアルタイム性を向上させることができる。
 なお、第2の実施の形態では、画像処理装置11内に、撮像画像の解像度を低解像度に変更する処理部を設けたが、撮像装置CAMの解像度設定を変更することで、撮像装置CAMから供給される撮像画像が低解像度となるようにしてもよい。この場合、第2の撮像範囲判定処理と並行して実行される3Dモデル生成処理に使用される撮像画像も低解像度となる。3Dモデル生成処理に使用される撮像画像を高解像度の画像としたい場合には、第2の撮像範囲判定処理で撮像範囲を確認した後、撮像装置CAMの解像度設定を高解像度に変更して3Dモデル生成処理を実行するように、時分割で実行すればよい。
<6.画像処理装置の第3実施の形態>
 図12は、画像処理装置11の第3実施の形態の構成例を示すブロック図である。
 図12において、図3に示した第1実施の形態と対応する部分については同一の符号を付してあり、その部分の説明は適宜省略する。
 第3実施の形態にかかる画像処理装置11は、演算処理を軽減し、処理負荷を少なくした構成である点で第2実施の形態と共通する。一方、第2実施の形態では、有効領域算出部33が有効領域マスク画像を生成する処理自体は変更せず、撮像画像の枚数や解像度を変更したのに対し、第3実施の形態は、有効領域算出部33が有効領域マスク画像を生成する処理を変更する点で、第2実施の形態と相違する。
 図12の第3実施の形態の構成例を、図3に示した第1実施の形態の構成例と比較すると、図3の有効領域算出部33の3D領域計算部41および投影部42が、図12では3D領域計算部91および投影部92に置き換えられており、その他の構成は同一である。
 3D領域計算部91は、図13に示されるように、キャリブレーション処理部32から供給されるカメラパラメータに基づいて、N台の撮像装置CAMそれぞれの撮像範囲を、四角錐台の形状で近似して計算する。図13における奥行き方向の範囲(Zmax、Zmin)は、パラメータとして設定(入力)される。
 3D領域計算部91は、撮像装置CAMの撮像範囲としての四角錐台の8頂点の座標を撮像装置CAMごとに計算し、投影部92に供給する。
 投影部92は、有効領域マスク画像を生成するN個の撮像装置CAMそれぞれをターゲットカメラとして、次の処理を行う。
 投影部92は、3D領域計算部91から供給される、N個の撮像装置CAMの四角錐台の8頂点の座標をターゲットカメラの視点に投影することで、N個の四角錐台の簡易3D領域をターゲットカメラの投影面に投影したN個の四角錐台投影領域を生成する。
 図14を参照して、投影部92の処理を説明する。図14では、図をわかりやすくするため、ターゲットカメラが撮像装置CAM-3であるとして、2台の撮像装置CAM-1およびCAM-2の撮像範囲を、撮像装置CAM-3の視点に投影する例を説明する。
 図14のAは、ターゲットカメラである撮像装置CAM-3の視点から、撮像装置CAM-1の撮像範囲を見た状態を示している。この状態は、撮像装置CAM-1の撮像範囲をターゲットカメラである撮像装置CAM-3の視点に投影することで生成することができる。
 図14のBは、ターゲットカメラである撮像装置CAM-3の視点から、撮像装置CAM-2の撮像範囲を見た状態を示している。この状態は、撮像装置CAM-2の撮像範囲をターゲットカメラである撮像装置CAM-3の視点に投影することで生成することができる。
 次に、投影部92は、N個の四角錐台投影領域が全て重なる領域を、ターゲットカメラの投影3D領域とする有効領域マスク画像を生成する。
 図14のCは、撮像装置CAM-1の撮像範囲と、撮像装置CAM-2の撮像範囲とを重ねることで生成した有効領域マスク画像の概念図を示している。
 図14のCの有効領域マスク画像は、第1実施の形態では図5に示した有効領域マスク画像52に対応し、実際には、図5の有効領域マスク画像52と同様に2値画像となる。図14のCにおいて、ハッチングで示された領域が、撮像装置CAM-1の撮像範囲と、撮像装置CAM-2の撮像範囲とが重なる領域であり、ターゲットカメラの投影3D領域53に相当する。
 第3実施の形態においても、投影部92は、視認カメラ情報を生成することができる。第3実施の形態における視認カメラ情報は、ターゲットカメラの投影面(撮像範囲)が何台の撮像装置CAMから見えているかを示した台数情報と、ターゲットカメラの投影面(撮像範囲)がどの撮像装置CAMから見えているかを示すカメラ情報とで構成される。
 図14のDは、ターゲットカメラの撮像範囲が何台の撮像装置CAMから見えているかを示した台数情報の例を示している。
 図14のDでは、ターゲットカメラの撮像範囲が、領域101乃至104の4つに区分され、図14のA乃至Cの投影状態に応じた台数情報が、領域101乃至104の領域ごとに格納されている。
 領域101は、ターゲットカメラである撮像装置CAM-3のみが見えている領域となるので、台数情報は「1」となっている。領域102は、撮像装置CAM-3と撮像装置CAM-2の2台が見えている領域となるので、台数情報は「2」となっている。領域103は、撮像装置CAM-1乃至CAM-3が見えている領域となるので、台数情報は「3」となっている。領域104は、撮像装置CAM-1と撮像装置CAM-3の2台が見えている領域となるので、台数情報は「2」となっている。
 図14のEは、ターゲットカメラの撮像範囲がどの撮像装置CAMから見えているかを示すカメラ情報の例を示している。
 図14のEでは、ターゲットカメラである撮像装置CAM-3の撮像範囲が、領域101乃至104の4つに区分され、図14のA乃至Cの投影状態に応じたカメラ情報が、領域101乃至104の領域ごとに格納されている。
 なお、カメラ情報は、自分の撮像装置CAMから見えていることは当然であるので、他の撮像装置CAMから見えているかを示す情報のみが記録される。
 領域101は、撮像装置CAM-3のみが見えている領域となるので、カメラ情報はない。領域102は、自分以外に撮像装置CAM-2から見えていることを示すカメラ情報が記録される。領域103は、自分以外に撮像装置CAM-1とCAM-2から見えていることを示すカメラ情報が記録される。領域104は、自分以外に撮像装置CAM-1から見えていることを示すカメラ情報が記録される。
 第3実施の形態のその他の点は、上述した第1実施の形態と同様である。
<7.第3の撮像範囲判定処理>
 画像処理装置11の第3実施の形態による第3の撮像範囲判定処理は、図9を参照して説明した第1の撮像範囲判定処理のステップS3およびS4が、次のステップS3’およびS4’に置き換えられる。
 ステップS3’において、3D領域計算部91は、キャリブレーション処理部32から供給されたカメラパラメータに基づいて、N台の撮像装置CAMそれぞれの撮像範囲を、四角錐台で近似して計算する。
 ステップS4’において、投影部92は、有効領域マスク画像を生成するN個の撮像装置CAMそれぞれをターゲットカメラとして、次の処理を行う。投影部92は、3D領域計算部91から供給される、N個の撮像装置CAMの四角錐台の8頂点の座標をターゲットカメラの視点に投影することで、N個の四角錐台の簡易3D領域をターゲットカメラの投影面に投影したN個の四角錐台投影領域を生成する。次に、投影部92は、N個の四角錐台投影領域が全て重なる領域を、ターゲットカメラの投影3D領域とする有効領域マスク画像を生成する。
 したがって、第1の撮像範囲判定処理では、有効領域算出部33は、N台の撮像装置CAMそれぞれの四角錐形状の撮像範囲を計算し、N台全ての撮像範囲を統合して3D領域を計算してから、統合した3D領域を、各撮像装置CAMの視点に投影することで、ターゲットカメラの有効領域マスク画像を生成した。すなわち、第1実施の形態の有効領域算出部33は、N個の撮像範囲の計算、統合、投影の順番で処理を行う。
 これに対して、第3の撮像範囲判定処理では、有効領域算出部33は、N台の撮像装置CAMそれぞれの四角錐台の撮像範囲を計算し、各撮像装置CAMの視点に投影してのN個の四角錐台投影領域を生成し、投影後のN個の四角錐台投影領域を統合し、ターゲットカメラの投影3D領域とする有効領域マスク画像を生成する。すなわち、第3実施の形態の有効領域算出部33は、N個の撮像範囲の計算、投影、統合の順番で処理を行う。
 第1実施の形態の3D領域計算部41は、N台の撮像装置CAMそれぞれのN枚の撮像画像(複数の多視点画像)から、N台の撮像装置CAMの撮像範囲を統合した1つの3D領域を生成する生成部であると言える。
 第3実施の形態の3D領域計算部91は、N台の撮像装置CAMそれぞれのN枚の撮像画像(複数の多視点画像)から、N台の撮像装置CAMそれぞれのN個の3D領域を生成する生成部であると言える。
 第3の撮像範囲判定処理においても、被写体を撮影している複数の撮像装置CAMで撮像範囲から外れた場合に、ユーザに通知することができるので、3Dモデル生成のための多視点撮影において、撮影の失敗を減らすことができる。
<8.カメラ配置のその他の例>
 上述した各実施の形態では、図1に示したように、N個の撮像装置CAMが、被写体を囲むように、被写体の外周に配置されることとして説明したが、撮像装置CAMの配置は、これに限られない。
 例えば、図15のAに示されるように、複数の撮像装置CAMが外側を向くように配置したり、図15のBに示されるように、コンサートホールのステージのように、複数の撮像装置CAMが特定方向を集中的に向くようにした配置でもよい。
<9.コンピュータ構成例>
 上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているマイクロコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図16は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)301,ROM(Read Only Memory)302,RAM(Random Access Memory)303は、バス304により相互に接続されている。
 バス304には、さらに、入出力インタフェース305が接続されている。入出力インタフェース305には、入力部306、出力部307、記憶部308、通信部309、及びドライブ310が接続されている。
 入力部306は、キーボード、マウス、マイクロホン、タッチパネル、入力端子などよりなる。出力部307は、ディスプレイ、スピーカ、出力端子などよりなる。記憶部308は、ハードディスク、RAMディスク、不揮発性のメモリなどよりなる。通信部309は、ネットワークインタフェースなどよりなる。ドライブ310は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブル記録媒体311を駆動する。
 以上のように構成されるコンピュータでは、CPU301が、例えば、記憶部308に記憶されているプログラムを、入出力インタフェース305及びバス304を介して、RAM303にロードして実行することにより、上述した一連の処理が行われる。RAM303にはまた、CPU301が各種の処理を実行する上において必要なデータなども適宜記憶される。
 コンピュータ(CPU301)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体311に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体311をドライブ310に装着することにより、入出力インタフェース305を介して、記憶部308にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部309で受信し、記憶部308にインストールすることができる。その他、プログラムは、ROM302や記憶部308に、あらかじめインストールしておくことができる。
 なお、本明細書において、フローチャートに記述されたステップは、記載された順序に沿って時系列的に行われる場合はもちろん、必ずしも時系列的に処理されなくとも、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで実行されてもよい。
 本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、上述した複数の実施の形態の全てまたは一部を組み合わせた形態を採用することができる。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、本明細書に記載されたもの以外の効果があってもよい。
 なお、本技術は、以下の構成を取ることができる。
(1)
 複数の多視点画像から生成された撮像範囲の3D領域を生成する生成部と、
 前記3D領域を特定視点に投影した領域画像と、前記特定視点に対応する撮像装置からの被写体画像とに基づいて、前記撮像装置の被写体の撮影状況を判定する判定部と
 を備える画像処理装置。
(2)
 前記判定部は、前記領域画像と前記被写体画像とのペアを用いて、前記被写体が前記複数の多視点画像を撮影した複数の前記撮像装置の撮像範囲から外れたか否かを判定する
 前記(1)に記載の画像処理装置。
(3)
 前記判定部は、前記領域画像と前記被写体画像とのペアを用いて、前記被写体が前記複数の多視点画像を撮影した複数の前記撮像装置の撮像範囲から外れそうな状態であるかを判定する
 前記(1)または(2)に記載の画像処理装置。
(4)
 前記判定部は、前記被写体が複数の前記撮像装置の撮像範囲から外れた場合に、どの撮像装置の撮像範囲から外れたかも判定する
 前記(2)または(3)に記載の画像処理装置。
(5)
 前記判定部は、前記被写体画像を用いて、前記被写体が前記特定視点に対応する撮像装置の撮像範囲から外れたか否かを判定する
 前記(1)乃至(4)のいずれかに記載の画像処理装置。
(6)
 前記被写体のセマンティック情報を識別するセマンティック処理部をさらに備え、
 前記判定部は、前記被写体のセマンティック情報を判定に用いる
 前記(1)乃至(5)のいずれかに記載の画像処理装置。
(7)
 前記複数の多視点画像に基づいて、前記複数の多視点画像を撮影した複数の前記撮像装置のカメラパラメータを算出する算出部をさらに備え、
 前記生成部は、算出された複数の前記撮像装置のカメラパラメータに基づいて、前記撮像範囲の3D領域を生成する
 前記(1)乃至(6)のいずれかに記載の画像処理装置。
(8)
 前記生成部は、前記複数の多視点画像を撮影した全ての前記撮像装置の前記撮像範囲に含まれる1つの前記3D領域を生成する
 前記(7)に記載の画像処理装置。
(9)
 前記3D領域を前記特定視点に投影した前記領域画像を生成する投影部をさらに備える
 前記(1)乃至(8)のいずれかに記載の画像処理装置。
(10)
 前記領域画像は、2値画像である
 前記(1)乃至(9)のいずれかに記載の画像処理装置。
(11)
 前記複数の多視点画像それぞれから、前記被写体の領域をシルエットとして抽出したシルエット画像を生成するシルエット抽出部をさらに備え、
 前記判定部は、前記領域画像と、前記被写体画像としての前記シルエット画像とに基づいて、前記撮像装置の被写体の撮影状況を判定する
 前記(1)乃至(10)のいずれかに記載の画像処理装置。
(12)
 前記複数の多視点画像に対応する複数の撮像装置のなかから、一部の撮像装置を選択する選択部をさらに備え、
 前記生成部は、選択された前記一部の撮像装置に対応する多視点画像から生成された前記撮像範囲の3D領域を生成し、
 前記3D領域を特定視点に投影した領域画像と、前記特定視点に対応する前記撮像装置からの被写体画像とに基づいて、前記撮像装置の被写体の撮影状況を判定する
 前記(1)乃至(11)のいずれかに記載の画像処理装置。
(13)
 前記複数の多視点画像を所定の縮小率で縮小させる縮小処理部をさらに備え、
 前記判定部は、縮小後の前記領域画像と前記被写体画像とに基づいて、前記撮像装置の被写体の撮影状況を判定する
 前記(1)乃至(12)のいずれかに記載の画像処理装置。
(14)
 前記生成部は、前記複数の多視点画像に対応する複数の撮像装置それぞれの撮像範囲を近似した複数の前記3D領域を生成し、
 前記判定部は、複数の前記3D領域を特定視点に投影した領域画像と、前記特定視点に対応する撮像装置からの被写体画像とに基づいて、前記撮像装置の被写体の撮影状況を判定する
 前記(1)乃至(13)のいずれかに記載の画像処理装置。
(15)
 前記3D領域は、四角錐台の形状である
 前記(14)に記載の画像処理装置。
(16)
 前記判定部の判定結果をユーザに通知する通知部をさらに備える
 前記(1)乃至(15)のいずれかに記載の画像処理装置。
(17)
 前記通知部は、所定の記憶部に記憶された前記判定結果を参照し、前記ユーザに通知する
 前記(16)に記載の画像処理装置。
(18)
 被写体の3Dモデルを生成する3Dモデル生成方法であって、
 複数の多視点画像から生成された撮像範囲の3D領域を生成するステップと、
 前記3D領域を特定視点に投影した領域画像と、前記特定視点に対応する撮像装置からの被写体画像とに基づいて、前記撮像装置の被写体の撮影状況を判定するステップと、
 前記複数の多視点画像に基づいて被写体の3Dモデルを生成するステップと
 を有する3Dモデル生成方法。
(19)
 コンピュータを、
 複数の多視点画像から生成された撮像範囲の3D領域を生成する生成部と、
 前記3D領域を特定視点に投影した領域画像と、前記特定視点に対応する撮像装置からの被写体画像とに基づいて、前記撮像装置の被写体の撮影状況を判定する判定部
 として機能させるためのプログラム。
 CAM-1乃至CAM-8 撮像装置, 11 画像処理装置, 12 表示装置, 31 画像入力部, 32 キャリブレーション処理部, 33 有効領域算出部, 34 シルエット抽出部, 35 セマンティック処理部, 36 判定部, 37 通知部, 38 3Dモデル計算部, 41 3D領域計算部, 42 投影部, 81 カメラ選択部, 82 縮小処理部, 91 3D領域計算部, 92 投影部, 301 CPU, 302 ROM, 303 RAM, 306 入力部, 307 出力部, 308 記憶部, 309 通信部, 310 ドライブ

Claims (19)

  1.  複数の多視点画像から生成された撮像範囲の3D領域を生成する生成部と、
     前記3D領域を特定視点に投影した領域画像と、前記特定視点に対応する撮像装置からの被写体画像とに基づいて、前記撮像装置の被写体の撮影状況を判定する判定部と
     を備える画像処理装置。
  2.  前記判定部は、前記領域画像と前記被写体画像とのペアを用いて、前記被写体が前記複数の多視点画像を撮影した複数の前記撮像装置の撮像範囲から外れたか否かを判定する
     請求項1に記載の画像処理装置。
  3.  前記判定部は、前記領域画像と前記被写体画像とのペアを用いて、前記被写体が前記複数の多視点画像を撮影した複数の前記撮像装置の撮像範囲から外れそうな状態であるかを判定する
     請求項1に記載の画像処理装置。
  4.  前記判定部は、前記被写体が複数の前記撮像装置の撮像範囲から外れた場合に、どの撮像装置の撮像範囲から外れたかも判定する
     請求項2に記載の画像処理装置。
  5.  前記判定部は、前記被写体画像を用いて、前記被写体が前記特定視点に対応する撮像装置の撮像範囲から外れたか否かを判定する
     請求項1に記載の画像処理装置。
  6.  前記被写体のセマンティック情報を識別するセマンティック処理部をさらに備え、
     前記判定部は、前記被写体のセマンティック情報を判定に用いる
     請求項1に記載の画像処理装置。
  7.  前記複数の多視点画像に基づいて、前記複数の多視点画像を撮影した複数の前記撮像装置のカメラパラメータを算出する算出部をさらに備え、
     前記生成部は、算出された複数の前記撮像装置のカメラパラメータに基づいて、前記撮像範囲の3D領域を生成する
     請求項1に記載の画像処理装置。
  8.  前記生成部は、前記複数の多視点画像を撮影した全ての前記撮像装置の前記撮像範囲に含まれる1つの前記3D領域を生成する
     請求項7に記載の画像処理装置。
  9.  前記3D領域を前記特定視点に投影した前記領域画像を生成する投影部をさらに備える
     請求項1に記載の画像処理装置。
  10.  前記領域画像は、2値画像である
     請求項1に記載の画像処理装置。
  11.  前記複数の多視点画像それぞれから、前記被写体の領域をシルエットとして抽出したシルエット画像を生成するシルエット抽出部をさらに備え、
     前記判定部は、前記領域画像と、前記被写体画像としての前記シルエット画像とに基づいて、前記撮像装置の被写体の撮影状況を判定する
     請求項1に記載の画像処理装置。
  12.  前記複数の多視点画像に対応する複数の撮像装置のなかから、一部の撮像装置を選択する選択部をさらに備え、
     前記生成部は、選択された前記一部の撮像装置に対応する多視点画像から生成された前記撮像範囲の3D領域を生成し、
     前記3D領域を特定視点に投影した領域画像と、前記特定視点に対応する前記撮像装置からの被写体画像とに基づいて、前記撮像装置の被写体の撮影状況を判定する
     請求項1に記載の画像処理装置。
  13.  前記複数の多視点画像を所定の縮小率で縮小させる縮小処理部をさらに備え、
     前記判定部は、縮小後の前記領域画像と前記被写体画像とに基づいて、前記撮像装置の被写体の撮影状況を判定する
     請求項1に記載の画像処理装置。
  14.  前記生成部は、前記複数の多視点画像に対応する複数の撮像装置それぞれの撮像範囲を近似した複数の前記3D領域を生成し、
     前記判定部は、複数の前記3D領域を特定視点に投影した領域画像と、前記特定視点に対応する撮像装置からの被写体画像とに基づいて、前記撮像装置の被写体の撮影状況を判定する
     請求項1に記載の画像処理装置。
  15.  前記3D領域は、四角錐台の形状である
     請求項14に記載の画像処理装置。
  16.  前記判定部の判定結果をユーザに通知する通知部をさらに備える
     請求項1に記載の画像処理装置。
  17.  前記通知部は、所定の記憶部に記憶された前記判定結果を参照し、前記ユーザに通知する
     請求項16に記載の画像処理装置。
  18.  被写体の3Dモデルを生成する3Dモデル生成方法であって、
     複数の多視点画像から生成された撮像範囲の3D領域を生成するステップと、
     前記3D領域を特定視点に投影した領域画像と、前記特定視点に対応する撮像装置からの被写体画像とに基づいて、前記撮像装置の被写体の撮影状況を判定するステップと、
     前記複数の多視点画像に基づいて被写体の3Dモデルを生成するステップと
     を有する3Dモデル生成方法。
  19.  コンピュータを、
     複数の多視点画像から生成された撮像範囲の3D領域を生成する生成部と、
     前記3D領域を特定視点に投影した領域画像と、前記特定視点に対応する撮像装置からの被写体画像とに基づいて、前記撮像装置の被写体の撮影状況を判定する判定部
     として機能させるためのプログラム。
PCT/JP2020/014171 2019-04-12 2020-03-27 画像処理装置、3dモデル生成方法、およびプログラム WO2020209108A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021513570A JPWO2020209108A1 (ja) 2019-04-12 2020-03-27
CN202080026862.5A CN113647093A (zh) 2019-04-12 2020-03-27 图像处理装置、3d模型生成方法和程序
US17/594,052 US20220172474A1 (en) 2019-04-12 2020-03-27 Image processing apparatus, 3d model generation method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-076107 2019-04-12
JP2019076107 2019-04-12

Publications (1)

Publication Number Publication Date
WO2020209108A1 true WO2020209108A1 (ja) 2020-10-15

Family

ID=72751098

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/014171 WO2020209108A1 (ja) 2019-04-12 2020-03-27 画像処理装置、3dモデル生成方法、およびプログラム

Country Status (4)

Country Link
US (1) US20220172474A1 (ja)
JP (1) JPWO2020209108A1 (ja)
CN (1) CN113647093A (ja)
WO (1) WO2020209108A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005277603A (ja) * 2004-03-23 2005-10-06 Fuji Photo Film Co Ltd 撮像システム、撮像装置、撮像方法、及び撮像プログラム
JP2009074836A (ja) * 2007-09-19 2009-04-09 Advanced Telecommunication Research Institute International 画像処理装置、画像処理方法及び画像処理プログラム
JP2014010805A (ja) * 2012-07-03 2014-01-20 Nippon Telegr & Teleph Corp <Ntt> 画像処理装置、画像処理方法及び画像処理プログラム
JP2018063693A (ja) * 2016-10-12 2018-04-19 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6482498B2 (ja) * 2016-05-25 2019-03-13 キヤノン株式会社 制御装置、制御方法、及び、プログラム
JP2017220051A (ja) * 2016-06-08 2017-12-14 ソニー株式会社 画像処理装置、画像処理方法、および車両
JP6472486B2 (ja) * 2016-09-14 2019-02-20 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
US11039083B1 (en) * 2017-01-24 2021-06-15 Lucasfilm Entertainment Company Ltd. Facilitating motion capture camera placement
JP2018180687A (ja) * 2017-04-05 2018-11-15 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
JP2018194985A (ja) * 2017-05-15 2018-12-06 富士通株式会社 画像処理装置、画像処理方法及び画像処理プログラム
JP6948175B2 (ja) * 2017-07-06 2021-10-13 キヤノン株式会社 画像処理装置およびその制御方法
JP6425780B1 (ja) * 2017-09-22 2018-11-21 キヤノン株式会社 画像処理システム、画像処理装置、画像処理方法及びプログラム
JP7080613B2 (ja) * 2017-09-27 2022-06-06 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005277603A (ja) * 2004-03-23 2005-10-06 Fuji Photo Film Co Ltd 撮像システム、撮像装置、撮像方法、及び撮像プログラム
JP2009074836A (ja) * 2007-09-19 2009-04-09 Advanced Telecommunication Research Institute International 画像処理装置、画像処理方法及び画像処理プログラム
JP2014010805A (ja) * 2012-07-03 2014-01-20 Nippon Telegr & Teleph Corp <Ntt> 画像処理装置、画像処理方法及び画像処理プログラム
JP2018063693A (ja) * 2016-10-12 2018-04-19 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム

Also Published As

Publication number Publication date
CN113647093A (zh) 2021-11-12
US20220172474A1 (en) 2022-06-02
JPWO2020209108A1 (ja) 2020-10-15

Similar Documents

Publication Publication Date Title
JP6425780B1 (ja) 画像処理システム、画像処理装置、画像処理方法及びプログラム
JP7003994B2 (ja) 画像処理装置および方法
JP7002056B2 (ja) 三次元モデル生成装置及び三次元モデル生成方法
CA2669001C (en) Method and system for modeling light
TWI554976B (zh) 監控系統及其影像處理方法
US20190132529A1 (en) Image processing apparatus and image processing method
JP2013027021A (ja) 全方位撮像装置及び全方位撮像方法
JP5068732B2 (ja) 3次元形状生成装置
JP6513300B1 (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
JP2008217593A (ja) 被写体領域抽出装置及び被写体領域抽出プログラム
TW201824178A (zh) 全景即時影像處理方法
JP6104066B2 (ja) 画像処理装置および画像処理方法
WO2020209108A1 (ja) 画像処理装置、3dモデル生成方法、およびプログラム
JP2011146762A (ja) 立体モデル生成装置
JP2014164497A (ja) 画像処理装置、画像処理方法及びプログラム
JP6320165B2 (ja) 画像処理装置及びその制御方法、並びにプログラム
JP7265825B2 (ja) 生成装置、生成方法およびプログラム
KR20110074442A (ko) 화상 처리 장치, 화상 처리 방법 및 기록매체
JP2021016081A (ja) 情報処理装置、情報処理方法、及びプログラム
JP6759300B2 (ja) 情報処理装置、情報処理方法及びプログラム
US20230245378A1 (en) Information processing apparatus, information processing method, and medium
WO2023042604A1 (ja) 寸法計測装置、寸法計測方法及びプログラム
JP7353527B2 (ja) 情報処理装置、情報処理装置の制御方法およびプログラム
WO2022091811A1 (ja) 画像処理装置、画像処理方法、画像処理システム
JP5106378B2 (ja) 画像処理装置、方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20787311

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021513570

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20787311

Country of ref document: EP

Kind code of ref document: A1