WO2020208976A1 - 画像処理装置、および画像処理方法、並びにプログラム - Google Patents

画像処理装置、および画像処理方法、並びにプログラム Download PDF

Info

Publication number
WO2020208976A1
WO2020208976A1 PCT/JP2020/009154 JP2020009154W WO2020208976A1 WO 2020208976 A1 WO2020208976 A1 WO 2020208976A1 JP 2020009154 W JP2020009154 W JP 2020009154W WO 2020208976 A1 WO2020208976 A1 WO 2020208976A1
Authority
WO
WIPO (PCT)
Prior art keywords
tsdf
space
image processing
subject
camera
Prior art date
Application number
PCT/JP2020/009154
Other languages
English (en)
French (fr)
Inventor
宏基 水野
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/598,540 priority Critical patent/US11816854B2/en
Publication of WO2020208976A1 publication Critical patent/WO2020208976A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/564Depth or shape recovery from multiple images from contours
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • G01B11/24Measuring arrangements characterised by the use of optical techniques for measuring contours or curvatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/10Constructive solid geometry [CSG] using solid primitives, e.g. cylinders, cubes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20036Morphological image processing
    • G06T2207/20041Distance transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/21Collision detection, intersection

Definitions

  • the present disclosure relates to an image processing apparatus, an image processing method, and a program. More specifically, the present invention relates to an image processing apparatus, an image processing system, and a program that execute three-dimensional (3D) shape analysis processing.
  • 3D three-dimensional
  • CG Computer Graphics
  • Patent Document 1 Patent No. 5906258
  • a depth map depth map generated from an image taken by a depth camera (depth camera) capable of measuring a distance (depth) from a camera
  • Kinect Fusion a technique for reconstructing a highly accurate three-dimensional shape of a subject.
  • Kinect Fusion a technique for reconstructing a highly accurate three-dimensional shape of a subject. The three-dimensional shape reconstruction process using this depth map is called Kinect Fusion.
  • Kinect Fusion performs the same processing as SLAM (Simultaneus Localization and Mapping), which sets the target of 3D shape reconstruction as a still scene and simultaneously generates self-position estimation and environment map, and self-position estimation by map generation and tracking. At the same time. As a result, the reconstruction of the three-dimensional shape of the subject with high accuracy and high quality is realized.
  • SLAM Simultaneus Localization and Mapping
  • the scene is expressed as a volume that is a three-dimensional space as a map that expresses the structure of the scene (subject), and the depth value acquired by the depth camera for each cubic voxel that is a component of the volume (Volume).
  • TSDF space Volumetric Truncated Signed Distance Function
  • TSDF Volume TSDF Volume
  • Kinect Fusion several technologies that apply this have been announced. For example, a method for processing a large-scale space that exceeds the memory capacity of a 3D shape analysis device and a method for expanding a dynamic subject have been announced, and it is possible to reconstruct a 3D shape with high quality. It is shown.
  • IR light infrared light
  • a black material particularly black hair of an Asian person
  • TSDF Volume TSDF space
  • the present disclosure has been made in view of the above-mentioned problems, for example, and is an image processing apparatus and an image processing method capable of analyzing a highly accurate three-dimensional shape even in a region where it is difficult to obtain an accurate depth by a depth camera. , As well as providing a program.
  • the first aspect of the disclosure is It has an image processing unit that inputs images taken by a depth camera and a visible light camera and analyzes the three-dimensional shape of the subject.
  • the image processing unit Using the depth map acquired from the image taken by the depth camera, a depth map-based TSDF space (TSDF Volume) is generated.
  • TSDF Volume Using the image taken by the visible light camera, a visible light image-based TSDF space is generated.
  • An integrated TSDF space is generated by an integrated process of the depth map-based TSDF space and the visible light image-based TSDF space. It is in an image processing apparatus that executes a three-dimensional shape analysis process of the subject by utilizing the integrated TSDF space.
  • the second aspect of the present disclosure is This is an image processing method executed in an image processing device.
  • the image processing device is It has an image processing unit that inputs images taken by a depth camera and a visible light camera and analyzes the three-dimensional shape of the subject.
  • the image processing unit Using the depth map acquired from the image taken by the depth camera, a depth map-based TSDF space (TSDF Volume) is generated.
  • TSDF Volume Using the image taken by the visible light camera, a visible light image-based TSDF space is generated.
  • An integrated TSDF space is generated by an integrated process of the depth map-based TSDF space and the visible light image-based TSDF space. It is an image processing method that executes a three-dimensional shape analysis process of the subject by utilizing the integrated TSDF space.
  • the third aspect of the present disclosure is A program that executes image processing in an image processing device.
  • the image processing device is It has an image processing unit that inputs images taken by a depth camera and a visible light camera and analyzes the three-dimensional shape of the subject.
  • the program is applied to the image processing unit.
  • the program of the present disclosure is, for example, a program that can be provided by a storage medium or a communication medium that is provided in a computer-readable format to an image processing device or a computer system that can execute various program codes.
  • a program that can be provided by a storage medium or a communication medium that is provided in a computer-readable format to an image processing device or a computer system that can execute various program codes.
  • system is a logical set configuration of a plurality of devices, and the devices having each configuration are not limited to those in the same housing.
  • a configuration is realized in which images taken by a depth camera and a visible light camera are input to analyze and restore a highly accurate three-dimensional shape of a subject.
  • it has an image processing unit that inputs images taken by a depth camera and a visible light camera and analyzes the three-dimensional shape of the subject.
  • the image processing unit uses the depth map acquired from the captured image of the depth camera to generate a depth map-based TSDF space (TSDF Volume), and uses the captured image of the visible light camera to generate the visible light image-based TSDF. Create a space.
  • TSDF Volume depth map-based TSDF space
  • the integrated TSDF space is generated by the integrated processing of the depth map-based TSDF space and the visible light image-based TSDF space, and the integrated TSDF space is used to execute the three-dimensional shape analysis processing of the subject.
  • the integrated TSDF space is used to execute the three-dimensional shape analysis processing of the subject.
  • TSDF space TSDF Volume
  • the image processing apparatus of the present disclosure uses a depth camera (depth camera) for capturing a subject (scene) to be analyzed for a three-dimensional shape and an area in which the depth cannot be acquired by the depth camera by using the images captured by the RGB camera.
  • depth camera depth camera
  • TSDF Volume Volumetric Truncated Designed Distance Function Space
  • RGB images silhouettes of the subject (scene) from a plurality of different viewpoints
  • Visual Hull Three-dimensional subject by the visual volume crossing method (Visual Hull) that detects and executes the crossing region (And region) of the silhouette of the subject (scene) from a plurality of different viewpoints taken by a plurality of RGB cameras. Generate a shape (polygon mesh). The details of the visual volume crossing method (Visual Hull) will be described later.
  • TSDF Volume A TSDF space (TSDF Volume) is generated based on the subject three-dimensional shape (polygon mesh) generated by the visual volume crossing method (Process 3) in the above (process 3).
  • Process 5 From the TSDF space (TSDF Volume) based on the subject three-dimensional shape (polygon mesh) generated by the visual volume crossing method (Visual Hull) generated in the above (process 4), and from the depth map in the above (process 1).
  • the acquired TSDF space (TSDF Volume) is integrated to reconstruct the three-dimensional shape of the entire subject (scene).
  • the three-dimensional structure of the subject area that cannot be acquired from the TSDF space (TSDF Volume) acquired from the depth map in (Process 1) or has low accuracy is obtained by the visual volume based on the RGB image calculated in (Process 4). It is possible to complement by the TSDF space (TSDF Volume) generated from the subject 3D shape (polygon mesh) generated by the intersection method (Visual Hull), and the highly accurate 3D shape of the entire subject (scene) can be reconstructed. It will be possible.
  • FIG. 1 is a diagram illustrating a system configuration example applicable to a three-dimensional shape analysis process of a subject (scene) executed by the image processing device 100 of the present disclosure.
  • the three-dimensional shape analysis processing target is the subject 1.
  • a plurality of RGB-D cameras 10 for photographing the subject from different viewpoint positions are arranged around the subject 1.
  • the RGB image is a color image that can be taken by a normal camera.
  • the depth map is an image in which a shade value corresponding to the distance from the camera is set for each pixel.
  • Most depth cameras use infrared light (IR light) to detect reflected light from a subject and measure the distance.
  • IR light infrared light
  • ToF (Time of Flight) depth camera uses the time it takes for infrared light to reciprocate between the camera and the subject
  • the Structured Light depth camera uses the time it takes for the infrared light to travel back and forth between the camera and the subject. To measure.
  • IR light infrared light
  • materials that absorb infrared light include black materials, especially black hair of Asians. That is, for example, in the area of black hair, the depth measurement accuracy by the depth camera is lowered.
  • the depth map actually captured by the RGB-D camera 10 shown in FIG. 1 has a pixel value corresponding to the depth (distance) of a part of a human black hair or the like. Is set to an inaccurate value, that is, inaccurate depth information. Even if such low-precision depth information is used, a highly accurate three-dimensional shape cannot be restored.
  • the image processing apparatus of the present disclosure restores a three-dimensional shape using an image taken by an RGB camera in such an area.
  • a camera capable of simultaneously capturing a depth map and an RGB image is used as a camera for capturing the subject 1, but a depth camera and an RGB camera are prepared separately. Then, each camera may be arranged around the subject.
  • RGB camera an example of capturing a visible light color image of a subject using an RGB camera
  • a monochrome camera may be used instead of the RGB camera.
  • RGB camera Various visible light cameras are available that capture images with normal visible light.
  • the camera arrangement shown in FIG. 1 is an example, and the number of cameras may be further increased. For example, as shown in FIG. 4, a large number of cameras may be arranged. Further, the camera may be arranged so as to capture an image from above or an image from below with respect to the subject 1.
  • the image processing device 20 has an input unit 50 and an image processing unit 100.
  • the internal parameters are data such as the focal length of the camera and the optical center
  • the external parameters are parameters such as the position of the camera and the shooting direction. Specifically, it is a parameter required for the TSDF space (TSDF Volume) generation process and the subject three-dimensional shape calculation process based on the visual volume crossing method (Visual Hull). These parameters are set as attribute information of the captured image of each camera, and are input to the image processing device 20 together with the image.
  • the input unit 50 of the image processing device 20 outputs the RGB image, depth map, internal parameters, and external parameters input from each of the RGB-D cameras 10 to the image processing unit 100.
  • the image processing unit 100 analyzes the three-dimensional shape of the subject using these input data.
  • the specific configuration of the image processing unit 100 and the processing to be executed will be described with reference to FIG.
  • FIG. 5 is a diagram showing a specific configuration example of the image processing unit 100.
  • the image processing unit 100 includes a plurality of TSDF space (TSDF Volume) generation units 111-1 to N, a visual volume-based three-dimensional shape (polygon mesh) generation unit 121, and polygons. It has a mesh-based TSDF space (TSDF Volume) generation unit 122, a TSDF space (TSDF Volume) integration unit 131, and a three-dimensional shape generation unit 132.
  • TSDF Volume TSDF space
  • TSDF Volume TSDF volume
  • input data from each camera arranged around the subject is input to the image processing unit 100 via the input unit 50.
  • the depth camera data 50 includes (A) Depth map, (B) Camera internal parameters, (C) Camera external parameters, These data are included.
  • the depth map is a depth map described above with reference to FIG. 2, and is an image in which a shading value according to a distance from a camera is set for each pixel.
  • the camera internal parameters are parameters required for the TSDF space (TSDF Volume) generation process based on the depth map, and are, for example, camera internal parameters such as the focal length of the camera and the optical center.
  • the camera external parameter is also a parameter required for the TSDF space (TSDF Volume) generation process based on the depth map, and is, for example, a camera external parameter such as camera position information and shooting direction information. Parameters such as the position and orientation of each camera can be obtained by prior calibration.
  • the RGB image camera data 60 includes (A) RGB image, (B) Camera internal parameters, (C) Camera external parameters, These data are included.
  • the RGB image is an RGB image described above with reference to FIG. 2, and is an RGB color image that can be captured by a normal camera.
  • the internal parameters of the camera are parameters required for the calculation process of the three-dimensional shape of the subject based on the visual volume crossing method (Visual Hull) based on the RGB image, and are internal parameters of the camera such as the focal length of the camera and the optical center. Is.
  • the external parameters of the camera are also parameters required for the calculation process of the three-dimensional shape of the subject based on the visual volume crossing method (Visual Hull) based on the RGB image, and are external to the camera such as the position information of the camera and the shooting direction information. It is a parameter.
  • the depth camera data 1 to N and 50-1 to N of each of the RGB-D cameras 10 shown in FIG. 1 are input to each of the TSDF space (TSDF Volume) generators 111-1 to N, as shown in FIG. To.
  • TSDF space TSDF Volume
  • Each of the TSDF space (TSDF Volume) generators 111-1 to N inputs the depth camera data of one RGB-D camera 10 and one TSDF space (TSDF) based on the depth map acquired by one depth camera.
  • Volume) "Rounded signed distance function space” is generated.
  • TSDF space (TSDF Volume) generation units 111-1 to N The processing sequence executed by each of the TSDF space (TSDF Volume) generation units 111-1 to N will be described with reference to the flowchart shown in FIG.
  • the process according to the flow shown in FIG. 7 can be executed under the control of a CPU or the like having a program execution function according to, for example, a program stored in the storage unit of the image processing device 20.
  • one TSDF space (TSDF Volume) generation unit 111 inputs the depth camera data described above with reference to FIG. 6 from one depth camera. Is started. That is, (A) Depth map, (B) Camera internal parameters, (C) Camera external parameters, It is executed after inputting these depth camera data.
  • a voxel is a region corresponding to a cube as a component of a three-dimensional space. As shown in FIG. 8, one cube obtained by subdividing the TSDF space (TSDF Volume) defined as a position region in the three-dimensional space is a voxel.
  • TSDF Volume TSDF Volume
  • FIG. 9 A specific example of the processing executed according to the flow shown in FIG. 7 will be described with reference to FIG. 9 a three-dimensional space including the subject 1 to be analyzed of the three-dimensional structure is defined as a TSDF space (TSDF Volume), and one voxel 201 in this TSDF space (TSDF Volume) is shown.
  • TSDF Volume TSDF space
  • TSDF Volume TSDF space
  • the voxel 201 exists between the depth camera 220 that captured the depth map and the subject 1.
  • the optical axis direction in front of the depth camera 220 is the Z axis (depth), and the vertical upward direction is the y axis.
  • the coordinate axes are camera coordinates.
  • TSDF space (TSDF Volume) generation process executed according to the flow shown in FIG. 7, a process of storing the signed distance value F (v) (TSDF value) in each voxel constituting the TSDF space (TSDF Volume) is executed. ..
  • the signed distance value F (v) (TSDF value) stores the distance between the voxel 201 and the subject with a plus or minus sign.
  • the plus or minus sign is determined by whether the voxel is outside or inside the subject. If the Z value of voxel 201 as viewed from the depth camera is smaller than the Z value on the surface of the subject, the voxel 201 is in front of the subject as viewed from the camera and is outside the subject, so a plus sign is given. .. On the contrary, when the Z value of the voxel 201 is larger than the Z value of the subject surface, a minus sign is given.
  • the distance between the subject and the voxel is stored as a signed distance value F (v) (TSDF value) in each of the voxels constituting the TSDF space (TSDF Volume).
  • the relationship between the plus and minus signs and the inside and outside of the subject may be unified in the entire system, and the outside of the subject may be expressed as minus and the inside of the subject as plus.
  • the voxel also supports a value (reliability value) indicating the reliability of the signed distance value F (v) (TSDF value) in addition to the signed distance value F (v) (TSDF value). It is attached and stored.
  • the reliability is set, for example, a value according to the light receiving intensity of infrared light (IR light) for each pixel by the depth camera.
  • IR light the light receiving intensity of infrared light
  • the reliability is high, and when the light receiving intensity of infrared light (IR light) is low, the reliability is low.
  • each of the voxels constituting the TSDF space stores the signed distance value F (v) (TSDF value) between the voxel and the subject and its reliability value (for example, 0 to 1). Will be done.
  • the process proceeds to step S102.
  • Step S102 the coordinates of the i-th voxel are acquired.
  • the coordinates of the i-th voxel on the voxel coordinate axes are acquired using the voxel coordinate axes.
  • the voxel coordinate axes are, for example, coordinate axes composed of coordinate axes x, y, and z in the TSDF space (TSDF Volume) shown in FIG.
  • World coordinates are coordinates that have coordinate axes corresponding to the real area in which the subject or camera exists. From the voxel positions (X, Y, Z) according to the world coordinates obtained by this conversion process, the relative positions of the subject and the camera on the same world coordinates can also be calculated.
  • Step S104 the voxel positions (X, Y, Z) according to the world coordinates calculated in step S103 are converted into camera coordinates.
  • the camera coordinates are coordinates according to the coordinate axes with the position of the depth camera that captured the depth map to be processed by the TSDF space (TSDF Volume) generation unit 111 as the origin.
  • the coordinates are according to the coordinate axes (x, y, z) shown on the depth camera 220 shown in FIG.
  • the signed distance value F (v) (TSDF value) is a value obtained by storing the distance between the voxel and the subject with a sign.
  • the signed distance value F (v) (TSDF value) calculated in step S105 is determined to be an invalid value, and the F (v) in step S107 is determined. Do not store the voxels.
  • This process is, for example, a process for not storing a value unnecessary for restoring the three-dimensional shape of the subject 1 in the voxel.
  • FIG. 10 the signed distance value F (v) (TSDF value) calculated for the voxel 202 shown in FIG. 10 is a distance value corresponding to the distance between the wall behind the subject 1 and the voxel 202. Will have. This distance value is a value unnecessary for restoring the three-dimensional shape of the subject 1.
  • the signed distance value F (v) (TSDF value) having a large distance value is determined to be an invalid value and is not stored in the voxel.
  • FIG. 10 the example shown in FIG.
  • the threshold value is defined in advance based on the position of the subject and the position of the TSDF space in which the voxels are arranged.
  • the voxel also stores the signed distance value F (v) (TSDF value) in association with the value indicating the reliability (reliability value).
  • the reliability is set, for example, a value according to the light receiving intensity of infrared light (IR light) for each pixel by the depth camera. When the light receiving intensity of infrared light (IR light) is high, the reliability is high, and when the light receiving intensity of infrared light (IR light) is low, the reliability is low.
  • Step S108 is a step of determining the presence or absence of unprocessed voxels. It is determined whether or not the processing for all the voxels constituting the TSDF space (TSDF Volume) is completed. If there is an unprocessed voxel, the value of the voxel identifier: i is updated in step S109, and the processing of step S102 or less is executed for the voxel having the updated voxel identifier.
  • step S108 if it is determined that the processing for all the voxels constituting the TSDF space (TSDF Volume) is completed, the processing is terminated.
  • the signed distance values F (v) (TSDF value) between the subject and the voxels and their reliability are assigned to each of the voxels constituting the TSDF space (TSDF Volume).
  • the indicated value (reliability value) is stored.
  • Each of the TSDF space (TSDF Volume) generation units 111-1 to N in the image processing unit 100 shown in FIG. 5 inputs the depth camera data of one RGB-D camera 10 and follows the flow shown in FIG. Execute the processing.
  • the TSDF space (TSDF Volume) used by each of the TSDF space (TSDF Volume) generation units 111-1 to N is one common space configured at the same position on the world coordinates.
  • Each of the TSDF space (TSDF Volume) generators 111-1 to N is calculated based on images (depth maps) taken by cameras at different positions in a large number of voxels configured in this one TSDF space (TSDF Volume).
  • the signed distance value F (v) (TSDF value) and the value indicating the reliability (reliability value) are stored.
  • the N TSDF spaces (TSDF Volumes) generated by the TSDF space (TSDF Volume) generation units 111-1 to N are input to the TSDF space (TSDF Volume) integration unit 131.
  • the visual volume crossing method (Visual Hull) -based three-dimensional shape (polygon mesh) generation unit 121 includes RGB camera data including RGB images taken by the RGB-D camera 10 that shoots the subject 1 from a plurality of different positions shown in FIG. Enter 60-1 to N.
  • each of the RGB camera data 60-1 to N is as described above with reference to FIG. (A) RGB image, (B) Camera internal parameters, (C) Camera external parameters, These data are included.
  • the RGB image is an RGB image described above with reference to FIG. 2, and is an RGB color image that can be captured by a normal camera.
  • the internal parameters of the camera are parameters required for the calculation process of the three-dimensional shape of the subject based on the visual volume crossing method (Visual Hull) based on the RGB image, and are internal parameters of the camera such as the focal length of the camera and the optical center. Is.
  • the external parameters of the camera are also parameters required for the calculation process of the three-dimensional shape of the subject based on the visual volume crossing method (Visual Hull) based on the RGB image, and are external to the camera such as the position information of the camera and the shooting direction information. It is a parameter.
  • RGB camera data including these data is input from each camera around the subject to the visual volume crossing method (Visual Hull) -based three-dimensional shape (polygon mesh) generation unit 121.
  • Visual Hull Visual Hull
  • polygon mesh three-dimensional shape
  • the visual volume crossing method (Visual Hull) -based three-dimensional shape (polygon mesh) generation unit 121 executes the visual volume crossing method (Visual Hull) based on these input data to generate a subject three-dimensional shape (polygon mesh). Generate.
  • Visual Hull The visual volume crossing method (Visual Hull) will be described with reference to FIG. 11 and below.
  • FIG. 11 shows four RGB cameras around the subject 1. Each camera shoots the subject 1 from different directions.
  • the captured image is an RGB color image, but a black and white image may be used.
  • Each camera shoots the subject 1 from a specific direction, and from this shot image, it is possible to acquire a silhouette of observing the subject 1 from a specific direction.
  • FIG. 12 shows an example of the silhouette acquired from the images taken by each camera.
  • FIG. 12 shows silhouettes based on images taken by a camera in which the subject 1 is photographed from different directions.
  • the visual volume crossing method is a method of acquiring a three-dimensional shape of a subject by extracting and saving an AND region of the silhouette of the subject in each RGB camera that captures the subject.
  • the target space (Volume) including the subject photographed by the RGB camera is defined, the coordinates of each voxel in the space (Volume) are projected to each camera, and the voxels are inside or outside the subject silhouette. Is determined.
  • Process 2 It is determined that the voxels determined to be inside the subject in all cameras are in the internal region of the subject shape, and the other voxels are determined to be outside, and a label corresponding to the determination result is set for each voxel.
  • the marching cube method is applied to a space (Volume) having a plurality of labeled voxels to acquire a three-dimensional shape of a subject.
  • the marching cube method is an algorithm that converts data composed of a plurality of voxels into a three-dimensional shape.
  • the visual volume crossing method (Visual Hull) -based three-dimensional shape (polygon mesh) generation unit 121 in the image processing unit 100 shown in FIG. 5 applies RGB images of the subject 1 taken from different directions to view the subject 1.
  • the volume crossing method (Visual Hull) is executed to generate a three-dimensional subject shape (polygon mesh) of the subject 1.
  • the subject three-dimensional shape (polygon mesh) of the subject 1 generated by the visual volume crossing method (Visual Hull) base three-dimensional shape (polygon mesh) generation unit 121 is input to the polygon mesh-based TSDF space (TSDF Volume) generation unit 122.
  • TSDF Volume polygon mesh-based TSDF space
  • the polygon mesh-based TSDF space (TSDF Volume) generation unit 122 produces the subject three-dimensional shape (polygon mesh) of the subject 1 generated by the visual volume crossing method (Visual Hull) base three-dimensional shape (polygon mesh) generation unit 121. Convert to space (TSDF Volume).
  • the TSDF space (TSDF Volume) is a data structure in which signed distance values F (v) (TSDF values) are stored in a large number of voxels inside the space.
  • This data structure can be generated from the three-dimensional structure (polygon mesh) of the subject.
  • each voxel in the TSDF space stores a signed distance value F (v) (TSDF value) between the subject and the voxel.
  • the distance to the subject and whether it is inside or outside the subject for each voxel. can be parsed. That is, the signed distance value F (v) (TSDF value) can be calculated.
  • the polygon mesh-based TSDF space (TSDF Volume) generation unit 122 thus generates the subject three-dimensional shape (polygon) of the subject 1 generated by the visual volume crossing method (Visual Full) base three-dimensional shape (polygon mesh) generation unit 121. Mesh) is converted to TSDF space (TSDF Volume).
  • the positions (positions on the world coordinates) of the TSDF space (TSDF Volume) generated by the polygon mesh-based TSDF space (TSDF Volume) generation unit 122 are the TSDF space (TSDF Volume) generation units 111-1 to described above. Set to the same position as the position of N TSDF spaces (TSDF Volume) generated by N. That is, a common TSDF space (TSDF Volume) is used.
  • the positions of the TSDF space (TSDF Volume) generated by the polygon mesh base TSDF space (TSDF Volume) generation unit 122 and the voxels in the TSDF space (TSDF Volume) are all within one common TSDF space (TSDF Volume). Will be in the same position.
  • Each voxel in the TSDF space (TSDF Volume) generated by the polygon mesh-based TSDF space (TSDF Volume) generation unit 122 has a predetermined reliability in addition to the signed distance value F (v) (TSDF value).
  • F signed distance value
  • the TSDF space (TSDF Volume) generated by the polygon mesh-based TSDF space (TSDF Volume) generation unit 122 is input to the TSDF space (TSDF Volume) integration unit 131.
  • the TSDF space (TSDF Volume) integration unit 131 inputs the following data.
  • (A) is N TSDF spaces (TSDF Volumes) generated based on N depth maps obtained by photographing a subject from N different positions by N RGB-D cameras 10.
  • (B) is a subject generated by the visual volume crossing method (Visual Hull) to which N RGB images obtained by photographing the subject from N different positions by N RGB-D cameras 10 are applied. It is one TSDF space (TSDF Volume) generated based on a three-dimensional shape (polygon mesh).
  • the TSDF space (TSDF Volume) integration unit 131 inputs N + 1 TSDF spaces (TSDF Volume).
  • the TSDF space (TSDF Volume) generated by the polygon mesh-based TSDF space (TSDF Volume) generation unit 122 and the TSDF space (TSDF Volume) are at the same position on the world coordinates, and these N + 1 pieces The voxels in the TSDF space (TSDF Volume) are all at the same position.
  • the TSDF space (TSDF Volume) integration unit 131 When a plurality of signed distance values F (v) (TSDF values) are detected in the box cells at the same position in N + 1 TSDF spaces (TSDF Volumes), the TSDF space (TSDF Volume) integration unit 131 has a plurality of codes. Based on the attached distance value F (v), one final signed distance value F'(v) is calculated. For example, weighting addition is executed by applying the reliability value recorded in association with each signed distance value F (v) to calculate one final signed distance value F'(v).
  • the specific calculation formula for one final signed distance value F'(v) is, for example, the following (Formula 1).
  • i is an identifier of the TSDF space (TSDF Volume)
  • Fi is a signed distance value in the voxel v of the TSDF space (TSDF Volume) i.
  • wi (v) is a weight value in the voxel v of the TSDF space (TSDF Volume) i, Is.
  • the reliability (0 to 1) of the TSDF value for each voxel can be applied.
  • the reliability for example, the brightness value of infrared light (IR light) in each pixel described above can be used.
  • IR light infrared light
  • A Angle between the normal direction of the subject surface and the camera position
  • B Distance from the camera to the surface of the subject, The reliability may be calculated using these camera arrangement information and used as the weight value in the above (Equation 1).
  • the TSDF space (TSDF Volume) integration unit 131 finally uses the signed distance value F (v) stored in the corresponding voxels of N + 1 TSDF spaces (TSDF Volume), and finally 1 for each voxel. Generates one integrated TSDF space (TSDF Volume) in which one signed distance value F (v) is stored.
  • One integrated TSDF space (TSDF Volume) generated by the TSDF space (TSDF Volume) integration unit 131 is output to the three-dimensional shape generation unit 132.
  • the three-dimensional shape generation unit 132 inputs one integrated TSDF space (TSDF Volume) generated by the TSDF space (TSDF Volume) integration unit 131 from the TSDF space (TSDF Volume) integration unit 131.
  • TSDF Volume integrated TSDF space
  • the three-dimensional shape generation unit 132 restores the three-dimensional shape of the subject by utilizing this one integrated TSDF space (TSDF Volume).
  • TSDF Volume One signed distance value F (v) is stored in the voxel of one integrated TSDF space (TSDF Volume), and the three-dimensional structure of the subject can be restored based on this value.
  • the accuracy of the depth information of the area such as black hair is low, and the signed distance with low reliability for the voxels of the TSDF space (TSDF Volume) generated based on the depth map.
  • the value F (v) is stored, and even if an attempt is made to restore the three-dimensional shape of the subject using this value, the highly accurate three-dimensional shape cannot be restored.
  • the flowchart shown in FIG. 13 is a flowchart illustrating a processing sequence executed by the image processing apparatus 20 of the present disclosure.
  • the process according to the flow shown in FIG. 13 can be executed under the control of a CPU or the like having a program execution function according to, for example, a program stored in the storage unit of the image processing device 20.
  • steps S211 to S213 of the flow shown in FIG. 13 are processes executed in the TSDF space (TSDF Volume) generation unit 111 shown in FIG.
  • the processes of steps S221 to S223 are processes executed by the visual volume base three-dimensional shape (polygon mesh) generation unit 121 and the polygon mesh base TSDF space (TSDF Volume) generation unit 122 shown in FIG. is there.
  • the processes of steps S211 to S213 and the processes of steps S221 to S223 are processes that can be executed in parallel.
  • Step S211 The processes of steps S211 to S213 are processes executed in the TSDF space (TSDF Volume) generation unit 111 shown in FIG.
  • the TSDF space (TSDF Volume) generation unit 111 inputs depth camera data from each of the RGB-D cameras 10 shown in FIG. 1 in step S211.
  • the depth camera data includes the following data described above with reference to FIG. (A) Depth map, (B) Camera internal parameters, (C) Camera external parameters,
  • the depth map is a depth map described above with reference to FIG. 2, and is an image in which a shading value according to a distance from a camera is set for each pixel.
  • the camera internal parameters are parameters required for the TSDF space (TSDF Volume) generation process based on the depth map, and are, for example, camera internal parameters such as the focal length of the camera and the optical center.
  • the camera external parameter is also a parameter required for the TSDF space (TSDF Volume) generation process based on the depth map, and is, for example, a camera external parameter such as camera position information and shooting direction information.
  • Step S212 Next, in step S212, the TSDF space (TSDF Volume) generation unit 111 inputs the depth camera data to generate the TSDF space (TSDF Volume).
  • This process corresponds to the process described above with reference to the flow shown in FIG. 7 and FIGS. 8 and 9. Specifically, a process of storing the signed distance value F (v) (TSDF value) in each voxel constituting the TSDF space (TSDF Volume) is executed. As shown in FIG. 9, the signed distance value F (v) (TSDF value) is a value including the distance between the voxel 201 and the subject and a plus or minus sign indicating whether the voxel 201 is inside or outside the subject.
  • a value indicating the reliability is also stored in association with the signed distance value F (v) (TSDF value).
  • Step S213 is a process of determining whether or not the generation of the TSDF space (TSDF Volume) based on the depth maps acquired by all the depth cameras is completed.
  • steps S211 to S212 are executed for the unprocessed depth map.
  • TSDF Volume TSDF volume based on the depth maps acquired by all the depth cameras. If it is determined that the generation of the TSDF space (TSDF Volume) based on the depth maps acquired by all the depth cameras is completed, the process proceeds to step S231. At this point, for example, if there are N Teps cameras, N TSDF spaces (TSDF Volumes) are generated.
  • Signed distance values F (v) (TSDF values) and their reliability values are stored in the voxels of these N TSDF spaces (TSDF Volume).
  • the N TSDF spaces (TSDF Volumes) generated by the TSDF space (TSDF Volume) generation unit 111 in the processes of steps S211 to S213 are input to the TSDF space (TSDF Volume) integration unit 131.
  • Step S221 Next, the processing of steps S221 to S223 executed in the visual volume base three-dimensional shape (polygon mesh) generation unit 121 and the polygon mesh base TSDF space (TSDF Volume) generation unit 122 shown in FIG. explain.
  • step S221 the visual volume crossing method (Visual Hull) -based three-dimensional shape (polygon mesh) generation unit 121 captures RGB captured by the RGB-D camera 10 that captures the subject 1 from a plurality of different positions shown in FIG. Input RGB camera data 60-1 to N including images.
  • RGB camera data 60-1 to N is as described above with reference to FIG. (A) RGB image, (B) Camera internal parameters, (C) Camera external parameters, These data are included.
  • the RGB image is an RGB image described above with reference to FIG. 2, and is an RGB color image that can be captured by a normal camera.
  • the internal parameters of the camera are parameters required for the calculation process of the three-dimensional shape of the subject based on the visual volume crossing method (Visual Hull) based on the RGB image, and are internal parameters of the camera such as the focal length of the camera and the optical center. Is.
  • the external parameters of the camera are also parameters required for the calculation process of the three-dimensional shape of the subject based on the visual volume crossing method (Visual Hull) based on the RGB image, and are external to the camera such as the position information of the camera and the shooting direction information. It is a parameter.
  • Step S222 the visual volume crossing method (Visual Hull) -based three-dimensional shape (polygon mesh) generating unit 121 executes the visual volume crossing method (Visual Hull) in step S222 to create a subject three-dimensional shape (polygon mesh). Generate.
  • This process is the process described above with reference to FIGS. 11 and 12. Specifically, for example, the following processing is executed.
  • the target space (Volume) including the subject photographed by the RGB camera is defined, the coordinates of each voxel in the space (Volume) are projected to each camera, and the voxels are inside or outside the subject silhouette. Is determined.
  • (Process 2) It is determined that the voxels determined to be inside the subject in all cameras are in the internal region of the subject shape, and the other voxels are determined to be outside, and a label corresponding to the determination result is set for each voxel.
  • the marching cube method is applied to a space (Volume) having a plurality of labeled voxels to acquire a three-dimensional shape of a subject.
  • the polygon mesh-based TSDF space (TSDF Volume) generation unit 122 is the polygon mesh-based TSDF space (TSDF Volume) generation unit 122, which is a visual volume-based three-dimensional shape (polygon mesh).
  • the subject three-dimensional shape (polygon mesh) of the subject 1 generated by the generation unit 121 is converted into a TSDF space (TSDF Volume).
  • each voxel in the TSDF space (TSDF Volume) generated by the polygon mesh-based TSDF space (TSDF Volume) generation unit 122 has a reliability defined in advance in addition to the signed distance value F (v) (TSDF value).
  • F signed distance value
  • the TSDF space (TSDF Volume) generated by the polygon mesh-based TSDF space (TSDF Volume) generation unit 122 is input to the TSDF space (TSDF Volume) integration unit 131.
  • Step S231 The process of step S231 is a process executed by the TSDF space (TSDF Volume) integration unit 131.
  • the TSDF space (TSDF Volume) integration unit 131 inputs the following data.
  • Voxels in N + 1 TSDF spaces (TSDF Volume) in total of (A) and (B) have different signed distance values F (v) (TSDF values) and their reliability values (0 to 1). There is a stored voxel.
  • the TSDF space (TSDF Volume) integration unit 131 When a plurality of signed distance values F (v) (TSDF values) are detected in the box cells at the same position in N + 1 TSDF spaces (TSDF Volumes), the TSDF space (TSDF Volume) integration unit 131 has a plurality of codes. Based on the attached distance value F (v), one final signed distance value F'(v) is calculated according to (Equation 1) described above.
  • the TSDF space (TSDF Volume) integration unit 131 finally uses the signed distance value F (v) stored in the corresponding voxels of N + 1 TSDF spaces (TSDF Volume), and finally 1 for each voxel. Generates one integrated TSDF space (TSDF Volume) in which one signed distance value F (v) is stored.
  • One integrated TSDF space (TSDF Volume) generated by the TSDF space (TSDF Volume) integration unit 131 is output to the three-dimensional shape generation unit 132.
  • Step S232 The process of the final step S232 is a process executed by the three-dimensional shape generation unit 132 of the image processing unit 100 shown in FIG.
  • the three-dimensional shape generation unit 132 inputs one integrated TSDF space (TSDF Volume) generated by the TSDF space (TSDF Volume) integration unit 131 from the TSDF space (TSDF Volume) integration unit 131.
  • One signed distance value F (v) is stored in the voxel of the integrated TSDF space (TSDF Volume).
  • the three-dimensional shape generation unit 132 can restore the three-dimensional structure of the subject by analyzing the signed distance values F (v) of all voxels based on the voxel storage values. For example, by extracting the position of zero-cross by the marching cube method, it is possible to obtain a mesh which is the surface shape of the subject with high accuracy and generate a three-dimensional structure of the subject composed of the mesh.
  • the image processing apparatus of the present disclosure integrates the TSDF space (TSDF Volume) generated based on the depth map and the RGB image-based TSDF space (TSDF Volume) into an integrated TSDF space (TSDF Volume). It is generated, and the three-dimensional shape of the subject is analyzed based on this integrated TSDF space (TSDF Volume) to generate highly accurate three-dimensional structure data of the subject.
  • the accuracy of the depth information of the area such as black hair is low, and the signed distance value F (v) with low reliability is stored in the voxel of the TSDF space (TSDF Volume) generated based on the depth map. Therefore, even if an attempt is made to restore the three-dimensional shape of the subject using this value, the highly accurate shape cannot be restored.
  • FIG. 14 is a diagram illustrating a specific example of data generated according to a process executed by the image processing apparatus of the present disclosure.
  • the depth map 270 and the RGB image 280 shown in FIG. 14 are acquired from the RGB-D camera that shoots the subject from various directions.
  • the depth map 270 and the RGB image 280 shown in FIG. 14 are N depth maps and N RGB images of the subject taken from various directions.
  • the N depth maps 270 are input to the TSDF space (TSDF Volume) generation unit 111, and N TSDF spaces (TSDF Volume) 271 corresponding to each depth map are generated.
  • An example of the subject three-dimensional structure generated based on the N TSDF space (TSDF Volume) 211 is the three-dimensional structure data 272 shown in FIG. Since this 3D structure data 272 is generated using only the depth map, the area where the low-precision depth value is set, for example, the black hair area, becomes incomplete 3D structure data whose 3D structure cannot be restored. It ends up.
  • the three-dimensional structure data 272 shown in FIG. 14 is an example of data when the processing of the present disclosure is not applied.
  • the RGB image 281 is input to the visual volume base three-dimensional shape (polygon mesh) generation unit 121, and first, the silhouette 281 shown in FIG. 14 is generated. This is the process described above with reference to FIGS. 11 and 12.
  • the subject three-dimensional shape (polygon mesh) 282 is generated by the visual volume crossing method (Visual Hull).
  • the polygon mesh-based TSDF space (TSDF Volume) generation unit 122 generates the polygon mesh-based TSDF space (TSDF Volume) 283 based on the subject three-dimensional shape (polygon mesh) 282.
  • the TSDF space (TSDF Volume) integration unit 131 inputs the following data.
  • A N TSDF spaces (TSDF Volume) 271 corresponding to each depth map
  • B Polygon mesh base TSDF space (TSDF Volume) 283,
  • the TSDF space (TSDF Volume) integration unit 131 synthesizes these plurality of TSDF spaces (TSDF Volume) to generate one integrated TSDF space (TSDF Volume) 291.
  • the three-dimensional shape generation unit 132 generates the three-dimensional structure data 292 of the subject based on one integrated TSDF space (TSDF Volume) 291.
  • the three-dimensional structure data 292 of the subject shown in FIG. 14 is an integrated TSDF space (TSDF Volume) that integrates a TSDF space (TSDF Volume) generated based on a depth map and an RGB image-based TSDF space (TSDF Volume). It is three-dimensional structure data generated based on.
  • TSDF Volume integrated TSDF space
  • TSDF Volume TSDF space generated based on a depth map
  • RGB image-based TSDF space TSDF Volume
  • the voxels in the TSDF space (TSDF Volume) generated based on the depth map include voxels in which the signed distance value F (v) with low accuracy is stored.
  • F (v) the signed distance value of the TSDF space (TSDF Volume)
  • RGB image the RGB image
  • one RGB-D camera 10 may be configured to sequentially capture images (RGB images, depth maps) while moving around the subject 1.
  • the subject 1 is rotated on a turntable.
  • a method typified by Visual SLAM or the like can be used for the position and orientation acquisition process of the camera, as in the above modification 1.
  • the signed distance values F (v) (TSDF value) of all voxels are not calculated, but from the depth map.
  • the signed distance value F (v) (TSDF value) may be calculated by selecting only the voxels corresponding to the region where the reliability of the acquired depth value is low.
  • the reliability of the depth value of the depth map can be determined by the high and low brightness values of infrared light (IR light) as explained above.
  • the depth value of a pixel having a low brightness value of infrared light (IR light) is determined to have low reliability.
  • TSDF Volume TSDF space
  • V Visual Hull
  • the target of 3D shape restoration is a human being
  • the region of the head (hair) is the region where the reliability of the depth value of the depth map is low.
  • the voxels corresponding to the hair region of this subject are subject to the signed distance value F (v) (TSDF value) calculation target of the TSDF space (TSDF Volume) to which the visual volume crossing method (Visual Hull) is applied. Voxel.
  • the TSDF space (TSDF Volume) integration unit 131 has executed the following processing.
  • one integrated TSDF space (TSDF Volume) having this signed distance value F'(v) is generated, and a process of restoring the three-dimensional shape based on this one integrated TSDF space (TSDF Volume) is performed. It was a composition.
  • the modified example described below has a configuration in which the user can input and change the weighting coefficient, and has a configuration in which the three-dimensional structure data generated according to the user's set value is displayed on the display unit.
  • the user observes the three-dimensional structure data corresponding to various composition ratios displayed on the display unit, selects the optimum three-dimensional structure data, and sets the composition ratio at the time when the display data is displayed to the optimum value. For example, it is possible to perform processing such as storing the three-dimensional structure data together with the value of the synthesis ratio in the storage unit.
  • FIG. 17 shows a configuration example of the image processing apparatus of this embodiment.
  • FIG. 17 is a configuration in which the internal configuration of the image processing unit 100 described above with reference to FIG. 5 is partially modified, and a weighting coefficient input unit 401 and a display unit 450 are added.
  • the changes in the internal configuration of the image processing unit 100 are as follows. (1) Addition of depth map-based TSDF space (TSDF Volume) integration unit 311. (2) TSDF space (TSDF Volume) integration unit 312, Depth map-based TSDF space (TSDF Volume) One depth map-based TSDF space (TSDF Volume) generated by the integration unit 311 and Change to the configuration to input the TSDF space (TSDF Volume) generated by the polygon mesh base TSDF space (TSDF Volume) generation unit 122.
  • the depth map-based TSDF space (TSDF Volume) integration unit 311 executes the integration process of the N TSDF spaces (TSDF Volume) generated by the TSDF space (TSDF Volume) generation units 111-1 to N, and 1 Generates two depth map-based TSDF spaces (TSDF Volume).
  • TSDF Volume The generation process of this one depth map-based TSDF space (TSDF Volume) is the same process as the integration process executed in the TSDF space (TSDF Volume) integration unit 131 described in the embodiment having the configuration shown in FIG. It is feasible. That is, one depth in which one signed distance value F (v) (TSDF value) is set for each voxel by weighted addition based on the reliability value of the signed distance value F (v) (TSDF value) of each corresponding voxel. Generate a map-based TSDF space (TSDF Volume). However, only the depth map-based TSDF space (TSDF Volume) is subject to integrated processing here.
  • the depth map-based TSDF space (TSDF Volume) integration unit 311 executes the integration process of the N TSDF spaces (TSDF Volume) generated by the TSDF space (TSDF Volume) generation units 111-1 to N. Generates one depth map-based TSDF space (TSDF Volume). One generated depth map-based TSDF space (TSDF Volume) is input to the TSDF space (TSDF Volume) integration unit 312.
  • the TSDF space (TSDF Volume) integration unit 312 (A) One depth map-based TSDF space (TSDF Volume) generated by the depth map-based TSDF space (TSDF Volume) integration unit 311. (B) TSDF space (TSDF Volume) generated by the polygon mesh-based TSDF space (TSDF Volume) generation unit 122, These two TSDF spaces (TSDF Volume) are input, and these two TSDF spaces (TSDF Volume) are combined.
  • the weighting coefficient ( ⁇ ) corresponding to the composite ratio of the two TSDF spaces (TSDF Volume) is input by the user via the weighting coefficient input unit 401, and can be changed at any time. As shown in FIG. 17, the user can input the weighting coefficient ( ⁇ ) 421 into the TSDF space (TSDF Volume) integrating unit 312 via the weighting coefficient input unit 401.
  • the TSDF space (TSDF Volume) integration unit 312 follows a weighting factor ( ⁇ ) 421 entered by the user.
  • TSDF Volume One depth map-based TSDF space (TSDF Volume) generated by the depth map-based TSDF space (TSDF Volume) integration unit 311.
  • B TSDF space (TSDF Volume) generated by the polygon mesh-based TSDF space (TSDF Volume) generation unit 122, The synthesis process of these two TSDF spaces (TSDF Volume) is executed to generate one integrated TSDF space (TSDF Volume).
  • the signed distance value F'(v) stored in each voxel of the integrated TSDF space (TSDF Volume) is calculated according to (Equation 2) shown below.
  • F visualHull (v) is a signed distance value stored in a voxel of the TSDF space (TSDF Volume) generated by the polygon mesh-based TSDF space (TSDF Volume) generation unit 122.
  • F Depth (v) is a signed distance value stored in a voxel of one depth map-based TSDF space (TSDF Volume) generated by the depth map-based TSDF space (TSDF Volume) integration unit 311.
  • is a weighting coefficient ⁇ , and corresponds to the ratio of the polygon mesh-based TSDF space (TSDF Volume) included in one integrated TSDF space (TSDF Volume) generated by the TSDF space (TSDF Volume) integration unit 312.
  • One integrated TSDF space (TSDF Volume) generated by the TSDF space (TSDF Volume) integration unit 312 is input to the three-dimensional shape generation unit 132.
  • the three-dimensional shape generation unit 132 generates three-dimensional structure data of the subject based on one integrated TSDF space (TSDF Volume) generated by the TSDF space (TSDF Volume) integration unit 312, and the three-dimensional structure of the generated subject.
  • the data is output to the display unit 450 and displayed.
  • the user can change the weighting coefficient ( ⁇ ) while observing the three-dimensional structure data of the subject displayed on the display unit 450, and when the high-quality three-dimensional structure data is displayed, the weight is weighted.
  • the change of the coefficient ( ⁇ ) can be stopped, and the three-dimensional structure data can be stored in the storage unit together with the weighting coefficient ( ⁇ ).
  • FIG. 18 shows a specific example of the three-dimensional structure data displayed on the display unit 450 as the weighting coefficient ( ⁇ ) is changed.
  • the weight coefficient ⁇ corresponds to the ratio of the polygon mesh-based TSDF space (TSDF Volume) included in one integrated TSDF space (TSDF Volume) generated by the TSDF space (TSDF Volume) integration unit 312.
  • the user observes the three-dimensional structure data corresponding to the values of various weighting factors ⁇ displayed on the display unit 450, selects the optimum three-dimensional structure data, and displays the display data. It is possible to determine that the weighting coefficient ⁇ at the time of arrival is the optimum value, and store the three-dimensional structure data together with the value of the weighting coefficient ( ⁇ ) in the storage unit.
  • the image processing device of the present disclosure can be specifically configured by an information processing device such as a PC (Personal Computer).
  • PC Personal Computer
  • the image processing device 500 includes a controller 501, a ROM (Read Only Memory) 502, a RAM (Random Access Memory) 503, an input / output interface 505, and a bus 504 that connects them to each other.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the controller 501 appropriately accesses the RAM 503 and the like as necessary, and comprehensively controls each block of the image processing device 500 while performing various arithmetic processes.
  • the controller 501 may be a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), or the like.
  • the ROM 502 is a non-volatile memory in which firmware such as an OS, a program, and various parameters to be executed by the CPU 501 is fixedly stored.
  • the RAM 503 is used as a work area of the CPU 501 or the like, and temporarily holds an OS, various applications being executed, and various data being processed.
  • An input unit 506, an output unit 507, a storage unit 508, a communication unit 509, a drive 510 to which the removable media 511 can be mounted, and the like are connected to the input / output interface 505.
  • the input / output interface 505 may be configured to be connectable to an external peripheral device via a USB (Universal Serial Bus) terminal, an IEEE terminal, or the like.
  • USB Universal Serial Bus
  • the input unit 506 is, for example, an input unit capable of inputting a captured image (RGB image, depth map) of the RGB-D camera 10 shown in FIG. 1 and further inputting user operation information and the like.
  • the input unit 506 may have an imaging unit.
  • the input unit 506 also includes a pointing device such as a mouse, a keyboard, a touch panel, and other input devices.
  • the output unit 507 outputs data such as images and sounds.
  • the output unit 507 may have a display unit.
  • the storage unit 508 is a non-volatile memory such as an HDD (Hard Disk Drive), a flash memory (SSD; Solid State Drive), or other solid-state memory.
  • the OS, various applications, and various data are stored in the storage unit 508.
  • the storage unit 508 is also used as a storage area for input images, image information, generated output image groups, and the like.
  • the communication unit 509 is, for example, a NIC (Network Interface Card) for Ethernet (registered trademark), and is responsible for communication processing via a network.
  • NIC Network Interface Card
  • Ethernet registered trademark
  • the drive 510 is used for data recording and reproduction processing using the removable media 511.
  • the removable media 511 is composed of, for example, a BD, a DVD, a CD, an HDD, a flash memory, or the like.
  • the technology disclosed in the present specification can have the following configuration.
  • (1) It has an image processing unit that inputs images taken by a depth camera and a visible light camera and analyzes the three-dimensional shape of the subject.
  • the image processing unit Using the depth map acquired from the image taken by the depth camera, a depth map-based TSDF space (TSDF Volume) is generated.
  • TSDF Volume Using the image taken by the visible light camera, a visible light image-based TSDF space is generated.
  • An integrated TSDF space is generated by an integrated process of the depth map-based TSDF space and the visible light image-based TSDF space.
  • An image processing device that executes three-dimensional shape analysis processing of the subject using the integrated TSDF space.
  • the image processing unit is A three-dimensional shape (polygon mesh) of the subject is generated from the image taken by the visible light camera by applying the visual volume crossing method (Visual Hull), and the generated three-dimensional shape (polygon mesh) is used.
  • the image processing apparatus according to (1) which generates the visible light image-based TSDF space.
  • the image processing unit is The three-dimensional shape (polygon mesh) of the subject is generated by detecting the intersecting regions of a plurality of silhouettes acquired from images taken by a plurality of visible light cameras obtained by photographing the subject from a plurality of different directions (2).
  • Image processing device The three-dimensional shape (polygon mesh) of the subject is generated by detecting the intersecting regions of a plurality of silhouettes acquired from images taken by a plurality of visible light cameras obtained by photographing the subject from a plurality of different directions (2).
  • the image processing unit is A plurality of depth map-based TSDF spaces are generated by using a plurality of depth maps acquired from captured images of the subject taken by a depth camera from a plurality of different directions.
  • the image processing apparatus according to any one of (1) to (3), which generates the integrated TSDF space by an integrated process of a plurality of depth map-based TSDF spaces and the visible light image-based TSDF space.
  • the image processing unit is A signed distance value F (v) (TSDF value) including distance information between the subject and the voxel is stored in the voxels constituting each TSDF space of the depth map-based TSDF space and the visible light image-based TSDF space.
  • the image processing apparatus according to any one of (1) to (4) that generates a TSDF space.
  • the image processing unit is The value calculated by performing weighting addition of the signed distance values F (v) (TSDF value) in the voxels of the depth map-based TSDF space and the visible light image-based TSDF space is the voxel of the integrated TSDF space.
  • the image processing apparatus according to (5) which is stored in.
  • the image processing unit is As a weight value applied to the weight addition, The image processing apparatus according to (6), wherein a reliability value recorded in association with a signed distance value F (v) (TSDF value) in a voxel in the depth map-based TSDF space is applied.
  • the depth camera has a configuration in which a depth map generation process using infrared light is performed.
  • the image processing apparatus according to (7), wherein the reliability value is a value corresponding to a pixel value of an image captured by the depth camera.
  • the image processing unit is Described in any of (1) to (8), wherein subject images from different directions taken by a plurality of cameras arranged around the subject are input and three-dimensional shape analysis processing of the subject is executed.
  • Image processing device Described in any of (1) to (8), wherein subject images from different directions taken by a plurality of cameras arranged around the subject are input and three-dimensional shape analysis processing of the subject is executed.
  • the image processing unit is The image processing apparatus according to any one of (1) to (8), which inputs a subject image from a different direction taken by a camera moving around the subject and executes a three-dimensional shape analysis process of the subject. ..
  • the image processing unit is The image according to any of (1) to (8), in which subject images taken from different directions taken by a fixed camera that captures the rotating subject are input and three-dimensional shape analysis processing of the subject is executed. Processing equipment.
  • the image processing apparatus further includes It has an input unit for inputting a weighting coefficient to be applied to the integrated processing of the depth map-based TSDF space and the visible light image-based TSDF space.
  • the image processing unit The integrated TSDF space is generated by integrating the depth map-based TSDF space and the visible light image-based TSDF space according to the weighting coefficient input via the input unit (1) to (11). The image processing device described in the space.
  • the image processing apparatus further includes It has a display unit that displays the three-dimensional structure data of the subject generated by the image processing unit.
  • the image processing unit The image processing apparatus according to (12), which displays three-dimensional structure data changed according to the weighting coefficient input via the input unit on the display unit.
  • the image processing device is It has an image processing unit that inputs images taken by a depth camera and a visible light camera and analyzes the three-dimensional shape of the subject.
  • the image processing unit Using the depth map acquired from the image taken by the depth camera, a depth map-based TSDF space (TSDF Volume) is generated.
  • TSDF Volume Using the image taken by the visible light camera, a visible light image-based TSDF space is generated.
  • An integrated TSDF space is generated by an integrated process of the depth map-based TSDF space and the visible light image-based TSDF space.
  • a program that executes image processing in an image processing device is It has an image processing unit that inputs images taken by a depth camera and a visible light camera and analyzes the three-dimensional shape of the subject.
  • the program is applied to the image processing unit.
  • TSDF Volume depth map-based TSDF space
  • the series of processes described in the specification can be executed by hardware, software, or a composite configuration of both.
  • the program can be pre-recorded on a recording medium.
  • LAN Local Area Network
  • the various processes described in the specification are not only executed in chronological order according to the description, but may also be executed in parallel or individually as required by the processing capacity of the device that executes the processes.
  • the system is a logical set configuration of a plurality of devices, and the devices having each configuration are not limited to those in the same housing.
  • a configuration is realized in which images taken by a depth camera and a visible light camera are input to analyze and restore a highly accurate three-dimensional shape of a subject.
  • it has an image processing unit that inputs images taken by a depth camera and a visible light camera and analyzes the three-dimensional shape of the subject.
  • the image processing unit uses the depth map acquired from the captured image of the depth camera to generate a depth map-based TSDF space (TSDF Volume), and uses the captured image of the visible light camera to generate the visible light image-based TSDF. Create a space.
  • TSDF Volume depth map-based TSDF space
  • the integrated TSDF space is generated by the integrated processing of the depth map-based TSDF space and the visible light image-based TSDF space, and the integrated TSDF space is used to execute the three-dimensional shape analysis processing of the subject.
  • a configuration is realized in which images taken by a depth camera and a visible light camera are input to analyze and restore a highly accurate three-dimensional shape of a subject.
  • Image processing device 50 Input unit 100 Image processing unit 111 TSDF space (TSDF Volume) generation unit 121 Visual volume base Three-dimensional shape (polygon mesh) generation unit 122 Polygon mesh base TSDF space (TSDF Volume) generator 131 TSDF space (TSDF Volume) integration unit 132 Three-dimensional shape generator 300 Image processing unit 311 Depth map-based TSDF space (TSDF Volume) integration unit 312 TSDF space (TSDF Volume) integration unit 401 Weight Coefficient input unit 450 Display unit 500 Image processing device 501 Controller 502 ROM 503 RAM 504 Bus 505 Input / output interface 506 Input unit 507 Output unit 508 Storage unit 509 Communication unit 510 Drive 511 Removable media

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

デプスカメラと、可視光カメラの撮影画像を入力して、被写体の三次元形状を解析する。デプスカメラと、可視光カメラの撮影画像を入力して、被写体の三次元形状を解析する画像処理部を有する。画像処理部は、デプスカメラの撮影画像から取得されるデプスマップを利用して、デプスマップベースTSDF空間(TSDF Volume)を生成し、可視光カメラの撮影画像を利用して、可視光画像ベースTSDF空間を生成する。さらに、デプスマップベースTSDF空間と、可視光画像ベースTSDF空間との統合処理によって、統合TSDF空間を生成し、統合TSDF空間を利用して、被写体の三次元形状解析処理を実行する。

Description

画像処理装置、および画像処理方法、並びにプログラム
 本開示は、画像処理装置、および画像処理方法、並びにプログラムに関する。さらに詳細には、三次元(3D)形状解析処理を実行する画像処理装置、画像処理システム、並びにプログラムに関する。
 近年、コンピュータ・グラフィクス(CG:Computer Graphics)技術を用いた三次元画像生成技術が、映画やゲームなど様々な分野で利用されている。
 例えば、特許文献1(特許第5906258号公報)には、カメラからの距離(デプス)を計測可能なデプスカメラ(深度カメラ)による撮影画像から生成されるデプスマップ(深度マップ)を利用することで、被写体の高精度な三次元形状を再構成する技術を開示している。このデプスマップを利用した三次元形状の再構成処理は、Kinect Fusionと呼ばれる。
 Kinect Fusionは、三次元形状再構成の対象を静止シーンとし、自己位置推定と環境マップを同時に生成するSLAM(Simultaneous Localization and Mapping)と同様の処理を実行して、マップ生成とトラッキングによる自己位置推定を同時に行う。これにより、高精度で高品質な被写体の三次元形状の再構成を実現している。
 Kinect Fusionでは、シーン(被写体)の構造を表現するマップとしてシーンを立体空間であるボリューム(Volume)として表現し、さらにボリューム(Volume)構成要素である立方体のボクセル各々にデプスカメラが取得したデプス値からの距離を符号付で格納したマップを利用する。このマップは、TSDF空間(TSDF Volume=Volumetric Truncated Signed Distance Function)と呼ばれる。
 カメラの位置・姿勢が既知である場合、複数の視点から取得されるデプス情報に基づいて生成したTSDF空間(TSDF Volume)を構成する各ボクセルの重み付き平均をとることで、より正確な三次元構造の復元が可能となる。
 Kinect Fusion発表以降、これを応用した技術がいくつか発表されている。例えば、三次元形状解析装置のメモリ容量を超える大規模な空間を処理対象とする方法や、動的な被写体に対する拡張を施した方法などが発表され、高い品質で三次元形状を再構築できることが示されている。
 一方、これらすべてのアプローチはデプスカメラから得られるデプスマップのみから形状の復元を行っているため、デプスの取得が難しい素材等については再構成を行うことができないという課題が存在する。
 なお、現在、比較的安価に入手可能なデプスカメラの多くは、赤外光(IR光)を利用したアクティブセンシング(Active Sensing)と呼ばれる方式を用いたカメラである。しかし、この赤外光(IR光)源を利用したデプスカメラは、赤外光に対する反射が弱い素材に対しては、高精度なデプス計測が困難になる、あるいはデプスが計測できなくなるという問題がある。
 赤外光(IR光)を吸収する素材の例として黒いもの、特に東洋人の黒髪などが顕著な例として挙げられる。従って、例えば黒髪の領域についてはデプス測定精度が低下してしまい、三次元形状が算出できなくなってしまう。
 このように、TSDF空間(TSDF Volume)を用いた三次元形状の再構成処理においてはデプスマップを入力としているためデプスが正確に取得できない領域については正しい三次元形状の推定できないという問題がある。
特許第5906258号公報
 本開示は、例えば上述の問題点に鑑みてなされたものであり、デプスカメラによって正確なデプスが取得し難い領域についても高精度な三次元形状を解析可能とした画像処理装置、および画像処理方法、並びにプログラムを提供するものである。
 本開示の第1の側面は、
 デプスカメラと、可視光カメラの撮影画像を入力して、被写体の三次元形状を解析する画像処理部を有し、
 前記画像処理部は、
 前記デプスカメラの撮影画像から取得されるデプスマップを利用して、デプスマップベースTSDF空間(TSDF Volume)を生成し、
 前記可視光カメラの撮影画像を利用して、可視光画像ベースTSDF空間を生成し、
 前記デプスマップベースTSDF空間と、前記可視光画像ベースTSDF空間との統合処理によって、統合TSDF空間を生成し、
 前記統合TSDF空間を利用して、前記被写体の三次元形状解析処理を実行する画像処理装置にある。
 さらに、本開示の第2の側面は、
 画像処理装置において実行する画像処理方法であり、
 前記画像処理装置は、
 デプスカメラと、可視光カメラの撮影画像を入力して、被写体の三次元形状を解析する画像処理部を有し、
 前記画像処理部が、
 前記デプスカメラの撮影画像から取得されるデプスマップを利用して、デプスマップベースTSDF空間(TSDF Volume)を生成し、
 前記可視光カメラの撮影画像を利用して、可視光画像ベースTSDF空間を生成し、
 前記デプスマップベースTSDF空間と、前記可視光画像ベースTSDF空間との統合処理によって、統合TSDF空間を生成し、
 前記統合TSDF空間を利用して、前記被写体の三次元形状解析処理を実行する画像処理方法にある。
 さらに、本開示の第3の側面は、
 画像処理装置において画像処理を実行させるプログラムであり、
 前記画像処理装置は、
 デプスカメラと、可視光カメラの撮影画像を入力して、被写体の三次元形状を解析する画像処理部を有し、
 前記プログラムは、前記画像処理部に、
 前記デプスカメラの撮影画像から取得されるデプスマップを利用して、デプスマップベースTSDF空間(TSDF Volume)を生成する処理と、
 前記可視光カメラの撮影画像を利用して、可視光画像ベースTSDF空間を生成する処理と、
 前記デプスマップベースTSDF空間と、前記可視光画像ベースTSDF空間との統合処理によって、統合TSDF空間を生成する処理と、
 前記統合TSDF空間を利用して、前記被写体の三次元形状解析処理を実行する処理を実行させるプログラムにある。
 なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な画像処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、画像処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
 本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 本開示の一実施例の構成によれば、デプスカメラと、可視光カメラの撮影画像を入力して、被写体の高精度な三次元形状を解析、復元する構成が実現される。
 具体的には、例えば、デプスカメラと、可視光カメラの撮影画像を入力して、被写体の三次元形状を解析する画像処理部を有する。画像処理部は、デプスカメラの撮影画像から取得されるデプスマップを利用して、デプスマップベースTSDF空間(TSDF Volume)を生成し、可視光カメラの撮影画像を利用して、可視光画像ベースTSDF空間を生成する。さらに、デプスマップベースTSDF空間と、可視光画像ベースTSDF空間との統合処理によって、統合TSDF空間を生成し、統合TSDF空間を利用して、被写体の三次元形状解析処理を実行する。
 本構成により、デプスカメラと、可視光カメラの撮影画像を入力して、被写体の高精度な三次元形状を解析、復元する構成が実現される。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
本開示の画像処理装置において実行する被写体(シーン)の三次元形状解析処理に適用可能なシステム構成例を説明する図である。 RGB画像と、デプスマップの例について説明する図である。 RGB画像と、デプスマップの例について説明する図である。 多数のカメラを配置したシステム構成例を説明する図である。 画像処理部の具体的構成例について説明する図である。 各カメラから画像処理部に対して入力されるデータの具体例について説明する図である。 TSDF空間(TSDF Volume)生成部が実行する処理シーケンスについて説明するフローチャートを示す図である。 ボクセルの具体例について説明する図である。 TSDF空間(TSDF Volume)とボクセルについて説明する図である。 TSDF空間(TSDF Volume)とボクセルについて説明する図である。 視体積交差法(Visual Hull)について説明する図である。 各カメラの撮影画像から取得されるシルエットの例について説明する図である。 本開示の画像処理装置が実行する処理シーケンスについて説明するフローチャートを示す図である。 本開示の画像処理装置が実行する処理に従って生成されるデータの具体例を説明する図である。 複数のカメラを用いず、1台のカメラのみを利用する構成例について説明する図である。 複数のカメラを用いず、1台のカメラのみを利用する構成例について説明する図である。 ユーザが重み係数を入力、変更可能な構成とした実施例の画像処理装置の構成例について説明する図である。 重み係数(α)の変更に伴って表示部に表示される三次元構造データの具体例について説明する図である。 画像処理装置のハードウェア構成例について説明する図である。
 以下、図面を参照しながら本開示の画像処理装置、および画像処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
 1.本開示の画像処理装置の実行する処理の概要について
 2.画像処理部の構成と処理について
 2-1.TSDF空間(TSDF Volume)生成部の実行する処理の詳細について
 2-2.視体積交差法(Visual Hull)ベース三次元形状(ポリゴンメッシュ)生成部の実行する処理について
 2-3.ポリゴンメッシュベースTSDF空間(TSDF Volume)生成部の実行する処理について
 2-4.TSDF空間(TSDF Volume)統合部の実行する処理について
 2-5.三次元形状生成部の実行する処理について
 3.本開示の画像処理装置が実行する処理シーケンスについて
 4.本開示の処理を適用して得られる被写体の三次元構造データの具体例について
 5.その他の実施例について
 6.画像処理装置のハードウェア構成例について
 7.本開示の構成のまとめ
  [1.本開示の画像処理装置の構成と実行する処理について]
 図1以下を参照して、本開示の画像処理装置の構成と実行する処理について説明する。
 本開示の画像処理装置は、三次元形状の解析対象となる被写体(シーン)を撮影するデプスカメラ(深度カメラ)と、RGBカメラの撮影画像を利用して、デプスカメラによるデプスが取得できない領域についても高精度な三次元形状を解析可能とした装置である。
 具体的には、以下の処理を実行する。
 (処理1)デプスカメラ(深度カメラ)によって取得される被写体(シーン)のデプスマップ(深度マップ)からTSDF空間(TSDF Volume=Volumetric Truncated Signed Distance Function)=「丸め付き符号付き距離関数空間」を生成する。
 (処理2)同じ被写体(シーン)を複数の異なる視点からRGBカメラによって撮影し、複数の異なる視点からの被写体(シーン)のシルエット(RGB画像)を取得する。
 なお、処理1と処理2は同時に実行可能である。
 (処理3)複数のRGBカメラによって撮影された複数の異なる視点からの被写体(シーン)のシルエットの交差領域(And領域)を検出して実行する視体積交差法(Visual Hull)により、被写体三次元形状(ポリゴンメッシュ)を生成する。
 なお、視体積交差法(Visual Hull)の詳細については後述する。
 (処理4)上記(処理3)で視体積交差法(Visual Hull)によって生成した被写体三次元形状(ポリゴンメッシュ)に基づいてTSDF空間(TSDF Volume)を生成する。
 (処理5)上記(処理4)で生成した視体積交差法(Visual Hull)によって生成した被写体三次元形状(ポリゴンメッシュ)に基づくTSDF空間(TSDF Volume)と、上記(処理1)においてデプスマップから取得したTSDF空間(TSDF Volume)を統合して、被写体(シーン)全体の三次元形状を再構成する。
 これらの処理によって、(処理1)においてデプスマップから取得したTSDF空間(TSDF Volume)から取得できない、あるいは低精度の被写体領域の三次元構造を、(処理4)で算出したRGB画像に基づく視体積交差法(Visual Hull)によって生成した被写体三次元形状(ポリゴンメッシュ)から生成したTSDF空間(TSDF Volume)によって補完することが可能となり、被写体(シーン)全体の高精度な三次元形状の再構成が可能となる。
 図1以下を参照して本開示の画像処理装置の具体的な構成と処理について説明する。
 図1は、本開示の画像処理装置100において実行する被写体(シーン)の三次元形状解析処理に適用可能なシステム構成例を説明する図である。
 図1において、三次元形状解析処理対象は被写体1である。被写体1の周囲には、異なる視点位置から被写体を撮影するRGB-Dカメラ10が複数、配置されている。
 RGB-Dカメラ10は、デプス(深度)マップ(デプス画像(=距離画像))と、RGB画像を同時に撮影することが可能なカメラである。
 例えば、図2に示すように以下の2つの画像データを同時に撮影することができる。
 (1)RGB画像
 (2)デプスマップ(デプス画像(=距離画像))
 RGB画像は、通常のカメラによって撮影可能なカラー画像である。
 デプスマップは、カメラからの距離に応じた濃淡値が各画素に設定された画像である。
 なお、デプスカメラの多くは、赤外光(IR光)を用いて被写体からの反射光を検出して距離計測を行う。例えばToF (Time of Flight) 方式のデプスカメラは赤外光がカメラと被写体間を往復する時間を利用し、Structured Light方式のデプスカメラは照射した赤外光のパターンをカメラで観測することで距離を計測する。
 しかし、前述したように、赤外光(IR光)を吸収する素材、すなわち赤外光に対する反射が弱い素材については、高精度なデプス計測が困難になる、あるいはデプスが計測できなくなるという問題がある。
 赤外光(IR光)を吸収する素材の例として黒いもの、特に東洋人の黒髪などがある。すなわち、例えば黒髪の領域についてはデプスカメラによるデプス測定精度が低下する。
 このため、図1に示すRGB-Dカメラ10によって実際に撮影されるデプスマップは、図3(2)に示すように、人の黒髪等の一部領域の深度(距離)に対応する画素値が不正確な値、すなわち低精度な深度情報に設定されてしまう。このような低精度の深度情報を用いても精度の高い三次元形状は復元できない。
 本開示の画像処理装置は、このような領域についてRGBカメラによって撮影された画像を用いて三次元形状を復元する。
 なお、図1に示す例では、被写体1を撮影するカメラとして、デプスマップとRGB画像を同時に撮影することが可能なカメラを利用した例を示しているが、デプスカメラとRGBカメラを個別に用意して、各カメラを被写体の周囲に配置する構成としてもよい。
 なお、本実施例では、RGBカメラを用いて被写体の可視光カラー画像を撮影する例を説明するが、RGBカメラでなくモノクロカメラを利用してもよい。通常の可視光での画像撮影を行う様々な可視光カメラが利用可能である。
 また、図1に示すカメラ配置は、一例であり、さらにカメラ数を増やしてもよい。
 例えば、図4に示すように多数のカメラを配置する構成としてもよい。
 さらに、被写体1に対する上からの画像や下からの画像を撮影するようにカメラを配置してもよい。
 図1に示すように、画像処理装置20は、入力部50、画像処理部100を有する。
 入力部50は、RGB-Dカメラ10各々から、撮影画像であるRGB画像、デプスマップ(デプス画像(=距離画像))、さらにカメラの内部パラメータ、外部パラメータを入力する。
 内部パラメータとは、例えば、カメラの焦点距離、光学中心等のデータであり、外部パラメータとは、カメラの位置、撮影方向等のパラメータである。
 具体的には、TSDF空間(TSDF Volume)生成処理や、視体積交差法(Visual Hull)に基づく被写体三次元形状の算出処理に必要となるパラメータである。
 これらのパラメータは、各カメラの撮影画像の属性情報として設定され、画像とともに、画像処理装置20に入力される。
 画像処理装置20の入力部50は、各RGB-Dカメラ10各々から入力したRGB画像、デプスマップ、内部パラメータ、外部パラメータを画像処理部100に出力する。
 画像処理部100は、これらの入力データを用いて被写体の三次元形状を解析する。
 以下、図5を参照して、画像処理部100の具体的構成と実行する処理について説明する。
  [2.画像処理部の構成と処理について]
 図5は、画像処理部100の具体的構成例を示す図である。
 図5に示すように、画像処理部100は、複数のTSDF空間(TSDF Volume)生成部111-1~N、視体積交差法(Visual Hull)ベース三次元形状(ポリゴンメッシュ)生成部121、ポリゴンメッシュベースTSDF空間(TSDF Volume)生成部122、TSDF空間(TSDF Volume)統合部131、三次元形状生成部132を有する。
 図5に示すように、画像処理部100には、入力部50を介して被写体周囲に配置された各カメラからの入力データが入力される。
 図5に示すデプスカメラデータ1~N,50-1~Nと、RGBカメラデータ1~N,60-1~Nである。
 これらの入力データは、被写体周囲に配置された各カメラからの入力データである。
 この入力データの具体例について、図6を参照して説明する。
 図6に示すように、デプスカメラデータ50には、
 (a)デプスマップ、
 (b)カメラ内部パラメータ、
 (c)カメラ外部パラメータ、
 これらのデータが含まれる。
 (a)デプスマップは、先に図2を参照して説明したデプスマップであり、カメラからの距離に応じた濃淡値が各画素に設定された画像である。
 (b)カメラ内部パラメータは、デプスマップに基づくTSDF空間(TSDF Volume)生成処理に必要となるパラメータであり、例えばカメラの焦点距離、光学中心等のカメラ内部パラメータである。
 (c)カメラ外部パラメータも、デプスマップに基づくTSDF空間(TSDF Volume)生成処理に必要となるパラメータであり、例えばカメラの位置情報、撮影方向情報等のカメラ外部パラメータである。
 なお、各カメラの位置、姿勢等のパラメータは事前のキャリブレーションにより取得することができる。
 また、図6に示すように、RGB画像カメラデータ60には、
 (a)RGB画像、
 (b)カメラ内部パラメータ、
 (c)カメラ外部パラメータ、
 これらのデータが含まれる。
 (a)RGB画像は、先に図2を参照して説明したRGB画像であり、通常のカメラからのによって撮影可能なRGBカラー画像である。
 (b)カメラ内部パラメータは、RGB画像に基づく視体積交差法(Visual Hull)に基づく被写体三次元形状の算出処理に必要となるパラメータであり、例えばカメラの焦点距離、光学中心等のカメラ内部パラメータである。
 (c)カメラ外部パラメータも、RGB画像に基づく視体積交差法(Visual Hull)に基づく被写体三次元形状の算出処理に必要となるパラメータであり、例えばカメラの位置情報、撮影方向情報等のカメラ外部パラメータである。
 これらのデプスカメラデータと、RGBカメラデータが、被写体周囲の各カメラから入力される。
  (2-1.TSDF空間(TSDF Volume)生成部の実行する処理の詳細について)
 次に、TSDF空間(TSDF Volume)生成部111-1~Nの実行する処理の詳細について説明する。
 図1に示すRGB-Dカメラ10各々のデプスカメラデータ1~N,50-1~Nは、図5に示すように、TSDF空間(TSDF Volume)生成部111-1~Nの各々に入力される。
 TSDF空間(TSDF Volume)生成部111-1~Nの各々は、1つのRGB-Dカメラ10のデプスカメラデータを入力して、1つのデプスカメラの取得したデプスマップに基づく1つのTSDF空間(TSDF Volume)=「丸め付き符号付き距離関数空間」を生成する。
 TSDF空間(TSDF Volume)生成部111-1~N各々が実行する処理シーケンスについて、図7に示すフローチャートを参照して説明する。
 なお、図7に示すフローに従った処理は、例えば、画像処理装置20の記憶部に格納されたプログラムに従って、プログラム実行機能を持つCPU等の制御の下に実行可能である。
 図7に示すフローの各ステップの処理について、順次、説明する。
 なお、図7に示すフローのステップS101以下の処理は、1つのTSDF空間(TSDF Volume)生成部111が、1つのデプスカメラから、先に図6を参照して説明したデプスカメラデータを入力して開始される。
 すなわち、
 (a)デプスマップ、
 (b)カメラ内部パラメータ、
 (c)カメラ外部パラメータ、
 これらのデプスカメラデータを入力した後に実行される。
  (ステップS101)
 まず、TSDF空間(TSDF Volume)生成部111は、ステップS101において、ボクセル識別子:iの初期値を設定する。
 具体的には、
 i=0
 とするボクセル識別子初期値設定を行う。
 図8を参照してボクセルの具体例について説明する。
 ボクセルとは、三次元空間の構成要素としての立方体に相当する領域である。図8に示すように、三次元空間の中の位置領域として定義されるTSDF空間(TSDF Volume)を細分割した1つの立方体がボクセルである。
 図7に示すフローに従って実行される処理の具体例について図9を参照して説明する。
 図9には三次元構造の解析対象となる被写体1を含む三次元空間をTSDF空間(TSDF Volume)とし、このTSDF空間(TSDF Volume)内の1つのボクセル201を示している。
 ボクセル201は、デプスマップを撮影したデプスカメラ220と被写体1の間に存在する。デプスカメラ220の前方の光軸方向をZ軸(奥行)、垂直上方向をy軸とする。なお、この座標軸はカメラ座標である。
 図7に示すフローに従って実行するTSDF空間(TSDF Volume)生成処理においては、TSDF空間(TSDF Volume)を構成する各ボクセルに符号付距離値F(v)(TSDF値)を格納する処理を実行する。
 符号付距離値F(v)(TSDF値)は図9に示すように、ボクセル201と被写体との距離をプラスマイナスの符号付で格納する。プラスマイナスの符号はボクセルが被写体の外側か内側かで決定される。
 デプスカメラから見てボクセル201のZの値が被写体表面のZの値よりも小さい場合、ボクセル201はカメラから見て被写体よりも手前であり、被写体の外側であるため、プラスの符号が与えられる。反対にボクセル201のZの値が被写体表面のZの値よりも大きい場合はマイナスの符号が与えられる。
 このように、TSDF空間(TSDF Volume)を構成するボクセルの各々には、被写体とボクセルとの距離が符号付距離値F(v)(TSDF値)として格納される。
 なお、プラスマイナスの符号と被写体内外の関係はシステム全体で統一されていればよく、被写体の外側をマイナス、被写体の内側をプラスとして表現してもよい。
なお、ボクセルには、さらに、この符号付距離値F(v)(TSDF値)に併せて、符号付距離値F(v)(TSDF値)の信頼度を示す値(信頼度値)も対応付けて格納される。
 信頼度は、例えば、デプスカメラによる各画素単位の赤外光(IR光)の受光強度に応じた値が設定される。赤外光(IR光)の受光強度が大きい場合は高信頼度であり、赤外光(IR光)の受光強度が小さい場合は低信頼度となる。
 例えば、信頼度値の値は、最高信頼度=1.0、最低信頼度=0として、1.0~0.0の範囲で設定する。
 上述したように、TSDF空間(TSDF Volume)を構成するボクセルの各々には、ボクセルと被写体との符号付距離値F(v)(TSDF値)とその信頼度値(例えば0~1)が格納される。
 図7に示すフローに戻り、TSDF空間(TSDF Volume)生成部111の実行する処理についての説明を続ける。
 ステップS101において、ボクセル識別子:iの初期値設定、すなわち、
 i=0
 とするボクセル識別子初期値設定が完了すると、ステップS102に進む。
  (ステップS102)
 ステップS102では、i番目のボクセルの座標を取得する。
 ここでは、ボクセル座標軸を用いて、ボクセル座標軸上におけるi番目のボクセルの座標を取得する。
 ボクセル座標軸は、例えば、図8に示すTSDF空間(TSDF Volume)の座標軸x,y,zによって構成される座標軸である。
 ステップS102では、このボクセル座標軸における選択ボクセル(ボクセル識別子=i)の座標(x,y,z)を取得する。
  (ステップS103)
 次に、ステップS103において、ステップS102で取得した選択ボクセル(ボクセル識別子=i)のボクセル座標軸に従った座標(x,y,z)を世界座標に変換する。
 世界座標は、被写体やカメラの存在する実領域に対応する座標軸を持つ座標である。
 この変換処理によって得られる世界座標に従ったボクセル位置(X,Y,Z)から、同じ世界座標上の被写体とカメラの各位置に対する相対的な位置も算出可能である。
  (ステップS104)
 次に、ステップS103において算出した世界座標に従ったボクセル位置(X,Y,Z)をカメラ座標に変換する。
 カメラ座標は、TSDF空間(TSDF Volume)生成部111が処理対象としているデプスマップを撮影したデプスカメラの位置を原点とした座標軸に従った座標である。
 例えば図9に示すデプスカメラ220上に示す座標軸(x,y,z)に従った座標である。
 先に図9を参照して説明したボクセルに格納する符号付距離値F(v)(TSDF値)の算出処理は、このカメラ座標を用いて実行することになる。
  (ステップS105)
 次に、ステップS105において、ステップS102で選択したボクセル(識別子=i)のカメラ座標におけるボクセル位置と、デプスマップから得られるデプス値(深度(距離))に基づいて、符号付距離値:F(v)を計算する。
 この処理は、先に図9を参照して説明した処理である。
 先に図9を参照して説明したように、符号付距離値F(v)(TSDF値)は、ボクセルと被写体との距離を符号付で格納した値である。
 ステップS105では、ステップS102で選択したボクセル(識別子=i)に対応する符号付距離値F(v)(TSDF値)を算出する。
  (ステップS106)
 次に、ステップS106において、ステップS105で算出したボクセル(識別子=i)に対応する符号付距離値F(v)(TSDF値)に含まれる距離の絶対値を予め規定した閾値と比較し、距離絶対値がしきい値より大きいか否かを判定する。
 距離絶対値がしきい値より大きいと判定した場合は、ステップS107の処理を行わず、ステップS108に進む。
 距離絶対値がしきい値より大きくないと判定した場合は、ステップS107の処理を実行する。
 すなわち、距離絶対値がしきい値より大きいと判定した場合は、ステップS105で算出した符号付距離値F(v)(TSDF値)を無効値と判断し、ステップS107でのF(v)のボクセルに対する格納処理を行わない。
 この処理は、例えば被写体1の三次元形状の復元に不要な値をボクセルに格納しないための処理である。この一つの具体例は、例えば図10に示すような場合である。図10に示すボクセル202に対して算出される符号付距離値F(v)(TSDF値)は、図10に示すように、被写体1背面の壁とボクセル202との距離に対応した距離値を持つことになる。この距離値は、被写体1の三次元形状の復元に不要な値である。図10に示すような場合、大きな距離値を持つ符号付距離値F(v)(TSDF値)は無効値と判断し、ボクセルに対する格納を行わない。ただし、図10に示す例は一例であり、この他、様々な条件の下でF(v)のボクセル格納処理要否判定を行うことが可能である。
 なお、閾値は、被写体位置とボクセルの配置されたTSDF空間の位置に基づいて、予め規定しておく。
  (ステップS107)
 ステップS106において、ボクセル(識別子=i)に対応する符号付距離値F(v)(TSDF値)に含まれる距離の絶対値がしきい値より大きくないと判定した場合は、ステップS107の処理を実行する。
 ステップS107では、ステップS105で算出したボクセル(識別子=i)に対応する符号付距離値F(v)(TSDF値)をボクセル(識別子=i)に格納する。
 なお、前述したように、ボクセルには、さらに、符号付距離値F(v)(TSDF値)には併せて信頼度を示す値(信頼度値)も対応付けて格納する。
 信頼度は、例えばデプスカメラによる各画素単位の赤外光(IR光)の受光強度に応じた値が設定される。赤外光(IR光)の受光強度が大きい場合は高信頼度であり、赤外光(IR光)の受光強度が小さい場合は低信頼度となる。
 例えば、信頼度値の値は、最高信頼度=1.0、最低信頼度=0として、1.0~0.0の範囲で設定する。
 ステップS107では、ボクセル(識別子=i)に符号付距離値F(v)(TSDF値)とその信頼度値(例えば0~1)を格納する。
  (ステップS108~S109)
 ステップS108は、未処理ボクセルの有無を判定するステップである。TSDF空間(TSDF Volume)を構成するボクセルの全てに対する処理が完了したか否かを判定する。
 未処理ボクセルがある場合は、ステップS109で、ボクセル識別子:iの値を更新し、更新したボクセル識別子を持つボクセルについて、ステップS102以下の処理を実行する。
 ステップS108において、TSDF空間(TSDF Volume)を構成するボクセルの全てに対する処理が完了したと判定した場合は処理を終了する。
 この図7に示すフローを実行することで、TSDF空間(TSDF Volume)を構成するボクセルの各々には、被写体とボクセル間の符号付距離値F(v)(TSDF値)と、その信頼度を示す値(信頼度値)が格納される。
 図5に示す画像処理部100内のTSDF空間(TSDF Volume)生成部111-1~Nの各々は、1つのRGB-Dカメラ10のデプスカメラデータを入力して、図7に示すフローに従った処理を実行する。
 なお、TSDF空間(TSDF Volume)生成部111-1~Nの各々が使用するTSDF空間(TSDF Volume)は、世界座標上の同じ位置に構成される1つの共通空間である。
 TSDF空間(TSDF Volume)生成部111-1~Nの各々は、この1つのTSDF空間(TSDF Volume)に構成された多数のボクセルに、異なる位置のカメラの撮影画像(デプスマップ)に基づいて算出された符号付距離値F(v)(TSDF値)と、その信頼度を示す値(信頼度値)を格納する。
 TSDF空間(TSDF Volume)生成部111-1~Nの生成したN個のTSDF空間(TSDF Volume)は、TSDF空間(TSDF Volume)統合部131に入力される。
  (2-2.視体積交差法(Visual Hull)ベース三次元形状(ポリゴンメッシュ)生成部の実行する処理について)
 次に、図5に示す視体積交差法(Visual Hull)ベース三次元形状(ポリゴンメッシュ)生成部121の実行する処理について説明する。
 視体積交差法(Visual Hull)ベース三次元形状(ポリゴンメッシュ)生成部121は、図1に示す複数の異なる位置から被写体1を撮影するRGB-Dカメラ10が撮影したRGB画像を含むRGBカメラデータ60-1~Nを入力する。
 なお、RGBカメラデータ60-1~Nの各々は、それざれ、先に図6を参照して説明したように、
 (a)RGB画像、
 (b)カメラ内部パラメータ、
 (c)カメラ外部パラメータ、
 これらのデータが含まれる。
 (a)RGB画像は、先に図2を参照して説明したRGB画像であり、通常のカメラからのによって撮影可能なRGBカラー画像である。
 (b)カメラ内部パラメータは、RGB画像に基づく視体積交差法(Visual Hull)に基づく被写体三次元形状の算出処理に必要となるパラメータであり、例えばカメラの焦点距離、光学中心等のカメラ内部パラメータである。
 (c)カメラ外部パラメータも、RGB画像に基づく視体積交差法(Visual Hull)に基づく被写体三次元形状の算出処理に必要となるパラメータであり、例えばカメラの位置情報、撮影方向情報等のカメラ外部パラメータである。
 これらのデータを含むRGBカメラデータが、被写体周囲の各カメラから、視体積交差法(Visual Hull)ベース三次元形状(ポリゴンメッシュ)生成部121に入力される。
 視体積交差法(Visual Hull)ベース三次元形状(ポリゴンメッシュ)生成部121は、これらの入力データに基づいて視体積交差法(Visual Hull)を実行して、被写体三次元形状(ポリゴンメッシュ)を生成する。
 図11以下を参照して、視体積交差法(Visual Hull)について説明する。
 図11には、被写体1の周囲に4台のRGBカメラを示している。各カメラは異なる方向から、被写体1を撮影する。撮影画像は本例では、RGBカラー画像とするが、白黒画像でも構わない。
 各カメラは、被写体1を特定の方向から撮影することになり、この撮影画像から、特定方向から被写体1を観察したシルエットを取得することができる。
 各カメラの撮影画像から取得されるシルエットの例を図12に示す。図12には被写体1をそれぞれ異なる方向から撮影するカメラの撮影画像に基づくシルエットを示している。図12に示すシルエット1~4である。視体積交差法(Visual Hull)は被写体を撮影する各RGBカメラにおける被写体のシルエットのAND領域を抽出して保存することで被写体の三次元形状を取得する手法である。
 具体的には、例えば、以下の処理を実行する。
 (処理1)RGBカメラによって撮影される被写体を含む対象となる空間(Volume)を規定し、空間(Volume)内の各ボクセルの座標を各カメラに投影し、そのボクセルが被写体シルエットの内部か外部かを判定する。
 (処理2)すべてのカメラにおいて被写体内部と判定されたボクセルは被写体形状の内部領域にあると判定し、それ以外は外部と判定し、判定結果に応じたラベルを各ボクセルに設定する。
 (処理3)ラベル付けられた複数のボクセルを有する空間(Volume)に対してマーチングキューブ法を適用して被写体の三次元形状を取得する。
 なお、マーチングキューブ法は、複数のボクセルによって構成されるデータを三次元形状に変換するアルゴリズムである。
 このように、図5に示す画像処理部100内の視体積交差法(Visual Hull)ベース三次元形状(ポリゴンメッシュ)生成部121は、被写体1を異なる方向から撮影したRGB画像を適用して視体積交差法(Visual Hull)を実行して、被写体1の被写体三次元形状(ポリゴンメッシュ)を生成する。
 視体積交差法(Visual Hull)ベース三次元形状(ポリゴンメッシュ)生成部121が生成した被写体1の被写体三次元形状(ポリゴンメッシュ)は、ポリゴンメッシュベースTSDF空間(TSDF Volume)生成部122に入力される。
  (2-3.ポリゴンメッシュベースTSDF空間(TSDF Volume)生成部の実行する処理について)
 次に、ポリゴンメッシュベースTSDF空間(TSDF Volume)生成部122が実行する処理について説明する。
 ポリゴンメッシュベースTSDF空間(TSDF Volume)生成部122は、視体積交差法(Visual Hull)ベース三次元形状(ポリゴンメッシュ)生成部121が生成した被写体1の被写体三次元形状(ポリゴンメッシュ)を、TSDF空間(TSDF Volume)に変換する。
 先に説明したように、TSDF空間(TSDF Volume)は、空間内部の多数のボクセルに、符号付距離値F(v)(TSDF値)が格納されたデータ構造である。
 このデータ構造は、被写体の三次元構造(ポリゴンメッシュ)から生成可能である。
 先に図9等を参照して説明したように、TSDF空間(TSDF Volume)内の各ボクセルには、被写体とボクセル間の符号付距離値F(v)(TSDF値)が格納される。
 被写体形状が既知であり、さらに、その被写体を含むTSDF空間(TSDF Volume)内の各ボクセルの位置も既知であれば、各ボクセルについての、被写体との距離と、それが被写体の内側か外側かは解析可能である。すなわち符号付距離値F(v)(TSDF値)を算出することができる。
 ポリゴンメッシュベースTSDF空間(TSDF Volume)生成部122は、このようにして、視体積交差法(Visual Hull)ベース三次元形状(ポリゴンメッシュ)生成部121が生成した被写体1の被写体三次元形状(ポリゴンメッシュ)を、TSDF空間(TSDF Volume)に変換する。
 なお、ポリゴンメッシュベースTSDF空間(TSDF Volume)生成部122の生成するTSDF空間(TSDF Volume)の位置(世界座標上の位置)は、先に説明したTSDF空間(TSDF Volume)生成部111-1~Nの生成するN個のTSDF空間(TSDF Volume)の位置と同じ位置に設定する。すなわち、共通のTSDF空間(TSDF Volume)を利用する。
 これにより、ポリゴンメッシュベースTSDF空間(TSDF Volume)生成部122の生成するTSDF空間(TSDF Volume)と、TSDF空間(TSDF Volume)内のボクセルの位置は全て、1つの共通TSDF空間(TSDF Volume)内の同じ位置になる。
 なお、ポリゴンメッシュベースTSDF空間(TSDF Volume)生成部122の生成するTSDF空間(TSDF Volume)の各ボクセルには、符号付距離値F(v)(TSDF値)に併せて、あらかじめ規定された信頼度値、例えば信頼度=0~1.0の設定である場合、中間的な値である信頼度値=0.5を格納する。
 ポリゴンメッシュベースTSDF空間(TSDF Volume)生成部122の生成したTSDF空間(TSDF Volume)は、TSDF空間(TSDF Volume)統合部131に入力される。
  (2-4.TSDF空間(TSDF Volume)統合部の実行する処理について)
 次に、TSDF空間(TSDF Volume)統合部131の実行する処理について説明する。
 TSDF空間(TSDF Volume)統合部131は、以下のデータを入力する。
 (A) TSDF空間(TSDF Volume)生成部111-1~Nの生成したN個のTSDF空間(TSDF Volume)
 (B) ポリゴンメッシュベースTSDF空間(TSDF Volume)生成部122の生成したTSDF空間(TSDF Volume)
 上記(A)は、N個のRGB-Dカメラ10が異なるN個の位置から被写体を撮影して得られたN個のデプスマップに基づいて生成したN個のTSDF空間(TSDF Volume)である。
 また、(B)は、N個のRGB-Dカメラ10が異なるN個の位置から被写体を撮影して得られたN個のRGB画像を適用した視体積交差法(Visual Hull)で生成した被写体三次元形状(ポリゴンメッシュ)に基づいて生成した1つのTSDF空間(TSDF Volume)である。
 すなわち、TSDF空間(TSDF Volume)統合部131は、N+1個のTSDF空間(TSDF Volume)を入力する。
 なお、前述したように、ポリゴンメッシュベースTSDF空間(TSDF Volume)生成部122の生成するTSDF空間(TSDF Volume)と、TSDF空間(TSDF Volume)は世界座標上で同一位置にあり、これらN+1個のTSDF空間(TSDF Volume)内のボクセルの位置も全て同じ位置にある。
 N+1個のTSDF空間(TSDF Volume)内のボクセルには、それぞれ異なる符号付距離値F(v)(TSDF値)とその信頼度値(0~1)が格納されている。
 TSDF空間(TSDF Volume)統合部131は、N+1個のTSDF空間(TSDF Volume)の同一位置のボクセルに複数の符号付距離値F(v)(TSDF値)が検出された場合、その複数の符号付距離値F(v)に基づいて、最終的な1つの符号付距離値F'(v)を算出する。
 例えば各符号付距離値F(v)に対応付けて記録された信頼度値を適用した重み付け加算を実行して、最終的な1つの符号付距離値F'(v)を算出する。
 最終的な1つの符号付距離値F'(v)の具体的な算出式は、例えば以下の(式1)である。
Figure JPOXMLDOC01-appb-M000001
 なお、上記(式1)において、
 iは、TSDF空間(TSDF Volume)の識別子、
 Fi(v)は、TSDF空間(TSDF Volume)iのボクセルvにおける符号付距離値、
 wi(v)は、TSDF空間(TSDF Volume)iのボクセルvにおける重み値、
 である。
 重み値は、ボクセル毎のTSDF値の信頼度(0~1)を適用可能である。
 なお、信頼度は、例えば先に説明した各画素における赤外光(IR光)の輝度値が利用可能である。また、その他、
 (a)被写体表面の法線方向とカメラ位置とのアングル、
 (b)カメラから被写体表面までの距離、
 これらのカメラ配置情報を用いて信頼度を算出し、上記(式1)の重み値として利用してもよい。
 このように、TSDF空間(TSDF Volume)統合部131は、N+1個のTSDF空間(TSDF Volume)の対応ボクセルに格納された符号付距離値F(v)を用いて、最終的に各ボクセルに1つの符号付距離値F(v)が格納された1つの統合TSDF空間(TSDF Volume)を生成する。
 TSDF空間(TSDF Volume)統合部131が生成した1つの統合TSDF空間(TSDF Volume)は、三次元形状生成部132に出力される。
  (2-5.三次元形状生成部の実行する処理について)
 次に、三次元形状生成部132の実行する処理について説明する。
 三次元形状生成部132は、TSDF空間(TSDF Volume)統合部131から、TSDF空間(TSDF Volume)統合部131が生成した1つの統合TSDF空間(TSDF Volume)を入力する。
 三次元形状生成部132は、この1つの統合TSDF空間(TSDF Volume)を利用して、被写体の三次元形状を復元する。
 1つの統合TSDF空間(TSDF Volume)のボクセルには1つの符号付距離値F(v)が格納され、この値に基づいて、被写体の三次元構造を復元することができる。
 例えば、zero-crossの位置をマーチングキューブ法により抽出することで高精度な被写体の表面形状であるメッシュを取得し、メッシュから構成される被写体の三次元構造を生成することができる。
 なお、先に説明したように、デプスマップでは、黒髪等の領域の深度情報の精度が低く、デプスマップに基づいて生成されるTSDF空間(TSDF Volume)のボクセルには信頼度の低い符号付距離値F(v)が格納されてしまい、この値を利用して被写体の三次元形状を復元しようとしても高精度な三次元形状は復元できない。
 本開示の手法では、このような領域についてはRGB画像に基づいて生成したTSDF空間(TSDF Volume)のボクセルに格納された符号付距離値F(v)を適用した三次元形状復元を行うことが可能となり、被写体全体の高精度な三次元形状復元が実現される。
  [3.本開示の画像処理装置が実行する処理シーケンスについて]
 次に、本開示の画像処理装置20が実行する処理シーケンスについて説明する。
 図13に示すフローチャートは、本開示の画像処理装置20が実行する処理シーケンスについて説明するフローチャートである。
 なお、図13に示すフローに従った処理は、例えば、画像処理装置20の記憶部に格納されたプログラムに従って、プログラム実行機能を持つCPU等の制御の下に実行可能である。
 図13に示すフローの各ステップの処理について、順次、説明する。
 なお、図13に示すフローのステップS211~S213の処理は、図5に示すTSDF空間(TSDF Volume)生成部111において実行する処理であり、
 ステップS221~S223の処理は、図5に示す視体積交差法(Visual Hull)ベース三次元形状(ポリゴンメッシュ)生成部121と、ポリゴンメッシュベースTSDF空間(TSDF Volume)生成部122において実行する処理である。
 これらステップS211~S213の処理と、ステップS221~S223の処理は並列に実行可能な処理である。
 まず、ステップS211~S213の処理について説明する。
  (ステップS211)
 ステップS211~S213の処理は、図5に示すTSDF空間(TSDF Volume)生成部111において実行する処理である。
 まず、TSDF空間(TSDF Volume)生成部111はステップS211において、図1に示すRGB-Dカメラ10各々から、デプスカメラデータを入力する。
 デプスカメラデータには、先に図6を参照して説明した以下のデータが含まれる。
 (a)デプスマップ、
 (b)カメラ内部パラメータ、
 (c)カメラ外部パラメータ、
 (a)デプスマップは、先に図2を参照して説明したデプスマップであり、カメラからの距離に応じた濃淡値が各画素に設定された画像である。
 (b)カメラ内部パラメータは、デプスマップに基づくTSDF空間(TSDF Volume)生成処理に必要となるパラメータであり、例えばカメラの焦点距離、光学中心等のカメラ内部パラメータである。
 (c)カメラ外部パラメータも、デプスマップに基づくTSDF空間(TSDF Volume)生成処理に必要となるパラメータであり、例えばカメラの位置情報、撮影方向情報等のカメラ外部パラメータである。
  (ステップS212)
 次に、TSDF空間(TSDF Volume)生成部111はステップS212において、デプスカメラデータを入力して、TSDF空間(TSDF Volume)を生成する。
 この処理は、先に図7に示すフローや図8、図9を参照して説明した処理に相当する。具体的には、TSDF空間(TSDF Volume)を構成する各ボクセルに符号付距離値F(v)(TSDF値)を格納する処理を実行する。
 符号付距離値F(v)(TSDF値)は、図9に示すように、ボクセル201と被写体との距離と、被写体の内側か外側かを示すプラスマイナスの符号を含む値である。
 なお、ボクセルには、さらに、この符号付距離値F(v)(TSDF値)には併せて信頼度を示す値(信頼度値)も対応付けて格納される。
  (ステップS213)
 次のステップS213は、全てのデプスカメラの取得したデプスマップに基づくTSDF空間(TSDF Volume)の生成が完了したか否かの判定処理である。
 未処理のデプスマップがある場合は、未処理のデプスマップについて、ステップS211~S212の処理を実行する。
 全てのデプスカメラの取得したデプスマップに基づくTSDF空間(TSDF Volume)の生成が完了したと判定した場合はステップS231に進む。
 なお、この時点で、例えばN個のテプスカメラがある場合、N個のTSDF空間(TSDF Volume)が生成されていることになる。
 これらN個のTSDF空間(TSDF Volume)のボクセルには、符号付距離値F(v)(TSDF値)とその信頼度値が格納されている。
 TSDF空間(TSDF Volume)生成部111が、ステップS211~S213の処理により生成したN個のTSDF空間(TSDF Volume)は、TSDF空間(TSDF Volume)統合部131に入力される。
  (ステップS221)
 次に、図5に示す視体積交差法(Visual Hull)ベース三次元形状(ポリゴンメッシュ)生成部121と、ポリゴンメッシュベースTSDF空間(TSDF Volume)生成部122において実行するステップS221~S223の処理について説明する。
 まず、視体積交差法(Visual Hull)ベース三次元形状(ポリゴンメッシュ)生成部121は、ステップS221において、図1に示す複数の異なる位置から被写体1を撮影するRGB-Dカメラ10が撮影したRGB画像を含むRGBカメラデータ60-1~Nを入力する。
 RGBカメラデータ60-1~Nの各々は、それざれ、先に図6を参照して説明したように、
 (a)RGB画像、
 (b)カメラ内部パラメータ、
 (c)カメラ外部パラメータ、
 これらのデータが含まれる。
 (a)RGB画像は、先に図2を参照して説明したRGB画像であり、通常のカメラからのによって撮影可能なRGBカラー画像である。
 (b)カメラ内部パラメータは、RGB画像に基づく視体積交差法(Visual Hull)に基づく被写体三次元形状の算出処理に必要となるパラメータであり、例えばカメラの焦点距離、光学中心等のカメラ内部パラメータである。
 (c)カメラ外部パラメータも、RGB画像に基づく視体積交差法(Visual Hull)に基づく被写体三次元形状の算出処理に必要となるパラメータであり、例えばカメラの位置情報、撮影方向情報等のカメラ外部パラメータである。
  (ステップS222)
 次に、視体積交差法(Visual Hull)ベース三次元形状(ポリゴンメッシュ)生成部121は、ステップS222において、視体積交差法(Visual Hull)を実行して、被写体三次元形状(ポリゴンメッシュ)を生成する。
 この処理は、先に図11、図12を参照して説明した処理である。
 具体的には、例えば、以下の処理を実行する。
 (処理1)RGBカメラによって撮影される被写体を含む対象となる空間(Volume)を規定し、空間(Volume)内の各ボクセルの座標を各カメラに投影し、そのボクセルが被写体シルエットの内部か外部かを判定する。
 (処理2)すべてのカメラにおいて被写体内部と判定されたボクセルは被写体形状の内部領域にあると判定し、それ以外は外部と判定し、判定結果に応じたラベルを各ボクセルに設定する。
 (処理3)ラベル付けられた複数のボクセルを有する空間(Volume)に対してマーチングキューブ法を適用して被写体の三次元形状を取得する。
  (ステップS223)
 次に、ポリゴンメッシュベースTSDF空間(TSDF Volume)生成部122は、ステップS223において、ポリゴンメッシュベースTSDF空間(TSDF Volume)生成部122は、視体積交差法(Visual Hull)ベース三次元形状(ポリゴンメッシュ)生成部121が生成した被写体1の被写体三次元形状(ポリゴンメッシュ)を、TSDF空間(TSDF Volume)に変換する。
 なお、ポリゴンメッシュベースTSDF空間(TSDF Volume)生成部122の生成するTSDF空間(TSDF Volume)の各ボクセルには、符号付距離値F(v)(TSDF値)に併せて、あらかじめ規定した信頼度値、例えば信頼度=0~1.0の設定である場合、中間的な値である信頼度値=0.5を格納する。
 なお、この信頼度値の値は、様々な設定が可能である。
 ポリゴンメッシュベースTSDF空間(TSDF Volume)生成部122の生成したTSDF空間(TSDF Volume)は、TSDF空間(TSDF Volume)統合部131に入力される。
  (ステップS231)
 ステップS231の処理は、TSDF空間(TSDF Volume)統合部131の実行する処理である。
 TSDF空間(TSDF Volume)統合部131は、以下のデータを入力する。
 (A) TSDF空間(TSDF Volume)生成部111-1~Nの生成したN個のTSDF空間(TSDF Volume)
 (B) ポリゴンメッシュベースTSDF空間(TSDF Volume)生成部122の生成したTSDF空間(TSDF Volume)
 上記(A),(B)併せてN+1個のTSDF空間(TSDF Volume)内のボクセルには、それぞれ異なる符号付距離値F(v)(TSDF値)とその信頼度値(0~1)が格納されたボクセルが存在する。
 TSDF空間(TSDF Volume)統合部131は、N+1個のTSDF空間(TSDF Volume)の同一位置のボクセルに複数の符号付距離値F(v)(TSDF値)が検出された場合、その複数の符号付距離値F(v)に基づいて、先に説明した(式1)に従って、最終的な1つの符号付距離値F'(v)を算出する。
 このように、TSDF空間(TSDF Volume)統合部131は、N+1個のTSDF空間(TSDF Volume)の対応ボクセルに格納された符号付距離値F(v)を用いて、最終的に各ボクセルに1つの符号付距離値F(v)が格納された1つの統合TSDF空間(TSDF Volume)を生成する。
 TSDF空間(TSDF Volume)統合部131が生成した1つの統合TSDF空間(TSDF Volume)は、三次元形状生成部132に出力される。
  (ステップS232)
 最後のステップS232の処理は、図5に示す画像処理部100の三次元形状生成部132の実行する処理である。
 三次元形状生成部132は、TSDF空間(TSDF Volume)統合部131から、TSDF空間(TSDF Volume)統合部131が生成した1つの統合TSDF空間(TSDF Volume)を入力する。
 統合TSDF空間(TSDF Volume)のボクセルには1つの符号付距離値F(v)が格納されている。
 三次元形状生成部132は、このボクセル格納値に基づいて、全てのボクセルの符号付距離値F(v)の解析により、被写体の三次元構造を復元することができる。
 例えば、zero-crossの位置をマーチングキューブ法により抽出することで高精度な被写体の表面形状であるメッシュを取得し、メッシュから構成される被写体の三次元構造を生成することができる。
 このように、本開示の画像処理装置は、デプスマップに基づいて生成されるTSDF空間(TSDF Volume)と、RGB画像ベースのTSDF空間(TSDF Volume)とを統合した統合TSDF空間(TSDF Volume)を生成し、この統合TSDF空間(TSDF Volume)に基づいて被写体の三次元形状を解析して、高精度な被写体の三次元構造データを生成する。
 デプスマップは、黒髪等の領域の深度情報の精度が低く、デプスマップに基づいて生成されるTSDF空間(TSDF Volume)のボクセルには信頼度の低い符号付距離値F(v)が格納されてしまい、この値を利用して被写体の三次元形状を復元しようとしても高精度な形状は復元できない。
 しかし、本開示の手法では、このような領域についてはRGB画像に基づいて生成したTSDF空間(TSDF Volume)のボクセルに格納された符号付距離値F(v)を適用した三次元形状復元が可能となり、被写体全体の高精度な三次元形状復元が実現される。
  [4.本開示の処理を適用して得られる被写体の三次元構造データの具体例について]
 次に、本開示の処理を適用して得られる被写体の三次元構造データの具体例について説明する。
 図14は、本開示の画像処理装置が実行する処理に従って生成されるデータの具体例を説明する図である。
 まず、被写体を様々な方向から撮影するRGB-Dカメラから、図14に示すデプスマップ270と、RGB画像280が取得される。
 なお、図14に示すデプスマップ270と、RGB画像280は被写体を様々な方向から撮影したN枚のデプスマップとN枚のRGB画像である。
 N枚のデプスマップ270は、TSDF空間(TSDF Volume)生成部111に入力され、各デプスマップ対応のN個のTSDF空間(TSDF Volume)271を生成する。
 このN個のTSDF空間(TSDF Volume)211に基づいて生成される被写体三次元構造の例が図14に示す三次元構造データ272である。
 この三次元構造データ272は、デプスマップのみを用いて生成されているため、低精度なデプス値が設定された領域、例えば黒髪領域は三次元構造が復元できない不完全な三次元構造データとなってしまう。
 この図14に示す三次元構造データ272は、本開示の処理を適用しない場合のデータ例である。
 次に、本開示の処理を適用した場合の処理について説明する。
 RGB画像281は、視体積交差法(Visual Hull)ベース三次元形状(ポリゴンメッシュ)生成部121に入力され、まず、図14に示すシルエット281が生成される。
 これは、先に図11、図12を参照して説明した処理である。
 さらに、このシルエット281に基づいて視体積交差法(Visual Hull)により被写体三次元形状(ポリゴンメッシュ)282が生成される。
 さらに、ポリゴンメッシュベースTSDF空間(TSDF Volume)生成部122が、被写体三次元形状(ポリゴンメッシュ)282に基づいて、ポリゴンメッシュベースTSDF空間(TSDF Volume)283を生成する。
 次に、TSDF空間(TSDF Volume)統合部131が、以下のデータを入力する。
 (A) 各デプスマップ対応のN個のTSDF空間(TSDF Volume)271
 (B) ポリゴンメッシュベースTSDF空間(TSDF Volume)283、
 TSDF空間(TSDF Volume)統合部131は、これらの複数のTSDF空間(TSDF Volume)を合成して、1つの統合TSDF空間(TSDF Volume)291を生成する。
 最後に、三次元形状生成部132が、1つの統合TSDF空間(TSDF Volume)291に基づいて、被写体の三次元構造データ292を生成する。
 図14に示す被写体の三次元構造データ292は、デプスマップに基づいて生成されるTSDF空間(TSDF Volume)と、RGB画像ベースのTSDF空間(TSDF Volume)とを統合した統合TSDF空間(TSDF Volume)に基づいて生成される三次元構造データである。
 デプスマップに基づいて生成されるTSDF空間(TSDF Volume)のボクセルには精度の低い符号付距離値F(v)が格納されているボクセルが存在するが、本開示の処理を適用することで、このようなボクセルについては、RGB画像ベースのTSDF空間(TSDF Volume)の符号付距離値F(v)を利用することが可能となる。
 結果として被写体の高精度な三次元構造データを生成することができる。
  [5.その他の実施例について]
 次に、本開示の画像処理装置のその他の実施例(変形例)について説明する。
  (5-1.変形例1)
 上述した実施例では、先に図1を参照して説明したように、被写体の周囲に複数のカメラを配置して、複数のカメラによって撮影された画像を利用して処理を行う構成としていた。
 このように複数のカメラを用いず、1台のカメラのみを利用する構成としてもよい。例えば図15に示すように、1台のRGB-Dカメラ10を、被写体1の周囲を移動しながら画像(RGB画像、デプスマップ)を順次、撮影する構成としてもよい。
 ただし、この方法の場合、各時刻の撮影フレームに対応するカメラの位置や姿勢を取得する必要がある。この各時点におけるカメラの位置、姿勢取得処理には、既存の手法、例えば、KinectFusionやVisual SLAM等の方法、あるいはStructure From Motionなどの方法を用いることが可能である。
  (5-2.変形例2)
 さらに、図16に示すように、1台の固定されたRGB-Dカメラ10の前で被写体1を回転移動させながら被写体を連続撮影することで、異なる位置からの被写体画像(RGB画像、デプスマップ)を順次、撮影する構成としてもよい。
 例えば、被写体1をターンテーブル上で回転運動させる。この場合、カメラの位置、姿勢取得処理には、上記の変形例1と同様、Visual SLAM等に代表される方法を利用することが可能である。
 被写体1の運動が非剛体運動である場合にも、既存の手法、例えば「DynamicFusion」等の方法を適用して、各映像フレームにおける非剛体運動をパラメトリックに表現するWarp-Fieldの推定を組み合わせることで、カメラの位置、姿勢を推定することが可能である。
  (5-3.変形例3)
 さらに、本開示の画像処理装置の変形例として、先に説明した視体積交差法(Visual Hull)を適用したTSDF空間(TSDF Volume)の生成処理の計算量を削減する構成が可能である。
 すなわち、先に説明した視体積交差法(Visual Hull)を適用したTSDF空間(TSDF Volume)については、全てのボクセルの符号付距離値F(v)(TSDF値)を算出せず、デプスマップから取得されるデプス値の信頼度が低い領域に対応するボクセルのみを選択して、符号付距離値F(v)(TSDF値)を算出する構成としてもよい。
 デプスマップのデプス値の信頼度は、先に説明したように赤外光(IR光)の輝度値の高低によって判定可能である。赤外光(IR光)の輝度値の低いピクセルのデプス値は信頼度が低いと判定する。
 このようなデプス値の信頼度が低い領域に対応するボクセルのみを、視体積交差法(Visual Hull)を適用したTSDF空間(TSDF Volume)から選択し、これらの選択ボクセルのみに符号付距離値F(v)(TSDF値)を算出する構成としてもよい。
  (5-4.変形例4)
 また、予め、デプスマップのデプス値の信頼度が低い被写体領域が推定できる場合には、その被写体領域に対応するボクセルのみを、視体積交差法(Visual Hull)を適用したTSDF空間(TSDF Volume)の符号付距離値F(v)(TSDF値)算出対象のボクセルとしてもよい。
 例えば、三次元形状復元対象が人間である場合、頭部(髪の毛)の領域がデプスマップのデプス値の信頼度が低い領域と推定できる。この場合には、この被写体の髪の毛の領域に対応するボクセルのみを、視体積交差法(Visual Hull)を適用したTSDF空間(TSDF Volume)の符号付距離値F(v)(TSDF値)算出対象のボクセルとする。
  (5-5.変形例5)
 先に説明した実施例では、TSDF空間(TSDF Volume)統合部131は、以下の処理を実行していた。
 すなわち、
 (A) TSDF空間(TSDF Volume)生成部111-1~Nの生成したN個のTSDF空間(TSDF Volume)
 (B) ポリゴンメッシュベースTSDF空間(TSDF Volume)生成部122の生成したTSDF空間(TSDF Volume)
 これら、N+1個のTSDF空間(TSDF Volume)の同一位置のボクセルに複数の符号付距離値F(v)(TSDF値)が検出された場合、その複数の符号付距離値F(v)に基づいて、最終的な1つの符号付距離値F'(v)を、前述の(式1)に従って算出していた。
 さらに、この符号付距離値F'(v)を持つ1つの統合TSDF空間(TSDF Volume)を生成して、この1つの統合TSDF空間(TSDF Volume)に基づいて三次元形状を復元する処理を行う構成であった。
 しかし、
 (A) TSDF空間(TSDF Volume)生成部111-1~Nの生成したN個のTSDF空間(TSDF Volume)
 (B) ポリゴンメッシュベースTSDF空間(TSDF Volume)生成部122の生成したTSDF空間(TSDF Volume)
 これら(A),(B)の最適な合成比率は、被写体に応じて異なることが予想される。
 以下に説明する変形例は、ユーザが重み係数を入力、変更可能な構成とし、ユーザの設定値に応じて生成される三次元構造データを表示部に表示する構成を有する。
 ユーザは、表示部に表示される様々な合成比率に応じた三次元構造データを観察して、最適な三次元構造データを選択して、その表示データが表示された時点の合成比率を最適値と判定し、例えばその三次元構造データを合成比率の値とともに記憶部に格納するといった処理を行うことが可能となる。
 本実施例の画像処理装置の構成例を図17に示す。
 図17は、先に図5を参照して説明した画像処理部100の内部構成を一部変更し、さらに、重み係数入力部401と表示部450を追加した構成である。
 画像処理部100の内部構成の変更点は、以下の通りである。
 (1)デプスマップベースTSDF空間(TSDF Volume)統合部311の追加。
 (2)TSDF空間(TSDF Volume)統合部312を、
 デプスマップベースTSDF空間(TSDF Volume)統合部311の生成した1つのデプスマップベースTSDF空間(TSDF Volume)と、
 ポリゴンメッシュベースTSDF空間(TSDF Volume)生成部122の生成したTSDF空間(TSDF Volume)を入力する構成への変更。
 (3)TSDF空間(TSDF Volume)統合部312に、重み係数入力部401からユーザが入力する重み係数α421を入力可能とした点。
 (4)三次元形状生成部132の生成した被写体の三次元構造データを表示部450に出力する構成とした点。
 まず、デプスマップベースTSDF空間(TSDF Volume)統合部311は、TSDF空間(TSDF Volume)生成部111-1~Nの生成したN個のTSDF空間(TSDF Volume)の統合処理を実行して、1つのデプスマップベースTSDF空間(TSDF Volume)を生成する。
 この1つのデプスマップベースTSDF空間(TSDF Volume)の生成処理は、先の図5に示す構成を持つ実施例で説明したTSDF空間(TSDF Volume)統合部131において実行した統合処理と同様の処理で実行可能である。
 すなわち、各対応ボクセルの符号付距離値F(v)(TSDF値)の信頼度値に基づく重み付け加算で各ボクセルに1つの符号付距離値F(v)(TSDF値)を設定した1つのデプスマップベースTSDF空間(TSDF Volume)を生成する。
 ただし、ここで統合処理対象となるのは、デプスマップベースTSDF空間(TSDF Volume)のみであるる
 このように、デプスマップベースTSDF空間(TSDF Volume)統合部311は、TSDF空間(TSDF Volume)生成部111-1~Nの生成したN個のTSDF空間(TSDF Volume)の統合処理を実行して、1つのデプスマップベースTSDF空間(TSDF Volume)を生成する。
 生成した1つのデプスマップベースTSDF空間(TSDF Volume)は、TSDF空間(TSDF Volume)統合部312に入力される。
 TSDF空間(TSDF Volume)統合部312は、
 (A)デプスマップベースTSDF空間(TSDF Volume)統合部311の生成した1つのデプスマップベースTSDF空間(TSDF Volume)、
 (B)ポリゴンメッシュベースTSDF空間(TSDF Volume)生成部122の生成したTSDF空間(TSDF Volume)、
 これら2つのTSDF空間(TSDF Volume)を入力し、これら2つのTSDF空間(TSDF Volume)を合成する。
 この2つのTSDF空間(TSDF Volume)の合成比率に相当する重み係数(α)は、重み係数入力部401を介してユーザが入力し、随時、変更可能である。
 図17に示すように、ユーザは、重み係数入力部401を介して、重み係数(α)421を、TSDF空間(TSDF Volume)統合部312に入力することができる。
 TSDF空間(TSDF Volume)統合部312は、ユーザが入力した重み係数(α)421に従って、
 (A)デプスマップベースTSDF空間(TSDF Volume)統合部311の生成した1つのデプスマップベースTSDF空間(TSDF Volume)、
 (B)ポリゴンメッシュベースTSDF空間(TSDF Volume)生成部122の生成したTSDF空間(TSDF Volume)、
 これら2つのTSDF空間(TSDF Volume)の合成処理を実行して、1つの統合TSDF空間(TSDF Volume)を生成する。
 具体的には、例えば、以下に示す(式2)に従って、統合TSDF空間(TSDF Volume)の各ボクセルに格納する符号付距離値F'(v)を算出する。
Figure JPOXMLDOC01-appb-M000002
 なお、上記(式2)において、
 FvisualHull(v)は、ポリゴンメッシュベースTSDF空間(TSDF Volume)生成部122の生成したTSDF空間(TSDF Volume)のボクセルに格納された符号付距離値、
 FDepth(v)は、デプスマップベースTSDF空間(TSDF Volume)統合部311の生成した1つのデプスマップベースTSDF空間(TSDF Volume)のボクセルに格納された符号付距離値、
 αは、重み係数αであり、TSDF空間(TSDF Volume)統合部312の生成した1つの統合TSDF空間(TSDF Volume)に含まれる、ポリゴンメッシュベースのTSDF空間(TSDF Volume)の比率に相当する。
 TSDF空間(TSDF Volume)統合部312の生成した1つの統合TSDF空間(TSDF Volume)は三次元形状生成部132に入力される。
 三次元形状生成部132は、TSDF空間(TSDF Volume)統合部312の生成した1つの統合TSDF空間(TSDF Volume)に基づいて、被写体の三次元構造データを生成し、生成した被写体の三次元構造データを表示部450に出力して表示する。
 ユーザは、表示部450に表示された被写体の三次元構造データを観察しながら、重み係数(α)を変更することが可能であり、高品質な三次元構造データが表示された時点で、重み係数(α)の変更を停止し、その三次元構造データを重み係数(α)とともに記憶部に格納することができる。
 図18に、重み係数(α)の変更に伴って表示部450に表示される三次元構造データの具体例を示す。
 図18には、
 (A)重み係数α=0.0の設定の三次元構造データ
 (B)重み係数α=0.5の設定の三次元構造データ
 (C)重み係数α=1.0の設定の三次元構造データ
 これら3種類の表示データの例を示している。
 なお、重み係数αは、TSDF空間(TSDF Volume)統合部312の生成した1つの統合TSDF空間(TSDF Volume)に含まれる、ポリゴンメッシュベースのTSDF空間(TSDF Volume)の比率に相当する。
 (A)重み係数α=0.0の設定の三次元構造データは、デプスマップベースTSDF空間(TSDF Volume)のみに基づいて生成された三次元構造データである。
 (C)重み係数α=1.0の設定の三次元構造データは、RGB画像に基づくポリゴンメッシュベースのTSDF空間(TSDF Volume)のみに基づいて生成された三次元構造データである。
 (B)重み係数α=0.5の設定の三次元構造データは、デプスマップベースTSDF空間(TSDF Volume)と、RGB画像に基づくポリゴンメッシュベースのTSDF空間(TSDF Volume)の合成比率を1:1として生成したTSDF空間(TSDF Volume)のみに基づいて生成された三次元構造データである。
 このように、ユーザは、表示部450に表示される様々な重み係数αの値に応じた三次元構造データを観察して、最適な三次元構造データを選択して、その表示データが表示された時点の重み係数αを最適値と判定し、例えばその三次元構造データを、重み係数(α)の値とともに記憶部に格納するといった処理を行うことができる。
  [6.画像処理装置のハードウェア構成例について]
 次に、図19を参照して本開示の画像処理装置のハードウェア構成例について説明する。
 本開示の画像処理装置は、例えば、具体的には、PC(Personal Computer)等の情報処理装置によって構成することが可能である。
 図19に示すように画像処理装置500は、コントローラ501、ROM(Read Only Memory)502、RAM(Random Access Memory)503、入出力インタフェース505、および、これらを互いに接続するバス504を備える。
 コントローラ501は、必要に応じてRAM503等に適宜アクセスし、各種演算処理を行いながら画像処理装置500の各ブロック全体を統括的に制御する。コントローラ501は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)等であってもよい。ROM502は、CPU501に実行させるOS、プログラムや各種パラメータなどのファームウェアが固定的に記憶されている不揮発性のメモリである。RAM503は、CPU501の作業用領域等として用いられ、OS、実行中の各種アプリケーション、処理中の各種データを一時的に保持する。
 入出力インタフェース505には、入力部506、出力部507、記憶部508、通信部509、および、リムーバブルメディア511を装着可能なドライブ510等が接続される。
 なお、入出力インタフェース505は、これらの各要素の他、USB(Universal Serial Bus)端子やIEEE端子等を介して外部周辺機器と接続可能に構成されてもよい。
 入力部506は、例えば、図1に示すRGB-Dカメラ10の撮影画像(RGB画像、デプスマップ)等を入力し、さらにユーザの操作情報等を入力可能な入力部である。入力部506が撮像部を有する構成としてもよい。
 入力部506には、例えばマウス等のポインティングデバイス、キーボード、タッチパネル、その他の入力装置も含まれる。
 出力部507は、画像、音声等のデータ出力を行う。出力部507が表示部を有する構成としてもよい。
 記憶部508は、例えばHDD(Hard Disk Drive)や、フラッシュメモリ(SSD;Solid State Drive)、その他の固体メモリ等の不揮発性メモリである。記憶部508には、OSや各種アプリケーション、各種データが記憶される。記憶部508は、また、入力画像や、画像情報、生成した出力画像群等の記憶領域としても利用される。
 通信部509は、例えばEthernet(登録商標)用のNIC(Network Interface Card)であり、ネットワークを介した通信処理を担う。
 ドライブ510は、リムーバブルメディア511を利用したデータ記録、再生処理に利用される。
 リムーバブルメディア511は、例えばBD、DVD、CD、HDD、フラッシュメモリ等によって構成される。
  [7.本開示の構成のまとめ]
 以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
 なお、本明細書において開示した技術は、以下のような構成をとることができる。
 (1) デプスカメラと、可視光カメラの撮影画像を入力して、被写体の三次元形状を解析する画像処理部を有し、
 前記画像処理部は、
 前記デプスカメラの撮影画像から取得されるデプスマップを利用して、デプスマップベースTSDF空間(TSDF Volume)を生成し、
 前記可視光カメラの撮影画像を利用して、可視光画像ベースTSDF空間を生成し、
 前記デプスマップベースTSDF空間と、前記可視光画像ベースTSDF空間との統合処理によって、統合TSDF空間を生成し、
 前記統合TSDF空間を利用して、前記被写体の三次元形状解析処理を実行する画像処理装置。
 (2) 前記画像処理部は、
 視体積交差法(Visual Hull)を適用して、前記可視光カメラの撮影画像から、前記被写体の三次元形状(ポリゴンメッシュ)を生成し、生成した前記三次元形状(ポリゴンメッシュ)を利用して、前記可視光画像ベースTSDF空間を生成する(1)に記載の画像処理装置。
 (3) 前記画像処理部は、
 前記被写体を複数の異なる方向から撮影した複数の可視光カメラ撮影画像から取得される複数のシルエットの交差領域を検出して前記被写体の三次元形状(ポリゴンメッシュ)を生成する(2)に記載の画像処理装置。
 (4) 前記画像処理部は、
 前記被写体を複数の異なる方向からデプスカメラによって撮影した撮影画像から取得される複数のデプスマップを利用して、複数のデプスマップベースTSDF空間を生成し、
 複数のデプスマップベースTSDF空間と、前記可視光画像ベースTSDF空間との統合処理によって、前記統合TSDF空間を生成する(1)~(3)いすれかに記載の画像処理装置。
 (5) 前記画像処理部は、
 前記デプスマップベースTSDF空間、および前記可視光画像ベースTSDF空間の各TSDF空間を構成するボクセルに、前記被写体とボクセル間の距離情報を含む符号付距離値F(v)(TSDF値)を格納したTSDF空間を生成する(1)~(4)いすれかに記載の画像処理装置。
 (6) 前記画像処理部は、
 前記デプスマップベースTSDF空間、および前記可視光画像ベースTSDF空間各々のボクセル内の符号付距離値F(v)(TSDF値)の重み付け加算を実行して算出した値を、前記統合TSDF空間のボクセルに格納する(5)に記載の画像処理装置。
 (7) 前記画像処理部は、
 前記重み付け加算に適用する重み値として、
 前記デプスマップベースTSDF空間のボクセル内の符号付距離値F(v)(TSDF値)に対応付けて記録される信頼度値を適用する(6)に記載の画像処理装置。
 (8) 前記デプスカメラは赤外光を利用したデプスマップ生成処理を行う構成であり、
 前記信頼度値は、前記デプスカメラの撮影画像の画素値に応じた値である(7)に記載の画像処理装置。
 (9) 前記画像処理部は、
 前記被写体の周囲に配置された複数のカメラによって撮影された異なる方向からの被写体画像を入力して、前記被写体の三次元形状解析処理を実行する(1)~(8)いすれかに記載の画像処理装置。
 (10) 前記画像処理部は、
 前記被写体の周囲を移動するカメラによって撮影された異なる方向からの被写体画像を入力して、前記被写体の三次元形状解析処理を実行する(1)~(8)いすれかに記載の画像処理装置。
 (11) 前記画像処理部は、
 回転移動する前記被写体を撮影する固定カメラによって撮影された異なる方向からの被写体画像を入力して、前記被写体の三次元形状解析処理を実行する(1)~(8)いすれかに記載の画像処理装置。
 (12) 前記画像処理装置は、さらに、
 前記デプスマップベースTSDF空間と、前記可視光画像ベースTSDF空間との統合処理に適用する重み係数を入力する入力部を有し、
 前記画像処理部は、
 前記入力部を介して入力される重み係数に応じて、前記デプスマップベースTSDF空間と、前記可視光画像ベースTSDF空間とを統合して前記統合TSDF空間を生成する(1)~(11)いすれかに記載の画像処理装置。
 (13) 前記画像処理装置は、さらに、
 前記画像処理部が生成した前記被写体の三次元構造データを表示する表示部を有し、
 前記画像処理部は、
 前記入力部を介して入力された前記重み係数に応じて変更される三次元構造データを前記表示部に表示する(12)に記載の画像処理装置。
 (14) 画像処理装置において実行する画像処理方法であり、
 前記画像処理装置は、
 デプスカメラと、可視光カメラの撮影画像を入力して、被写体の三次元形状を解析する画像処理部を有し、
 前記画像処理部が、
 前記デプスカメラの撮影画像から取得されるデプスマップを利用して、デプスマップベースTSDF空間(TSDF Volume)を生成し、
 前記可視光カメラの撮影画像を利用して、可視光画像ベースTSDF空間を生成し、
 前記デプスマップベースTSDF空間と、前記可視光画像ベースTSDF空間との統合処理によって、統合TSDF空間を生成し、
 前記統合TSDF空間を利用して、前記被写体の三次元形状解析処理を実行する画像処理方法。
 (15) 画像処理装置において画像処理を実行させるプログラムであり、
 前記画像処理装置は、
 デプスカメラと、可視光カメラの撮影画像を入力して、被写体の三次元形状を解析する画像処理部を有し、
 前記プログラムは、前記画像処理部に、
 前記デプスカメラの撮影画像から取得されるデプスマップを利用して、デプスマップベースTSDF空間(TSDF Volume)を生成する処理と、
 前記可視光カメラの撮影画像を利用して、可視光画像ベースTSDF空間を生成する処理と、
 前記デプスマップベースTSDF空間と、前記可視光画像ベースTSDF空間との統合処理によって、統合TSDF空間を生成する処理と、
 前記統合TSDF空間を利用して、前記被写体の三次元形状解析処理を実行する処理を実行させるプログラム。
 なお、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
 また、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 以上、説明したように、本開示の一実施例の構成によれば、デプスカメラと、可視光カメラの撮影画像を入力して、被写体の高精度な三次元形状を解析、復元する構成が実現される。
 具体的には、例えば、デプスカメラと、可視光カメラの撮影画像を入力して、被写体の三次元形状を解析する画像処理部を有する。画像処理部は、デプスカメラの撮影画像から取得されるデプスマップを利用して、デプスマップベースTSDF空間(TSDF Volume)を生成し、可視光カメラの撮影画像を利用して、可視光画像ベースTSDF空間を生成する。さらに、デプスマップベースTSDF空間と、可視光画像ベースTSDF空間との統合処理によって、統合TSDF空間を生成し、統合TSDF空間を利用して、被写体の三次元形状解析処理を実行する。
 本構成により、デプスカメラと、可視光カメラの撮影画像を入力して、被写体の高精度な三次元形状を解析、復元する構成が実現される。
   1 被写体
  10 RGB-Dカメラ
  20 画像処理装置
  50 入力部
 100 画像処理部
 111 TSDF空間(TSDF Volume)生成部
 121 視体積交差法(Visual Hull)ベース三次元形状(ポリゴンメッシュ)生成部
 122 ポリゴンメッシュベースTSDF空間(TSDF Volume)生成部
 131 TSDF空間(TSDF Volume)統合部
 132 三次元形状生成部
 300 画像処理部
 311 デプスマップベースTSDF空間(TSDF Volume)統合部
 312 TSDF空間(TSDF Volume)統合部
 401 重み係数入力部
 450 表示部
 500 画像処理装置
 501 コントローラ
 502 ROM
 503 RAM
 504 バス
 505 入出力インタフェース
 506 入力部
 507 出力部
 508 記憶部
 509 通信部
 510 ドライブ
 511 リムーバブルメディア

Claims (15)

  1.  デプスカメラと、可視光カメラの撮影画像を入力して、被写体の三次元形状を解析する画像処理部を有し、
     前記画像処理部は、
     前記デプスカメラの撮影画像から取得されるデプスマップを利用して、デプスマップベースTSDF空間(TSDF Volume)を生成し、
     前記可視光カメラの撮影画像を利用して、可視光画像ベースTSDF空間を生成し、
     前記デプスマップベースTSDF空間と、前記可視光画像ベースTSDF空間との統合処理によって、統合TSDF空間を生成し、
     前記統合TSDF空間を利用して、前記被写体の三次元形状解析処理を実行する画像処理装置。
  2.  前記画像処理部は、
     視体積交差法(Visual Hull)を適用して、前記可視光カメラの撮影画像から、前記被写体の三次元形状(ポリゴンメッシュ)を生成し、生成した前記三次元形状(ポリゴンメッシュ)を利用して、前記可視光画像ベースTSDF空間を生成する請求項1に記載の画像処理装置。
  3.  前記画像処理部は、
     前記被写体を複数の異なる方向から撮影した複数の可視光カメラ撮影画像から取得される複数のシルエットの交差領域を検出して前記被写体の三次元形状(ポリゴンメッシュ)を生成する請求項2に記載の画像処理装置。
  4.  前記画像処理部は、
     前記被写体を複数の異なる方向からデプスカメラによって撮影した撮影画像から取得される複数のデプスマップを利用して、複数のデプスマップベースTSDF空間を生成し、
     複数のデプスマップベースTSDF空間と、前記可視光画像ベースTSDF空間との統合処理によって、前記統合TSDF空間を生成する請求項1に記載の画像処理装置。
  5.  前記画像処理部は、
     前記デプスマップベースTSDF空間、および前記可視光画像ベースTSDF空間の各TSDF空間を構成するボクセルに、前記被写体とボクセル間の距離情報を含む符号付距離値F(v)(TSDF値)を格納したTSDF空間を生成する請求項1に記載の画像処理装置。
  6.  前記画像処理部は、
     前記デプスマップベースTSDF空間、および前記可視光画像ベースTSDF空間各々のボクセル内の符号付距離値F(v)(TSDF値)の重み付け加算を実行して算出した値を、前記統合TSDF空間のボクセルに格納する請求項5に記載の画像処理装置。
  7.  前記画像処理部は、
     前記重み付け加算に適用する重み値として、
     前記デプスマップベースTSDF空間のボクセル内の符号付距離値F(v)(TSDF値)に対応付けて記録される信頼度値を適用する請求項6に記載の画像処理装置。
  8.  前記デプスカメラは赤外光を利用したデプスマップ生成処理を行う構成であり、
     前記信頼度値は、前記デプスカメラの撮影画像の画素値に応じた値である請求項7に記載の画像処理装置。
  9.  前記画像処理部は、
     前記被写体の周囲に配置された複数のカメラによって撮影された異なる方向からの被写体画像を入力して、前記被写体の三次元形状解析処理を実行する請求項1に記載の画像処理装置。
  10.  前記画像処理部は、
     前記被写体の周囲を移動するカメラによって撮影された異なる方向からの被写体画像を入力して、前記被写体の三次元形状解析処理を実行する請求項1に記載の画像処理装置。
  11.  前記画像処理部は、
     回転移動する前記被写体を撮影する固定カメラによって撮影された異なる方向からの被写体画像を入力して、前記被写体の三次元形状解析処理を実行する請求項1に記載の画像処理装置。
  12.  前記画像処理装置は、さらに、
     前記デプスマップベースTSDF空間と、前記可視光画像ベースTSDF空間との統合処理に適用する重み係数を入力する入力部を有し、
     前記画像処理部は、
     前記入力部を介して入力される重み係数に応じて、前記デプスマップベースTSDF空間と、前記可視光画像ベースTSDF空間とを統合して前記統合TSDF空間を生成する請求項1に記載の画像処理装置。
  13.  前記画像処理装置は、さらに、
     前記画像処理部が生成した前記被写体の三次元構造データを表示する表示部を有し、
     前記画像処理部は、
     前記入力部を介して入力された前記重み係数に応じて変更される三次元構造データを前記表示部に表示する請求項12に記載の画像処理装置。
  14.  画像処理装置において実行する画像処理方法であり、
     前記画像処理装置は、
     デプスカメラと、可視光カメラの撮影画像を入力して、被写体の三次元形状を解析する画像処理部を有し、
     前記画像処理部が、
     前記デプスカメラの撮影画像から取得されるデプスマップを利用して、デプスマップベースTSDF空間(TSDF Volume)を生成し、
     前記可視光カメラの撮影画像を利用して、可視光画像ベースTSDF空間を生成し、
     前記デプスマップベースTSDF空間と、前記可視光画像ベースTSDF空間との統合処理によって、統合TSDF空間を生成し、
     前記統合TSDF空間を利用して、前記被写体の三次元形状解析処理を実行する画像処理方法。
  15.  画像処理装置において画像処理を実行させるプログラムであり、
     前記画像処理装置は、
     デプスカメラと、可視光カメラの撮影画像を入力して、被写体の三次元形状を解析する画像処理部を有し、
     前記プログラムは、前記画像処理部に、
     前記デプスカメラの撮影画像から取得されるデプスマップを利用して、デプスマップベースTSDF空間(TSDF Volume)を生成する処理と、
     前記可視光カメラの撮影画像を利用して、可視光画像ベースTSDF空間を生成する処理と、
     前記デプスマップベースTSDF空間と、前記可視光画像ベースTSDF空間との統合処理によって、統合TSDF空間を生成する処理と、
     前記統合TSDF空間を利用して、前記被写体の三次元形状解析処理を実行する処理を実行させるプログラム。
PCT/JP2020/009154 2019-04-08 2020-03-04 画像処理装置、および画像処理方法、並びにプログラム WO2020208976A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/598,540 US11816854B2 (en) 2019-04-08 2020-03-04 Image processing apparatus and image processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019073298 2019-04-08
JP2019-073298 2019-04-08

Publications (1)

Publication Number Publication Date
WO2020208976A1 true WO2020208976A1 (ja) 2020-10-15

Family

ID=72751027

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/009154 WO2020208976A1 (ja) 2019-04-08 2020-03-04 画像処理装置、および画像処理方法、並びにプログラム

Country Status (2)

Country Link
US (1) US11816854B2 (ja)
WO (1) WO2020208976A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114485434A (zh) * 2022-01-27 2022-05-13 南京航空航天大学 基于多目测距的柔性三维织造装备导向棒安装检测方法
JP7489352B2 (ja) 2021-04-26 2024-05-23 Kddi株式会社 モデル生成装置及びプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220309733A1 (en) * 2021-03-29 2022-09-29 Tetavi Ltd. Surface texturing from multiple cameras

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018216341A1 (ja) * 2017-05-22 2018-11-29 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100914845B1 (ko) * 2007-12-15 2009-09-02 한국전자통신연구원 다시점 영상 정보를 이용한 물체의 삼차원 형상복원 방법및 장치
US8160345B2 (en) * 2008-04-30 2012-04-17 Otismed Corporation System and method for image segmentation in generating computer models of a joint to undergo arthroplasty
US8866821B2 (en) * 2009-01-30 2014-10-21 Microsoft Corporation Depth map movement tracking via optical flow and velocity prediction
US20110007072A1 (en) * 2009-07-09 2011-01-13 University Of Central Florida Research Foundation, Inc. Systems and methods for three-dimensionally modeling moving objects
US8587583B2 (en) 2011-01-31 2013-11-19 Microsoft Corporation Three-dimensional environment reconstruction
KR101356544B1 (ko) * 2012-03-29 2014-02-19 한국과학기술원 3차원 입체영상 생성 방법 및 장치
DE102014011821A1 (de) * 2014-08-08 2016-02-11 Cargometer Gmbh Vorrichtung und Verfahren zur Volumenbestimmung eines durch ein Flurförderzeug bewegten Objekts
GB2536493B (en) * 2015-03-20 2020-11-18 Toshiba Europe Ltd Object pose recognition
US9959671B1 (en) * 2018-01-18 2018-05-01 Scandy, LLC System and method for capturing, processing and rendering data through a template-driven processing pipeline

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018216341A1 (ja) * 2017-05-22 2018-11-29 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SU , P. C. ET AL.: "A robust RGB-D SLAM system for 3D environment with planar surfaces", 2013 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING, 2013, pages 275 - 279, XP032965675, DOI: 10.1109/ICIP.2013.6738057 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7489352B2 (ja) 2021-04-26 2024-05-23 Kddi株式会社 モデル生成装置及びプログラム
CN114485434A (zh) * 2022-01-27 2022-05-13 南京航空航天大学 基于多目测距的柔性三维织造装备导向棒安装检测方法
CN114485434B (zh) * 2022-01-27 2022-10-21 南京航空航天大学 基于多目测距的柔性三维织造装备导向棒安装检测方法

Also Published As

Publication number Publication date
US20220180545A1 (en) 2022-06-09
US11816854B2 (en) 2023-11-14

Similar Documents

Publication Publication Date Title
Newcombe et al. Live dense reconstruction with a single moving camera
CN106803267B (zh) 基于Kinect的室内场景三维重建方法
JP6246757B2 (ja) 現実環境の視野におけるバーチャルオブジェクトを表現方法及びシステム
WO2020208976A1 (ja) 画像処理装置、および画像処理方法、並びにプログラム
US20130335535A1 (en) Digital 3d camera using periodic illumination
US20130095920A1 (en) Generating free viewpoint video using stereo imaging
CN113012293B (zh) 石刻模型构建方法、装置、设备及存储介质
WO2019035155A1 (ja) 画像処理システム、画像処理方法、及びプログラム
Miknis et al. Near real-time point cloud processing using the PCL
EP3326156B1 (en) Consistent tessellation via topology-aware surface tracking
TW201308252A (zh) 深度測量之品質提升
JPWO2006049147A1 (ja) 三次元形状推定システム及び画像生成システム
EP3756163B1 (en) Methods, devices, and computer program products for gradient based depth reconstructions with robust statistics
US9171393B2 (en) Three-dimensional texture reprojection
US20200057778A1 (en) Depth image pose search with a bootstrapped-created database
Birkbeck et al. Variational shape and reflectance estimation under changing light and viewpoints
JP2001067463A (ja) 異なる視点からの複数のフェイシャル画像に基づき新たな視点からのフェイシャル画像を生成するフェイシャル画像生成装置及び方法並びにその応用装置及び記録媒体
Liu et al. High-quality textured 3D shape reconstruction with cascaded fully convolutional networks
US20230245396A1 (en) System and method for three-dimensional scene reconstruction and understanding in extended reality (xr) applications
JP7398819B2 (ja) 三次元再構成の方法及び装置
CN114863061A (zh) 一种远程监护医学图像处理的三维重建方法及系统
JP4850768B2 (ja) 3次元の人の顔の表面データを再構築するための装置及びプログラム
CN112883920A (zh) 基于点云深度学习的三维人脸扫描特征点检测方法和装置
Tyle_ek et al. Refinement of surface mesh for accurate multi-view reconstruction
JP2008261756A (ja) ステレオ画像対から3次元の頭部姿勢をリアルタイムで推定するための装置及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20787739

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20787739

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP