WO2023002978A1 - 画像生成処理装置、3次元形状の復元システム、画像生成処理方法およびプログラム - Google Patents

画像生成処理装置、3次元形状の復元システム、画像生成処理方法およびプログラム Download PDF

Info

Publication number
WO2023002978A1
WO2023002978A1 PCT/JP2022/028044 JP2022028044W WO2023002978A1 WO 2023002978 A1 WO2023002978 A1 WO 2023002978A1 JP 2022028044 W JP2022028044 W JP 2022028044W WO 2023002978 A1 WO2023002978 A1 WO 2023002978A1
Authority
WO
WIPO (PCT)
Prior art keywords
laser
dimensional
plane
image generation
coordinates
Prior art date
Application number
PCT/JP2022/028044
Other languages
English (en)
French (fr)
Inventor
洋 川崎
元気 永松
尭史 岩口
賢太郎 小池
淳 高松
Original Assignee
国立大学法人九州大学
国立大学法人 鹿児島大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人九州大学, 国立大学法人 鹿児島大学 filed Critical 国立大学法人九州大学
Priority to JP2023536755A priority Critical patent/JPWO2023002978A1/ja
Publication of WO2023002978A1 publication Critical patent/WO2023002978A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • G01B11/24Measuring arrangements characterised by the use of optical techniques for measuring contours or curvatures
    • G01B11/25Measuring arrangements characterised by the use of optical techniques for measuring contours or curvatures by projecting a pattern, e.g. one or more lines, moiré fringes on the object
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images

Definitions

  • the present invention relates to an image generation processing device, a three-dimensional shape restoration system, an image generation processing method, and a program.
  • Patent Document 1 describes an image processing device that restores a three-dimensional shape by using the coplanarity included in a two-dimensional image of a scene and the geometric conditions of the scene.
  • Patent Literature 1 describes an image processing apparatus that restores a three-dimensional shape from an input two-dimensional image.
  • a first calculation unit that calculates a first solution that is a solution of a first intersection that is an intersection of the first plane and the first plane;
  • An image processing apparatus is described that includes a second calculation unit that eliminates the degrees of freedom of the solution and calculates a second solution that is a solution of the first intersection and the first plane.
  • Patent Document 1 the camera was fixed and not movable. Further, in Patent Document 1, only the intersection points of the same frame of the (moving) image are connected. Therefore, the scene had to be fixed, and it was impossible to measure the movement of objects in the scene, let alone the movement of the camera. Further improvements were required from the viewpoint of precise and accurate 3D reconstruction corresponding to various environments, such as when measuring an outdoor scene from a car or measuring a person in motion.
  • Visual SLAM or SfM is a passive method, based on feature point detection and matching, it can reconstruct sparse 3D shapes when the scene has little texture. I can only do Furthermore, in extreme environments with few feature points in the scene, feature points are often lost during tracking each frame.
  • An image generation processing device that can respond to various environments in this way, can self-calibrate (without the need for external calibration such as synchronization between cameras and lasers), and can perform precise and accurate 3D reconstruction has not been known.
  • the problem to be solved by the present invention is to provide an image generation processing apparatus that can handle various environments, can be self-calibrated, and can perform precise and accurate three-dimensional reconstruction.
  • a moving image captured by an imaging means comprising a plurality of plane crossing lasers and a camera
  • obtaining an intersection set from the laser lines detected in each frame of the moving image Obtaining a chain of constraint equations based on coplanarity, solving simultaneous equations to restore the three-dimensional coordinates of the laser plane in the projective space, and using the light-section method to restore the three-dimensional coordinates of the reflected position of the laser beam in the projective space.
  • Restoration allows for self-calibration and requires no synchronization or geometric constraints between the camera and plane-crossed laser, making it difficult to adjust the device later or calibrate with human intervention, e.g.
  • the three-dimensional coordinates of the reflected positions of the laser beams obtained by the optical section method are projected using moving images taken by an imaging means having a plurality of intersecting lasers and a camera.
  • Visual SLAM or SfM detects arbitrary feature points to obtain the camera position and orientation in the Euclidean coordinate system and the three-dimensional restoration result, and the projection restoration result of the three-dimensional coordinates of the reflected position of the laser beam is obtained.
  • Self-calibration is achieved by integrating the 3D reconstruction results using Euclidean upgrades and camera poses to reconstruct a wide range of 3D shapes, so that the synchronization between the camera and cross-plane laser is also geometrical. It eliminates the need for scientific constraints, and thus enables precise (high-density) and accurate three-dimensional reconstruction even in extreme environments. That is, the present inventors have found that, according to the first and second aspects, they can respond to various environments, do not require synchronization between the camera and the laser, and provide precise (high density) and accurate 3D scanning. We have found that it is possible to provide an image generation processing apparatus capable of dimensional reconstruction, and have solved the above problems.
  • the configuration of the present invention which is a specific means for solving the above problems, and the preferred configuration of the present invention will be described below.
  • An image generation processing device that restores a three-dimensional shape from an input moving image, A moving image is produced by a single camera that captures the target area for a specific period of time, a plurality of plane-crossed laser transmitters that project plane-crossed laser beams onto the substance in the target area, and a movable structure that integrates these units.
  • a group of consecutive frames photographed by a photographing means including a fixing portion to be fixed, an intersection set generator for obtaining an intersection set from the connection relationship between the intersection points of the laser lines detected in each frame of the moving image and the tracking result of the intersection points of the laser lines detected in successive frames; Simultaneous equation generator for obtaining a plurality of constraint equations in a chain because each intersection point of the intersection set is on the two laser planes formed by the plane-intersecting laser, and generating simultaneous equations by synthesizing a group of constraint equations.
  • a plane three-dimensional position estimator that restores the three-dimensional coordinates of the laser plane in projective space by solving simultaneous equations
  • a three-dimensional restoration unit that restores the three-dimensional coordinates of the reflected position of the laser beam in the projective space by the optical section method using the estimated three-dimensional coordinates of the laser plane and the laser beam detected in each frame of the moving image
  • an image generation and processing device comprising: [2] The image generation processing device according to [1], wherein the intersection set generator creates an intersection set graph. [3] Input the known relative three-dimensional positions of the plane crossing lasers and the three-dimensional coordinates of the laser plane estimated in the projection space, and calculate the three-dimensional coordinates of the laser plane and the reflected position of the laser line.
  • the image generation processing device including a first calculation unit that upgrades three-dimensional coordinates to Euclidean coordinates.
  • a three-dimensional point calculation unit that performs Euclidean three-dimensional reconstruction by a self-calibration method with a group of consecutive frames of a moving image as input; a corresponding point detection unit that detects, as corresponding points, those existing on the laser line among the three-dimensional points obtained by the three-dimensional point calculation unit in each frame of the moving image; a second calculation unit that uses the detected corresponding points to upgrade the three-dimensional coordinates of the laser plane and the three-dimensional coordinates of the reflected position of the laser line to Euclidean coordinates;
  • the image generation processing device according to any one of [1] to [3], comprising: [5] SLAM analysis in which the three-dimensional point calculation unit detects arbitrary feature points by Visual SLAM (Simultaneous Localization and Mapping) or SfM (Structure from Motion) to obtain the camera position and orientation in the
  • the image generation processing device which implements a laser plane self-calibration method using a three-dimensional reconstruction result obtained by Visual SLAM or SfM.
  • an epipolar line calculation unit that obtains an epipolar line by calculating, for each intersection point, a straight line that passes through the same intersection point on the image based on the result of tracking the intersection points of the laser lines; a corresponding point search unit based on epipolar constraints, which searches for corresponding points in an arbitrary frame in the moving image on the epipolar line; A corresponding point detection unit that detects, as corresponding points, those existing on a laser line connected to the searched corresponding points among the three-dimensional points obtained by the three-dimensional point calculation unit by Visual SLAM or SfM, a third calculation unit that uses the detected corresponding points to upgrade the three-dimensional coordinates of the laser plane and the three-dimensional coordinates of the reflected position of the laser line to Euclidean coordinates;
  • the image generation processing device according to [4] or [5], comprising: [7] an epipolar line calculation unit that calculates, for each intersection point, a straight line that passes through the same intersection point on the image from the results of tracing the intersection points of the laser lines;
  • a group of consecutive frames photographed by a photographing means including a fixing portion to be fixed Using the three-dimensional coordinates of the laser plane formed by the plane crossing laser estimated by an arbitrary method and the laser lines detected in each frame of the moving image, the three-dimensional coordinates of the reflection position of the laser line are calculated by the optical section method.
  • a three-dimensional reconstruction unit that reconstructs in projective space
  • a SLAM analysis unit that detects arbitrary feature points by Visual SLAM or SfM and obtains a camera position and orientation in a Euclidean coordinate system and a three-dimensional restoration result
  • an integration unit that restores a three-dimensional shape by integrating the restoration result of the three-dimensional coordinates of the reflected position of the laser beam and the three-dimensional restoration result using the camera position and orientation
  • An image generation processing device comprising: [9] The laser line estimator of any one of [1] to [8], comprising a laser line estimator that uses a convolutional neural network (CNN) trained model to calculate the position of the estimated laser line in successive frames.
  • CNN convolutional neural network
  • a mask creation unit that creates a mask by morphological transformation from the position of the estimated laser line
  • the image generation processing device according to [9], wherein Visual SLAM or SfM is applied to obtain three-dimensional points while ignoring the brightness of the position of the mask in each frame of the moving image.
  • the image generation processing device according to any one of [1] to [10], including a fourth calculation unit that re-estimates the three-dimensional coordinates of the laser plane so as to convert the laser plane.
  • [12] A step of dividing the moving image into blocks of consecutive m frames each; including steps and a fifth reestimating the three-dimensional coordinates of the laser plane to minimize the deviation between the two second three-dimensional coordinates if the two second three-dimensional coordinates are the same location within the region of interest;
  • the image generation processing device according to any one of [1] to [11], including a calculation unit.
  • the image generation processing device according to any one of [1] to [12]; A single camera that captures images of the target area for a specific period of time, multiple plane-crossed laser transmitters that project plane-crossed laser beams onto the substance in the target area, and a fixing unit that integrates and fixes them so that they can move.
  • a three-dimensional shape reconstruction system comprising a photographing means including [14] A camera and a cross-plane laser transmitter are provided inside the housing, The three-dimensional shape restoration system according to [13], wherein the target area is underwater. [15] The photographing means further comprises a recording section and a moving section, The three-dimensional shape restoration system according to [13] or [14], wherein the moving image of the target area is captured while the capturing means is moving, and recorded in the recording unit.
  • An image generation processing method for restoring a three-dimensional shape from an input moving image A moving image is produced by a single camera that captures the target area for a specific period of time, a plurality of plane-crossed laser transmitters that project plane-crossed laser beams onto the substance in the target area, and a movable structure that integrates these units.
  • a group of consecutive frames photographed by a photographing means including a fixing portion to be fixed, an intersection set generation step of obtaining an intersection set from the connection relationship between the intersection points of the laser lines detected in each frame of the moving image and the tracking results of the intersection points of the laser lines detected in successive frames; Simultaneous equation generation step of obtaining a plurality of constraint equations in a chain because each intersection point of the intersection set is on two laser planes formed by the plane crossing laser, and generating simultaneous equations by synthesizing a group of constraint equations.
  • a three-dimensional position estimation step of the plane in which the three-dimensional coordinates of the laser plane are restored in projective space by solving simultaneous equations;
  • a three-dimensional reconstruction step of reconstructing the three-dimensional coordinates of the reflected position of the laser beam in a projective space by a light section method using the estimated three-dimensional coordinates of the laser plane and the laser beam detected in each frame of the moving image;
  • An image generation processing method comprising: [17] A SLAM analysis step of detecting arbitrary feature points by Visual SLAM or SfM to obtain a camera position and orientation in a Euclidean coordinate system and a three-dimensional restoration result; an integrating step of restoring a three-dimensional shape by integrating the three-dimensional coordinate restoration result of the reflected position of the laser beam and the three-dimensional restoration result using the camera position and orientation;
  • the image generation processing method according to [16] comprising: [18] An image generation processing method for restoring a three-dimensional shape from an input moving image, A moving image is produced by a single camera
  • a group of consecutive frames photographed by a photographing means including a fixing portion to be fixed Using the three-dimensional coordinates of the laser plane formed by the plane crossing laser estimated by an arbitrary method and the laser lines detected in each frame of the moving image, the three-dimensional coordinates of the reflection position of the laser line are calculated by the optical section method.
  • An image generation processing method comprising: [19] A program to be executed by an image generation processing device that restores a three-dimensional shape from an input moving image, A moving image is produced by a camera that captures the target area for a specific period of time, a plurality of plane-crossed laser transmitters that project plane-crossed laser beams onto the substance in the target area, and an integrated unit that can be moved.
  • a group of consecutive frames photographed by a photographing means including a fixing portion to be fixed, an intersection set generation function for obtaining an intersection set from the connection relationship between the intersection points of the laser lines detected in each frame of the moving image and the tracking results of the intersection points of the laser lines detected in successive frames; Simultaneous equation generation function for generating simultaneous equations by obtaining a plurality of constraint equations in a chain because each intersection point of the intersection set lies on two planes formed by the plane crossing laser, and combining the constraint equation groups , A plane 3D position estimation function that restores the 3D coordinates of the laser plane in projective space by solving simultaneous equations; A three-dimensional restoration function that restores the three-dimensional coordinates of the reflected position of the laser beam in the projective space by the optical section method using the estimated three-dimensional coordinates of the laser plane and the laser beam detected in each frame of the moving image. , The program that causes the to run.
  • an image generation processing apparatus that can handle various environments, can be self-calibrated, and can perform precise (high-density) and accurate three-dimensional reconstruction.
  • FIG. 1 is a schematic diagram of Embodiment 1A, which is an image generation processing apparatus of the first aspect.
  • FIG. 2(A) is a schematic diagram of photographing means for obtaining a moving image used in the image generation processing apparatus of the present invention.
  • 2(B), (C), and (D) are schematic diagrams of an example of a method for obtaining a moving image used in the image generation processing apparatus of the present invention.
  • FIG. 2E is a schematic diagram of an example of a three-dimensional shape restored by the image generation processing device of the present invention.
  • FIG. 3 is a flow chart for explaining an image generation processing method using the image generation processing device of Embodiment 1A.
  • FIG. 4 is another flowchart for explaining the image generation processing method using the image generation processing device of Embodiment 1A.
  • FIG. 5 is a schematic diagram of embodiment 1B, which is the image generation processing apparatus of the first embodiment.
  • FIG. 6 is a flowchart for explaining an image generation processing method using the image generation processing device of Embodiment 1B.
  • FIG. 7 is another flowchart for explaining the image generation processing method using the image generation processing device of Embodiment 1B.
  • Figures 8(a)-8(d) represent a flow diagram of the process of creating an intersection set graph using spatial and temporal connections between intersections.
  • FIG. 9 shows the geometry of the Euclidean upgrade and the symbols used in the calculation of the energy function.
  • FIG. 10 is a schematic diagram of Embodiment 2A, which is the image generation processing apparatus of the second embodiment of FIG. FIG.
  • FIG. 11(a) is a photograph of the setup of the photographing means used in Example 1.
  • FIG. 11(b) shows how the actual angle of the restored pillar is measured.
  • FIG. 11(c) is a photograph showing an example of an image taken for a measurement method using a calibration tool.
  • FIG. 11(d) shows an example of a photographed image required in the present invention.
  • FIG. 12 is a graph showing the relationship between the number of frames used and RMSE (Root Mean Square Error, angle) in the evaluation of the three-dimensional shape restoration accuracy in Example 1.
  • FIG. 13A shows plane fitting errors of two planes in the evaluation of the three-dimensional shape restoration accuracy in Example 1.
  • FIG. 13(B) represents the angle error in the evaluation of the three-dimensional shape restoration accuracy in Example 1.
  • FIG. 14(A) represents the three-dimensional shape restoration result of Kinect V1.
  • FIG. 14(B) shows the three-dimensional shape restoration result of Kinect Azure.
  • FIG. 14C shows the three-dimensional shape restoration result of the hard calibration method.
  • FIG. 14(D) represents the three-dimensional shape reconstruction result of the method of the present invention.
  • FIG. 15(a) is a photograph of the set-up of the photographing means used in Example 2.
  • FIG. 15B is a photograph corresponding to a top view of the target area (scene) used in Example 2.
  • FIG. FIG. 15(c) is a photograph of an example of the process of restoring the three-dimensional coordinates of the laser plane in the projection space.
  • FIG. 15(d) is an example of an image of the restored mannequin being measured.
  • FIG. 15(a) is a photograph of the set-up of the photographing means used in Example 2.
  • FIG. 15B is a photograph corresponding to a top view of the target area (scene) used in Example
  • FIG. 15(e) is the restored mannequin.
  • FIG. 16A shows the errors of MAE [mm] and RMSE [mm] in the evaluation of the three-dimensional shape restoration accuracy in Example 2.
  • FIG. 16B shows the number of restored three-dimensional points in the evaluation of the three-dimensional shape restoration accuracy in Example 2.
  • FIG. 17(a) shows the three-dimensional shape restoration result of GT.
  • FIGS. 17(b) and 17(B) show the three-dimensional shape restoration results of the DSO.
  • FIGS. 17(c) and 17(C) show the three-dimensional shape restoration result of Colmap.
  • FIG. 17(d) and FIG. 17(D) show the three-dimensional shape restoration result of the hard calibration method.
  • FIGS. 18(a1-1) and 18(a1-2) show the results of displaying the three-dimensional shape restoration results in the left frame of FIG. 18(A) from different angles.
  • FIG. 18(b1) shows the result of displaying the three-dimensional shape restoration result in the frame on the right side of the page of FIG. 18(A) from another angle.
  • FIG. 18(b1-B) respectively show examples of captured images required in the present invention.
  • FIG. 18(B) shows the three-dimensional shape restoration result of Colmap.
  • FIG. 18(b1) shows the result of displaying the three-dimensional shape restoration result in the frame on the left side of the page of FIG. 18(B) from another angle.
  • FIG. 18(b2) shows the result of displaying the three-dimensional shape restoration result in the frame on the right side of the page of FIG. 18(B) from another angle.
  • FIG. 18(C) shows the three-dimensional shape restoration result of Meshroom.
  • FIG. 18(c1) shows the result of displaying the three-dimensional shape restoration result in the frame on the left side of the page of FIG. 18(C) from another angle.
  • FIG. 18(c1) shows the result of displaying the three-dimensional shape restoration result in the frame on the left side of the page of FIG. 18(C) from another angle.
  • FIG. 18(c1) shows the result of displaying the three-dimensional shape restoration result in the frame
  • FIG. 18(c2) shows the result of displaying the three-dimensional shape restoration result in the frame on the right side of the page of FIG. 18(C) from another angle.
  • FIG. 19 represents the results of laser line estimation.
  • FIG. 20(A) represents the tracked intersection.
  • FIG. 20B represents connected intersections.
  • FIG. 20(C) represents the created intersection set graph.
  • FIG. 21 represents the result of mask making.
  • FIG. 22 shows the results of corresponding point detection.
  • FIG. 23 shows the three-dimensional shape restoration result before optimization.
  • FIG. 24 is a diagram explaining an algorithm of the optimization method.
  • FIG. 25 is a diagram for explaining the process of generating an average shape from double shapes using a mesh.
  • FIG. 26 is a diagram for explaining the process of obtaining the loop section and the average camera position and orientation.
  • FIG. 25 is a diagram for explaining the process of generating an average shape from double shapes using a mesh.
  • FIG. 27 is a diagram for explaining the process of bundle adjustment for each block.
  • FIG. 28 shows the result of cost transition in bundle adjustment.
  • FIG. 29 is a diagram for explaining the process of bundle adjustment on a frame-by-frame basis.
  • FIG. 30 shows the three-dimensional shape restoration result after optimization.
  • FIG. 31 shows the 3D shape reconstruction result after optimization in water.
  • a first aspect of the image generation processing device of the present invention is an image generation processing device that restores a three-dimensional shape from an input moving image, A moving image is produced by a single camera that captures the target area for a specific period of time, a plurality of plane-crossed laser transmitters that project plane-crossed laser beams onto the substance in the target area, and a movable structure that integrates these units.
  • a group of consecutive frames photographed by a photographing means including a fixing portion to be fixed, an intersection set generator for obtaining an intersection set from the connection relationship between the intersection points of the laser lines detected in each frame of the moving image and the tracking result of the intersection points of the laser lines detected in successive frames; Simultaneous equation generator for obtaining a plurality of constraint equations in a chain because each intersection point of the intersection set is on the two laser planes formed by the plane-intersecting laser, and generating simultaneous equations by synthesizing a group of constraint equations.
  • a plane three-dimensional position estimator that restores the three-dimensional coordinates of the laser plane in projective space by solving simultaneous equations
  • a three-dimensional restoration unit that restores the three-dimensional coordinates of the reflected position of the laser beam in the projective space by the optical section method using the estimated three-dimensional coordinates of the laser plane and the laser beam detected in each frame of the moving image; ,including.
  • a second aspect of the image generation processing device of the present invention is an image generation processing device that restores a three-dimensional shape from an input moving image
  • a moving image is produced by a single camera that captures the target area for a specific period of time, a plurality of plane-crossed laser transmitters that project plane-crossed laser beams onto the substance in the target area, and a movable structure that integrates these units.
  • a three-dimensional reconstruction unit that reconstructs in projective space
  • a SLAM analysis unit that detects arbitrary feature points by Visual SLAM or SfM and obtains a camera position and orientation in a Euclidean coordinate system and a three-dimensional reconstruction result
  • an integration unit that restores a three-dimensional shape by integrating the restoration result of the three-dimensional coordinates of the reflected position of the laser beam and the three-dimensional restoration result using the camera position and orientation
  • the image generation processing apparatus of the first aspect or the second aspect can adapt to various environments, can be self-calibrated, and can perform precise and accurate three-dimensional reconstruction. Preferred embodiments of the present invention are described below. Although the first aspect will be mainly described below, preferred aspects of the first aspect are common to preferred aspects of the second aspect.
  • FIG. 1 is a schematic diagram of Embodiment 1A, which is an image generation processing apparatus of the first aspect.
  • the image generation processing device 1 shown in FIG. 1 includes an intersection point set generator, a simultaneous equation generator, a plane three-dimensional position estimator, and a three-dimensional restorer. Parts directly related to the image generation processing such as the intersection set generator, the simultaneous equation generator, the three-dimensional plane position estimation unit, and the three-dimensional restoration unit are also called an image generation processor.
  • the image generation processor preferably further comprises a laser line estimator.
  • the image generation processing unit may be integrated so as to be executed by an application (program) that executes a predetermined function by a CPU or the like.
  • the overall general function of the image generation processing device 1 is to perform image generation processing on the moving image input from the photographing means 100, restore the three-dimensional shape, and output it.
  • the embodied image generation processing device 1 may be a computer such as a personal computer in which an application (program) for executing a predetermined function is installed, or an image generation processing device configured to execute a predetermined function. It may be configured as a device dedicated to processing.
  • each part constituting the image generation processing apparatus 1 may be electrically connected to each other via a bus, or may be connected to each other via a network as a client server system or a cloud system. good too.
  • the moving image used in the present invention consists of one camera that captures the target area in a specific period, a plurality of plane-crossed laser transmitters that project plane-crossed laser beams onto the substance in the target area, and these are integrated and moved. a group of consecutive frames captured by a capture means including a fixation part that secures as possible; Note that even if the fixed part moves during measurement, the following processing is established because self-calibration is performed by the technique of the present invention. Specifically, when a mutation in the fixed portion is detected, self-calibration may be performed again. As a method of detecting such a mutation, for example, whether or not the laser intersection point is on the epipolar line can be used as a determination criterion.
  • FIG. 2A is a schematic diagram of a photographing means 100 for obtaining moving images used in the image generation processing apparatus of the present invention.
  • the photographing means 100 shown in FIG. 2A preferably further includes a housing 121 , a recording section 131 and a moving section 141 .
  • Each plane-crossed laser 111 emitted from the plane-crossed laser transmitter 102 consists of two line lasers, the two laser planes are fixed substantially vertically, and then precisely self-calibrated. It is assumed that the camera-specific parameters are pre-calibrated.
  • the camera-specific parameters can be calibrated by a self-calibration method such as SfM or SLAM, which will be described later, the calibration can be performed without calibration.
  • the position of the photographing means (the relative positional relationship between the camera and each laser plane) does not presuppose prior calibration, it must be calibrated according to the present invention.
  • a self-calibration technique such as SfM or SLAM, and is self-calibrated by the method of the present invention.
  • FIGS. 2(B), (C), and (D) are schematic diagrams of an example of a method for obtaining a moving image used in the image generation processing apparatus of the present invention.
  • a photographing means including a fixing portion that integrates and fixes one camera and a plurality of cross-plane laser transmitters so as to be movable , to photograph a target area (subject) by moving the entire photographing means.
  • the image generation processing apparatus of the present invention receives the moving image photographed in this way and restores the three-dimensional shape.
  • FIG. 2E is a schematic diagram of an example of a three-dimensional shape restored by the image generation processing device of the present invention. The details of the imaging means will be described later in the description of the three-dimensional shape restoration system.
  • a laser line estimator detects a laser line in each frame of the moving image.
  • the laser line estimating unit can perform detection by selecting pixels having a threshold value of a certain value or higher for brightness. However, if the laser output is not large enough for the target area (scene), noise will increase and must be removed.
  • the laser line estimator preferably uses a trained model of a convolutional neural network (CNN) to calculate the position of the estimated laser line in successive frames.
  • CNN convolutional neural network
  • intersection point set generator obtains an intersection point set from the connection relationship between the intersection points of the laser lines detected in each frame of the moving image and the tracking results of the intersection points of the laser lines detected in successive frames.
  • the obtained intersection point set is input to the simultaneous equation generator.
  • the intersection set generator creates an intersection set graph. The intersection set graph will be described later.
  • the simultaneous equation generator obtains a plurality of constraint equations in a chain because each intersection point of the intersection set lies on the two laser planes formed by the plane crossing laser, and combines the constraint equation groups to generate the simultaneous equations. Generate.
  • the generated simultaneous equations are input to the plane three-dimensional position estimator.
  • the plane three-dimensional position estimator restores the three-dimensional coordinates of the laser plane in the projective space by solving simultaneous equations.
  • the estimated (restored in projective space) 3D coordinates of the laser plane are input to the 3D reconstruction unit.
  • the three-dimensional reconstruction unit uses the estimated three-dimensional coordinates of the laser plane and the laser beams detected in each frame of the moving image to reconstruct the three-dimensional coordinates of the reflected positions of the laser beams in the projection space by the light section method. do.
  • the three-dimensional reconstruction unit may three-dimensionally reconstruct points on the laser line using the laser line detected in each frame of the moving image based on the Euclidean solution.
  • the three-dimensional reconstruction unit can reconstruct the line of intersection between the laser plane and the region of interest (scene) corresponding to the coplanarity used in the three-dimensional position estimation unit of the plane.
  • the restored three-dimensional information may be stored in the storage unit, displayed on the display unit, or output on paper by an output unit such as a printer (not shown).
  • control part The control unit is a part that controls the operation of the entire image generation processing device 1 .
  • the input section is a section through which information is input to the image generation processing apparatus 1 from the outside.
  • a moving image that is a two-dimensional moving image is input.
  • the storage unit is a fixed storage disk represented by a HDD (Hard Disk Drive), a removable storage disk such as a CD (Compact Disc) or a DVD (Digital Versatile Disk), a fixed or removable semiconductor memory, or the like.
  • the storage unit stores a 2D moving image before processing, a 3D shape restored from the 2D moving image, and intermediate information obtained by processing the 2D moving image.
  • the intermediate information includes, for example, intersection set information, intersection set graph information, three-dimensional coordinate (projection solution) information of the laser plane in the projection space, and three-dimensional reflection position of the laser beam in the projection space.
  • the storage unit preferably stores a program for executing the image generation processing method described below.
  • This program is called by the user's operation of the operation unit, and executes the functions of the respective parts described above. Specifically, the program operates each part so as to restore three-dimensional shape data from input two-dimensional moving image data.
  • the display unit is, for example, a liquid crystal display, a CRT (Cathode Ray Tube), or a video projector, and displays an input two-dimensional moving image and a three-dimensional shape restored based on this two-dimensional moving image.
  • a CRT Cathode Ray Tube
  • a video projector displays an input two-dimensional moving image and a three-dimensional shape restored based on this two-dimensional moving image.
  • the operation unit is, for example, a keyboard or a mouse, and the image generation processing device restores the three-dimensional shape from the two-dimensional moving image by operating the operation unit by the user.
  • FIG. 3 is a flow chart for explaining an image generation processing method using the image generation processing device of Embodiment 1A.
  • the photographing means moves around a target area (scene; photographing object) and projects a plurality of plane lasers.
  • a target area scene; shooting target
  • a moving image made up of a plurality of images is acquired as a group of continuous frames.
  • the present invention uses plane-crossed lasers to acquire coplanarity information.
  • Coplanarity information can be obtained by taking a picture while irradiating a target area with a plane crossing laser and extracting the trajectory of points irradiated by the line laser from the taken moving image.
  • a plane in three-dimensional space through which a plane-crossing laser passes is sometimes called a laser plane.
  • each laser line is detected for a plurality of laser lines projected onto the region of interest in each frame of the moving image.
  • Each laser line is preferably independently detected. It can be detected by selecting pixels with a threshold value above a certain level for brightness, but if the laser output is not large enough for the target area (scene), noise will increase, so noise removal is required. There is a need to. Furthermore, the process of isolating the detected laser lines is not trivial. Therefore, independent detection by a deep neural network (DNN) is efficient. In this case, it is more efficient not only to detect the line of the laser beam, but also to assign an ID from which cross-plane laser transmitter the line is irradiated.
  • DNN deep neural network
  • Non-Patent Document A Ryo Furukawa, Genki Nagamatsu, Shiro Oka, Takahiro Kotachi, Yuki Okamoto, Shinji Tanaka, Hiroshi Kawasaki, "Simultaneous shape and camera-projector parameter estimation for 3D endoscopic system using CNN-based grid-oneshot scan", MICCAI workshops AE-CAI, CARE (MIAR), Vol. 6, Iss. 6, pp.249-254, 10.2019
  • each line laser is detected independently, the intersection point between the two laser lines is calculated. It is preferable to determine the connection relationship between these intersections by connecting them under coplanar constraint conditions.
  • the condition that each intersection lies on the two laser planes is the coplanarity condition.
  • the point clouds lie on the same plane, they are said to be coplanar. For example, if the surface of an object is planar, all points on that plane are coplanar. Points on a plane are coplanar even if there is no pattern on the plane and the points on the plane cannot be observed as a pattern on the image. There are many coplanarities in a target area (scene) composed of such planar structures.
  • the coplanarity of points on a physically existing plane that is actually observed on an image is called explicit coplanarity (second coplanarity).
  • a set of points having such coplanarity is hereinafter described as an explicit coplanar point set.
  • there are innumerable coplanarities in space that are not normally visible, but become observable under certain conditions.
  • the trajectory of an object illuminated by a line laser beam is a set of coplanar points.
  • Such coplanarity is normally invisible and can only be observed when a light beam strikes. In the present embodiment, this is called implicit coplanarity (first coplanarity).
  • a coplanar point group detected in this manner is called an implicit coplanar
  • a curve obtained by observing the implicit coplanar point group with a camera is called an implicit coplanar curve.
  • Explicit coplanarity is generally observed only on flat surfaces of objects, whereas implicit coplanarity is observable on any part of the object surface, including free curved surfaces.
  • intersection points of the detected laser lines are then tracked in successive frames. If the photographing is not finished at this stage, the process returns to the step of photographing the object to be photographed. Since the image generation processing apparatus of the present invention can automatically perform image generation processing by a program, high-speed three-dimensional reconstruction in real time is possible. Therefore, if you track the intersection points of the laser lines and do not expect to obtain a sufficient intersection set, or if you do not actually obtain a sufficient intersection set, return to the process of imaging the object to be imaged in real time. can be done.
  • FIG. 4 is another flowchart for explaining the image generation processing method using the image generation processing device of Embodiment 1A.
  • a step of creating an intersection set graph is provided between the step of tracing the intersection points and the step of creating a system of equations from the intersection points.
  • a graph representation to describe the relationship between intersections and the trajectory of intersections as an intersection set graph.
  • Other steps in FIG. 4 are the same as in FIG.
  • Intersection relationships and intersection trajectory accuracy are critical for self-calibration stability, ensuring high-accuracy stability in groups of frames acquired with an increased number of frames compared to using only two adjacent frames It would be desirable to create an intersection set graph that can be used and that can streamline programs.
  • this is preferably about 30 frames (sheets) or more, more preferably 40 frames or more.
  • JP-A-2009-32123 can be used, and the contents of this publication are incorporated herein by reference.
  • FIG. 5 is a schematic diagram of embodiment 1B, which is the image generation processing apparatus of the first embodiment.
  • the image generation processing device 1 of the embodiment 1B shown in FIG. 5 includes a laser line estimator, an intersection set generator, a simultaneous equation generator, and a three-dimensional position of a plane, as in the embodiment 1A shown in FIG.
  • An estimator a three-dimensional reconstruction unit, a mask generator, a three-dimensional point calculator, an epipolar line calculator, a corresponding point searcher, a corresponding point detector, and a Euclidean upgrade calculator (first , a second calculation unit, and a third calculation unit), and an integration unit.
  • a portion directly related to these image generation processes is also called an image generation processing section.
  • the image generation processing unit may be integrated so as to be executed by an application (program) that executes a predetermined function by a CPU or the like.
  • embodiment 1B may include a fourth calculation unit and/or a fifth calculation unit for optimizing the camera position and orientation in the entire measurement and re-estimating more accurate three-dimensional coordinates. good.
  • Embodiment 1B will be described, mainly focusing on the differences from Embodiment 1A.
  • (First calculation unit) In embodiment 1B, given the known relative 3D positions of the plane-crossed lasers and the estimated 3D coordinates of the laser plane in projective space, the 3D coordinates of the laser plane and the reflection of the laser line are calculated. It preferably includes a first calculator for upgrading the 3D coordinates of the position to Euclidean coordinates.
  • the first calculation unit eliminates degrees of freedom of the three-dimensional coordinates of the laser plane estimated in the projective space and the three-dimensional coordinates (projective solution) of the reflected position of the laser beam in the projective space, and transforms the projective solution into a Euclidean solution. Has the ability to upgrade.
  • Embodiment 1B preferably includes an epipolar line calculator that obtains an epipolar line by calculating, for each intersection point, a straight line through which the same intersection point passes on the image based on the tracking results of the intersection points of the laser lines.
  • Embodiment 1B preferably includes an epipolar constraint-based corresponding point searching unit that searches for corresponding points in an arbitrary frame in the moving image on the epipolar line obtained by the epipolar line calculating unit.
  • the searched corresponding points are preferably input to the corresponding point detection unit. Further, it is preferable that the searched corresponding points are input to the plane three-dimensional position estimation unit, and the plane three-dimensional position estimation unit restores the three-dimensional coordinates of the laser plane in the projection space.
  • Embodiment 1B preferably includes a mask creation unit that creates a mask by morphological transformation from the position of the estimated laser line.
  • a known method can be used for morphological conversion.
  • the mask is input to the SLAM analysis part of the 3D point calculation part, and when detecting arbitrary feature points by Visual SLAM or SfM, the laser line area is masked from each frame of the captured moving image, and the masked From the viewpoint of robust detection of feature points, it is preferable that the region is excluded from feature point detection.
  • 3D point calculator In embodiment 1B, including a 3D point calculator that takes a group of consecutive frames of moving images as input and performs Euclidean 3D reconstruction by Visual SLAM or SfM realizes self-calibration, thereby allowing the camera and plane intersection Synchronization between lasers also eliminates the need for geometrical restrictions, which is preferable from the viewpoint of enabling precise (high-density) and accurate three-dimensional reconstruction even in extreme environments. It is preferable that the 3D point calculation unit includes a SLAM analysis unit that detects arbitrary feature points by Visual SLAM or SfM and obtains the camera position and orientation in the Euclidean coordinate system and the 3D reconstruction result.
  • the 3D point calculation unit preferably obtains 3D points (3D restoration result) by applying Visual SLAM or SfM while ignoring the luminance at the position of the mask in each frame of the moving image.
  • the obtained three-dimensional restoration result (three-dimensional point) of the Euclidean coordinate system is input to a corresponding point detection unit, which will be described later.
  • the obtained camera position and orientation in the Euclidean coordinate system are input to an integration unit, which will be described later, and the integration unit can implement a self-calibration method for the laser plane and the three-dimensional position of the imaging device.
  • Embodiment 1B is provided with a corresponding point detection unit that detects, as corresponding points, those existing on the laser line among the three-dimensional points obtained by the three-dimensional point calculation unit in each frame of the moving image. This is preferable from the viewpoint of facilitating shape restoration by the light section method using the coplanarity that all corresponding points are on the laser line (laser plane).
  • the corresponding point detection unit detects, among the three-dimensional points obtained by the three-dimensional point calculation unit based on the self-calibration method, those existing on the laser line connected to the corresponding points searched by the corresponding point search unit based on the epipolar constraint. Detecting as corresponding points is more preferable from the viewpoint of facilitating shape restoration by the light section method using the coplanarity that all of those corresponding points exist on the laser line (laser plane).
  • Embodiment 1B may comprise a second calculation unit and a third calculation unit that use the detected corresponding points to upgrade the three-dimensional coordinates of the laser plane and the three-dimensional coordinates of the reflected position of the laser line to Euclidean coordinates.
  • the corresponding point detection unit uses corresponding points detected as corresponding points existing on the laser line among the three-dimensional points obtained by the three-dimensional point calculation unit, it is referred to as a second calculation unit.
  • the corresponding point detection unit selects, among the three-dimensional points obtained by the three-dimensional point calculation unit, those existing on the laser line connected to the corresponding points searched by the corresponding point search unit based on the epipolar constraint as corresponding points.
  • the detected corresponding points are used, it is called a third calculation unit.
  • Embodiment 1B may include a fourth and/or a fifth calculator for optimizing the camera position and orientation for the entire measurement and re-estimating more accurate 3D coordinates.
  • the fourth calculation unit in a group of consecutive frames photographed by the photographing means, the three-dimensional coordinates restored in frame n and the three-dimensional coordinates restored in frame k are at the same position within the target area. If so, re-estimate the 3D coordinates of the laser plane so as to minimize the deviation between the two 3D coordinates.
  • frame n and frame k are arbitrary frames, and frame n and frame k are different frames.
  • the fourth calculator may operate in combination with a fifth calculator described later.
  • Embodiment 1B includes the step of dividing a moving image into blocks of consecutive m frames each, and integrating the three-dimensional coordinates restored by the three-dimensional restoration unit into second three-dimensional coordinates for each block. and redoing the three-dimensional coordinates of the laser plane so as to minimize the deviation between the two second three-dimensional coordinates if they are the same location within the region of interest.
  • a fifth calculator for estimating may be included.
  • the moving image is preferably divided into blocks of 3 to 100 frames, more preferably into blocks of 5 to 50 frames.
  • Blocks are generated by integrating point clouds of dozens of frames.
  • the camera position and orientation of the first frame are used as the orientation of the entire block, and the point clouds of other frames are projected to the local coordinates of the first frame using the relative orientations to the first frame.
  • T i start is the relative orientation of the i frame with respect to the first frame
  • P i is the point group of the laser irradiation unit in the i th frame.
  • a loop section refers to a section in which photographing areas overlap when photographing a target area one and a half times, for example (see FIG. 26).
  • ICP Intelligent Closest Point
  • the camera position and orientation for the block are optimized by block-by-block bundle adjustment (see FIG. 24).
  • the sequence of steps from average shape generation to block-wise bundle adjustment may be repeated several times.
  • a mean shape can be generated by a mesh.
  • a mesh is generated in the middle (Fig. 25 (left figure)), but if the distance is long, the shape of the mesh collapses ( FIG. 25 (right side view)). Therefore, before mesh generation, the distance between shapes may be forcibly reduced by reintegrating the points of each frame using the average camera position and orientation in the overlapping section of the paths.
  • the average camera position/orientation is obtained by manually specifying the start frame and the end frame of the loop section (Fig. 26 (left side figure)), and calculating the weighted average of the translation components of the corresponding camera position/orientation (Fig. 26 (right side figure)). figure)).
  • t i is the translation component of the pose in the i-th frame
  • t′ i is the average translation component of the pose in the i-th frame
  • w is the weight, which is linear with respect to i. be.
  • the point cloud of each frame is projected using the camera position and orientation obtained last.
  • the correspondence between each point of the block and the average shape is obtained by ICP. Since both the block and the overall restoration result are obtained by integrating the laser of each frame by the camera position and orientation, the correspondence between the points of each block and the average shape can be obtained from the correspondence between the points of the overall shape and the average shape. Bundle adjustment is performed using the obtained correspondence.
  • the restoration result of the three-dimensional coordinates of the reflected position of the laser beam, the camera position and orientation obtained by the three-dimensional point calculation unit, and the re-estimation results obtained by the fourth calculation unit and the fifth calculation unit It is preferable to provide an integration unit that integrates the three-dimensional restoration results using to restore the three-dimensional shape.
  • an integration unit that integrates the three-dimensional restoration results using to restore the three-dimensional shape.
  • FIG. 6 is a flowchart for explaining an image generation processing method using the image generation processing device of embodiment 1B.
  • FIG. 6 similar to the flow chart for explaining the image generation processing method using the image generation processing device of Embodiment 1A shown in FIG. 3 or 4, (1) laser line detection, (2) intersection point Create a set graph, and (3) restore the laser plane.
  • (3) when performing laser plane reconstruction it is preferable to construct simultaneous equations from epipolar constraints in addition to coplanarity.
  • epipolar lines obtained by tracing intersection points are used to search for corresponding points based on epipolar constraints.
  • laser intersection points on the obtained epipolar line are detected to obtain corresponding points, and simultaneous equations including the corresponding points are constructed.
  • a solution with four degrees of freedom is obtained by solving the simultaneous equations using a linear solution method such as singular value decomposition (SVD).
  • SVD singular value decomposition
  • arbitrary feature points are detected by Visual SLAM or SfM to obtain the camera position and orientation in the Euclidean coordinate system and the three-dimensional reconstruction result. Since the laser lines on each frame of the video image are sparse, excluding the laser line region from each frame of the captured video image allows Visual SLAM or SfM to perform robust feature point detection.
  • a morphological filter (dilation) is preferably applied to the detected laser lines to create the mask, and more preferably a morphological transformation to create the mask.
  • the camera position and orientation in the Euclidean coordinate system (camera egomotion) and the three-dimensional reconstruction result (initial depth of the target area 3D point cloud) is preferably estimated.
  • the obtained 3D point cloud is back-projected onto each frame, and the points overlapping with the laser line, that is, the 3D points on the laser line are detected as corresponding points.
  • (6) nonlinear optimization Euclidean upgrade in FIG. The 3D coordinates and the 3D coordinates of the reflected position of the laser line are upgraded to Euclidean coordinates.
  • a scale graph may be created and an estimated scale parameter calculated.
  • the camera motion parameters can be modified for Euclidean upgrade (first calculation part).
  • a known relative three-dimensional position of plane-crossing lasers is a cross-shaped laser, with the two laser planes rotated 90 degrees.
  • parallel lasers in which two lasers are installed in parallel may be used. In the case of these combinations, even when enclosed in an underwater housing, both laser planes can be perpendicular to the boundary surface, so that the effect of refraction can be eliminated, which is preferable.
  • the plane crossed lasers may be lasers mounted with the two laser planes rotated by a known angle other than 90 degrees, such as lasers mounted 60 degrees with respect to each other, or lasers mounted 45 degrees with respect to each other.
  • a laser is conceivable.
  • a plane-crossed laser may also be a laser in which three or more laser planes are each rotated by a known angle, such as 60 degrees or 45 degrees.
  • the self-calibration parameters can be greatly reduced due to central projection, which is preferable.
  • Euclidean upgrade of the 3D coordinates of the laser plane and the 3D coordinates of the laser reflection position using the initial depth of the 3D points on the laser line and the camera position and orientation obtained by detecting feature points with SLAM, etc. (second calculation unit).
  • the initial depth of the 3D point on the epipolar line and the camera pose are preferably used to Euclidean upgrade the 3D coordinates of the laser plane and the 3D coordinates of the laser reflection position.
  • the 4-DOF solution can be upgraded to the Euclidean coordinate system by the Bundle adjustment algorithm.
  • the 4-DOF solution can be upgraded to the Euclidean coordinate system by the Bundle adjustment algorithm.
  • the correspondence between multiple frames is limited to the intersections of lines, so a sufficient number cannot be obtained, and in practice it is difficult to converge. It can be realized because a highly accurate initial solution is obtained by coplanarity restoration.
  • FIG. 7 is another flowchart for explaining the image generation processing method using the image generation processing device of Embodiment 1B.
  • the flow chart of FIG. 7 details a preferred embodiment of the flow chart of FIG.
  • the details of the image generation processing method using the image generation processing device of embodiment 1B will be described with reference to FIG.
  • the nodes are created by computing the intersection points of the laser curves on the image detected by the DNN or CNN. They are spatially connected within the frame to generate the first graph. The intersection of the next frame is temporally connected to the current frame by the nearest neighbor approach, and the temporally connected nodes are grouped to make a single node (Fig. 8(a)-(b) to). Since the intersection set graph obtained at this stage contains errors and noise for both spatial and temporal connectivity, spatial errors are first suppressed by the following approach. First construct a new graph with groups as nodes. In our setup, we do not assume special situations such as triple intersections, so each node in the new graph has only two spatial connections, such as vertical and horizontal, so each node is connected to each other.
  • the three-dimensional coordinates of the laser plane are restored in the projective space by obtaining the projective solution of the plane parameters due to the coplanar constraint.
  • p [i,j,t] (u [i,j,y] , v [i,j,t] ) which is the intersection between plane i and plane j at frame t .
  • the laser plane ⁇ i is given by the following formula 1 is represented by Formula 1 is the following formula 2 is represented in the form where (px, py) is the principal point and fx, fy is the focal length.
  • Equation 3 The coplanarity constraint between the two laser planes ⁇ i and ⁇ j is given by Equation 3 below.
  • Equation 4 Equation 4; where T is the combined vector of laser plane parameters and A whose rows are in the appropriate columns to form the linear equation. Since it is known that there exists a trivial solution for v, the equation can be solved using SVD or the like under the constraint
  • 1. If the system of linear equations can be solved and is not under degeneracy conditions, a projective solution of the planar parameters ( ap , bp , cp ) with 4 degrees of freedom uncertainty is obtained.
  • simultaneous equations are constructed from epipolar constraints in addition to coplanarity when performing laser plane restoration.
  • a straight line (epipolar line) passing through the same intersection on the image is calculated from the result of tracing the intersection of the laser lines. Since the relative positions between the camera and the laser are fixed relative to each other, the epipolar lines on the image are static even if the imaging means moves around during scanning. This means that all points belonging to the same line of intersection lie on the same epipolar line, so even if more than two frames are used in the calculation, it does not increase the intrinsic information. Therefore, the maximum number of constraints for points on the same epipolar line is two.
  • the accuracy of the epipolar line is important for the stability of the self-calibration, so if the distance between two corresponding points is too narrow, the accuracy will inevitably be low, so only two adjacent frames are Using it can lead to unstable solutions.
  • the projective solution with coplanarity and epipolar constraints has up to 4 degrees of freedom
  • the angle between the laser planes eg, crosshair lasers placed at 90 degrees with high precision
  • the Euclidean upgrade can be performed immediately after the projection restoration, there are many advantages such as a significant reduction in the amount of calculation, a faster processing, and the possibility of restoration that does not depend on the target area (scene).
  • the flexibility of the system configuration is remarkably reduced, for example, it is necessary to create a cross laser with high accuracy or measure its angle in advance.
  • 3D points generated by Visual SLAM or SfM using the texture information of the region of interest (scene) for Euclidean upgrade. is preferably used.
  • the method using Visual SLAM will be described below, but the same can be done with SfM.
  • L [i,j] be the 3D line between the two planes.
  • l [i,j] be the 2D line corresponding to L [ i,j].
  • s [i,t] be the 2D line detected from the captured image.
  • the intersection between s [i,t] and s [j,t] be m [i,j,t] .
  • i and j denote the laser planes ⁇ i and ⁇ j.
  • t means the id (identification number) of the captured image.
  • s [i,t] is detected by a line detection algorithm, no correspondence between s [i,t] and ⁇ i is given.
  • the correspondence between L [ i,j] and m [ i,j,t] is obtained by the correspondence l [i,j] and m [i,j,t] given by the nearest distance. can be done.
  • m [i,j,t] is an element of s [i,t] and s [j,t] , from the accumulation that m [i,j,t] belongs to s [i,t] .
  • FIG. 9 shows a schematic diagram of the geometry (geometric arrangement) of the Euclidean upgrade and the symbols used in the calculation of the following energy function.
  • P n′ [i] represents the 3D point calculated by the estimated laser plane parameters
  • COP( ⁇ i, ⁇ j , Q m [i,j] ) is the estimated laser plane parameters and the coplanarity error value calculated by the detected intersection points.
  • ⁇ * i represents the optimized laser plane parameters.
  • RANSAC is applied to P n [i] (n ⁇ ⁇ i ) to remove outliers and estimate initial values of plane parameters and 3D points P n [i] .
  • the camera position and orientation and the internal parameters of the camera may be added to ⁇ i .
  • the 3D points are detected by Visual SLAM. It can be performed in the same way as the process of Euclidean upgrade after obtaining. This utilizes the property that an epipolar line on a two-dimensional image is a line of intersection of two laser planes in a three-dimensional space.
  • the present invention detects 3D points on the epipolar line from the viewpoint of increasing the flexibility of the system configuration, such as eliminating the need to create a cross laser with high precision in advance. It is preferable to use the Euclidean upgrade of the process of obtaining corresponding points by .
  • a direct solution can be obtained by plane fitting or the like, which contributes to a reduction in the amount of calculation, an increase in processing speed, and stability of the solution.
  • SVD Single value decomposition
  • the order of the Euclidean upgrade in the second calculation unit and/or the third calculation unit and the shape restoration process by the light section method in the three-dimensional restoration unit is not particularly defined.
  • the three-dimensional coordinates of the laser plane in the projective space estimated by the plane three-dimensional position estimation unit and the Both the 3D coordinates of the reflected position of the laser line can be upgraded to Euclidean coordinates.
  • only one of the three-dimensional coordinates of the laser plane and the three-dimensional coordinates of the reflected position of the laser line may be upgraded in advance to Euclidean coordinates.
  • the second calculation unit and/or the third calculation unit can upgrade the three-dimensional coordinates of the reflected position of the laser beam in the projection space restored by the three-dimensional restoration unit to Euclidean coordinates.
  • FIG. 7 shows a flow of performing three types of Euclidean upgrades in the first calculation unit, the second calculation unit, and the third calculation unit. good too. For example, two Euclidean upgrades may be performed in the second and third computation units, and no Euclidean upgrade may be performed in the first computation unit.
  • An image generation processing device is an image generation processing device that restores a three-dimensional shape from an input moving image
  • a moving image is produced by a camera that captures the target area for a specific period of time, a plurality of plane-crossed laser transmitters that project plane-crossed laser beams onto the substance in the target area, and an integrated unit that can be moved.
  • a group of consecutive frames photographed by a photographing means including a fixing portion to be fixed Using the three-dimensional coordinates of the laser plane formed by the plane crossing laser estimated by an arbitrary method and the laser lines detected in each frame of the moving image, the three-dimensional coordinates of the reflection position of the laser line are calculated by the optical section method.
  • a three-dimensional reconstruction unit that reconstructs in projective space
  • a SLAM analysis unit that detects arbitrary feature points by Visual SLAM or SfM and obtains a camera position and orientation in a Euclidean coordinate system and a three-dimensional restoration result
  • an integration unit that restores a three-dimensional shape by integrating the restoration result of the three-dimensional coordinates of the reflected position of the laser beam and the three-dimensional restoration result using the camera position and orientation;
  • FIG. 10 is a flowchart for explaining an image generation processing method using the image generation processing device of Embodiment 2A.
  • FIG. 10 is another flow chart for explaining the image generation processing method using the image generation processing device of embodiment 1B shown in FIG.
  • the process of tracking, the process of creating an intersection set graph, and the process of creating simultaneous equations from the intersections are not essential, and the laser plane restoration is performed by an arbitrary method.
  • an arbitrary method for example, a method of determining variables corresponding to the degrees of freedom remaining in the solution from equations obtained from geometric conditions included in the target area (scene) and realizing Euclidean reconstruction. can be done.
  • the three-dimensional shape restoration system of the present invention includes the image generation processing device of the present invention, one camera that photographs the target area in a specific period, and a plurality of plane crossing units that project plane crossing lasers onto the substance in the target area.
  • a photographing means including a laser transmission section and a fixing section that integrates and fixes them so as to be movable is provided.
  • the three-dimensional shape reconstruction system of the present invention is adaptable to various environments, self-calibrating, and capable of detailed and accurate three-dimensional reconstruction.
  • the environment that can be handled includes various environments that are difficult for humans to access, such as scanning the inside of the human body with an endoscope, creating a 3D map of the sea floor, and obtaining 3D shape images of planets such as Mars and satellite images. can be done.
  • the 3D shape reconstruction system of the present invention is more precise than the conventional technology, especially when 3D shape reconstruction is performed in an extreme environment where there are few feature points in the target area (scene). Accurate 3D reconstruction is possible.
  • Extreme environments with few feature points in the target area include environments photographed from underwater with ROVs (Remotely Operated Vehicles) and underwater drones (underwater, seabed, harbors, riverbanks, lakeshores, and other underwater structures).
  • the camera and plane crossing laser transmitter are provided inside the housing, and the target area is underwater. Even if the camera and the plane-crossing laser transmitter are provided inside the housing, according to the present invention, by setting the laser plane perpendicular to the housing boundary surface, the effects of refraction can be suppressed and the laser can be compact. Accurate 3D reconstruction is possible.
  • the photographing means further includes a recording unit and a moving unit, and the moving image of the target area is photographed while the photographing unit is moving and recorded in the recording unit.
  • the photographing means may be moved autonomously, or may be moved by being operated from the outside by radio or the like. From the viewpoint of application to automatic map measurement, etc., it is preferable that the photographing means include a moving unit that can move autonomously.
  • the camera and plane crossing laser transmitter are integrated and fixed so that they can be moved, so the plane crossing laser transmitter is fixed to an existing drone with a camera or an ROV with a camera.
  • the three-dimensional shape restoration system of the present invention can be easily manufactured simply by doing so.
  • the three-dimensional shape restoration system of the present invention can be easily manufactured simply by fixing the cross-plane laser transmission unit to an autonomous mobile device equipped with a camera and capable of autonomous movement.
  • the three-dimensional shape restoration system of the present invention can be easily implemented by integrating and fixing a camera and a cross-plane laser transmission unit to an autonomous mobile device that does not have a camera and can move autonomously other than visually. can be manufactured.
  • a first aspect of the image generation processing method of the present invention is an image generation processing method for restoring a three-dimensional shape from an input moving image,
  • a moving image is produced by a single camera that captures the target area for a specific period of time, a plurality of plane-crossed laser transmitters that project plane-crossed laser beams onto the substance in the target area, and a movable structure that integrates these units.
  • a group of consecutive frames photographed by a photographing means including a fixing portion to be fixed, an intersection set generation step of obtaining an intersection set from the connection relationship between the intersection points of the laser lines detected in each frame of the moving image and the tracking results of the intersection points of the laser lines detected in successive frames; Simultaneous equation generation step of obtaining a plurality of constraint equations in a chain because each intersection point of the intersection set is on two laser planes formed by the plane crossing laser, and generating simultaneous equations by synthesizing a group of constraint equations.
  • a three-dimensional position estimation step of the plane in which the three-dimensional coordinates of the laser plane are restored in projective space by solving simultaneous equations
  • a three-dimensional reconstruction step of reconstructing the three-dimensional coordinates of the reflected position of the laser beam in a projective space by a light section method using the estimated three-dimensional coordinates of the laser plane and the laser beam detected in each frame of the moving image; ,including.
  • a first aspect of the image generation processing method of the present invention includes a SLAM analysis step of detecting an arbitrary feature point by Visual SLAM or SfM to obtain a camera position and orientation in the Euclidean coordinate system and a three-dimensional restoration result, and a laser beam reflection process. It is preferable to include a restoring result of the three-dimensional coordinates of the position and an integrating step of restoring the three-dimensional shape by integrating the three-dimensional restoring result using the camera position and orientation.
  • Other preferred aspects of the first aspect of the image generation processing method of the present invention are the same as the description of the preferred aspects of the first aspect of the image generation processing apparatus of the present invention.
  • a second aspect of the image generation processing method of the present invention is an image generation processing method for restoring a three-dimensional shape from an input moving image
  • a moving image is produced by a single camera that captures the target area for a specific period of time, a plurality of plane-crossed laser transmitters that project plane-crossed laser beams onto the substance in the target area, and a movable structure that integrates these units.
  • a three-dimensional reconstruction unit that reconstructs in projective space; a SLAM analysis step of detecting arbitrary feature points by Visual SLAM to obtain a camera position and orientation in a Euclidean coordinate system and a three-dimensional restoration result; an integration step of integrating the original restoration result of the three-dimensional coordinates of the reflected position of the laser beam and the three-dimensional restoration result using the camera position and orientation to restore the three-dimensional shape.
  • Preferred aspects of the second aspect of the image generation processing method of the present invention are the same as the description of the preferred aspects of the second aspect of the image generation processing apparatus of the present invention.
  • the image generation processing method of the present invention can be sequentially executed by a program stored in storage means such as an HDD.
  • a program of the present invention is a program to be executed by an image generation processing device that restores a three-dimensional shape from an input moving image,
  • a moving image is produced by a single camera that captures the target area for a specific period of time, a plurality of plane-crossed laser transmitters that project plane-crossed laser beams onto the substance in the target area, and a movable structure that integrates these units.
  • a group of consecutive frames photographed by a photographing means including a fixing portion to be fixed, an intersection set generation function for obtaining an intersection set from the connection relationship between the intersection points of the laser lines detected in each frame of the moving image and the tracking results of the intersection points of the laser lines detected in successive frames; Simultaneous equation generation function for generating simultaneous equations by obtaining a plurality of constraint equations in a chain because each intersection point of the intersection set lies on two planes formed by the plane crossing laser, and combining the constraint equation groups , A plane 3D position estimation function that restores the 3D coordinates of the laser plane in projective space by solving simultaneous equations; A three-dimensional restoration function that restores the three-dimensional coordinates of the reflected position of the laser beam in the projective space by the optical section method using the estimated three-dimensional coordinates of the laser plane and the laser beam detected in each frame of the moving image. , is executed.
  • Preferred aspects of the program of the present invention are the same as the preferred aspects of the image generation processing apparatus and image generation processing method of
  • Example 1 Evaluation for self-calibration in air
  • Examples 1-3 did not use Euclidean upgrade using the angle between laser planes, but used 3D points generated by Visual SLAM or SfM and 3D points refined using epipolar lines. I used two of the Euclidean upgrades I had. That is, in FIG. 7, the "Euclidean upgrade of the three-dimensional coordinates of the laser plane and the three-dimensional coordinates of the laser reflection position using the relative three-dimensional positions of the lasers of the imaging means" at the lower right is not performed. performed other processes.
  • FIG. 7 the "Euclidean upgrade of the three-dimensional coordinates of the laser plane and the three-dimensional coordinates of the laser reflection position using the relative three-dimensional positions of the lasers of the imaging means" at the lower right is not performed. performed other processes.
  • FIG. 11(a) is a photograph of the setup of the photographing means used in Example 1.
  • FIG. Four green cross-plane laser transmitters were attached to a GoPro HERO8 camera and fixed to construct a movable imaging means.
  • a self-calibration technique was evaluated by scanning the target area (scene) of the calibration board and pillars in the room by moving the entire imaging vehicle.
  • FIG. 11(b) shows how the actual angle of the restored pillar is measured.
  • FIG. 11(c) is a photograph showing an example of an image taken for a measurement method using a calibration tool.
  • FIG. 11(d) shows an example of a photographed image required in the present invention.
  • FIG. 12 is a graph showing the relationship between the number of frames used and the RMSE in the evaluation of the three-dimensional shape restoration accuracy in Example 1.
  • FIG. 12 From FIG. 12, it can be confirmed that the RMSE error gradually decreases and almost converges at 31 frames. From this, it can be seen that there is a high possibility that high-precision reconstruction can be achieved if tracking of corresponding points can be achieved for 31 frames or more.
  • FIG. 13A and 13B represent, from the left side of the paper, the RTAB MAP by Kinect V1, the RTAB MAP by Kinect Azure, the hard calibration method, and the series of the method of the present invention.
  • FIG. 13A shows plane fitting errors of two planes in the evaluation of the three-dimensional shape restoration accuracy in Example 1.
  • FIG. 13(A) it was confirmed that the RMSE and MAE by the method of the present invention were equal to or better than Kinect Azure.
  • FIG. 13(B) represents the angle error in the evaluation of the three-dimensional shape restoration accuracy in Example 1.
  • FIG. 13(B) the angle error was considerably small in all methods.
  • Kinect V1 was the best, but this may be because the data size obtained by Kinect V1 is much larger than other methods and is statistically more stable than other methods.
  • the three-dimensional shape obtained by all methods is shown in FIG.
  • FIG. 14A shows the three-dimensional shape restoration result of Kinect V1 of Journal of Field Robotics, 36, 10 2018.
  • FIG. 14(B) shows the three-dimensional shape restoration result of Kinect Azure in Journal of Field Robotics, 36, 10 2018.
  • FIG. 14C shows the three-dimensional shape restoration result of the hard calibration method.
  • FIG. 14(D) represents the three-dimensional shape reconstruction result of the method of the present invention. From FIG. 14, it was clearly shown that the method of the present invention is almost the same as the hard calibration method and superior to existing 3D sensors, especially for the cross section in the xy plane.
  • FIG. 15(a) is a photograph of the set-up of the photographing means used in Example 2.
  • FIG. A live scanning device consisting of a GoPro HERO8 camera with four green bridging line lasers mounted in a waterproof housing was constructed and mounted on an underwater ROV (BlueROV2) as shown in Fig. 15(a).
  • Several objects such as tables and mannequins were submerged in the swimming pool as target objects, and the underwater ROV was operated to scan the target area (scene).
  • FIG. 15B is a photograph corresponding to a top view of the target area (scene) used in Example 2.
  • FIG. FIG. 15(c) is a photograph of an example of the process of restoring the three-dimensional coordinates of the laser plane in the projection space.
  • FIG. 15(d) is an example of an image of the restored mannequin being measured.
  • FIG. 15(e) is the restored mannequin.
  • the 3D shape reconstruction accuracy was compared with previous techniques such as the hard calibration method, Colmap and Kinect fusion. The results are shown in FIG.
  • the bar graphs in FIGS. 16(A) and 16(B) respectively represent the series of Direct Sparse Odometry (DSO), Colmap, the hard calibration method, and the method of the present invention in order from the left side of the paper.
  • DSO Direct Sparse Odometry
  • FIG. 16A shows the errors of MAE [mm] and RMSE [mm] in the evaluation of the three-dimensional shape restoration accuracy in Example 2.
  • FIG. 16B shows the number of restored three-dimensional points in the evaluation of the three-dimensional shape restoration accuracy in Example 2.
  • the three-dimensional shape obtained by all methods is shown in FIG.
  • FIG. 17(a) shows Shahram Izadi, David Kim, Otmar Hilliges, David Molyneaux, Richard Newcombe, Pushmeet Kohli, Jamie Shotton, Steve Hodges, Dustin Freeman, Andrew Davison, and Andrew Fitzgibbon. Kinectfusion: Real-time 3d reconstruction and interaction Using a moving depth camera. In UIST '11 Proceedings of the 24th annual ACM symposium on User interface software and technology, pages 559-568. Represents the restoration result.
  • FIG. 17(b) and FIG. 17(B) represent the three-dimensional shape reconstruction results of J. Engel, V. Koltun, and D. Cremers. Direct sparse odometry.
  • Figures 17(c) and 17(c) are Johannes Lutz Schonberger and Jan-Michael Frahm. Structure-from-Motion Revisited. represents FIG. 17(d) and FIG. 17(D) show the three-dimensional shape restoration result of the hard calibration method. Figures 17(e) and 17(E) represent the three-dimensional shape reconstruction results of the method of the present invention. From FIG. 17, it was clearly shown that the method of the present invention is almost the same as the hard calibration method and superior to existing 3D sensors.
  • FIGS. 18, 18-1 to 18-3 Note that all methods are self-calibrating and reconstruct large areas.
  • FIG. 18(A) represents the three-dimensional shape reconstruction result of the method of the present invention.
  • FIG. 18(a1-A), FIG. 18(a1-B) and FIG. 18(a1-C) each show an example of a photographed image required in the present invention.
  • FIG. 18(a1-1) and 18(a1-2) show the results of displaying the three-dimensional shape restoration results in the left frame of FIG. 18(A) from different angles.
  • FIG. 18(b1) shows the result of displaying the three-dimensional shape restoration result in the frame on the right side of the page of FIG. 18(A) from another angle.
  • FIG. 18(b1-A) and FIG. 18(b1-B) respectively show examples of captured images required in the present invention. From FIG. 18(A), it was found that the three-dimensional shape can be restored with high density by the method of the present invention.
  • FIG. 18B shows the three-dimensional shape restoration result of Colmap of Johannes Lutz Schonberger and Jan-Michael Frahm. Structure-from-Motion Revisited.
  • FIG. 18(b1) shows the result of displaying the three-dimensional shape restoration result in the frame on the left side of the page of FIG. 18(B) from another angle.
  • FIG. 18(b2) shows the result of displaying the three-dimensional shape restoration result in the frame on the right side of the page of FIG. 18(B) from another angle. From FIG. 18B, it was found that Colmap hardly restored the three-dimensional shape.
  • FIG. 18(C) shows the three-dimensional shape restoration result of Meshroom.
  • FIG. 18(c1) shows the result of displaying the three-dimensional shape restoration result in the frame on the left side of the page of FIG. 18(C) from another angle.
  • FIG. 18(c1) shows the result of displaying the three-dimensional shape restoration result in the frame on the left side of the page of FIG. 18(C) from another angle.
  • FIG. 18(c2) shows the result of displaying the three-dimensional shape restoration result in the frame on the right side of the page of FIG. 18(C) from another angle. From FIG. 18(C), it was found that Meshroom has a low three-dimensional shape accuracy and a large hole. From these FIG. 18, it was found that a region with little texture such as the floor cannot be restored by the well-known SfM technique, but the method of the present invention can also restore such a region with little texture at a high density.
  • Example 4 Confirmation of other steps
  • the laser line estimation in the target area (scene) including the calibration board, the creation of the intersection set graph, the creation of the mask, and the detection of the corresponding points were confirmed.
  • FIG. 19 represents the results of laser line estimation. From FIG. 19, it was found that the laser line on the image can be estimated by CNN.
  • FIG. 20(A) represents the tracked intersection.
  • FIG. 20B represents connected intersections.
  • FIG. 20(C) represents the created intersection set graph. From FIG. 20(C), it can be seen that tracing the intersection points allows the collection of intersection points to be graphed and unique correspondences to be established.
  • FIG. 21 represents the result of mask making. From FIG.
  • FIG. 22 shows the results of corresponding point detection. From FIG. 22, it was found that a sufficiently large number of three-dimensional points estimated by Visual SLAM exist on the laser line and can be detected as corresponding points.
  • Example 5 Evaluation 2 for self-calibration in air
  • Example 5 Evaluation 2 for self-calibration in air
  • Blocks were generated by integrating point clouds of dozens of frames.
  • the position and orientation of the camera in the first frame is used as the orientation of the entire block, and the point clouds of other frames are projected to the local coordinates of the first frame using the relative orientation to the first frame.
  • T i start is the relative orientation of the i frame with respect to the first frame
  • P i is the point group of the laser irradiation unit in the i th frame.
  • the average shape was generated by a mesh, as shown in FIG. At this time, if the posture error is large and the distance between the overlapping shapes is short, a mesh is generated in the middle (Fig. 25 (left figure)), but if the distance is long, the shape of the mesh collapses ( FIG. 25 (right side view)). Therefore, in Example 5, the distance between shapes is forcibly shortened by reintegrating the points of each frame using the average camera position and orientation in the overlapping section of the route before generating the mesh.
  • the average camera position/orientation was obtained by manually specifying the start frame and the end frame of the loop section (Fig. 26 (left figure)), and calculating the weighted average of the translation components of the corresponding camera position/orientation (Fig. 26 ( right side)).
  • t i is the translation component of the pose in the i-th frame
  • t′ i is the average translation component of the pose in the i-th frame
  • w is the weight, which is linear with respect to i. be.
  • the point cloud of each frame was projected using the camera position and orientation obtained at the end.
  • the correspondence between each point of the block and the average shape was determined by ICP. Since both the block and the overall restoration result are obtained by integrating the laser of each frame by the camera position and orientation, the correspondence between the points of each block and the average shape can be obtained from the correspondence between the points of the overall shape and the average shape. Bundle adjustments were made using the obtained correspondences.
  • the cost function was calculated from the following formula.
  • T Bi is the parameter optimized for the pose of the i-th block.
  • pj is a point included in the block and p'j is a point on the average shape associated with pj .
  • T i Bi+1 is the relative orientation of frame i with respect to the camera position and orientation of frame i+1 at the time of the previous iteration, and w is the weight.
  • the second term was added to prevent the overall shape from deforming too much by incorporating changes in the relative postures between blocks into the cost.
  • Fig. 28 shows the cost transition when optimizing the camera position and orientation according to Example 5.
  • the cost fluctuates because the average shape is regenerated each time, and the large initial value for frame-by-frame optimization is because the relative pose constraint cost is added between all frames.
  • the cost converges in the block-wise optimization, indicating that our method using blocks and average shape performed the optimization successfully.
  • T i i+1 is not the camera position and orientation before frame-by-frame bundle adjustment, but the relative orientation calculated from the camera position and orientation at the time of restoration. This is because changes in the camera position and orientation in a short range can be estimated with high accuracy during restoration, and the final optimized camera position and orientation should reflect this good feature and change smoothly.
  • Example 5 the value after optimization in units of frames converges to a value much smaller than that before optimization, and since good initial values are given by optimization in units of blocks, the point cloud of each frame is It was shown that the optimization proceeded correctly even if it was sparse. Looking at the final camera position and orientation (Fig. 30(a)), it was found that the shape of the floor became flat without a sudden change in the camera position and orientation (Fig. 23(a)) (Fig. 30). (c)). Also, the RMSE when the restored shape of the same scene by Colmap [3] is set to Ground Truth is also reduced by optimization (Table 1).
  • Example 6 Evaluation of self-calibration in underwater environment 2
  • Example 6 Evaluation of self-calibration in underwater environment 2
  • the same experiment as in Example 2 was conducted in water, and optimization was performed in the same manner as in Example 5. Since the texture fluctuates in water, Colmap does not work properly and the ground truth cannot be obtained.
  • the shape of the bottom surface was close to a plane (Fig. 31), confirming the effectiveness of the optimization method using the mesh.
  • the image generation processing apparatus of the present invention is suitable for photographing and three-dimensional shape restoration under extreme conditions.
  • the image generation and processing apparatus of the present invention also employs self-calibration techniques for light sectioning. Since the photosection method requires only a few plane-crossed lasers with attached cameras, it has significant advantages in size and energy consumption compared to existing 3D sensors. Therefore, in this respect as well, the image generation processing apparatus of the present invention is suitable for photographing and three-dimensional shape restoration under extreme conditions. Because conventional methods for detecting plane-crossing lasers require known geometric constraints to achieve the Euclidean upgrade, it has been difficult to construct practical systems with high accuracy.
  • the image generation processor of the present invention efficiently overcomes such limitations by bundle adjustment specifically designed for plane parameter estimation using Visual SLAM results. Although the accuracy of each 3D point in Visual SLAM is not necessarily high, it can be efficiently solved by solving only the uncertainty of the 4-DOF solution. This is a great advantage when practical industrial applicability is taken into consideration.
  • the effectiveness of the optimization method in three-dimensional shape restoration was confirmed. Specifically, the effectiveness of the method of optimizing for each block that integrates point clouds of multiple frames using an average shape using a mesh as a temporary target shape was confirmed.
  • Image generation processing device 100 Photographing means 101 Camera 102 Plane crossing laser transmission unit 103 Fixed unit 111 Plane crossing laser 121 Housing 131 Recording unit 141 Moving unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Image Analysis (AREA)

Abstract

対象領域を特定期間に撮影する1台のカメラと対象領域中の物質に平面交差レーザを投影する複数台の平面交差レーザ発信部が一体化して移動可能に固定された撮影手段により撮影された連続するフレームの群である動画像の各フレームにおいて検出されたレーザ線の交点同士の接続関係と連続するフレームにおいて検出されたレーザ線の交点の追跡結果から交点集合を得る交点集合生成部と、交点集合の各交点が平面交差レーザの形成する2つのレーザ平面上に乗っていることから複数の拘束式を連鎖的に得て拘束式群を連立させて連立方程式を生成する連立方程式生成部と、連立方程式を解くことでレーザ平面の3次元座標を射影空間で復元する平面の3次元位置推定部と、推定されたレーザ平面の3次元座標と動画像の各フレームにおいて検出されたレーザ線を用いて光切断法によりレーザ線の反射位置の3次元座標を射影空間で復元する3次元復元部と、を含む画像生成処理装置。

Description

画像生成処理装置、3次元形状の復元システム、画像生成処理方法およびプログラム
 本発明は、画像生成処理装置、3次元形状の復元システム、画像生成処理方法およびプログラムに関する。
 種々の環境に対する緻密(高密度)で正確な3次元シーンの取得は、内視鏡による人体内部スキャン、海底3次元マップ作成、火星などの惑星画像や衛星画像の3次元形状取得など、人間がアクセスし難い様々な環境などへの応用にとって重要である。対象領域(シーン;被写体)の3次元形状復元について、特許文献1の背景技術の欄には様々な手法が紹介されており、画像のみを用いる受動的な手法や、アクティブ手法が記載されている。
 そして、特許文献1には、シーンを撮影した2次元画像に含まれる共面性とシーンの幾何学的条件とを利用して、3次元形状を復元する画像処理装置が記載されている。具体的には、特許文献1には、入力された2次元画像から3次元形状を復元する画像処理装置であり、2次元画像から抽出された共面性を基に、共面性に対応する第1平面及び第1平面同士の交点である第1交点の解である第1解を算出する第1算出部と、2次元画像中のシーンに含まれる幾何学的条件を利用して第1解の自由度を解消して、第1交点と第1平面の解である第2解を算出する第2算出部と、を具備する画像処理装置が記載されている。
特開2009-032123号公報
 特許文献1では、カメラは固定であり、移動するものではなかった。また、特許文献1では、(動)画像の同じフレームの交点のみを接続するものであった。そのため、シーンは固定されている必要があり、カメラの動きはもとより、シーン内の物体が動く場合の計測も不可能であった。自動車から屋外のシーンを計測する場合や、運動する人物の計測など、種々の環境に対応して緻密で正確な3次元復元をする観点からは、さらに改善することが求められていた。
 そのような要求に対して、カメラの移動に関する解決手法として、3次元シーンとエゴモーション(カメラ自身の速度や動き)を校正なしで推定する方法として、Kinect Fusionなどの幾何学に基づく方法と、Visual SLAM(Simultaneous Localization and Mapping)またはSfM(Structure from Motion)などの視覚に基づく方法が知られている。
 幾何学に基づく方法では3次元形状は密であると仮定されるが、実際の場合には密ではないことが一般的であった。
 一方、視覚に基づくVisual SLAMまたはSfMなどの方法は、単一のカメラだけが必要であり、自己校正もできるという簡単さのために、有望と考えられている。しかし、Visual SLAMまたはSfMは受動的方法であり、特徴点の検出とマッチングに基づくので、シーンがほとんどテクスチャを有していない場合に、まばらな(疎な;スパースな)3次元形状を再構成することしかできない。さらに、シーン内の特徴点が少ない極端な環境である場合、特徴点は各フレームを追跡中に失われることが多い。
 このように種々の環境に対応でき、(カメラとレーザ間の同期などの外部校正が不要で)自己校正でき、緻密で正確な3次元復元ができる画像生成処理装置は知られていなかった。
 本発明が解決しようとする課題は、種々の環境に対応でき、自己校正でき、緻密で正確な3次元復元ができる画像生成処理装置を提供することである。
 本発明の第1の態様によれば、複数の平面交差レーザおよびカメラを備える撮影手段により撮影された動画像を用いて、動画像の各フレームにおいて検出されたレーザ線から交点集合を得て、共面性に基づく拘束式群を連鎖的に得て、連立方程式を解いてレーザ平面の3次元座標を射影空間で復元し、光切断法によりレーザ線の反射位置の3次元座標を射影空間で復元することで、自己校正をでき、カメラと平面交差レーザ間の同期も幾何学的制約も不要のため、後から装置を調整したり、人が介在して校正することが困難な、例えば、深海や宇宙空間といった極端な環境に適しており、そのような条件下であっても高密度で正確な3次元復元ができる。
 本発明の第2の態様によれば、複数の平面交差レーザおよびカメラを備える撮影手段により撮影された動画像を用いて、光切断法により得られたレーザ線の反射位置の3次元座標を射影空間で復元し、一方でVisual SLAMまたはSfMにより任意の特徴点を検出してユークリッド座標系のカメラ位置姿勢および3次元復元結果を得て、レーザ線の反射位置の3次元座標の射影復元結果をユークリッドアップグレード、および、カメラ位置姿勢を用いて前記3次元復元結果を統合して広い範囲の3次元形状を復元することにより、自己校正を実現し、これによりカメラと平面交差レーザ間の同期も幾何学的制約が不要となり、よって極端な環境においても、緻密(高密度)で正確な3次元復元ができる。
 すなわち、本発明者らは、これらの第1の態様および第2の態様によれば、種々の環境に対応でき、カメラとレーザ間の同期が不要であり、緻密(高密度)で正確な3次元復元ができる画像生成処理装置を提供できることを見出し、上記課題を解決した。
 上記課題を解決するための具体的な手段である本発明の構成と、本発明の好ましい構成を以下に記載する。
[1] 入力された動画像から3次元形状を復元する画像生成処理装置であって、
 動画像は、対象領域を特定期間に撮影する1台のカメラ、対象領域中の物質に平面交差レーザを投影する複数台の平面交差レーザ発信部、およびこれらを一体化して移動可能となるように固定する固定部とを含む撮影手段により撮影された連続するフレームの群であり、
 動画像の各フレームにおいて検出されたレーザ線の交点どうしの接続関係、および連続するフレームにおいて検出されたレーザ線の交点の追跡結果から、交点集合を得る交点集合生成部と、
 交点集合の各交点が平面交差レーザの形成する2つのレーザ平面上に乗っていることから複数の拘束式を連鎖的に得て、拘束式群を連立させて連立方程式を生成する連立方程式生成部と、
 連立方程式を解くことでレーザ平面の3次元座標を射影空間で復元する、平面の3次元位置推定部と、
 推定されたレーザ平面の3次元座標と、動画像の各フレームにおいて検出されたレーザ線を用いて、光切断法によりレーザ線の反射位置の3次元座標を射影空間で復元する3次元復元部と、を含む画像生成処理装置。
[2] 交点集合生成部が、交点集合グラフを作成する、[1]に記載の画像生成処理装置。
[3] 平面交差レーザ同士の相対的な3次元位置のうち既知のものと、射影空間で推定されたレーザ平面の3次元座標を入力とし、レーザ平面の3次元座標およびレーザ線の反射位置の3次元座標をユークリッド座標にアップグレードする第1の計算部を含む、[1]または[2]に記載の画像生成処理装置。
[4] 動画像の連続するフレームの群を入力として、自己校正手法によるユークリッド3次元復元を行う3次元点計算部と、
 動画像の各フレームにおいて、3次元点計算部により得られた3次元点のうち、レーザ線上に存在するものを対応点として検出する対応点検出部を備え、
 検出した対応点を用いて、レーザ平面の3次元座標およびレーザ線の反射位置の3次元座標をユークリッド座標にアップグレードする第2の計算部と、
 を含む、[1]~[3]のいずれか一項に記載の画像生成処理装置。
[5] 3次元点計算部が、Visual SLAM(Simultaneous Localization and Mapping)またはSfM(Structure from Motion)により任意の特徴点を検出してユークリッド座標系のカメラ位置姿勢および3次元復元結果を得るSLAM解析部を含み、
 レーザ線の反射位置の3次元座標の復元結果、および、カメラ位置姿勢を用いて3次元復元結果を統合して3次元形状を復元する統合部を備え、
 Visual SLAMまたはSfMにより得られた3次元復元結果を用いて、レーザ平面の自己校正手法を実現する、[4]に記載の画像生成処理装置。
[6] レーザ線の交点の追跡結果より、同じ交点が画像上で通る直線を、交点ごとに計算してエピポーラ線を得る、エピポーラ線計算部と、
 エピポーラ線上で、動画像内の任意のフレームにおける対応点を探索する、エピポーラ拘束に基づく対応点探索部と、
 Visual SLAMまたはSfMによる3次元点計算部により得られた3次元点のうち、探索した対応点に接続されるレーザ線上に存在するものを対応点として検出する対応点検出部を備え、
 検出した対応点を用いて、レーザ平面の3次元座標およびレーザ線の反射位置の3次元座標をユークリッド座標にアップグレードする第3の計算部と、
 を含む、[4]または[5]に記載の画像生成処理装置。
[7] レーザ線の交点の追跡結果より、同じ交点が画像上で通る直線を、各交点ごとに計算する、エピポーラ線計算部と、
 エピポーラ線上で、動画像内の任意のフレームにおける対応点を探索する、エピポーラ拘束に基づく対応点探索部と、
 探索した対応点を用いて、レーザ平面の3次元座標を射影空間で復元する、平面の3次元位置推定部と、
 を含む、[1]~[5]のいずれか一項に記載の画像生成処理装置。
[8] 入力された動画像から3次元形状を復元する画像生成処理装置であって、
 動画像は、対象領域を特定期間に撮影する1台のカメラ、対象領域中の物質に平面交差レーザを投影する複数台の平面交差レーザ発信部、およびこれらを一体化して移動可能となるように固定する固定部とを含む撮影手段により撮影された連続するフレームの群であり、
 任意の方法で推定された平面交差レーザの形成するレーザ平面の3次元座標と、動画像の各フレームにおいて検出されたレーザ線を用いて、光切断法によりレーザ線の反射位置の3次元座標を射影空間で復元する3次元復元部と、
 Visual SLAMまたはSfMにより任意の特徴点を検出してユークリッド座標系のカメラ位置姿勢および3次元復元結果を得るSLAM解析部と、
 レーザ線の反射位置の3次元座標の復元結果、および、カメラ位置姿勢を用いて3次元復元結果を統合して3次元形状を復元する統合部と、
 を備える、画像生成処理装置。
[9] 畳み込みニューラルネットワーク(CNN)の学習済みモデルを用いて、連続するフレームにおける推定レーザ線の位置を計算するレーザ線推定部を備える、[1]~[8]のいずれか一項に記載の画像生成処理装置。
[10] 推定レーザ線の位置からモルフォロジー変換でマスクを作成するマスク作成部を備え、
 動画像の各フレームにおいてマスクの位置の輝度を無視してVisual SLAMまたはSfMを適用して3次元点を得る、[9]に記載の画像生成処理装置。
[11] フレームの群において、フレームnで復元された3次元座標と、フレームkで復元された3次元座標が、対象領域内の同じ位置である場合、2つの3次元座標間のずれを最小化するように、レーザ平面の3次元座標を再推定する第4の計算部を含む、[1]~[10]のいずれか一項に記載の画像生成処理装置。
[12] 前記動画像を、連続するm個ずつのフレームのブロックに分割するステップと、前記3次元復元部で復元された3次元座標を前記ブロックごとに統合し第2の3次元座標とするステップと、を含み、
 2つの第2の3次元座標が、前記対象領域内の同じ位置である場合、2つの3次元座標間のずれを最小化するように、前記レーザ平面の3次元座標を再推定する第5の計算部を含む、[1]~[11]のいずれか一項に記載の画像生成処理装置。
[13] [1]~[12]のいずれか一項に記載の画像生成処理装置と、
 対象領域を特定期間に撮影する1台のカメラ、対象領域中の物質に平面交差レーザを投影する複数台の平面交差レーザ発信部、およびこれらを一体化して移動可能となるように固定する固定部とを含む撮影手段を備える、3次元形状の復元システム。
[14] カメラおよび平面交差レーザ発信部がハウジングの内部に備えられ、
 対象領域が水中である、[13]に記載の3次元形状の復元システム。
[15] 撮影手段がさらに記録部および移動部を備え、
 撮影手段が移動しながら対象領域の動画像を撮影して、記録部に記録する、[13]または[14]に記載の3次元形状の復元システム。
[16] 入力された動画像から3次元形状を復元する画像生成処理方法であって、
 動画像は、対象領域を特定期間に撮影する1台のカメラ、対象領域中の物質に平面交差レーザを投影する複数台の平面交差レーザ発信部、およびこれらを一体化して移動可能となるように固定する固定部とを含む撮影手段により撮影された連続するフレームの群であり、
 動画像の各フレームにおいて検出されたレーザ線の交点どうしの接続関係、および連続するフレームにおいて検出されたレーザ線の交点の追跡結果から、交点集合を得る交点集合生成工程と、
 交点集合の各交点が平面交差レーザの形成する2つのレーザ平面上に乗っていることから複数の拘束式を連鎖的に得て、拘束式群を連立させて連立方程式を生成する連立方程式生成工程と、
 連立方程式を解くことでレーザ平面の3次元座標を射影空間で復元する、平面の3次元位置推定工程と、
 推定されたレーザ平面の3次元座標と、動画像の各フレームにおいて検出されたレーザ線を用いて、光切断法によりレーザ線の反射位置の3次元座標を射影空間で復元する3次元復元工程と、
 を含む画像生成処理方法。
[17] Visual SLAMまたはSfMにより任意の特徴点を検出してユークリッド座標系のカメラ位置姿勢および3次元復元結果を得るSLAM解析工程と、
 レーザ線の反射位置の3次元座標の復元結果、および、カメラ位置姿勢を用いて3次元復元結果を統合して3次元形状を復元する統合工程と、
 を備える、[16]に記載の画像生成処理方法。
[18] 入力された動画像から3次元形状を復元する画像生成処理方法であって、
 動画像は、対象領域を特定期間に撮影する1台のカメラ、対象領域中の物質に平面交差レーザを投影する複数台の平面交差レーザ発信部、およびこれらを一体化して移動可能となるように固定する固定部とを含む撮影手段により撮影された連続するフレームの群であり、
 任意の方法で推定された平面交差レーザの形成するレーザ平面の3次元座標と、動画像の各フレームにおいて検出されたレーザ線を用いて、光切断法によりレーザ線の反射位置の3次元座標を射影空間で復元する3次元復元部と、
 Visual SLAMにより任意の特徴点を検出してユークリッド座標系のカメラ位置姿勢および3次元復元結果を得るSLAM解析工程と、
 レーザ線の反射位置の3次元座標の元復元結果、および、カメラ位置姿勢を用いて3次元復元結果とを統合して3次元形状を復元する統合工程と、
 を備える、画像生成処理方法。
[19] 入力された動画像から3次元形状を復元する画像生成処理装置に実行させるプログラムであって、
 動画像は、対象領域を特定期間に撮影する1台のカメラ、対象領域中の物質に平面交差レーザを投影する複数台の平面交差レーザ発信部、およびこれらを一体化して移動可能となるように固定する固定部とを含む撮影手段により撮影された連続するフレームの群であり、
 動画像の各フレームにおいて検出されたレーザ線の交点どうしの接続関係、および連続するフレームにおいて検出されたレーザ線の交点の追跡結果から、交点集合を得る交点集合生成機能と、
 交点集合の各交点が平面交差レーザの形成する2つの平面上に乗っていることから複数の拘束式を連鎖的に得て、拘束式群を連立させて連立方程式を生成する連立方程式生成機能と、
 連立方程式を解くことでレーザ平面の3次元座標を射影空間で復元する、平面の3次元位置推定機能と、
 推定されたレーザ平面の3次元座標と、動画像の各フレームにおいて検出されたレーザ線を用いて、光切断法によりレーザ線の反射位置の3次元座標を射影空間で復元する3次元復元機能と、
 を実行させる、プログラム。
 本発明によれば、種々の環境に対応でき、自己校正でき、緻密(高密度)で正確な3次元復元ができる画像生成処理装置を提供することができる。
図1は、第1の態様の画像生成処理装置である、実施態様1Aの模式図である。 図2(A)は、本発明の画像生成処理装置に用いられる動画像を得るための撮影手段の模式図である。図2(B)、(C)、(D)は本発明の画像生成処理装置に用いられる動画像を得る方法の一例の模式図である。図2(E)は本発明の画像生成処理装置で復元される3次元形状の一例の模式図である。 図3は、実施態様1Aの画像生成処理装置を用いる画像生成処理方法を説明するためのフローチャートである。 図4は、実施態様1Aの画像生成処理装置を用いる画像生成処理方法を説明するための別のフローチャートである。 図5は、第1の態様の画像生成処理装置である、実施態様1Bの模式図である。 図6は、実施態様1Bの画像生成処理装置を用いる画像生成処理方法を説明するためのフローチャートである。 図7は、実施態様1Bの画像生成処理装置を用いる画像生成処理方法を説明するための別のフローチャートである。 図8(a)~図8(d)は、交点同士の空間的および時間的接続を用いて交点集合グラフを作成する工程のフロー図を表す。 図9は、ユークリッドアップグレードのジオメトリ(幾何学的な配置)および、エネルギー関数の計算で用いる記号を示したものである。 図10は、図1は、第2の態様の画像生成処理装置である、実施態様2Aの模式図である。 図11(a)は、実施例1で用いた撮影手段のセットアップの写真である。図11(b)は復元された柱の実際の角度を計測している様子を表す。図11(c)は校正器具を用いた計測方法のために撮影した画像の一例を表す写真である。図11(d)は、本発明で必要な撮影画像の一例を表す。 図12は、実施例1の3次元形状復元精度の評価における、使用するフレーム数と、RMSE(Root Mean Square Error、角度)の関係を示したグラフである。 図13(A)は、実施例1の3次元形状復元精度の評価における、2つの平面の平面フィッティング誤差を表す。図13(B)は、実施例1の3次元形状復元精度の評価における、角度誤差を表す。 図14(A)は、Kinect V1の3次元形状復元結果を表す。図14(B)は、Kinect Azureの3次元形状復元結果を表す。図14(C)は、ハードキャリブレーション法の3次元形状復元結果を表す。図14(D)は、本発明の方法の3次元形状復元結果を表す。 図15(a)は、実施例2で用いた撮影手段のセットアップの写真である。図15(b)は、実施例2で用いた対象領域(シーン)の上面図に相当する写真である。図15(c)はレーザ平面の3次元座標を射影空間で復元する工程の一例の写真である。図15(d)は復元されたマネキンを計測している画像の一例である。図15(e)は復元されたマネキンである。 図16(A)は、実施例2の3次元形状復元精度の評価における、MAE[mm]とRMSE[mm]の誤差を表す。図16(B)は、実施例2の3次元形状復元精度の評価における、復元された3次元点の個数を表す。 図17(a)は、GTの3次元形状復元結果を表す。図17(b)および図17(B)は、DSOの3次元形状復元結果を表す。図17(c)および図17(C)は、Colmapの3次元形状復元結果を表す。図17(d)および図17(D)は、ハードキャリブレーション法の3次元形状復元結果を表す。図17(e)および図17(E)は、本発明の方法の3次元形状復元結果を表す。 図18(A)は、本発明の方法の3次元形状復元結果を表す。 図18(a1-A)、図18(a1-B)および図18(a1-C)は、それぞれ本発明で必要な撮影画像の一例を表す。図18(a1-1)および図18(a1-2)は、それぞれ図18(A)の紙面左の枠内の3次元形状復元結果を別角度から表示した結果を表す。 図18(b1)は、図18(A)の紙面右の枠内の3次元形状復元結果を別角度から表示した結果を表す。図18(b1-A)および図18(b1-B)は、それぞれ本発明で必要な撮影画像の一例を表す。 図18(B)は、Colmapの3次元形状復元結果を表す。図18(b1)は、図18(B)の紙面左の枠内の3次元形状復元結果を別角度から表示した結果を表す。図18(b2)は、図18(B)の紙面右の枠内の3次元形状復元結果を別角度から表示した結果を表す。 図18(C)はMeshroomの3次元形状復元結果を表す。図18(c1)は、図18(C)の紙面左の枠内の3次元形状復元結果を別角度から表示した結果を表す。図18(c2)は、図18(C)の紙面右の枠内の3次元形状復元結果を別角度から表示した結果を表す。 図19は、レーザ線推定の結果を表す。 図20(A)は、追跡された交点を表す。図20(B)は、接続された交点を表す。図20(C)は、作成された交点集合グラフを表す。 図21は、マスク作成の結果を表す。 図22は、対応点検出の結果を表す。 図23は、最適化前の3次元形状復元結果を表す。 図24は、最適化手法のアルゴリズムを説明する図である。 図25は、二重形状からメッシュを用いて平均形状を生成する過程を説明する図である。 図26は、ループ区間と平均カメラ位置姿勢を求める過程を説明する図である。 図27は、ブロック単位でのバンドル調整の過程を説明する図である。 図28は、バンドル調整におけるコスト推移の結果を表す。 図29は、フレーム単位でのバンドル調整の過程を説明する図である。 図30は、最適化後の3次元形状復元結果を表す。 図31は、水中における最適化後の3次元形状復元結果を表す。
 以下において、本発明について詳細に説明する。以下に記載する構成要件の説明は、代表的な実施形態や具体例に基づいてなされることがあるが、本発明はそのような実施形態に限定されるものではない。なお、本明細書において「~」を用いて表される数値範囲は「~」前後に記載される数値を下限値および上限値として含む範囲を意味する。
[画像生成処理装置]
 本発明の画像生成処理装置の第1の態様は、入力された動画像から3次元形状を復元する画像生成処理装置であって、
 動画像は、対象領域を特定期間に撮影する1台のカメラ、対象領域中の物質に平面交差レーザを投影する複数台の平面交差レーザ発信部、およびこれらを一体化して移動可能となるように固定する固定部とを含む撮影手段により撮影された連続するフレームの群であり、
 動画像の各フレームにおいて検出されたレーザ線の交点どうしの接続関係、および連続するフレームにおいて検出されたレーザ線の交点の追跡結果から、交点集合を得る交点集合生成部と、
 交点集合の各交点が平面交差レーザの形成する2つのレーザ平面上に乗っていることから複数の拘束式を連鎖的に得て、拘束式群を連立させて連立方程式を生成する連立方程式生成部と、
 連立方程式を解くことでレーザ平面の3次元座標を射影空間で復元する、平面の3次元位置推定部と、
 推定されたレーザ平面の3次元座標と、動画像の各フレームにおいて検出されたレーザ線を用いて、光切断法によりレーザ線の反射位置の3次元座標を射影空間で復元する3次元復元部と、を含む。
 本発明の画像生成処理装置の第2の態様は、入力された動画像から3次元形状を復元する画像生成処理装置であって、
 動画像は、対象領域を特定期間に撮影する1台のカメラ、対象領域中の物質に平面交差レーザを投影する複数台の平面交差レーザ発信部、およびこれらを一体化して移動可能となるように固定する固定部とを含む撮影手段により撮影された連続するフレームの群であり、
 任意の方法で推定された平面交差レーザの形成するレーザ平面の3次元座標と、動画像の各フレームにおいて検出されたレーザ線を用いて、光切断法によりレーザ線の反射位置の3次元座標を射影空間で復元する3次元復元部と、
 Visual SLAMまたはSfMにより任意の特徴点を検出してユークリッド座標系のカメラ位置姿勢および3次元復元結果を得るSLAM解析部と、
 レーザ線の反射位置の3次元座標の復元結果、および、カメラ位置姿勢を用いて3次元復元結果を統合して3次元形状を復元する統合部と、を備える。
 これらの構成により、第1の態様または第2の態様の画像生成処理装置は、種々の環境に対応でき、自己校正でき、緻密で正確な3次元復元ができる。
 以下、本発明の好ましい態様を説明する。以下において、第1の態様について主に説明するが、第1の態様の好ましい態様は、第2の態様の好ましい態様と共通する。
<第1の態様:実施態様1A>
 第1の態様の画像生成処理装置について、図面を参照して好ましい態様を説明する。
 図1は、第1の態様の画像生成処理装置である、実施態様1Aの模式図である。
 図1に示した画像生成処理装置1は、交点集合生成部と、連立方程式生成部と、平面の3次元位置推定部と、3次元復元部とを備える。これらの交点集合生成部と、連立方程式生成部と、平面の3次元位置推定部と、3次元復元部などの画像生成処理に直接関連する部位のことを、画像生成処理部ともいう。図1に示したように、さらに画像生成処理部は、レーザ線推定部を備えることが好ましい。画像生成処理部は、CPUなどにより、所定の機能を実行するアプリケーション(プログラム)によって実行できるように一体化されていてもよい。
 図1に示した画像生成処理装置1は、任意に、制御部と、入力部と、記憶部と、表示部と、操作部などを備えていてもよく、さらに出力部などを備えていてもよい。画像生成処理装置1の全体的な概略的機能は、撮影手段100から入力された動画像から、画像生成処理をして、3次元形状を復元して出力することにある。また、具現化された画像生成処理装置1としては、所定の機能を実行するアプリケーション(プログラム)がインストールされたパーソナルコンピュータ等のコンピュータでも良いし、所定の機能を実行するように構成された画像生成処理専用の機器として構成されても良い。更にまた、画像生成処理装置1を構成する各部位は、バスを経由して相互に電気的に接続されていてもよく、クライアントサーバシステムまたはクラウドシステムとしてネットワークを経由して相互に接続されていてもよい。
(動画像)
 本発明で用いられる動画像は、対象領域を特定期間に撮影する1台のカメラ、対象領域中の物質に平面交差レーザを投影する複数台の平面交差レーザ発信部、およびこれらを一体化して移動可能となるように固定する固定部とを含む撮影手段により撮影された連続するフレームの群である。なお、計測の途中で固定部が動いたとしても、本発明の手法により自己校正されるため、以下の処理は成立する。具体的には、固定部の変異を検知したら、自己校正を再度実施すれば良い。そのような変異の検知手法としては、例えば、エピポーラ線上にレーザ交点が乗っているか否かを判定基準として使用することができる。あるいは、復元形状の矛盾、例えば同一フレーム内で交点を持つ2つのレーザ平面の復元結果が3次元空間中で交差しない、あるいは、異なるフレーム間で同一レーザ線からの復元結果の3次元位置が大きく異なっている、等を利用しても良い。
 図2(A)は、本発明の画像生成処理装置に用いられる動画像を得るための撮影手段100の模式図である。図2(A)に示した撮影手段100は、対象領域を特定期間に撮影する1台のカメラ101、対象領域中の物質に平面交差レーザ111を投影する複数台の平面交差レーザ発信部102、およびこれらを一体化して移動可能となるように固定する固定部103とを含む。図2(A)に示した撮影手段100は、さらにハウジング121、記録部131、移動部141を含むことが好ましい。
 平面交差レーザ発信部102から発信される各平面交差レーザ111は二つのラインレーザから成り、二つのレーザ平面はほぼ垂直に固定され、その後に正確に自己校正される。カメラ固有パラメータは事前に校正されると仮定される。ただし、カメラ固有パラメータは、後述のSfMやSLAMなどの自己校正手法により校正可能なため、未校正でも実施可能である。
 一方、撮影手段の位置(カメラと各レーザ平面との間の相対的な位置関係)は事前の校正を前提としないため、本発明より校正する必要がある。対象領域を特定期間に撮影する走査プロセスの間、動画像を構成する複数の画像(フレームの群)は撮影手段全体を動かすことによって異なるカメラ位置姿勢で捕捉される。撮影手段の位置はSfMやSLAMなどの自己校正手法により初期位置を得て、本発明の方法によって自己校正される。図2(B)、(C)、(D)は本発明の画像生成処理装置に用いられる動画像を得る方法の一例の模式図である。図2(B)、(C)、(D)に示すように、1台のカメラおよび複数台の平面交差レーザ発信部を一体化して移動可能となるように固定する固定部を含む撮影手段により、撮影手段全体を動かして対象領域(被写体)を撮影する。
 本発明の画像生成処理装置は、このように撮影された動画像を入力されて、3次元形状を復元する。図2(E)は本発明の画像生成処理装置で復元される3次元形状の一例の模式図である。
 撮影手段の詳細は、3次元形状の復元システムの説明において後述する。
(レーザ線推定部)
 レーザ線推定部は、動画像の各フレームにおいてレーザ線を検出する。
 レーザ線推定部は、輝度に関して一定以上の閾値を持った画素を選択することで検出することができる。しかし、レーザ出力が対象領域(シーン)に対して十分な大きさを持たない場合は、ノイズが増えるため、ノイズ除去する必要がある。
 そこで、これらの問題を回避するアルゴリズムとして、レーザ線推定部は、畳み込みニューラルネットワーク(CNN)の学習済みモデルを用いて、連続するフレームにおける推定レーザ線の位置を計算することが好ましい。
 推定された(検出された)レーザ線は、交点集合生成部に入力される。
(交点集合生成部)
 交点集合生成部は、動画像の各フレームにおいて検出されたレーザ線の交点どうしの接続関係、および連続するフレームにおいて検出されたレーザ線の交点の追跡結果から、交点集合を得る。
 得られた交点集合は、連立方程式生成部に入力される。
 さらに、本発明では、交点集合生成部が、交点集合グラフを作成することが好ましい。交点集合グラフについては、後述する。
(連立方程式生成部)
 連立方程式生成部は、交点集合の各交点が平面交差レーザの形成する2つのレーザ平面上に乗っていることから複数の拘束式を連鎖的に得て、拘束式群を連立させて連立方程式を生成する。
 生成された連立方程式は、平面の3次元位置推定部に入力される。
(平面の3次元位置推定部)
 平面の3次元位置推定部は、連立方程式を解くことでレーザ平面の3次元座標を射影空間で復元する。
 推定された(射影空間で復元された)レーザ平面の3次元座標は、3次元復元部に入力される。
(3次元復元部)
 3次元復元部は、推定されたレーザ平面の3次元座標と、動画像の各フレームにおいて検出されたレーザ線を用いて、光切断法によりレーザ線の反射位置の3次元座標を射影空間で復元する。
 一方、3次元復元部では、ユークリッド解を基に、動画像の各フレームにおいて検出されたレーザ線を用いて、レーザ線上の点を3次元復元してもよい。
 3次元復元部では、平面の3次元位置推定部で利用された共面性に対応するレーザ平面と対象領域(シーン)との交線を復元することができる。さらに、上記の平面以外の平面と対象領域(シーン)との交線を抽出して復元することもできる。こうして密な形状を復元することができる。
 復元された3次元情報は、記憶部に記憶されても良いし、表示部に表示されても良いし、不図示のプリンタなどの出力部にて紙面に出力されても良い。
(制御部)
 制御部は、画像生成処理装置1全体の動作を制御している部位である。
(入力部)
 入力部は、外部から画像生成処理装置1に情報が入力される部位である。本実施の形態では、2次元動画像である動画像が入力される。
(記憶部)
 記憶部は、HDD(Hard Disk Drive)に代表される固定式の記憶ディスク、CD(Compact Disc)やDVD(Digital Versatile Disk)等の着脱式記憶ディスク、固定式あるいは着脱式の半導体メモリ等である。本実施の形態では、記憶部には、処理前の2次元動画像、2次元動画像から復元された3次元形状、2次元動画像を処理することにより得られる中間的な情報が記憶される。ここで、中間的な情報とは、例えば、交点集合の情報、交点集合グラフの情報、射影空間におけるレーザ平面の3次元座標(射影解)の情報、射影空間におけるレーザ線の反射位置の3次元座標の情報、後述のユークリッドアップグレード計算により算出されたユークリッド解の情報などである。
 更に、記憶部には、下記する画像生成処理方法を実行するためのプログラムが格納されることが好ましい。このプログラムは、使用者が操作部を操作することにより呼び出されて、上記した各部位の機能を実行させる。具体的には、入力された2次元動画像のデータから、3次元形状のデータを復元するように、プログラムは各部位を動作させる。
(表示部)
 表示部は、例えば液晶ディスプレイ、CRT(Cathode Ray Tube)、ビデオプロジェクタであり、入力された2次元動画像や、この2次元動画像を基に復元された3次元形状が表示される。
(操作部)
 操作部は、例えば、キーボードやマウスであり、使用者がこの操作部を操作することにより、画像生成処理装置は2次元動画像から3次元形状を復元する。
(実施態様1Aの画像生成処理方法)
 図3は、実施態様1Aの画像生成処理装置を用いる画像生成処理方法を説明するためのフローチャートである。
 まず、撮影手段が対象領域(シーン;撮影対象)の周囲を移動し、複数の平面レーザを投影する。
 そして、対象領域(シーン;撮影対象)を撮影し、連続するフレームの群として複数の画像からなる動画像を取得する。
 このように本発明では、共面性情報の獲得に、平面交差レーザを使用する。平面交差レーザを対象領域に照射しながら撮影を行い、撮影された動画像中からラインレーザに照射された点の軌跡を抽出すれば共面性情報が得られる。平面交差レーザが通過する3次元空間中での平面を、レーザ平面と呼ぶことがある。
 次に、動画像の各フレームにおいて対象領域上に投影された複数のレーザ線について、各レーザ線を検出する。各レーザ線は、独立して検出されることが好ましい。輝度に関して一定以上の閾値を持った画素を選択することで検出することができるが、レーザ出力が対象領域(シーン)に対して十分な大きさを持たない場合は、ノイズが増えるため、ノイズ除去する必要がある。さらに、検出した複数のレーザ線を分離独立させる処理は自明ではない。そこで、ディープニューラルネットワーク(DNN)によって独立して検出すると効率が良い。この場合、レーザ線のラインを検出するばかりではなく、当該ラインが、どの平面交差レーザ発信部から照射されたものか、ID付けを実施すると尚、効率が良い。
 また、畳み込みニューラルネットワーク(CNN)の学習済みモデルを用いて、連続するフレームにおける推定レーザ線の位置を計算することがより好ましい。DNNおよびCNNならびにこれらの学習済みモデルの作製については公知の方法を用いることができる。例えば、古川らによる手法(非特許文献A)などが使用可能である。
(非特許文献A)Ryo Furukawa, Genki Nagamatsu, Shiro Oka, Takahiro Kotachi, Yuki Okamoto, Shinji Tanaka, Hiroshi Kawasaki,
"Simultaneous shape and camera-projector parameter estimation for 3D endoscopic system using CNN-based grid-oneshot scan",
MICCAI workshops AE-CAI, CARE (MIAR), Vol. 6, Iss. 6, pp.249-254, 10.2019
 次に、各線レーザは独立に検出されるので、2つのレーザ線間の交点を計算する。それらの交点どうしの接続関係は、共面性の拘束条件で接続して求めることが好ましい。各交点が2つのレーザ平面上に乗っていることという条件は、共面性条件である。ここで、点群が同じ平面上にあるとき、それらは共面であるという。例えば、物体の表面が平面である場合、その平面上の点はすべて共面である。平面上に模様が無く、平面上の点が画像上のパターンとして観測できない場合でも、平面上の点は共面である。このように平面構造物で構成される対象領域(シーン)中には多くの共面性がある。画像上で実際に観測された、物理的に存在する面上の点が持つ共面性をexplicitな共面性(第2共面性)と呼ぶ。また、このような共面性を持つ点の集合を、以降explicit共面な点集合であると記述する。
 一方で、空間中には普段は陽には見えないが、ある特定な条件下において観測可能となる共面性が無数に存在している。例えば、ラインレーザの光線で物体を照らした軌跡は共面な点の集合である。こうした共面性は、通常は目に見えず、光線があたったときにのみ観測されるものである。本実施の形態ではこれを、implicitな共面性(第1共面性)と呼ぶ。また、このようにして検出された共面な点群はimplicit共面であるといい、implicit共面な点群をカメラで観測することで得られる曲線をimplicit共面な曲線と呼ぶ。explicitな共面性が一般に物体の平面部でのみ観測されるのに対して、implicitな共面性は自由な曲面を含む物体表面の任意の部分で観測可能である。
 次に、連続するフレームにおいて検出されたレーザ線の交点を追跡する。
 この段階で撮影終了としない場合、撮影対象を撮影する工程に戻ることとなる。本発明の画像生成処理装置は、画像生成処理をプログラムによって自動的に行うことができるため、リアルタイムでの高速な3次元復元をできる。そのため、レーザ線の交点を追跡し、十分な交点集合が得られないと予想される場合や、実際に十分な交点集合が得られていない場合は、リアルタイムで撮影対象を撮影する工程に戻すことができる。
 一方、この段階で撮影終了とする場合、次に、交点から連立方程式を作る。レーザ線の交点を追跡し、十分な交点集合が得られると予想される場合や、実際に十分な交点集合が得られた場合は、撮影終了としてもよい。
 そして、連立方程式を解き、レーザ平面の3次元座標を射影空間で復元する。
 最後に、光切断法による形状復元を行う。
 なお、共面性条件のみから得られる解は少なくとも4個の自由度を持つため、ユークリッドな形状を得るためには、残る自由度を解消する必要がある。本明細書ではこれをユークリッドアップグレード(ユークリッド復元)と呼ぶ。また、ユークリッドアップグレードによって得られる解をユークリッド解と呼ぶ。ユークリッドアップグレードを行うには、共面性以外の条件を使う必要がある。ただし、実施態様1Aではユークリッドアップグレードを行わなくてもよい。
 図4は、実施態様1Aの画像生成処理装置を用いる画像生成処理方法を説明するための別のフローチャートである。図4では、交点を追跡する工程と、交点から連立方程式を作る工程の間に、交点集合グラフを作成する工程を備える。フレーム群における交点を効率的に追跡するために、グラフ表現を採用して、交点どうしの関係および交点の軌跡を交点集合グラフとして記述することが好ましい。図4のその他の工程は、図3と同様である。交点どうしの関係および交点の軌跡の精度は自己校正の安定性にとって重要であり、2つの隣接するフレームのみを使用するよりも、捕捉するフレーム数を増やしたフレーム群において高精度の安定性を保証でき、かつプログラムを効率化できる交点集合グラフを作成することが好ましい。これは、実施例1の(共面性およびエピポーラ拘束の精度の評価)により、30フレーム(枚)程度以上であることが好ましく、40フレーム以上であることがより好ましい。
 その他の方法については、特開2009-32123号公報の[0037]~[0080]に記載の方法を流用することができ、この公報の内容は参照して本明細書に組み込まれる。
<第1の態様:実施態様1B>
 さらに、本発明の画像生成処理装置のより好ましい態様を説明する。
 図5は、第1の態様の画像生成処理装置である、実施態様1Bの模式図である。
 図5に示した実施態様1Bの画像生成処理装置1は、図1に示した実施態様1Aと同様にレーザ線推定部と、交点集合生成部と、連立方程式生成部と、平面の3次元位置推定部と、3次元復元部とを備え、さらにマスク作成部と、3次元点計算部と、エピポーラ線計算部と、対応点探索部と、対応点検出部と、ユークリッドアップグレード計算部(第1の計算部、第2の計算部および第3部の計算部を含む)、統合部とを備える。これらの画像生成処理に直接関連する部位のことを、画像生成処理部ともいう。画像生成処理部は、CPUなどにより、所定の機能を実行するアプリケーション(プログラム)によって実行できるように一体化されていてもよい。
 さらに、実施態様1Bは、計測全体におけるカメラ位置姿勢の最適化を行い、より正確な3次元座標の再推定を行うための第4の計算部および/または第5の計算部を備えていてもよい。
 以下において、実施態様1Bの好ましい態様を、実施態様1Aとの相違点を主として説明する。
(第1の計算部)
 実施態様1Bでは、平面交差レーザ同士の相対的な3次元位置のうち既知のものと、射影空間で推定されたレーザ平面の3次元座標を入力とし、レーザ平面の3次元座標およびレーザ線の反射位置の3次元座標をユークリッド座標にアップグレードする第1の計算部を含むことが好ましい。
 第1の計算部は、射影空間で推定されたレーザ平面の3次元座標および射影空間におけるレーザ線の反射位置の3次元座標(射影解)の自由度を解消させて、射影解をユークリッド解にアップグレードする機能を有する。
(エピポーラ線計算部および対応点探索部)
 実施態様1Bでは、レーザ線の交点の追跡結果より、同じ交点が画像上で通る直線を、交点ごとに計算してエピポーラ線を得る、エピポーラ線計算部を備えることが好ましい。
 実施態様1Bでは、エピポーラ線計算部で得られたエピポーラ線上で、動画像内の任意のフレームにおける対応点を探索する、エピポーラ拘束に基づく対応点探索部を含むことが好ましい。
 探索された対応点は、対応点検出部に入力されることが好ましい。
 また、探索した対応点は、平面の3次元位置推定部に入力されて、平面の3次元位置推定部がレーザ平面の3次元座標を射影空間で復元することが好ましい。
(マスク作成部)
 実施態様1Bでは、推定レーザ線の位置からモルフォロジー変換でマスクを作成するマスク作成部を備えることが好ましい。モルフォロジー変換は公知の方法を用いることができる。
 マスクは3次元点計算部のSLAM解析部に入力され、Visual SLAMまたはSfMにより任意の特徴点を検出する際に、撮像された動画像の各フレームからレーザ線領域をマスクして、マスクされた領域は特徴点の検出から除かれることが堅牢に特徴点の検出をする観点から好ましい。
(3次元点計算部)
 実施態様1Bでは、動画像の連続するフレームの群を入力として、Visual SLAMまたはSfMによりユークリッド3次元復元を行う3次元点計算部を含むことが、自己校正を実現し、これによりカメラと平面交差レーザ間の同期も幾何学的制約が不要となり、よって極端な環境においても、緻密(高密度)で正確な3次元復元ができる観点から好ましい。
 3次元点計算部が、Visual SLAMまたはSfMにより任意の特徴点を検出してユークリッド座標系のカメラ位置姿勢および3次元復元結果を得るSLAM解析部を含むことが好ましい。
 3次元点計算部では、動画像の各フレームにおいてマスクの位置の輝度を無視してVisual SLAMまたはSfMを適用して3次元点(3次元復元結果)を得ることが好ましい。
 得られたユークリッド座標系の3次元復元結果(3次元点)は、後述する対応点検出部に入力される。
 得られたユークリッド座標系のカメラ位置姿勢は後述する統合部に入力され、統合部により、レーザ平面や撮影装置の3次元位置の自己校正手法を実現することができる。
(対応点検出部)
 実施態様1Bでは、動画像の各フレームにおいて、3次元点計算部により得られた3次元点のうち、レーザ線上に存在するものを対応点として検出する対応点検出部を備えることが、それらの対応点がいずれもレーザ線(レーザ平面)上に存在するとの共面性を用いて光切断法による形状復元をしやすい観点から、好ましい。
 さらに対応点検出部は、自己校正手法による3次元点計算部により得られた3次元点のうち、エピポーラ拘束に基づく対応点探索部で探索した対応点に接続されるレーザ線上に存在するものを対応点として検出することが、それらの対応点がいずれもレーザ線(レーザ平面)上に存在するとの共面性を用いて光切断法による形状復元をしやすい観点から、より好ましい。
(第2の計算部および第3の計算部)
 実施態様1Bでは、検出した対応点を用いて、レーザ平面の3次元座標およびレーザ線の反射位置の3次元座標をユークリッド座標にアップグレードする第2の計算部および第3の計算部を備えることが好ましい。
 説明の便宜上、対応点検出部が、3次元点計算部により得られた3次元点のうち、レーザ線上に存在するものを対応点として検出した対応点を用いる場合は、第2の計算部という。また、対応点検出部が、3次元点計算部により得られた3次元点のうち、エピポーラ拘束に基づく対応点探索部で探索した対応点に接続されるレーザ線上に存在するものを対応点として検出した対応点を用いる場合は、第3の計算部という。
(第4の計算部および第5の計算部)
 実施態様1Bは、計測全体におけるカメラ位置姿勢の最適化を行い、より正確な3次元座標の再推定を行うための第4の計算部および/または第5の計算部を備えていてもよい。第4の計算部では、撮影手段により撮影された連続するフレームの群において、フレームnで復元された3次元座標と、フレームkで復元された3次元座標が、対象領域内の同じ位置である場合、2つの3次元座標間のずれを最小化するように、レーザ平面の3次元座標を再推定する。ここで、フレームnとフレームkは任意のフレームであり、フレームnとフレームkは異なるフレームであることを示す。第4の計算部は、後述する第5の計算部と組み合わせて動作してもよい。
 また、実施態様1Bは、動画像を、連続するm個ずつのフレームのブロックに分割するステップと、3次元復元部で復元された3次元座標をブロックごとに統合し第2の3次元座標とするステップと、を含み、2つの第2の3次元座標が、対象領域内の同じ位置である場合、2つの3次元座標間のずれを最小化するように、レーザ平面の3次元座標を再推定する第5の計算部を含んでいてもよい。なお、ブロックに分割するステップでは、動画像は、3~100個ずつのフレームのブロックに分割されることが好ましく、5~50個ずつのフレームのブロックに分割されることがより好ましい。
Figure JPOXMLDOC01-appb-M000001
 ブロックは数十フレームの点群を統合して生成する。先頭のフレームのカメラ位置姿勢をブロック全体の姿勢とし、他のフレームの点群は先頭フレームに対する相対姿勢を用いて先頭フレームのローカル座標へ投影する。式(1)において、T startは先頭フレームに対するiフレームの相対姿勢、Pはiフレーム目のレーザ照射部の点群である。
 第5の計算部では、例えば、数十フレームごとの3次元座標を統合し、ブロック生成し、一方でメッシュを利用して、ループ区間において平均形状を生成する。なお、本明細書においてループ区間とは、例えば、対象領域を一周半撮影した場合、撮影領域が重複する区間をいう(図26参照)。そして、ICP(Iterative Closest Point:最近傍点探索)で各ブロックと平均形状の各ポイントの対応関係を取得し、ブロック単位のバンドル調整でブロックに対するカメラ位置姿勢を最適化する(図24参照)。平均形状の生成からブロック単位のバンドル調整までの一連のステップは数回繰り返されてもよい。ブロック単位のバンドル調整を行うことにより、各フレームの疎な点群でも正確なカメラ位置姿勢を推定することができる。
 平均形状は、メッシュによって生成することができる。この際、姿勢の誤差が大きく、重なり合う形状間の距離が近い場合はその中間にメッシュが生成されるが(図25(左側図))、距離が遠い場合にはメッシュの形状が崩れてしまう(図25(右側図))。このため、メッシュの生成前に、経路の重複区間における平均のカメラ位置姿勢を用いて各フレームのポイントを統合しなおすことで形状間の距離を強制的に縮めてもよい。
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
 平均のカメラ位置姿勢は、ループ区間の開始フレームと最終フレームをそれぞれ手動で指定し(図26(左側図))、対応するカメラ位置姿勢の平行移動成分の重み付き平均で求める(図26(右側図))。式(2)及び(3)において、tはiフレーム目の姿勢の平行移動成分、t′はiフレーム目の姿勢の平行移動成分の平均、wは重みで、iに対して線形である。
 そして、最後に求めたカメラ位置姿勢を用いて、各フレームのポイントクラウドを投影する。
Figure JPOXMLDOC01-appb-M000004
 次に、ブロックと平均形状の各ポイントの対応をICPにより求める。ブロックと全体の復元結果は、共に各フレームのレーザをカメラ位置姿勢で統合したものなので、全体形状のポイントと平均形状の対応関係から各ブロックのポイントと平均形状の対応関係を求めることができる。求められた対応関係を利用してバンドル調整を行う。
 なお、ブロック単位のバンドル調整では、ブロック内の相対姿勢が固定されているため、ブロックの最終フレームと次のブロックの先頭フレーム間においてカメラ位置姿勢が急激に変化してしまう場合がある。このため、上述した第4の計算部においてフレーム単位におけるバンドル調整を行い、滑らかにカメラ位置姿勢が変化するように、最適化を行うことが好ましい。この場合、ブロック単位のバンドル調整により、ブロック単位ではバンドル調整により正解に近い位置姿勢が求まっていることから、平均形状においてライン同士が密着しているなどの問題が解消されているため、フレーム単位での3次元点距離の最小化が正しく動作する。
(統合部)
 実施態様1Bでは、レーザ線の反射位置の3次元座標の復元結果、3次元点計算部で得られたカメラ位置姿勢、および第4の計算部および第5の計算部で得られた再推定結果を用いて3次元復元結果を統合して3次元形状を復元する統合部を備えることが好ましい。動画像の各フレームの光切断法による3次元復元結果を統合することで、種々の環境に対応でき、自己校正でき、緻密で正確な3次元復元ができる。
 特に、複数の3次元復元結果を統合することで、広範囲を復元することができる。
(実施態様1Bの画像生成処理方法)
 図6は、実施態様1Bの画像生成処理装置を用いる画像生成処理方法を説明するためのフローチャートである。
 図6では、図3または図4に示した実施態様1Aの画像生成処理装置を用いる画像生成処理方法を説明するためのフローチャートと同様に、動画像から(1)レーザ線検出、(2)交点集合グラフ作成、(3)レーザ平面復元を行う。
 図6では、(3)レーザ平面復元を行う際に、共面性に加えて、エピポーラ拘束から連立方程式を構築することが好ましい。この場合、交点を追跡して得られたエピポーラ線を用いて、エピポーラ拘束に基づく対応点探索を行う。そして、得られたエピポーラ線上のレーザ交点を検出して対応点を得て、対応点を含めた連立方程式を構築する。
 連立方程式を特異値分解(Singular Value Decomposition;SVD)などの線形解法を用いて解くことにより、4自由度の解が得られる。
 その後、図6では、光切断法による形状復元(図7では(7)SLAM等で統合)の前に、(5)SLAM等で特徴点の検出を行い、(6)非線形最適化ユークリッドアップグレードを行う。
 図6における(5)SLAM等で特徴点の検出では、Visual SLAMまたはSfMにより任意の特徴点を検出してユークリッド座標系のカメラ位置姿勢および3次元復元結果を得る。動画像の各フレーム上のレーザ線はまばらであるため、撮像された動画像の各フレームからレーザ線領域を除外することにより、Visual SLAMまたはSfMは堅牢に特徴点の検出をすることができる。検出されたレーザ線に形態学的フィルタ(拡張)を適用してマスクを作成することが好ましく、具体的にはモルフォロジー変換でマスクを作成することがより好ましい。
 そして、動画像に直接Visual SLAMまたはSfMを適用して、任意の特徴点を検出して、ユークリッド座標系のカメラ位置姿勢(カメラのエゴモーション)および3次元復元結果(対象領域の初期深度である3次元点群)を推定することが好ましい。カメラ位置姿勢を利用することで、得られた3次元点群を各フレームに逆投影し、レーザ線と重なっている点、すなわちレーザ線上の3次元点を対応点として検出し、対応点についてユークリッド座標系の3次元座標を初期深度として格納する。
 図6における(6)非線形最適化ユークリッドアップグレードでは、平面交差レーザ同士の相対的な3次元位置のうち既知のものと、射影空間で推定されたレーザ平面の3次元座標を入力とし、レーザ平面の3次元座標およびレーザ線の反射位置の3次元座標をユークリッド座標にアップグレードする。この場合、スケールグラフを作成し、推定スケールパラメータを計算してもよい。推定スケールパラメータを乗じることにより、カメラモーションパラメータを修正して、ユークリッドアップグレードすることができる(第1の計算部)。
 平面交差レーザ同士の相対的な3次元位置のうち既知のものとしては、2つのレーザ平面を90度回転させて設置した、十字レーザが考えられる。あるいは、2つのレーザを平行に設置した並行レーザでも良い。これらの組み合わせの場合、水中ハウジング内に封入した場合でも、双方のレーザ平面を境界面と直交させられるため、屈折の効果を無くすことができ、好適である。なお、平面交差レーザは2つのレーザ平面を90度以外の既知の角度で回転して設置したレーザであってもよく、例えば互いに60度回転させて設置したレーザや、45度回転させて設置したレーザが考えられる。また、平面交差レーザは、3つ以上のレーザ平面をそれぞれ60度や45度など既知の角度で回転させて設置したレーザであってもよい。地上や空中で動画像を撮影する場合は、屈折の効果を無くすよりも、レーザ線の密度を高める方が復元される3次元形状を高密度で正確な形状にしやすい。例えば、DOE(Diffractive optical Element)などを用いれば、中心投影のため、自己校正のパラメータを大幅に削減でき、好適である。
 また、(5)SLAM等で特徴点の検出で得られたレーザ線上の3次元点の初期深度とカメラ位置姿勢を用いて、レーザ平面の3次元座標とレーザ反射位置の3次元座標をユークリッドアップグレードすることが好ましい(第2の計算部)。
 同じく、エピポーラ線上の3次元点の初期深度とカメラ位置姿勢を用いて、レーザ平面の3次元座標とレーザ反射位置の3次元座標をユークリッドアップグレードすることが好ましい。この際、交点を追跡して得られたエピポーラ線を用いて、エピポーラ拘束に基づく対応点探索を行い、エピポーラ線上の3次元点を検出して対応点を得て、対応点についてユークリッド座標系の3次元座標を初期深度として格納することが好ましい(第3の計算部)。
 初期深度とカメラ位置姿勢を用いることにより、4自由度の解はバンドル調整(Bundle adjustment)アルゴリズムによりユークリッド座標系にアップグレードすることができる。この際に、4自由度パラメータ以外のパラメータを推定パラメータに加えることで、任意のパラメータを自己校正することが可能となる。これは通常のライン復元の場合、複数フレーム間の対応関係はライン同士の交点のみのため十分な数が得られず、現実的には収束させるのが困難であるのに対して、本発明では共面性復元により高精度な初期解が求まっているため、実現できる。
 図6では最後に、これらの結果を(7)SLAM等で統合する。(7)SLAM等で統合では、レーザ線の反射位置の3次元座標の復元結果、および、カメラ位置姿勢を用いて3次元復元結果を統合して3次元形状を復元する。推定した各パラメータを用いることにより、各フレームに光切断法を適用し、復元ラインを統合して、緻密で正確な形状に復元することができる。
 図7は、実施態様1Bの画像生成処理装置を用いる画像生成処理方法を説明するための別のフローチャートである。図7のフローチャートは、図6のフローチャートの好ましい態様を詳細に説明したものである。
 以下、図7を参照しつつ、実施態様1Bの画像生成処理装置を用いる画像生成処理方法の詳細を説明する。
-交点を追跡する工程、交点集合グラフを作成する工程-
 まず、図7における、レーザ線を検出する工程、検出レーザ線の交点を計算する工程、交点を追跡する工程、交点集合グラフを作成する工程について説明する。
 レーザ平面パラメータを推定して射影解を得るためには、交点とレーザ線の対応が必要である。本発明では、カメラが対象領域の周りを移動しながら、複数の平面交差レーザを発信して撮影された動画像を用いる。そのため、以下のような堅牢な交点の追跡を達成するためのグラフベースアプローチを用いて、フレーム間の交点の対応を得ることが好ましい。
 図8(a)~図8(d)は、交点同士の空間的および時間的接続を用いて交点集合グラフを作成する工程のフロー図を表す。
 最初に、DNNまたはCNNによって検出される画像上のレーザ曲線の交点を計算することによってノードを作成する。それらは、フレーム内で空間的に接続されて、第1のグラフを生成する。次のフレームの交点は最近傍アプローチによって現在のフレームに時間的に接続され、時間的に接続されたノードは単一のノードを作るためにグループ化される(図8(a)から(b)まで)。
 この段階で得られた交点集合グラフは空間的および時間的接続の両方に対して誤差(エラー)やノイズを含むので、空間的誤差はまず、以下のアプローチによって抑制される。まずグループをノードとする新しいグラフを構築する。本発明者らのセットアップでは、3重交点などの特殊な状況は仮定しないため、縦方向および横方向など、新しいグラフの各ノードには2つの空間的な接続しかないため、各ノードどうしが互いに最も接続している数の多い各方向について1つの有向エッジのみを維持することによって、誤った接続を除去することができる。その結果、各グループ同士は高々2本の有向エッジしか持たない(図8(b)から図8(c)まで)。
 時間的接続における誤差に関しては、遮蔽による切断が頻繁に起こる。解決のために、上述のように各ノードに対して2つの空間接続しかないので、時間接続設定に接続された複数の有向エッジがある場合、同じ方向の時間接続設定は、1つの有向エッジのみを残すようにマージされる(図8(c)から(d)まで)。
 その結果、交点間の空間的および時間的接続がはるかに改善され、最大で50から100フレームを追跡することが可能となる。なお、これは堅牢な自己校正を達成するために十分な追跡フレーム数である。
 具体的には、後述の実施例1により、安定したキャリブレーションのために追跡フレーム数は25以上であることが好ましく、30以上であることがより好ましく、40以上であることが特に好ましい。
-交点から連立方程式を作る工程-
 図7における、交点から連立方程式を作る工程と、連立方程式を解き、レーザ平面の3次元座標を射影空間で復元する工程について説明する。
 まず、共面性拘束による平面パラメータの射影解を得ることにより、レーザ平面の3次元座標の射影空間での復元を行う。
 グラフ生成後、フレームtにおける平面iと平面jとの間の交点であるp[i,j,t]=(u[i,j,y], v[i,j,t])が得られる。レーザ平面πiが下記式1
Figure JPOXMLDOC01-appb-M000005
で表される。
 式1は、下記式2
Figure JPOXMLDOC01-appb-M000006
の形式で表される。
 ここで、(px, py)は主点であり、fx, fyは焦点距離である。2つのレーザ平面πi、πj間の共平面性制約は下記式3
Figure JPOXMLDOC01-appb-M000007
として表すことができる。したがって、グラフ内の接続性を使用して、すべての交点からのすべての制約を組み合わせることによって、下記式4の線形方程式が得られる。
Av=0;
Figure JPOXMLDOC01-appb-M000008
 ここで、Tはレーザ平面パラメータの組み合わされたベクトルであり、Aはその行が、
Figure JPOXMLDOC01-appb-M000009
を、線形方程式を形成するために適切な列に含む行列である。
 vについての自明な解が存在することが知られているので、方程式は、SVDなどを使用して制約||v||=1の下で解ける。
 もし線形方程式システムが解くことができ、縮退条件にない場合、4自由度の不確定性を有する平面パラメータ(ap,bp,cp)の射影解が得られる。
 次に、図7では、レーザ平面復元を行う際に、共面性に加えて、エピポーラ拘束から連立方程式を構築する。
 レーザ線の交点の追跡結果より、同じ交点が画像上で通る直線(エピポーラ線)を計算する。
 カメラとレーザ間の相対位置を互いに固定しているため、画像上のエピポーラ線は走査中に撮影手段が動き回っても静的である。これは、同じ交線に属する全ての点が同じエピポーラ線上にあるので、3つ以上のフレームが計算に使用されても、本質的な情報を増加させないことを意味する。したがって、同じエピポーラ線上の点に対する制約の最大数は2である。実際の場合、エピポーラ線の精度は自己校正の安定性にとって重要であり、従って、2つの対応する点間の距離は狭すぎると、精度は必然的に低くなるので、2つの隣接するフレームのみを使用することは不安定解を導く可能性がある。本発明では、長い系列の交点の追跡結果を含み、対応点に対する長距離、高精度および射影解の安定性を保証するグラフを作成することが好ましい。
 捕捉するフレーム数の増加が連立方程式に対する制約を増加させないことを考慮すると、これは一種の縮退条件と考えることができる。そこで、本発明の方法でどの条件を解くことができるかを説明する。
 レーザ平面数をM、観察ライン数をL、撮影枚数をNとすると、未知パラメータ数は3M-4となる。ここで、4は、オフセットの3自由度(DOF)およびスケールパラメータの1自由度を意味する。制約の数は2Lである。したがって、L≧(3M-4)/2を満たせば解を得ることができる。
 例えば、4本の平面交差レーザ発信部を有する撮影手段を用いる場合を考えると、M=8であり、Lの最小値は10となる。
-SLAM、SfMにより各画像の任意の特徴点を検出する工程からユークリッドアップグレード-
 次に、SLAM、SfMにより各画像の任意の特徴点を検出する工程から、ユークリッドアップグレードする工程までについて説明する。図7では、マスク部輝度を無視したSLAM、SfMにより各画像の任意の特徴点を検出し、1.ユークリッド実座標系で3次元復元、2.カメラ位置姿勢推定をする。その後、3次元点を各画像に逆投影し、レーザ線上の3次元点を検出して対応点を得る工程を行う。その後、対応点を用いて、レーザ平面の3次元座標とレーザ反射位置の3次元座標をユークリッドアップグレードする。
 共面性とエピポーラ拘束による射影解は最大4自由度であるので、ユークリッド解を得るためにレーザ平面パラメータをアップグレードする必要がある。その第1の実施例として、レーザ平面間の角度が既知の場合(例えば高精度に90度に設置した十字レーザなど)、ユークリッドアップグレードのために使用することができる。この場合、射影復元後に、直ちにユークリッドアップグレード可能なため、計算量の大幅な削減、処理の高速化、対象領域(シーン)に依存しない復元が可能といった、多くのメリットがある。しかし一方で、そのためには事前に高精度に十字レーザを作成する、あるいはその角度を計測しておく必要があるなど、システム構成の柔軟性を著しく低下させるという問題もある。そこで、このような制限を回避するために、本発明の第2の実施例として、ユークリッドアップグレードのために対象領域(シーン)のテクスチャ情報を使用してVisual SLAMまたはSfMによって生成された3次元点を使用することが好ましい。以下、Visual SLAMを用いる方法を説明するが、SfMでも同様に行うことができる。
 2つの平面間の3次元線をL[i,j]とする。L[i,j]に対応する2D線をl[i,j]とする。キャプチャされた画像から検出された2D線をs[i,t]とする。s[i,t]とs[j,t]との間の交点をm[i,j,t]とする。iおよびjはレーザ平面πおよびπを意味する。tはキャプチャされた画像のid(識別番号)を意味する。s[i,t]がライン検出アルゴリズムによって検出されるとき、s[i,t]とπとの間の対応は与えられない。
 しかしながら、L[i,j]とm[i,j,t]との間の対応は、最も近い距離によって与えられる対応l[i,j]とm[i,j,t]とによって得ることができる。m[i,j,t]はs[i,t]およびs[j,t]の要素であるため、m[i,j,t]はs[i,t]に属することの蓄積から、s[i,t]およびL[i]の対応を見積もることができる。図9は、ユークリッドアップグレードのジオメトリ(幾何学的な配置)の模式図および、下記エネルギー関数の計算で用いる記号を示したものである。
 Visual SLAMにより3次元点を得た後、得られた3次元点をP[i]とし、ここでiは平面πiを意味する。そして、Visual SLAMにより得られた3次元点を撮像された動画像の各フレーム上に再投影し、検出されたレーザ線と重なる点(対応点)をPn [i](nは点の識別番号を意味する)とする。さらに、交点をQm [i,j]で表し、ここで、iおよびjはレーザ平面の識別番号であり、mは交点の識別番号である。ユークリッドアップグレードを達成するために、下記式5で表されるエネルギー関数を設定する。
Figure JPOXMLDOC01-appb-M000010
ここで、Pn’ [i]は推定されたレーザ平面パラメータによって計算された3次元点を表し、COP(πi, π, Qm [i,j])は、推定されたレーザ平面パラメータおよび検出された交点によって計算された共面性誤差値を表す。最適化のために、下記式6で表されるようにLevenberg-Markertアルゴリズムを使用する。
Figure JPOXMLDOC01-appb-M000011
ここで、π* は、最適化されたレーザ平面パラメータを表す。
 外れ値を削除し、平面パラメータおよび3次元点Pn [i]の初期値を推定するために、RANSACをPn [i]に適用する(n ∈ π)。
 なおここで、推定すべきパラメータとして、カメラ位置姿勢やカメラの内部パラメータをπに加えても良い。
-エピポーラ線上の3次元点を検出して対応点を得る工程からユークリッドアップグレード-
 エピポーラ線上の3次元点を検出して対応点を得る工程から、対応点を用いてレーザ平面の3次元座標とレーザ反射位置の3次元座標をユークリッドアップグレードする工程も、Visual SLAMにより3次元点を得た後からユークリッドアップグレードする工程と同様に行うことができる。これは、2次元画像上のエピポーラ線は、3次元空間中においては、2つのレーザ平面の交線である性質を利用したものである。
 既知のレーザ平面間の角度を用いたユークリッドアップグレードとして、事前に高精度に十字レーザを作成する必要がないなどシステム構成の柔軟性を高める観点から、本発明ではエピポーラ線上の3次元点を検出して対応点を得る工程のユークリッドアップグレードを使用することが好ましい。この場合、平面上に乗る3次元点群が直接得られるため、平面フィッティングなどにより直接解を得ることが出来るため、計算量の削減や、処理の高速化、解の安定性に寄与する。平面パラメータの推定には、例えばSVD(Singular value decomposition)を利用することができる。
 さらに、SLAM、SfMにより各画像の任意の特徴点を検出する工程からのユークリッドアップグレードと、エピポーラ線上の3次元点を検出して対応点を得る工程のユークリッドアップグレードの両者を併用することが、安定した初期解を得て、全体最適化を実施することなどが考えられ、一方のみを使用しただけでは復元できない相乗的に高密度で正確な3次元形状を復元する観点からより好ましい。
-光切断法による形状復元工程およびユークリッドアップグレード-
 図7に示したとおり、第2の計算部および/または第3の計算部におけるユークリッドアップグレードと、3次元復元部における光切断法による形状復元工程の順序は、特に定めはない。
 上述のとおり、第2の計算部および第3の計算部では、平面の3次元位置推定部で推定された射影空間におけるレーザ平面の3次元座標と、3次元復元部で復元された射影空間におけるレーザ線の反射位置の3次元座標の両方をユークリッド座標にアップグレードできる。ただし、あらかじめレーザ平面の3次元座標およびレーザ線の反射位置の3次元座標のうち一方のみをユークリッド座標にアップグレードしてもよい。例えば、平面の3次元位置推定部で推定された射影空間におけるレーザ平面の3次元座標のみを第2の計算部および/または第3の計算部でユークリッド座標にアップグレードしておき、その後に3次元復元部で光切断法による形状復元によりレーザ反射位置の3次元座標を得てもよい。さらにその後、再び第2の計算部および/または第3の計算部にて、3次元復元部で復元された射影空間におけるレーザ線の反射位置の3次元座標をユークリッド座標にアップグレードすることもできる。
 なお、図7では、第1の計算部、第2の計算部および第3の計算部での3通りのユークリッドアップグレードを行うフローとなっているが、このうち一部のユークリッドアップグレードのみを用いてもよい。例えば、第2の計算部および第3の計算部での2通りのユークリッドアップグレードを行い、第1の計算部でのユークリッドアップグレードを行わなくてもよい。
<第2の態様:実施態様2A>
 第2の態様の画像生成処理装置は、入力された動画像から3次元形状を復元する画像生成処理装置であって、
 動画像は、対象領域を特定期間に撮影する1台のカメラ、対象領域中の物質に平面交差レーザを投影する複数台の平面交差レーザ発信部、およびこれらを一体化して移動可能となるように固定する固定部とを含む撮影手段により撮影された連続するフレームの群であり、
 任意の方法で推定された平面交差レーザの形成するレーザ平面の3次元座標と、動画像の各フレームにおいて検出されたレーザ線を用いて、光切断法によりレーザ線の反射位置の3次元座標を射影空間で復元する3次元復元部と、
 Visual SLAMまたはSfMにより任意の特徴点を検出してユークリッド座標系のカメラ位置姿勢および3次元復元結果を得るSLAM解析部と、
 レーザ線の反射位置の3次元座標の復元結果、および、カメラ位置姿勢を用いて3次元復元結果を統合して3次元形状を復元する統合部と、を備える。
 以下、第2の態様の画像生成処理装置について、実施態様2Aを代表として説明する。
 図10は、実施態様2Aの画像生成処理装置を用いる画像生成処理方法を説明するためのフローチャートである。図10では、図7に示した実施態様1Bの画像生成処理装置を用いる画像生成処理方法を説明するための別のフローチャートにおいて、交点集合グラフ作成、検出レーザ線の交点を計算する工程、交点をトラッキングする工程、交点集合グラフを作成する工程、交点から連立方程式を作る工程は必須とせず、任意の方法でレーザ平面復元を行う。任意の方法としては、例えば、対象領域(シーン)に含まれる幾何学的条件から得られる方程式から、解に残された自由度に対応する変数を決定し、ユークリッド復元を実現する方法を挙げることができる。詳細は、特開2009-32123号公報の[0038]~[0047]に記載の方法を流用することができ、この公報の内容は参照して本明細書に組み込まれる。
 なお、図10に示した実施態様2Aでは、エピポーラ線を得る工程、エピポーラ拘束に基づく対応点探索工程、エピポーラ線上の3次元点を検出して対応点を得る工程を示していないが、これらの工程を行ってもよい。
 その他の工程の詳細は、図7の各工程の説明と同様である。
[3次元形状の復元システム]
 本発明の3次元形状の復元システムは、本発明の画像生成処理装置と、対象領域を特定期間に撮影する1台のカメラ、対象領域中の物質に平面交差レーザを投影する複数台の平面交差レーザ発信部、およびこれらを一体化して移動可能となるように固定する固定部とを含む撮影手段を備える。
 本発明の3次元形状の復元システムは、種々の環境に対応でき、自己校正でき、緻密で正確な3次元復元ができる。対応できる環境、すなわち対象領域としては、内視鏡による人体内部スキャン、海底3次元マップ作成、火星などの惑星画像や衛星画像の3次元形状取得などの人間がアクセスし難い様々な環境を挙げることができる。
 その中でも、本発明の3次元形状の復元システムは、特に対象領域(シーン)内の特徴点が少ない極端な環境において3次元形状の復元をする場合に、特に従来の技術と比較して緻密で正確な3次元復元ができる。対象領域内の特徴点が少ない極端な環境としては、ROV(Remotely Operated Vehicle)や水中ドローンなどで水中から撮影する環境(水中、海底、港湾部、川岸部、湖岸部、その他の水中構造物の点検やメンテナンス、水中の物体や生物の撮影など)、ドローンなどで空中から撮影する環境(写真測量や陸上構造物の点検やメンテナンスなど)、宇宙からまたは宇宙に向けて撮影する環境(惑星画像や衛星画像の撮影など)、内視鏡を用いた人体内を撮影する環境などを挙げることができる。また、広範囲の対象領域を撮影する場合、一部に特徴点が少ない領域が含まれることがあり、例えば室内で撮影する環境においても、本発明では床面や壁面などを緻密で正確な3次元復元ができる。
 同様に、本発明の3次元形状の復元システムは、自己校正できるため、濁った水中など、校正器具が観測しにくかったり、正確に動かしたりするのが難しいなどの理由から外部校正が難しい対象領域でも緻密で正確な3次元復元ができる。
 本発明の3次元形状の復元システムでは、カメラおよび平面交差レーザ発信部がハウジングの内部に備えられ、対象領域が水中であることが好ましい態様の一例である。ハウジングの内部にカメラおよび平面交差レーザ発信部を備える場合であっても、本発明によればレーザ平面をハウジング境界面に垂直に設置することで、屈折の影響を抑制することができ、緻密で正確な3次元復元ができる。
 本発明の3次元形状の復元システムでは、撮影手段がさらに記録部および移動部を備え、撮影手段が移動しながら対象領域の動画像を撮影して、記録部に記録することが好ましい。
 撮影手段は自律移動してもよく、無線などにより外部から操作して移動させてもよい。撮影手段は自律移動できる移動部を備えることが、自動地図計測などに応用できる観点から好ましい。
 本発明の3次元形状の復元システムでは、カメラおよび平面交差レーザ発信部を一体化して移動可能となるように固定するため、既存のカメラ付きドローンやカメラ付きROVなどに平面交差レーザ発信部を固定するだけで、容易に本発明の3次元形状の復元システムを製造することができる。
 また、カメラ付きの自律移動可能な自律移動装置に対して、平面交差レーザ発信部を固定するだけで、容易に本発明の3次元形状の復元システムを製造することができる。
 あるいは、カメラを有さない視覚以外で自律移動可能な自律移動装置に対して、カメラおよび平面交差レーザ発信部を一体化して固定することによっても、容易に本発明の3次元形状の復元システムを製造することができる。
[画像生成処理方法]
 本発明の画像生成処理方法の第1の態様は、入力された動画像から3次元形状を復元する画像生成処理方法であって、
 動画像は、対象領域を特定期間に撮影する1台のカメラ、対象領域中の物質に平面交差レーザを投影する複数台の平面交差レーザ発信部、およびこれらを一体化して移動可能となるように固定する固定部とを含む撮影手段により撮影された連続するフレームの群であり、
 動画像の各フレームにおいて検出されたレーザ線の交点どうしの接続関係、および連続するフレームにおいて検出されたレーザ線の交点の追跡結果から、交点集合を得る交点集合生成工程と、
 交点集合の各交点が平面交差レーザの形成する2つのレーザ平面上に乗っていることから複数の拘束式を連鎖的に得て、拘束式群を連立させて連立方程式を生成する連立方程式生成工程と、
 連立方程式を解くことでレーザ平面の3次元座標を射影空間で復元する、平面の3次元位置推定工程と、
 推定されたレーザ平面の3次元座標と、動画像の各フレームにおいて検出されたレーザ線を用いて、光切断法によりレーザ線の反射位置の3次元座標を射影空間で復元する3次元復元工程と、を含む。
 本発明の画像生成処理方法の第1の態様は、Visual SLAMまたはSfMにより任意の特徴点を検出してユークリッド座標系のカメラ位置姿勢および3次元復元結果を得るSLAM解析工程と、レーザ線の反射位置の3次元座標の復元結果、および、カメラ位置姿勢を用いて3次元復元結果を統合して3次元形状を復元する統合工程と、を備えることが好ましい。
 その他の本発明の画像生成処理方法の第1の態様の好ましい態様は、本発明の画像生成処理装置の第1の態様の好ましい態様の説明と同様である。
 本発明の画像生成処理方法の第2の態様は、入力された動画像から3次元形状を復元する画像生成処理方法であって、
 動画像は、対象領域を特定期間に撮影する1台のカメラ、対象領域中の物質に平面交差レーザを投影する複数台の平面交差レーザ発信部、およびこれらを一体化して移動可能となるように固定する固定部とを含む撮影手段により撮影された連続するフレームの群であり、
 任意の方法で推定された平面交差レーザの形成するレーザ平面の3次元座標と、動画像の各フレームにおいて検出されたレーザ線を用いて、光切断法によりレーザ線の反射位置の3次元座標を射影空間で復元する3次元復元部と、
 Visual SLAMにより任意の特徴点を検出してユークリッド座標系のカメラ位置姿勢および3次元復元結果を得るSLAM解析工程と、
 レーザ線の反射位置の3次元座標の元復元結果、および、カメラ位置姿勢を用いて3次元復元結果とを統合して3次元形状を復元する統合工程と、を備える。
 本発明の画像生成処理方法の第2の態様の好ましい態様は、本発明の画像生成処理装置の第2の態様の好ましい態様の説明と同様である。
 本発明の画像生成処理方法は、HDD等の記憶手段に格納されたプログラムにより順次実行可能である。
[プログラム]
 本発明のプログラムは、入力された動画像から3次元形状を復元する画像生成処理装置に実行させるプログラムであって、
 動画像は、対象領域を特定期間に撮影する1台のカメラ、対象領域中の物質に平面交差レーザを投影する複数台の平面交差レーザ発信部、およびこれらを一体化して移動可能となるように固定する固定部とを含む撮影手段により撮影された連続するフレームの群であり、
 動画像の各フレームにおいて検出されたレーザ線の交点どうしの接続関係、および連続するフレームにおいて検出されたレーザ線の交点の追跡結果から、交点集合を得る交点集合生成機能と、
 交点集合の各交点が平面交差レーザの形成する2つの平面上に乗っていることから複数の拘束式を連鎖的に得て、拘束式群を連立させて連立方程式を生成する連立方程式生成機能と、
 連立方程式を解くことでレーザ平面の3次元座標を射影空間で復元する、平面の3次元位置推定機能と、
 推定されたレーザ平面の3次元座標と、動画像の各フレームにおいて検出されたレーザ線を用いて、光切断法によりレーザ線の反射位置の3次元座標を射影空間で復元する3次元復元機能と、を実行させる。
 本発明のプログラムの好ましい態様は、本発明の画像生成処理装置および本発明の画像生成処理方法の好ましい態様の説明と同様である。
 以下に実施例と比較例を挙げて本発明をさらに具体的に説明する。以下の実施例に示す材料、使用量、割合、処理内容、処理手順等は、本発明の趣旨を逸脱しない限り適宜変更することができる。従って、本発明の範囲は以下に示す具体例により限定的に解釈されるべきものではない。
[実施例1:大気中での自己校正のための評価]
 図7に示した実施態様1Bの画像生成処理装置を用いる画像生成処理方法について、自己校正の有効性を評価するために、大気中で実験を行った。なお、実施例1~3では、レーザ平面間の角度を用いたユークリッドアップグレードは使用せず、Visual SLAMまたはSfMによって生成された3次元点と、エピポーラ線を用いて精製された3次元点を用いたユークリッドアップグレードの2つを使用した。すなわち、図7の内、右下の「撮影手段のレーザ同士の相対的な3次元位置を用いて、レーザ平面の3次元座標とレーザ反射位置の3次元座標をユークリッドアップグレード」は行わず、それ以外の工程を行った。
 図11(a)は、実施例1で用いた撮影手段のセットアップの写真である。緑色の平面交差レーザ発信部を4個、GoPro HERO8カメラに取り付けて固定し、全体を移動可能とした撮影手段を構築した。撮影手段全体を動かすことにより、室内のキャリブレーションボードと柱の対象領域(シーン)をスキャンし、自己校正手法を評価した。図11(b)は復元された柱の実際の角度を計測している様子を表す。図11(c)は校正器具を用いた計測方法のために撮影した画像の一例を表す写真である。図11(d)は本発明で必要な撮影画像の一例を表す。
(共面性およびエピポーラ拘束の精度の評価)
 最初に、交点集合グラフ作成に基づく交点追跡アルゴリズムの有効性を検証するために、動画像のうちの使用するフレーム数を変えることにより、推定したエピポーラ線方向の精度を評価した。結果を図12に示す。図12は、実施例1の3次元形状復元精度の評価における、使用するフレーム数と、RMSEの関係を示したグラフである。図12より、RMSE誤差が徐々に減少し、31フレームでほぼ収束に達していることが確認できる。これにより、31フレーム以上、対応点のトラッキングが実現できれば、高精度な復元が実現できる可能性が高いことが分かる。
(3次元形状復元精度の評価)
 次いで、本発明の方法の3次元形状復元精度を、レーザ校正にグリッドプレーナを用いるハードキャリブレーション法、以前の技術(Mathieu Labbe and Francois Michaud. Rtab-map as an open-source lidar and visual simultaneous localization and mapping library for large-scale and long-term online operation: LabbE and michaud. Journal of Field Robotics, 36, 10 2018. doi: 10.1002/rob.21831に記載のKinect V1およびKinect AzureによるRTAB MAP)と比較した。結果を図13に示す。
 図13(A)および図13(B)の棒グラフは、それぞれ紙面左側から順に、Kinect V1によるRTAB MAPと、Kinect AzureによるRTAB MAPと、ハードキャリブレーション法と、本発明の方法の系列を表す。
 図13(A)は、実施例1の3次元形状復元精度の評価における、2つの平面の平面フィッティング誤差を表す。図13(A)より、本発明の方法によるRMSEおよびMAEが、Kinect Azureと同等またはそれよりも良好であることを確認することができた。
 図13(B)は、実施例1の3次元形状復元精度の評価における、角度誤差を表す。図13(B)より、角度誤差に関しては、全ての方法で誤差はかなり小さかった。なお、Kinect V1が最良であったが、これは取得されたKinect V1のデータサイズが他の方法よりもはるかに大きく、他の方法よりも統計的に安定しているためかもしれない。
 全ての方法で得られた3次元形状を図14に示した。図14(A)は、Journal of Field Robotics, 36, 10 2018のKinect V1の3次元形状復元結果を表す。図14(B)は、Journal of Field Robotics, 36, 10 2018のKinect Azureの3次元形状復元結果を表す。図14(C)は、ハードキャリブレーション法の3次元形状復元結果を表す。図14(D)は、本発明の方法の3次元形状復元結果を表す。図14より、特にx-y平面での断面について、本発明の方法がハードキャリブレーション法とほとんど同じであり、既存の3次元センサより優れていることを明確に示された。
[実施例2:水中環境での自己校正の評価]
 次に、図7に示した実施態様1Bの画像生成処理装置を用いる画像生成処理方法の極端な条件に対する能力を示すために、水中環境での自己校正を評価した。
 図15(a)は、実施例2で用いた撮影手段のセットアップの写真である。防水ハウジング内に4個の緑色架橋ラインレーザを取り付けたGoPro HERO8カメラからなる実走査装置を構築し、図15(a)に示すように水中ROV(BlueROV2)に取り付けた。
 表やマネキンなどいくつかの物体を目標物体として水泳プールに沈め、水中ROVを操作して対象領域(シーン)をスキャンした。図15(b)は、実施例2で用いた対象領域(シーン)の上面図に相当する写真である。図15(c)はレーザ平面の3次元座標を射影空間で復元する工程の一例の写真である。図15(d)は復元されたマネキンを計測している画像の一例である。図15(e)は復元されたマネキンである。
 3次元形状復元精度を、ハードキャリブレーション法、コルマップ(Colmap)およびKinect融合のような以前の技術と比較した。結果を図16に示す。図16(A)および図16(B)の棒グラフは、それぞれ紙面左側から順に、Direct Sparuse Odometry(DSO)と、Colmapと、ハードキャリブレーション法と、本発明の方法の系列を表す。
 図16(A)は、実施例2の3次元形状復元精度の評価における、MAE[mm]とRMSE[mm]の誤差を表す。図16(B)は、実施例2の3次元形状復元精度の評価における、復元された3次元点の個数を表す。
 図16(A)および図16(B)から以前のVisual SLAM(J. Engel, V. Koltun, and D. Cremers. Direct sparse odometry. In arXiv:1607.02565, July 2016のDSO)は、オブジェクト上にほとんどテクスチャがないため、形状を正しく復元できないことが確認できる。ハードキャリブレーションが最良であるが、本発明の自己校正アルゴリズムはほぼ同じ精度を達成し、本発明の方法の有効性が示された。
 全ての方法で得られた3次元形状を図17に示した。図17(a)は、Shahram Izadi, David Kim, Otmar Hilliges, David Molyneaux, Richard Newcombe, Pushmeet Kohli, Jamie Shotton, Steve Hodges, Dustin Freeman, Andrew Davison, and Andrew Fitzgibbon. Kinectfusion: Real-time 3d reconstruction and interaction using a moving depth camera. In UIST ’11 Proceedings of the 24th annual ACM symposium on User interface software and technology, pages 559-568. ACM, October 2011. ISBN 978-1-4503-0716-1のGTの3次元形状復元結果を表す。図17(b)および図17(B)は、J. Engel, V. Koltun, and D. Cremers. Direct sparse odometry. In arXiv:1607.02565, July 2016のDSOの3次元形状復元結果を表す。図17(c)および図17(C)は、Johannes Lutz Schonberger and Jan-Michael Frahm. Structure-from-Motion Revisited. In Conference on Computer Vision and Pattern Recognition (CVPR), 2016のColmapの3次元形状復元結果を表す。図17(d)および図17(D)は、ハードキャリブレーション法の3次元形状復元結果を表す。図17(e)および図17(E)は、本発明の方法の3次元形状復元結果を表す。図17より、本発明の方法がハードキャリブレーション法とほとんど同じであり、既存の3次元センサより優れていることを明確に示された。
[実施例3:広い領域での自己校正の評価]
 次に、図7に示した実施態様1Bの画像生成処理装置を用いる画像生成処理方法の広い領域に対する能力を示すために、室内で撮影手段を動かすことによって広い領域を復元させた。周知のSfM技術であるColmapおよびMeshroomと比較した。結果を図18、図18-1~図18-3に示す。なお、全ての方法は自己校正され、広い領域が再構成される。
 図18(A)は、本発明の方法の3次元形状復元結果を表す。図18(a1-A)、図18(a1-B)および図18(a1-C)は、それぞれ本発明で必要な撮影画像の一例を表す。図18(a1-1)および図18(a1-2)は、それぞれ図18(A)の紙面左の枠内の3次元形状復元結果を別角度から表示した結果を表す。図18(b1)は、図18(A)の紙面右の枠内の3次元形状復元結果を別角度から表示した結果を表す。図18(b1-A)および図18(b1-B)は、それぞれ本発明で必要な撮影画像の一例を表す。図18(A)より、本発明の方法では、3次元形状が高密度に復元できることがわかった。
 図18(B)は、Johannes Lutz Schonberger and Jan-Michael Frahm. Structure-from-Motion Revisited. In Conference on Computer Vision and Pattern Recognition (CVPR), 2016のColmapの3次元形状復元結果を表す。図18(b1)は、図18(B)の紙面左の枠内の3次元形状復元結果を別角度から表示した結果を表す。図18(b2)は、図18(B)の紙面右の枠内の3次元形状復元結果を別角度から表示した結果を表す。図18(B)より、Colmapでは、3次元形状がほとんど復元されないことがわかった。
 図18(C)はMeshroomの3次元形状復元結果を表す。図18(c1)は、図18(C)の紙面左の枠内の3次元形状復元結果を別角度から表示した結果を表す。図18(c2)は、図18(C)の紙面右の枠内の3次元形状復元結果を別角度から表示した結果を表す。図18(C)より、Meshroomでは、3次元形状の精度が低く、大きな穴が開くことがわかった。
 これらの図18より、床面のようにテクスチャが少ない領域では周知のSfM技術では回復できないが、それらのテクスチャが少ない領域も本発明の方法では高密度に復元できることがわかった。
[実施例4:その他の工程の確認]
 実施例1において、キャリブレーションボードを含む対象領域(シーン)におけるレーザ線推定、交点集合グラフの作成、マスク作成、対応点検出の確認を行った。
 図19は、レーザ線推定の結果を表す。図19より、CNNにより画像上のレーザ線を推定できることがわかった。
 図20(A)は、追跡された交点を表す。図20(B)は、接続された交点を表す。図20(C)は、作成された交点集合グラフを表す。図20(C)より、交点の追跡により、交点集合をグラフ化して、一意な対応付けをできることがわかった。
 図21は、マスク作成の結果を表す。図21より、推定されたレーザ線からモルフォロジー変換でマスクを作成することができ、マスク位置をVisual SLAMによる特徴点抽出から除外して、輝度勾配を無視した修正済み特徴点を得られることがわかった。
 図22は、対応点検出の結果を表す。図22より、Visual SLAMにより推定された3次元点がレーザ線上に十分に多く存在し、対応点として検出できることがわかった。
[実施例5:大気中での自己校正のための評価2]
 実施例1と同様の方法で、空中においてマネキンの周りを約一周半する撮影データを用いて実験を行った。復元結果を見ると、カメラ位置姿勢の誤差の蓄積によって床部分が曲面になっていた(図23(c))。
 このため、全フレームを数十フレームずつのブロックに分割し、各ブロック(ループ区間)において、平均形状を生成した。そして、全フレームの復元結果を統合した平均形状を生成し、これを仮の目標形状として個々のブロック形状をこの目標形状に近づけることを繰り返した(図24)。
Figure JPOXMLDOC01-appb-M000012
 ブロックは数十フレームの点群を統合して生成した。先頭のフレームのカメラ位置姿勢をブロック全体の姿勢とし、他のフレームの点群は先頭フレームに対する相対姿勢を用いて先頭フレームのローカル座標へ投影した。式(1)において、T startは先頭フレームに対するiフレームの相対姿勢、Pはiフレーム目のレーザ照射部の点群である。
 平均形状は、図25に示すように、メッシュによって生成した。この際、姿勢の誤差が大きく、重なり合う形状間の距離が近い場合はその中間にメッシュが生成されるが(図25(左側図))、距離が遠い場合にはメッシュの形状が崩れてしまう(図25(右側図))。そこで、実施例5では、メッシュの生成前に、経路の重複区間における平均のカメラ位置姿勢を用いて各フレームのポイントを統合しなおすことで形状間の距離を強制的に縮めることを行った。
Figure JPOXMLDOC01-appb-M000013
Figure JPOXMLDOC01-appb-M000014
 平均のカメラ位置姿勢は、ループ区間の開始フレームと最終フレームをそれぞれ手動で指定し(図26(左側図))、対応するカメラ位置姿勢の平行移動成分の重み付き平均で求めた(図26(右側図))。式(2)及び(3)において、tはiフレーム目の姿勢の平行移動成分、t′はiフレーム目の姿勢の平行移動成分の平均、wは重みで、iに対して線形である。
 そして、最後に求めたカメラ位置姿勢を用いて、各フレームのポイントクラウドを投影した。
Figure JPOXMLDOC01-appb-M000015
 次に、図27に示すように、ブロックと平均形状の各ポイントの対応をICPにより求めた。ブロックと全体の復元結果は、共に各フレームのレーザをカメラ位置姿勢で統合したものなので、全体形状のポイントと平均形状の対応関係から各ブロックのポイントと平均形状の対応関係を求めることができる。求められた対応関係を利用してバンドル調整を行った。コスト関数は以下の式から算出した。
Figure JPOXMLDOC01-appb-M000016
 ここでTBiはi番目のブロックの姿勢で最適化されるパラメータである。pはブロックに含まれる点でp′はpに対応付けられた平均形状上の点である。また ̄T Bi+1は直前の繰り返し時におけるフレームi+1のカメラ位置姿勢に対するフレームiの相対姿勢、wは重みである。第二項はブロック間の相対姿勢の変化をコストに組み込むことで、全体の形状が変形しすぎることを防ぐ目的で加えた。
 実施例5によるカメラ位置姿勢最適化時のコスト推移を図28に示した。コストが上下しているのは平均形状を毎回生成し直しているためであり、フレーム単位での最適化で初期値が大きいのは全フレーム間で相対姿勢制約のコストが追加されたためである。ブロック単位での最適化においてコストは収束しており、ブロックと平均形状を用いる本手法によって最適化が順調に行われたことを示している。
 なお、ブロック単位のバンドル調整では、ブロック内の相対姿勢が固定されているため、ブロックの最終フレームと次のブロックの先頭フレーム間においてカメラ位置姿勢が急激に変化してしまう。そこで図29に示すように、最後にフレーム単位でのバンドル調整を行い、滑らかにカメラ位置姿勢が変化するように各フレームのカメラ位置姿勢Tの最適化を行った。上述したバンドル調整により、ブロック単位ではバンドル調整により正解に近い位置姿勢が求まっていることから、平均形状においてライン同士が密着しているなどの問題が解消されているため、フレーム単位での3次元点距離の最小化が正しく動作した。
Figure JPOXMLDOC01-appb-M000017
 ここで ̄T i+1はフレーム単位のバンドル調整前のカメラ位置姿勢ではなく、復元時のカメラ位置姿勢から計算した相対姿勢である。これは、復元において短い範囲でのカメラ位置姿勢の変化は高精度で推定できるためであり、最終的に最適化されたカメラ位置姿勢が、この良い特徴を反映して滑らかに変化することを目的としている。
 実施例5では、フレーム単位での最適化後は最適化前より大幅に小さい値に収束しており、ブロック単位での最適化よって良い初期値が与えられたことによって、各フレームの点群が疎であっても最適化が正しく進んだことを示された。最終的なカメラ位置姿勢(図30(a))を見ると、カメラ位置姿勢(図23(a))が急激に変化することなく、床の形状も平面になったことが分かった(図30(c))。またColmap[3]による同一シーンの復元形状をGround Truthとした時のRMSEも最適化によって小さくなった(表1)。
Figure JPOXMLDOC01-appb-T000018
[実施例6:水中環境での自己校正の評価2]
 次に、実施例2と同様の実験を水中で行い、実施例5と同様の方法で最適化を行った。水中ではテクスチャが揺らぐためColmapが正しく動作せず、Ground truth得られないため、水底の平面性などを目視で評価した。実施例5と同様の方法で最適化することにより底面形状が平面に近づいており(図31)、メッシュを利用した最適化手法の有効性が確認できた。
 以上の各実施例より、本発明の画像生成処理装置は、極端な条件下での撮影および3次元形状復元に適していることがわかった。また、本発明の画像生成処理装置は、光切断法のための自己校正技術を用いる。光切断法はカメラを取り付けた数台の平面交差レーザだけを必要とするので、既存の3次元センサと比較してサイズとエネルギー消費に大きな利点がある。そのため、この点でも本発明の画像生成処理装置は、極端な条件下での撮影および3次元形状復元に適している。
 平面交差レーザを検出するための従来の方法はユークリッドアップグレードを達成するために既知の幾何学的制約を必要とするため、実際のシステムを高精度で構築することは困難であった。本発明の画像生成処理装置によれば、Visual SLAMの結果を用いて、平面パラメータ推定用に特別に設計されたバンドル調整により、このような制限を効率的に解決した。Visual SLAMの各3次元点の精度は必ずしも高くないが、4自由度の解の不確定性のみを解くことで効率的に解決できる。これは現実的に産業上の利用可能性を考慮した際に大きな利点となる。
 また、実施例5や6に示したとおり、3次元形状復元における最適化手法の有効性が確認された。具体的には、メッシュを利用した平均形状を仮の目標形状とし、複数フレームの点群を統合したブロック単位で最適化を行う手法の有効性が確認された。
1     画像生成処理装置
100   撮影手段
101   カメラ
102   平面交差レーザ発信部
103   固定部
111   平面交差レーザ
121   ハウジング
131   記録部
141   移動部

Claims (19)

  1.  入力された動画像から3次元形状を復元する画像生成処理装置であって、
     前記動画像は、対象領域を特定期間に撮影する1台のカメラ、前記対象領域中の物質に平面交差レーザを投影する複数台の平面交差レーザ発信部、およびこれらを一体化して移動可能となるように固定する固定部とを含む撮影手段により撮影された連続するフレームの群であり、
     前記動画像の各フレームにおいて検出されたレーザ線の交点どうしの接続関係、および連続する前記フレームにおいて検出されたレーザ線の交点の追跡結果から、交点集合を得る交点集合生成部と、
     前記交点集合の各交点が前記平面交差レーザの形成する2つのレーザ平面上に乗っていることから複数の拘束式を連鎖的に得て、前記拘束式群を連立させて連立方程式を生成する連立方程式生成部と、
     前記連立方程式を解くことで前記レーザ平面の3次元座標を射影空間で復元する、平面の3次元位置推定部と、
     前記推定されたレーザ平面の3次元座標と、前記動画像の各フレームにおいて検出された前記レーザ線を用いて、光切断法により前記レーザ線の反射位置の3次元座標を射影空間で復元する3次元復元部と、
     を含む画像生成処理装置。
  2.  前記交点集合生成部が、交点集合グラフを作成する、請求項1に記載の画像生成処理装置。
  3.  前記平面交差レーザ同士の相対的な3次元位置のうち既知のものと、前記射影空間で推定された前記レーザ平面の3次元座標を入力とし、前記レーザ平面の3次元座標および前記レーザ線の反射位置の3次元座標をユークリッド座標にアップグレードする第1の計算部を含む、請求項1に記載の画像生成処理装置。
  4.  前記動画像の連続するフレームの群を入力として、自己校正手法によるユークリッド3次元復元を行う3次元点計算部と、
     前記動画像の各フレームにおいて、前記3次元点計算部により得られた3次元点のうち、前記レーザ線上に存在するものを対応点として検出する対応点検出部を備え、
     検出した前記対応点を用いて、前記レーザ平面の3次元座標および前記レーザ線の反射位置の3次元座標をユークリッド座標にアップグレードする第2の計算部と、
     を含む、請求項1に記載の画像生成処理装置。
  5.  前記3次元点計算部が、Visual SLAM(Simultaneous Localization and Mapping)またはSfM(Structure from Motion)により任意の特徴点を検出してユークリッド座標系のカメラ位置姿勢および3次元復元結果を得るSLAM解析部を含み、
     前記レーザ線の反射位置の3次元座標の復元結果、および、前記カメラ位置姿勢を用いて前記3次元復元結果を統合して3次元形状を復元する統合部を備え、
     前記Visual SLAMまたは前記SfMにより得られた3次元復元結果を用いて、前記レーザ平面の前記自己校正手法を実現する、請求項4に記載の画像生成処理装置。
  6.  前記レーザ線の交点の追跡結果より、同じ交点が画像上で通る直線を、交点ごとに計算してエピポーラ線を得る、エピポーラ線計算部と、
     前記エピポーラ線上で、前記動画像内の任意のフレームにおける対応点を探索する、エピポーラ拘束に基づく対応点探索部と、
     前記Visual SLAMまたは前記SfMによる3次元点計算部により得られた3次元点のうち、前記探索した対応点に接続されるレーザ線上に存在するものを対応点として検出する対応点検出部を備え、
     前記検出した対応点を用いて、前記レーザ平面の3次元座標およびレーザ線の反射位置の3次元座標をユークリッド座標にアップグレードする第3の計算部と、
     を含む、請求項4に記載の画像生成処理装置。
  7.  前記レーザ線の交点の追跡結果より、同じ交点が画像上で通る直線を、各交点ごとに計算する、エピポーラ線計算部と、
     前記エピポーラ線上で、前記動画像内の任意のフレームにおける対応点を探索する、エピポーラ拘束に基づく対応点探索部と、
     前記探索した対応点を用いて、前記レーザ平面の3次元座標を射影空間で復元する、平面の3次元位置推定部と、
     を含む、請求項1に記載の画像生成処理装置。
  8.  入力された動画像から3次元形状を復元する画像生成処理装置であって、
     前記動画像は、対象領域を特定期間に撮影する1台のカメラ、前記対象領域中の物質に平面交差レーザを投影する複数台の平面交差レーザ発信部、およびこれらを一体化して移動可能となるように固定する固定部とを含む撮影手段により撮影された連続するフレームの群であり、
     任意の方法で推定された前記平面交差レーザの形成するレーザ平面の3次元座標と、前記動画像の各フレームにおいて検出された前記レーザ線を用いて、光切断法により前記レーザ線の反射位置の3次元座標を射影空間で復元する3次元復元部と、
     Visual SLAMまたはSfMにより任意の特徴点を検出してユークリッド座標系のカメラ位置姿勢および3次元復元結果を得るSLAM解析部と、
     前記レーザ線の反射位置の3次元座標の復元結果、および、前記カメラ位置姿勢を用いて前記3次元復元結果を統合して3次元形状を復元する統合部と、
     を備える、画像生成処理装置。
  9.  畳み込みニューラルネットワーク(CNN)の学習済みモデルを用いて、連続する前記フレームにおける推定レーザ線の位置を計算するレーザ線推定部を備える、請求項1に記載の画像生成処理装置。
  10.  前記推定レーザ線の位置からモルフォロジー変換でマスクを作成するマスク作成部を備え、
     前記動画像の各フレームにおいて前記マスクの位置の輝度を無視してVisual SLAMまたはSfMを適用して3次元点を得る、請求項9に記載の画像生成処理装置。
  11.  前記フレームの群において、フレームnで復元された3次元座標と、フレームkで復元された3次元座標が、前記対象領域内の同じ位置である場合、2つの3次元座標間のずれを最小化するように、前記レーザ平面の3次元座標を再推定する第4の計算部を含む、請求項1に記載の画像生成処理装置。
  12.  前記動画像を、連続するm個ずつのフレームのブロックに分割するステップと、前記3次元復元部で復元された3次元座標を前記ブロックごとに統合し第2の3次元座標とするステップと、を含み、
     2つの第2の3次元座標が、前記対象領域内の同じ位置である場合、2つの3次元座標間のずれを最小化するように、前記レーザ平面の3次元座標を再推定する第5の計算部を含む、請求項1に記載の画像生成処理装置。
  13.  請求項1~12のいずれか一項に記載の画像生成処理装置と、
     対象領域を特定期間に撮影する1台のカメラ、前記対象領域中の物質に平面交差レーザを投影する複数台の平面交差レーザ発信部、およびこれらを一体化して移動可能となるように固定する固定部とを含む撮影手段を備える、3次元形状の復元システム。
  14.  前記カメラおよび前記平面交差レーザ発信部がハウジングの内部に備えられ、
     前記対象領域が水中である、請求項13に記載の3次元形状の復元システム。
  15.  前記撮影手段がさらに記録部および移動部を備え、
     前記撮影手段が移動しながら前記対象領域の動画像を撮影して、前記記録部に記録する、請求項13に記載の3次元形状の復元システム。
  16.  入力された動画像から3次元形状を復元する画像生成処理方法であって、
     前記動画像は、対象領域を特定期間に撮影する1台のカメラ、前記対象領域中の物質に平面交差レーザを投影する複数台の平面交差レーザ発信部、およびこれらを一体化して移動可能となるように固定する固定部とを含む撮影手段により撮影された連続するフレームの群であり、
     前記動画像の各フレームにおいて検出されたレーザ線の交点どうしの接続関係、および連続する前記フレームにおいて検出されたレーザ線の交点の追跡結果から、交点集合を得る交点集合生成工程と、
     前記交点集合の各交点が前記平面交差レーザの形成する2つのレーザ平面上に乗っていることから複数の拘束式を連鎖的に得て、前記拘束式群を連立させて連立方程式を生成する連立方程式生成工程と、
     前記連立方程式を解くことで前記レーザ平面の3次元座標を射影空間で復元する、平面の3次元位置推定工程と、
     前記推定されたレーザ平面の3次元座標と、前記動画像の各フレームにおいて検出された前記レーザ線を用いて、光切断法により前記レーザ線の反射位置の3次元座標を射影空間で復元する3次元復元工程と、
     を含む画像生成処理方法。
  17.  Visual SLAMまたはSfMにより任意の特徴点を検出してユークリッド座標系のカメラ位置姿勢および3次元復元結果を得るSLAM解析工程と、
     前記レーザ線の反射位置の3次元座標の復元結果、および、前記カメラ位置姿勢を用いて前記3次元復元結果を統合して3次元形状を復元する統合工程と、
     を備える、請求項16に記載の画像生成処理方法。
  18.  入力された動画像から3次元形状を復元する画像生成処理方法であって、
     前記動画像は、対象領域を特定期間に撮影する1台のカメラ、前記対象領域中の物質に平面交差レーザを投影する複数台の平面交差レーザ発信部、およびこれらを一体化して移動可能となるように固定する固定部とを含む撮影手段により撮影された連続するフレームの群であり、
     任意の方法で推定された前記平面交差レーザの形成するレーザ平面の3次元座標と、前記動画像の各フレームにおいて検出された前記レーザ線を用いて、光切断法により前記レーザ線の反射位置の3次元座標を射影空間で復元する3次元復元部と、
     Visual SLAMにより任意の特徴点を検出してユークリッド座標系のカメラ位置姿勢および3次元復元結果を得るSLAM解析工程と、
     前記レーザ線の反射位置の3次元座標の元復元結果、および、前記カメラ位置姿勢を用いて前記3次元復元結果とを統合して3次元形状を復元する統合工程と、
     を備える、画像生成処理方法。
  19.  入力された動画像から3次元形状を復元する画像生成処理装置に実行させるプログラムであって、
     前記動画像は、対象領域を特定期間に撮影する1台のカメラ、前記対象領域中の物質に平面交差レーザを投影する複数台の平面交差レーザ発信部、およびこれらを一体化して移動可能となるように固定する固定部とを含む撮影手段により撮影された連続するフレームの群であり、
     前記動画像の各フレームにおいて検出されたレーザ線の交点どうしの接続関係、および連続する前記フレームにおいて検出されたレーザ線の交点の追跡結果から、交点集合を得る交点集合生成機能と、
     前記交点集合の各交点が前記平面交差レーザの形成する2つの平面上に乗っていることから複数の拘束式を連鎖的に得て、前記拘束式群を連立させて連立方程式を生成する連立方程式生成機能と、
     前記連立方程式を解くことで前記レーザ平面の3次元座標を射影空間で復元する、平面の3次元位置推定機能と、
     前記推定されたレーザ平面の3次元座標と、前記動画像の各フレームにおいて検出された前記レーザ線を用いて、光切断法により前記レーザ線の反射位置の3次元座標を射影空間で復元する3次元復元機能と、
     を実行させる、プログラム。
PCT/JP2022/028044 2021-07-20 2022-07-19 画像生成処理装置、3次元形状の復元システム、画像生成処理方法およびプログラム WO2023002978A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023536755A JPWO2023002978A1 (ja) 2021-07-20 2022-07-19

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-119944 2021-07-20
JP2021119944 2021-07-20

Publications (1)

Publication Number Publication Date
WO2023002978A1 true WO2023002978A1 (ja) 2023-01-26

Family

ID=84980022

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/028044 WO2023002978A1 (ja) 2021-07-20 2022-07-19 画像生成処理装置、3次元形状の復元システム、画像生成処理方法およびプログラム

Country Status (2)

Country Link
JP (1) JPWO2023002978A1 (ja)
WO (1) WO2023002978A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021093085A (ja) * 2019-12-12 2021-06-17 本田技研工業株式会社 三次元構造復元装置、三次元構造復元方法、およびプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021093085A (ja) * 2019-12-12 2021-06-17 本田技研工業株式会社 三次元構造復元装置、三次元構造復元方法、およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FURUKAWA, R. ; KAWASAKI, H.: "Laser range scanner based on self-calibration techniques using coplanarities and metric constraints", COMPUTER VISION AND IMAGE UNDERSTANDING, ACADEMIC PRESS., US, vol. 113, no. 11, 1 November 2009 (2009-11-01), US , pages 1118 - 1129, XP026653016, ISSN: 1077-3142, DOI: 10.1016/j.cviu.2009.05.006 *

Also Published As

Publication number Publication date
JPWO2023002978A1 (ja) 2023-01-26

Similar Documents

Publication Publication Date Title
EP3504682B1 (en) Simultaneous localization and mapping with an event camera
RU2713611C2 (ru) Способ моделирования трехмерного пространства
JP6426968B2 (ja) 情報処理装置およびその方法
US20010016063A1 (en) Apparatus and method for 3-dimensional surface geometry reconstruction
WO2013090864A1 (en) Learning image processing tasks from scene reconstructions
Hong et al. Three-dimensional visual mapping of underwater ship hull surface using piecewise-planar slam
Leizea et al. Real-time deformation, registration and tracking of solids based on physical simulation
Hosseininaveh et al. Towards fully automatic reliable 3D acquisition: From designing imaging network to a complete and accurate point cloud
Schneider et al. Incremental real-time bundle adjustment for multi-camera systems with points at infinity
JP4761670B2 (ja) 動立体モデル生成装置及び方法
Wang et al. Acoustic camera-based pose graph slam for dense 3-d mapping in underwater environments
Al-Temeemy et al. Laser-based structured light technique for 3D reconstruction using extreme laser stripes extraction method with global information extraction
Westman et al. A theory of fermat paths for 3d imaging sonar reconstruction
Fan et al. Large-scale dense mapping system based on visual-inertial odometry and densely connected U-Net
Grudziński et al. Stereovision tracking system for monitoring loader crane tip position
JP6806160B2 (ja) 3次元運動評価装置、3次元運動評価方法、及びプログラム
WO2023002978A1 (ja) 画像生成処理装置、3次元形状の復元システム、画像生成処理方法およびプログラム
Furukawa et al. Dense 3D reconstruction with an uncalibrated stereo system using coded structured light
Nagamatsu et al. Self-calibrated dense 3D sensor using multiple cross line-lasers based on light sectioning method and visual odometry
Ramírez-Hernández et al. Stereoscopic vision systems in machine vision, models, and applications
de Boer et al. Choosing between optical flow algorithms for UAV position change measurement
Zetu et al. Data input model for virtual reality-aided facility layout
Nagamatsu et al. Self-calibration of multiple-line-lasers based on coplanarity and Epipolar constraints for wide area shape scan using moving camera
Kagami et al. Online dense local 3D world reconstruction from stereo image sequences
Guarnieri et al. 3D Modeling of Real Artistic Objects with Limited Computers Resources

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22845911

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023536755

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE