WO2015154601A1 - 一种基于无特征提取的紧致sfm三维重建方法 - Google Patents

一种基于无特征提取的紧致sfm三维重建方法 Download PDF

Info

Publication number
WO2015154601A1
WO2015154601A1 PCT/CN2015/073999 CN2015073999W WO2015154601A1 WO 2015154601 A1 WO2015154601 A1 WO 2015154601A1 CN 2015073999 W CN2015073999 W CN 2015073999W WO 2015154601 A1 WO2015154601 A1 WO 2015154601A1
Authority
WO
WIPO (PCT)
Prior art keywords
dimensional
depth
camera
scene
projection matrix
Prior art date
Application number
PCT/CN2015/073999
Other languages
English (en)
French (fr)
Inventor
陈佩
Original Assignee
中山大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中山大学 filed Critical 中山大学
Priority to JP2016557182A priority Critical patent/JP6216468B2/ja
Priority to US15/038,325 priority patent/US9686527B2/en
Publication of WO2015154601A1 publication Critical patent/WO2015154601A1/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis

Definitions

  • the present invention relates to the field of image three-dimensional reconstruction, and more particularly to a compact SFM three-dimensional reconstruction method without feature extraction.
  • 3D reconstruction based on computer vision refers to the use of digital cameras or cameras to acquire images, construct algorithms to estimate the three-dimensional information of the captured scene or target, and achieve the purpose of expressing three-dimensional objective world, including robot navigation, auto or assisted driving, Virtual reality, digital media creation, computer animation, image-based rendering, and preservation of cultural heritage.
  • Motion from Motion is a commonly used three-dimensional reconstruction method that estimates three-dimensional information of a scene or a target from two or more images or videos.
  • the technical means for realizing SFM three-dimensional reconstruction has the following characteristics: feature point-based, sparse and two-step completion.
  • the existing SFM 3D reconstruction is completed in two steps: firstly, the feature points with scale or affine invariance are detected and matched from the image, including Harris feature points, Kanade-Lukas-Tomasi (KLT) features and Lowe scales.
  • KLT Kanade-Lukas-Tomasi
  • a scale invariant feature transform SIFT is then used to estimate the three-dimensional information of the detected feature quantity and the pose of the camera (including position and angle).
  • the existing SFM 3D reconstruction algorithm is completed in two steps, and can not really achieve the optimization effect. Since the two-dimensional coordinates of the feature points are detected from the image, there is no optimization result in the global sense even if the three-dimensional information is reconstructed by the optimization algorithm. Since the matching accuracy of feature points is usually low, it is inevitable to cause low-precision three-dimensional reconstruction.
  • the three-dimensional reconstruction effect is sparse; since only the three-dimensional information of the extracted feature points is estimated, the dense three-dimensional reconstruction cannot be realized, that is, the three-dimensional information of all the pixel points cannot be estimated.
  • the dense three-dimensional reconstruction cannot be realized, that is, the three-dimensional information of all the pixel points cannot be estimated.
  • For a 300,000-pixel 480*640 image only 200 to 300 or less feature points can be detected under the premise of ensuring a correct matching rate.
  • the feature point is very Sparse, most pixels do not directly estimate their three-dimensional information.
  • the present invention proposes a compact SFM three-dimensional reconstruction method without feature extraction.
  • the SFM three-dimensional reconstruction method does not require feature point detection and matching, and one-step optimization can achieve compact three-dimensional reconstruction.
  • a compact SFM three-dimensional reconstruction method without feature extraction comprising the following steps:
  • the depth of the three-dimensional scene refers to the depth q of the three-dimensional space point corresponding to the pixel point of the first image
  • the camera projection matrix refers to other (n-1) a 3 ⁇ 4 matrix P i of the image, 2 ⁇ i ⁇ n;
  • an iterative algorithm is designed to optimize the objective function in a continuous domain or a discrete domain, and output a depth representing the three-dimensional information of the scene and a camera projection matrix representing the relative pose information of the camera;
  • a compact projective, similar or Euclidean reconstruction is achieved based on the depth of the three-dimensional information representing the scene.
  • the method can complete the SFM three-dimensional reconstruction in one step. Because the three-dimensional information is estimated by one-step optimization, and the objective function value is used as an index, the optimal solution can be obtained, at least the local optimal solution, which is greatly improved than the existing method. Initially obtained experimental verification.
  • the above camera refers to a camera corresponding to a certain image.
  • the camera corresponding to the first image of the scene is the first camera, and the coordinate system of the first camera is consistent with the world coordinate system; each image corresponds to A 3 x 4 camera projection matrix.
  • the world coordinate system is established by using this type of method for the convenience of calculation.
  • the world coordinate system can be arbitrarily established.
  • the parameters to be estimated include n camera projection matrices, and each three-dimensional image is depicted. The point requires three coordinate parameters.
  • the scheme for arbitrarily establishing a world coordinate system is the same as the above-described scheme for establishing a world coordinate system.
  • the parameterization is firstly set.
  • the parameterization is specifically as follows: while establishing the world coordinate system, the camera projection matrix of the first camera is [I 3 0] ⁇ R 3,4 , where I 3 is a 3 ⁇ 3 unit matrix, 0 is a 3 ⁇ 1 zero vector; other camera projection matrices P i ⁇ R 3,4 , 2 ⁇ i ⁇ n, as to be estimated Unknown parameter; the three-dimensional structure of the scene is determined by the depth of the three-dimensional scene defined on the first sub-image: the depth of the three-dimensional scene of the three-dimensional space point corresponding to the first image pixel (x, y) is q x, y , the three-dimensional coordinates of the three-dimensional point are
  • the camera projection matrix P i and the depth q x, y of the three-dimensional scene are taken as undetermined parameters to be estimated.
  • the subscript x, y is omitted without causing misunderstanding.
  • the objective function on the constructed continuous domain is specifically:
  • the description of the above objective function is as follows: (a) For the gradient operator, a Laplacian; (b) the objective function is divided into three parts, a data item f data , an offset smoothing term f smooth_uv and a depth smoothing term f smooth_depth , wherein ⁇ , ⁇ , ⁇ 1 and ⁇ 2 are non-negative weights; (c) The image has k color components a color I component value representing the position (x, y) of the first image, correspondingly, The value of the color I component at the position (u i , v i ) of the i-th image; (d) the introduction of the robust function ⁇ is to overcome the influence of the drastic change of the depth, and the robust function ⁇ is the Charbonnier function.
  • P i,j is the jth row vector of the i-th camera projection matrix P i ; for the sake of concise expression, without causing misunderstanding, with The subscript x, y is omitted in the middle;
  • the iterative optimization algorithm designed on the continuous domain is specifically: because the depth of the three-dimensional scene is a continuous function defined on the first image domain, the Euler-Lagrange equation must be satisfied at the extreme point; meanwhile, at the extreme value
  • the partial derivative of the point-to-camera projection matrix parameter is 0; on the discrete grid points of the image, the Euler-Lagrangian equation and the two types of equations with partial derivatives of the camera projection matrix are 0, and are expressed in increments.
  • the vector ⁇ is constructed in order from the camera projection matrix P i 2 ⁇ i ⁇ n and the depth q of the three-dimensional scene; thus, each iteration is reduced to solving
  • n images initialize the depth q of the 3D scene and the camera projection matrix P i , 2 ⁇ i ⁇ n;
  • the above color image can be represented by common RGB or HSV. Taking the RGB format as an example, the image has three components, namely red (R), green (G) and blue (B) components; the color components can be in different formats. Combination, such as Four components of R, G, B, and H are used. There are many options for the above robust functions and are not limited to the functions listed above.
  • the basis of the objective function f(P, q) constructed in the above formula (1) is similar to the optical flow calculation to some extent, that is, the gradation invariant assumption and the smoothing of the pixel offsets u i -x and v i -y Assume that each corresponds to the first part of the objective function And the second part That is, data items and smoothing items.
  • the third part of the formula (1) A smoothing assumption for the depth.
  • the discrete objective function (11) and its variant iterative optimization algorithm are as follows:
  • the discrete form of the objective function (11) is essentially a nonlinear least squares problem, which can adopt the conventional Levenberg-Marquardt algorithm or Gauss-Newton algorithm. Each iteration process comes down to solving a linear system of equations (15):
  • H is the Hessian matrix or Gauss-Newton Hessian matrix
  • b is the gradient vector
  • u is a non-negative number, depending on the Levenberg-Marquardt algorithm or the Gauss-Newton algorithm, to determine the corresponding increments ⁇ P i and ⁇ q; Updating the parameters P i and q, P i ⁇ P i +P i , q ⁇ q+q until convergence;
  • Input multiple images, and initialization of the camera projection matrix P i and the depth q of the three-dimensional scene, 2 ⁇ i ⁇ n;
  • Interpolation of depths of three-dimensional scenes between different precision layers is implemented by bilinear interpolation, bicubic interpolation or other similar interpolation methods;
  • the pixel ratio of the adjacent two-level precision in the x and y directions is s 1 and s 2 , s 1 , s 2 ⁇ 1, and the image is estimated in the lower precision image.
  • the camera projection matrix of a camera is P (k+1) , where the superscript (k+1) represents the k+1th layer of the image pyramid structure, then the camera projection matrix corresponding to the k-th layer image is
  • the depth q (k+1) of the estimated three-dimensional scene of the above layer is used as a reference, and the interpolation method is used to calculate the depth q (k) of the three-dimensional scene of the layer as the initialization of the depth of the three-dimensional scene;
  • Camera projection matrix estimated using the previous image Calculate the camera projection matrix of this layer according to equation (16) Using it as the initialization of the camera projection matrix;
  • the parameterization is specifically as follows:
  • the camera projection matrix is described by the camera internal parameters and camera external parameters:
  • the external parameters of the camera are determined by a 3 ⁇ 3 rotation matrix R and a 3 ⁇ 1 translation vector t, which is determined by three angle parameters, namely rotation angles ⁇ x , ⁇ y and respectively around the x-axis, the y-axis and the z-axis.
  • ⁇ z :
  • the internal parameters ⁇ x , ⁇ y , s, p x , p y , translation vector t, rotation angles ⁇ x , ⁇ y and ⁇ z and the depth q of the three-dimensional scene are Estimated undetermined parameters to achieve similar three-dimensional reconstruction;
  • the translation vector t, the rotation angles ⁇ x , ⁇ y and ⁇ z and the depth q of the three-dimensional scene are undetermined parameters to be estimated, achieving similar three-dimensional reconstruction;
  • the depth q of the three-dimensional scene is an undetermined parameter to be estimated.
  • the large baseline situation means that the relative motion between the cameras is relatively large, resulting in significant differences between the images.
  • SFM 3D reconstruction is divided into three steps:
  • features are extracted from the image and matched, and the extracted features are: Harris feature, SIFT feature or KLT feature;
  • the second step based on the extracted features, estimating the three-dimensional information of the feature points and the camera projection matrix of the camera;
  • algorithm 3 is used to implement compact SFM three-dimensional reconstruction
  • the camera projection matrix estimated in the second step is used as the initial value of the camera projection matrix of the third step, and the depth of the three-dimensional scene estimated in the second step is interpolated as the depth initial value of the third-dimensional scene of the third step.
  • the invention has the beneficial effects that the present invention proposes a compact SFM three-dimensional reconstruction scheme without feature extraction, which can complete the compact SFM three-dimensional reconstruction in one step compared with the existing SFM three-dimensional reconstruction method. Since the estimation of three-dimensional information is realized by one-step optimization, and the objective function value is used as an index, the optimal solution, at least the local optimal solution, can be obtained, which is much improved compared with the existing methods, and has been experimentally verified.
  • FIG. 1 is a flow chart of implementing a three-dimensional reconstruction of the present invention.
  • the depth of the three-dimensional scene refers to the depth q of the three-dimensional space point corresponding to the pixel point of the first image
  • the camera projection matrix refers to other (n-1) a 3 ⁇ 4 matrix P i of the image, 2 ⁇ i ⁇ n;
  • an iterative algorithm is designed to optimize the objective function in a continuous domain or a discrete domain, and output a depth representing the three-dimensional information of the scene and a camera projection matrix representing the relative pose information of the camera;
  • a compact projective, similar or Euclidean reconstruction is achieved based on the depth of the three-dimensional information representing the scene.
  • the core model of the present invention is described in detail: projective three-dimensional reconstruction from two grayscale images on a continuous domain.
  • the first and second images are I 1 and I 2 respectively (the superscript indicates the image number), and the gray value of the first image at the position (x, y) is Correspondingly, the gray value of the second image at position (u, v)
  • the images obtained at present are mostly digital images, that is, the images are defined on discrete lattices
  • a numerical optimization algorithm is used to implement three-dimensional reconstruction.
  • the world coordinate system is established as follows: its origin, x-axis, and y-axis coincide with the camera center of the first camera, the x-axis and the y-axis of the first camera imaging plane, and the z-axis An imaging plane that points vertically to the first camera.
  • the camera projection matrix of the first camera is [I 3 0] ⁇ R 3,4 , where I 3 is a 3 ⁇ 3 unit matrix, and 0 is a 3 ⁇ 1 zero vector;
  • the camera projection matrix of the two cameras is a 3 x 4 matrix P ⁇ R 3,4 .
  • the three-dimensional point corresponding to the first image pixel (x, y) has a depth q x, y , ie its z coordinate is q x, y ; accordingly, the three-dimensional coordinates of the point are
  • the three-dimensional structure of the captured scene or object is described by the depth q x, y defined on the first image; at the same time, the camera projection matrix P of the second camera describes the relative motion information between the two cameras.
  • the purpose of the projective three-dimensional reconstruction is to estimate the depth information q x,y of the scene (under the condition that the depth information q x,y can be calculated, the corresponding three-dimensional coordinates can be calculated by the equation (1)) and the camera projection matrix P.
  • the imaging position (u x, y , v x, y ) of the three-dimensional point corresponding to the first image pixel (x, y) in the second image is as follows:
  • u and v are functions defined on the image domain with the camera projection matrix P and depth q as parameters: u(P, q) and v(P, q).
  • the first part of the objective function (3) is based on the gray value constancy assumption in the optical flow calculation, that is, the same three-dimensional space point has the same gray value in different images. If there is only a gray-scale invariant assumption, the optimization problem is a morbid problem. To this end, a second part is introduced in the objective function (3), assuming that the imaging in the two images has smooth offsets ux and vy, which are assumed by the second part of the objective function (3).
  • the two parts of the objective function (3) are called data items and smoothing items, respectively, corresponding to the data items and smoothing items in the optical flow calculation.
  • the invention adopts an iterative algorithm to realize the optimization of the objective function (3), and the core idea is the Euler-Lagrange equation in the variational method.
  • the integral quantity L in the optimization objective function (3) is defined as follows (temporarily ignore the camera projection matrix parameter P, only the depth parameter q is considered):
  • the objective function (3) must satisfy the extreme value:
  • each iterative process is to solve the increments ⁇ P and ⁇ q of P and q, and update the parameters as follows.
  • the 12 variables of the camera projection matrix P and the n variables of the depth q form a vector ⁇ having a dimension n+12.
  • the incremental forms of (6) and (7) can be expressed as the following linear equations.
  • the following algorithm can be used to implement SFM projective three-dimensional reconstruction.
  • a pyramid method from coarse to fine is used. That is, the 3D reconstruction is first implemented in the lower resolution image; then the estimated depth is interpolated and the camera projection matrix is corrected as the initial solution for the next layer of higher resolution 3D reconstruction; up to the highest resolution.
  • the depth interpolation can be implemented by bilinear interpolation, bicubic interpolation or other similar interpolation methods.
  • the second camera projection matrix estimated in the lower precision layer is P (i+1). ) (where i + 1-i + 1 layer superscript representative image pyramid structure), the corresponding i-th layer image, the second camera projection matrix
  • the estimated depth q (i+1) of the above layer is used as a reference, and the interpolation depth is used to calculate the depth q (i) at the current layer as the initialization of the depth;
  • the objective function (12) is essentially a nonlinear least squares problem, which can be iteratively optimized using the Gauss-Newton algorithm (or other similar algorithms such as Levenberg Marquardt, LM algorithm).
  • Gauss-Newton algorithm or other similar algorithms such as Levenberg Marquardt, LM algorithm.
  • u and v are variables.
  • the Gauss-Newton approximation method can be used to obtain the relevant Gauss-Newton Hessian matrix H data and gradient vector b data :
  • the first derivative is used instead of the partial derivative.
  • the partial derivative is used instead of the partial derivative.
  • the smoothing term in the objective function (12) can be expressed as:
  • ⁇ x, y [ ⁇ u x-1, y ⁇ u x, y ⁇ u x, y-1 ⁇ v x-1, y ⁇ v x, y ⁇ v x, y-1 ] T ,
  • the final parameters are the camera projection matrix P and the depth q.
  • a parameter vector ⁇ including the camera projection matrix P and the depth q is established for the concise expression.
  • the increment ⁇ is:
  • a discrete form of 3D reconstruction can be implemented using a coarse to fine pyramid method, the basic framework of which is the same as Algorithm 2 .
  • algorithm 2 is used to realize the three-dimensional reconstruction of each layer.
  • the three-dimensional reconstruction discrete algorithm from coarse to fine pyramid is omitted here.
  • RGB Red Green Blue
  • HSV Human Saturation Value
  • HSL Human Saturation Lightness
  • HSI Human Saturation Intensity
  • the optimization algorithm of the objective function (19) is identical to the objective function (12) and is omitted here.
  • the three-dimensional reconstruction of the color image on the continuous domain can also be realized, and the implementation algorithm is similar to the three-dimensional reconstruction of the continuous domain grayscale image.
  • the basic algorithm is the same as the three-dimensional reconstruction based on two images, constructing an objective function like (3) or (12), including data items and smoothing items.
  • the world coordinate system can be set to the coordinate system of the first camera, so that the projection matrix of the first camera is [I 3 0] ⁇ R 3,4 , other n-1 cameras
  • the projection matrix and depth q are the parameters to be estimated.
  • the first construction of the data item is as follows
  • the gray-scale invariant assumption in equation (20), it is very similar to the data items of the two images (12), that is, the gray-scale invariant assumption, assuming that the same point has the same gray value in all images.
  • the gray-scale invariant assumption is slightly changed, and only the gray-scale invariant assumption between adjacent images is considered.
  • the second scheme is more suitable for 3D reconstruction based on video sequences.
  • the offset is based on the first image, and the offset between adjacent images is considered in (23).
  • the three-dimensional reconstruction algorithm based on multiple images is similar to the three-dimensional reconstruction of two images, and the specific algorithm is omitted.
  • the result of the reconstruction is a projective three-dimensional structure, which is not a common Euclidean three-dimensional structure.
  • This section proposes a similarity three-dimensional reconstruction and a Euclidean three-dimensional reconstruction scheme.
  • the camera's projection matrix can be described by camera internal parameters and camera external parameters:
  • the camera external parameters are determined by the rotation matrix R and the translation vector t, where R depicts the rotational transformation of the world coordinate system to the camera coordinate system.
  • the world coordinate system is the same as the coordinate system of the first camera, so that the motion information between the cameras is completely described by the external parameters of the second camera.
  • both cameras have the same internal parameters.
  • the second camera format is accordingly set to
  • the depth parameter q describing the scene or target is the same as the projective three-dimensional reconstruction.
  • the scheme for achieving similar three-dimensional reconstruction is similar to projective reconstruction, ie optimizing the objective function (3) or (12), with the difference that the second camera projects the form of the matrix P (27).
  • the second camera projects the form of the matrix P (27).
  • only discrete implementations of similar three-dimensional reconstructions are given.
  • the rotation matrix R is determined by three angular parameters, namely the rotation angles ⁇ x , ⁇ y and ⁇ z around the x-axis, the y-axis and the z-axis, respectively:
  • the first 12 quantities of the n+12-dimensional parameter vector ⁇ in the projective three-dimensional reconstruction are camera projection matrix parameters, and the rest are n depth parameters.
  • ⁇ x , ⁇ y, s, p x and p y form an 11-dimensional vector ⁇ ′′ followed by n depth parameters.
  • H, J and b are H, J and b of the formula (18).
  • the similar three-dimensional reconstruction described above can also be achieved when the partial parameters of the camera are known, such as when the camera is calibrated, ie the camera internal parameters are known.
  • Euclidean 3D reconstruction can be achieved when both the camera's internal and external parameters are known.
  • large baseline means that the relative motion between the cameras is relatively large, causing significant differences between the images. The reason may be that the angle of rotation or the translation between the cameras is too large. Probably because the focal length between the cameras is too different.
  • SFM 3D reconstruction is divided into three steps. The first step is to extract features from the image and match them, such as Harris features, SIFT features or KLT features. In the second step, based on the extracted features, estimate the three-dimensional information of the feature points.
  • the camera projection matrix of the camera; the third step based on the previous two steps, using the method proposed above to achieve compact SFM three-dimensional reconstruction.
  • the camera projection matrix estimated in the second step is used as the initial value of the camera projection matrix of the third step, and the depth of the three-dimensional scene estimated in the second step is interpolated as the depth initial value of the third-dimensional scene of the third step.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Image Generation (AREA)

Abstract

公开了一种无特征提取的紧致SFM三维重建方法,包括:输入关于某场景的n幅图像,n≥2;建立与某个相机坐标系相一致的世界坐标系;以三维场景的深度和相机投影矩阵作为变量,构造类似光流估计的目标函数,采用由粗到细的金字塔方法,设计迭代算法对目标函数进行优化,输出表示场景三维信息的深度和代表相机相对位姿信息的相机投影矩阵;根据表示场景三维信息的深度,实现紧致的射影、相似或者欧几里德重建。能够一步完成紧致SFM三维重建。由于通过一步优化实现紧致三维信息的估计,以目标函数值作为指标,能够得到最优解,至少是局部最优解,比现有方法有很大改进,已初步得到实验验证。

Description

一种基于无特征提取的紧致SFM三维重建方法 技术领域
本发明涉及图像三维重建领域,更具体地,涉及一种无特征提取的紧致SFM三维重建方法。
背景技术
基于计算机视觉的三维重建是指利用数码相机或者摄像机获取图像,构建算法以估计所拍摄场景或者目标的三维信息,实现表达三维客观世界的目的,其应用范围包括机器人导航、汽车自动或者辅助驾驶、虚拟现实、数字媒体创作、计算机动画、基于图像的绘制(image-based rendering)和文化遗产的保存等。
基于运动的建模(Structure from Motion,SFM)是目前常用的一种三维重建方法,即从两幅、多幅图像或者视频估计场景或者目标的三维信息。已有实现SFM三维重建的技术手段有以下特点:基于特征点的、稀疏的和分两步完成。已有SFM三维重建分两步完成:首先从图像检测并匹配具有尺度或者仿射等不变性(invariance)的特征点,包括Harris特征点、Kanade-Lukas-Tomasi(KLT)特征和Lowe尺度不变特征(scale invariant feature transform,SIFT),然后估计所检测特征量的三维信息和相机的姿态(包括位置和角度)。
已有的SFM三维重建算法分为两步完成,不能真正达到最优化效果。由于从图像中检测到特征点的二维坐标有误差,在其基础上即使采用优化算法重建其三维信息,也无法获得全局意义上的优化结果。由于特征点的匹配精度通常比较低,因此不可避免的造成低精度的三维重建。
三维重建效果是稀疏的(sparse);由于只对所提取特征点估计其三维信息,不能实现紧致的(dense)三维重建,即不能估计出所有像素点的三维信息。对于30万像素的480*640图像,在保证一定正确匹配率的前提下,通常只能检测到200~300个甚至更少的特征点,相对于30万像素的图像来说,特征点是非常稀疏的,绝大部分像素都没有直接估计其三维信息。虽然可以进一步在特征点基础上,利用估计出的极线约束(epipolar constraint)等技术手段进一步估计其它点的三维信息,实现紧致或者半紧致(quasi dense)重建,但是由于所估计的特征点的三维信息和相机姿态存在一定的误差,影响后续其它点的三维估计效果。
发明内容
为了克服现有技术的不足,本发明提出一种无特征提取的紧致SFM三维重建方法。采用该SFM三维重建方法,不需要特征点检测及匹配,采用一步优化即可实现紧致三维重建。
为了实现上述目的,本发明的技术方案为:
一种无特征提取的紧致SFM三维重建方法,包括以下步骤:
S1.输入关于某场景的n幅图像,n≥2;
S2.建立与某个相机坐标系相一致的世界坐标系,设世界坐标系与第一相机的坐标系相一致,即世界坐标系的原点、x轴和y轴与第一相机的相机中心、第一相机成像平面的x轴和y轴重合,其z轴垂直指向第一相机的成像平面;
S3.以三维场景的深度和相机投影矩阵作为变量,所述三维场景的深度是指第1幅图像像素点对应的三维空间点具有的深度q;所述相机投影矩阵是指其它(n-1)幅图像的3×4矩阵Pi,2≤i≤n;
S4.构造类似光流估计的目标函数,所述目标函数是连续域上的变分目标函数或其离散形式的目标函数;
S5.采用由粗到细的金字塔方法,在连续域或者离散域上设计迭代算法对目标函数进行优化,输出表示场景三维信息的深度和代表相机相对位姿信息的相机投影矩阵;
S6.根据表示场景三维信息的深度,实现紧致的射影、相似或者欧几里德重建。
该方法能够一步完成SFM三维重建,由于通过一步优化实现三维信息的估计,以目标函数值作为指标,能够得到最优解,至少是局部最优解,比已有方法有很大改进,且已初步得到实验验证。
上述的相机是指某幅图像对应的相机,在本发明中,关于场景的第一幅图像对应的相机是第一相机,第一相机的坐标系与世界坐标系相一致;各幅图像均对应一个3×4相机投影矩阵。
在本发明中采用该类方式建立世界坐标系是为了计算方便,在实际中,可以任意建立世界坐标系,如果任意建立坐标系,则待估计的参数包括n个相机投影矩阵,刻画每个三维点需要三个坐标参数。在本发明虽然没有给出这种方案的技术细节,但是任意建立世界坐标系的方案与上述建立世界坐标系的方案基本原理一样。
为了实现射影三维重建,则首先要进行参数化设定,即在实现射影三维重建中,参数化 具体为:在建立世界坐标系的同时,其第一相机的相机投影矩阵为[I3 0]∈R3,4,其中I3是一个3×3的单位阵,0是一个3×1的零向量;其它相机投影矩阵Pi∈R3,4,2≤i≤n,作为待估计的未知参数;场景的三维结构由定义在第一副图像上的三维场景的深度决定:假设与第一幅图像像素(x,y)相对应的三维空间点的三维场景的深度为qx,y,则该三维点的三维坐标为
(qx,y×x,qx,y×y,qx,y)  (1)
在射影三维重建中,相机投影矩阵Pi和三维场景的深度qx,y作为待估计的未定参数,为了表达式的简练,在不造成误解的情况下,省略下标x,y。
实现连续域上射影三维重建的具体实现过程为:
构造的连续域上的目标函数具体为:
f(P2,...,Pn,q)=fdata+fsmooth_uv+fsmooth_depth  (2)
其中
Figure PCTCN2015073999-appb-000001
Figure PCTCN2015073999-appb-000002
Figure PCTCN2015073999-appb-000003
对上述目标函数的说明如下:(a)
Figure PCTCN2015073999-appb-000004
为梯度算子,
Figure PCTCN2015073999-appb-000005
为拉普拉斯算子;(b)目标函数分为三部分,数据项fdata,偏移平滑项fsmooth_uv和深度平滑项fsmooth_depth,其中α、β、τ1和τ2是非负权重;(c)图像有k个色彩分量
Figure PCTCN2015073999-appb-000006
代表第一幅图像在位置(x,y)的色彩I分量值,相应地,
Figure PCTCN2015073999-appb-000007
为第i幅图像在位置(ui,vi)的色彩I分量值;(d)鲁棒函数ρ的引入是为了克服深度发生剧变带来的影响,鲁棒函数ρ为Charbonnier函数
Figure PCTCN2015073999-appb-000008
其中∈是一个足够小的的正数,ε<10-6;或者为Lorentzian函数
Figure PCTCN2015073999-appb-000009
Figure PCTCN2015073999-appb-000010
σ为某个常数;当不引入鲁棒函数,则ρ(x)=x;(e)ui和vi是定义在图像域上、以相机投影矩阵Pi和深度q为参数的函数:
Figure PCTCN2015073999-appb-000011
Figure PCTCN2015073999-appb-000012
代表与第一幅图像像素(x,y)相对应的三维点在第i幅图像的成像位置
Figure PCTCN2015073999-appb-000013
Figure PCTCN2015073999-appb-000014
其中Pi,j为第i个相机投影矩阵Pi的第j个行向量;为了表达式的简练,在不造成误解的情况下,在
Figure PCTCN2015073999-appb-000015
Figure PCTCN2015073999-appb-000016
中省略下标x,y;
在连续域上设计的迭代优化算法具体为:因为三维场景的深度是定义在第一幅图像域上的连续函数,在极值点必须满足欧拉-拉格朗日方程;同时,在极值点对相机投影矩阵参数的偏导数为0;在图像的离散格点上,联合欧拉-拉格朗日方程和对相机投影矩阵参数偏导数为0的两类方程,并采用增量方式表示形式,能够把求解相机投影矩阵和三维场景的深度增量的迭代过程转化为求解如下线性方程组
Hδθ+b=0  (6)
其中向量θ由相机投影矩阵Pi2≤i≤n和三维场景的深度q按次序构造而成;这样,每次迭代归结为求解
δθ=-H-1b  (7),
从而确定相应的增量δPi和δq;根据所求解的增量更新参数Pi和q,Pi←δPi+Pi,q←δq+q,直到收敛;
即算法1的具体过程为:
输入:n幅图像,初始化三维场景的深度q和相机投影矩阵Pi,2≤i≤n;
输出:相机投影矩阵Pi(2≤i≤ni)、三维场景的深度q和场景的三维表示;
1、迭代
1)、由欧拉-拉格朗日方程和目标函数对相机投影矩阵参数的偏导数为0确定式子(7)中的H和b;
2)、由式子(7)计算增量δθ,并确定相应的增量δPi和δq;
3)、更新参数Pi,2≤i≤n和q:Pi←δPi+Pi,q←δq+q;
直到收敛
2、根据收敛后的三维场景的深度q,由式子(1)计算场景的三维表示。
上述彩色图像,可以采用常见的RGB或者HSV表示,以RGB格式为例,图像有三个分量,分别为红色(R)、绿色(G)和蓝色(B)分量;色彩分量可以是不同格式的组合,比如 采用R、G、B和H四个分量。上述鲁棒函数有很多种选择并不限于上述所列出的函数。
上述式(1)中构造的目标函数f(P,q)的依据在一定程度上与光流计算类似,即灰度不变假设和像素偏移量ui-x和vi-y的平滑假设,分别对应目标函数中的第一部分
Figure PCTCN2015073999-appb-000017
和第二部分
Figure PCTCN2015073999-appb-000018
Figure PCTCN2015073999-appb-000019
即数据项和平滑项。式子(1)中的第三部分
Figure PCTCN2015073999-appb-000020
对应深度的平滑假设。
更进一步的,所述目标函数中的数据项和偏移平滑项能够采用其它类似的变化形式:
Figure PCTCN2015073999-appb-000021
Figure PCTCN2015073999-appb-000022
其中
Figure PCTCN2015073999-appb-000023
Figure PCTCN2015073999-appb-000024
Figure PCTCN2015073999-appb-000025
Figure PCTCN2015073999-appb-000026
鲁棒函数的引入还能够以其它变化形式出现,式子(3)数据项的另外一种变化形式为:
Figure PCTCN2015073999-appb-000027
与连续域上情形相似,构造离散形式的目标函数具体为:
f(P2,...,Pn,q)=fdata+fsmooth_uv+fsmooth_depth  (11)
其中
Figure PCTCN2015073999-appb-000028
Figure PCTCN2015073999-appb-000029
Figure PCTCN2015073999-appb-000030
离散目标函数(11)及其变化形式的迭代优化算法具体为:离散形式的目标函数(11)在本质上是一个非线性最小二乘问题,能够采用常规的Levenberg-Marquardt算法或高斯-牛顿算法,每次迭代过程归结为求解一个线性方程组(15):
δθ=-(H+μI)-1b  (15)
其中H是海森矩阵或者高斯-牛顿海森矩阵,b是梯度向量,u是非负数,取决于采用Levenberg-Marquardt算法或高斯-牛顿算法,从而确定相应的增量δPi和δq;根据增量更新参数Pi和q,Pi←δPi+Pi,q←δq+q,直到收敛;
算法2具体实现过程:
输入:多幅图像,以及相机投影矩阵Pi和三维场景的深度q的初始化,2≤i≤n;
输出:相机投影矩阵Pi(2≤i≤ni)、三维场景的深度q和场景的三维表示;
1、迭代
1)、计算式子(15)中的高斯-牛顿海森矩阵H和梯度向量b;
2)、由式子(15)计算增量δθ,并分别确定相应的增量δPi和δq;
3)、更新参数Pi和q:Pi←δPi+Pi,q←δq+q,2≤i≤n;
直到收敛;
2、根据收敛后的三维场景的深度q,由式子(1)计算场景的三维表示。
更进一步的,由粗到细的金字塔方法步骤具体为:计算图像的n层金字塔表示;在最粗图像层,初始化n-1个相机投影矩阵为Pi=[I3 0],2≤i≤n,所有点的三维场景的深度初始化为1;由粗到细依次估计相机投影矩阵和三维场景的深度,并且对相机投影矩阵和三维场景的深度分别修正和插值,以此作为下一精细图像层迭代过程的初始值;
关于不同精度层之间三维场景的深度的插值,采用双线性插值、双三次插值方法或者其它类似插值方法实现;
关于不同精度层之间相机投影矩阵的修正,设相邻两级精度的图像在x和y方向的像素比为s1和s2,s1,s2<1,在较低精度图像估计得到某个相机的相机投影矩阵为P(k+1),其中上标(k+1)代表图像金字塔结构的第k+1层,那么对应第k层图像的相机投影矩阵为
Figure PCTCN2015073999-appb-000031
由粗到细金字塔方法的具体迭代算法如下:
即算法3的具体过程为:
输入:多幅图像;
输出:相机投影矩阵Pi(2≤i≤ni)、三维场景的深度q和场景的三维表示;
1、计算图像的m层金字塔表示;
2、迭代:图像层k从第m层依次到第1层
(1)如果k≠m
以上一层估计的三维场景的深度q(k+1)为基准,采用插值方法计算本层的三维场 景的深度q(k),以其作为三维场景的深度的初始化;
利用上一层图像估计的相机投影矩阵
Figure PCTCN2015073999-appb-000032
根据式子(16)计算本层的相机投影矩阵
Figure PCTCN2015073999-appb-000033
以其作为相机投影矩阵的初始化;
否则,在第m层图像
初始化:第i个相机的相机投影矩阵设置为
Figure PCTCN2015073999-appb-000034
所有点的三维场景的深度信息设置为q(m)=1;
结束
(2)采用算法1或者算法2估计该层相机投影矩阵
Figure PCTCN2015073999-appb-000035
和三维场景的深度q(k);结束迭代
3、输出相机投影矩阵和三维场景的深度:
Figure PCTCN2015073999-appb-000036
q←q(1)
4、根据三维场景的深度q,由式子(1)计算场景的三维表示。
更进一步的,实现相似三维重建或者欧几里德三维重建的具体过程为:
参数化具体为:相机投影矩阵由相机内部参数和相机外部参数描述:
P=K[R t]
其中相机内部参数αx、αx、s、px和py包含在3×3矩阵
Figure PCTCN2015073999-appb-000037
相机外部参数由3×3的旋转矩阵R和3×1平移向量t确定,旋转矩阵R由三个角度参数确定,即分别绕x轴、y轴和z轴的旋转角度γx、γy和γz
Figure PCTCN2015073999-appb-000038
当相机内部参数和外部参数都是未知的,内部参数αx、αy、s、px、py、平移向量t、旋转角度γx、γy和γz和三维场景的深度q为待估计的未定参数,实现相似三维重建;
当相机内部参数是已知的,而外部参数是未知的,平移向量t、旋转角度γx、γy和γz和三维场景的深度q为待估计的未定参数,实现相似三维重建;
当相机的内部参数和外部参数都已知的条件下,实现欧几里德三维重建中,在这种情形中,三维场景的深度q为待估计的未定参数。
更进一步的,还能够推广到大基线情形,具体步骤为:在射影几何中,大基线情形是指相机之间的相对运动比较大,造成图像之间有显著的区别,在大基线情形中,具体来说,SFM三维重建分为三步:
第一步,从图像提取特征并匹配,提取的特征为:Harris特征、SIFT特征或KLT特征;
第二步,在所提取特征的基础上,估计特征点的三维信息和相机的相机投影矩阵;
第三步,在前面两步的基础上,利用算法3实现紧致SFM三维重建;
其中,以第二步估计得到的相机投影矩阵作为第三步的相机投影矩阵初始值,对第二步估计得到的三维场景的深度进行插值,作为第三步的三维场景的深度初始值。
与现有技术相比,本发明的有益效果为:本发明提出无特征提取的紧致SFM三维重建方案,与现有的SFM三维重建方法相比,能够一步完成紧致SFM三维重建。由于通过一步优化实现三维信息的估计,以目标函数值作为指标,能够得到最优解,至少是局部最优解,比已有方法有很大改进,且已初步得到实验验证。
附图说明
图1为本发明的三维重建实现流程图。
具体实施方式
下面对本发明做进一步的描述,但本发明的实施方式并不限于此。
如图1,S1.输入关于某场景的n幅图像,n≥2;
S2.建立与某个相机坐标系相一致的世界坐标系,设世界坐标系与第一相机的坐标系相一致,即世界坐标系的原点、x轴和y轴与第一相机的相机中心、第一相机成像平面的x轴和y轴重合,其z轴垂直指向第一相机的成像平面;
S3.以三维场景的深度和相机投影矩阵作为变量,所述三维场景的深度是指第1幅图像像素点对应的三维空间点具有的深度q;所述相机投影矩阵是指其它(n-1)幅图像的3×4矩阵Pi,2≤i≤n;
S4.构造类似光流估计的目标函数,所述目标函数是连续域上的变分目标函数或其离散形式的目标函数;
S5.采用由粗到细的金字塔方法,在连续域或者离散域上设计迭代算法对目标函数进行优化,输出表示场景三维信息的深度和代表相机相对位姿信息的相机投影矩阵;
S6.根据表示场景三维信息的深度,实现紧致的射影、相似或者欧几里德重建。
下面列举各种三维重建的实现方式
A.连续域中基于两幅灰度图像的射影三维重建
在本小节,详细介绍本发明的核心模型:在连续域上从两幅灰度图像实现射影(projective)三维重建。假设第一、二幅图像分别是I1和I2(上标表示图像序号),第一幅图像在位置(x,y)的灰度值为
Figure PCTCN2015073999-appb-000039
相应地,第二幅图像在位置(u,v)的灰度值为
Figure PCTCN2015073999-appb-000040
虽然目前获取的图像大都是数字图像,即图像定义在离散格点(lattice)上,在本节提出的发明方案中假设图像是定义在连续域上,采用数值优化算法实现三维重建。
为了具体刻画三维信息,如下建立世界坐标系:其原点、x轴和y轴与第一个相机的相机中心(camera centre)、第一个相机成像平面的x轴和y轴重合,其z轴垂直指向第一个相机的成像平面。
根据射影几何原理,假设第一个相机的相机投影矩阵为[I3 0]∈R3,4,其中I3是一个3×3的单位阵,0是一个3×1的零向量;假设第二个相机的相机投影矩阵为一个3×4的矩阵P∈R3,4。同时假设与第一幅图像像素(x,y)相对应的三维点具有深度qx,y,即其z坐标为qx,y;相应地,该点的三维坐标为
(qx,y×x,qx,y×y,qx,y)  (1)
这样,所拍摄场景或者目标的三维结构由定义在第一幅图像上的深度qx,y描述;同时,第二个相机的相机投影矩阵P描述两个相机之间的相对运动信息。射影三维重建的目的即估计场景的深度信息qx,y(在知道深度信息qx,y的条件下,可以由式子(1)计算出相应的三维坐标)和相机投影矩阵P。
根据射影几何原理,与第一幅图像像素(x,y)相对应的三维点在第二幅图像中的成像位置(ux,y,vx,y)如下:
Figure PCTCN2015073999-appb-000041
其中Pj为相机投影矩阵P的第j个行向量。为了表达式的简练,在不造成误解的情况下,省略下标x,y。从(2)可以看出,u和v是定义在图像域上、以相机投影矩阵P和深度q为参数的 函数:u(P,q)和v(P,q)。
为了实现射影三维重建,构造如下变分目标函数:
Figure PCTCN2015073999-appb-000042
其中
Figure PCTCN2015073999-appb-000043
为梯度算子,目标函数(3)中第一部分的依据是光流计算中的灰度不变假设(gray value constancy assumption),即同一个三维空间点在不同图像具有相同的灰度值。如果只有灰度不变假设,该优化问题是一个病态问题。为此,在目标函数(3)中引入第二部分,假设两幅图像中的成像具有平滑的偏移量u-x和v-y,该平滑假设由目标函数(3)中的第二部分刻画。目标函数(3)的两部分分别叫做数据项和平滑项,与光流计算中数据项和平滑项相对应。
本发明采用迭代算法实现目标函数(3)的优化,其核心思想是变分法中的欧拉-拉格朗日方程(Euler-Lagrange equation)。为了符合变分法中欧拉-拉格朗日方程的标准形式,定义优化目标函数(3)中的积分量L如下(暂时忽略相机投影矩阵参数P,只考虑深度参数q):
Figure PCTCN2015073999-appb-000044
其中
Figure PCTCN2015073999-appb-000045
Figure PCTCN2015073999-appb-000046
根据欧拉-拉格朗日方程,目标函数(3)取得极值必须满足:
Figure PCTCN2015073999-appb-000047
具体地,欧拉-拉格朗日方程(5)为:
Figure PCTCN2015073999-appb-000048
同时,根据导数在极值点等于0的性质可知,目标函数(3)满足
Figure PCTCN2015073999-appb-000049
Figure PCTCN2015073999-appb-000050
在迭代算法中,由前面迭代步骤已经得到P和q的当前估计,每次迭代过程的目的是求解P和q的增量δP和δq,并如下更新参数
Figure PCTCN2015073999-appb-000051
为此,把式子(6)和(7)中的
Figure PCTCN2015073999-appb-000052
Figure PCTCN2015073999-appb-000053
代替,其中Ix和Iy是第 二幅图像在位置(u,v)的偏导数;用q+δq的-阶差分近似qx和qy;用
Figure PCTCN2015073999-appb-000054
取代
Figure PCTCN2015073999-appb-000055
联立式子(6)和(7)的增量形式,可以在图像格点上建立n+12个以增量δP和δq为变量的线性方程,该线性方程组的变量数目也是n+12。其中n为图像像素的数目,即深度q有n个变量;相机投影矩阵有12个变量。
为了表达式的简练,把相机投影矩阵P的12个变量和深度q的n个变量构成一个维数为n+12的向量θ。通过整理可以把(6)和(7)的增量形式表示成如下线性方程组
Hδθ+b=0  (9)
这样,每次迭代归结为求解
δθ=-H-1b  (10)
综合前面的内容,给定两幅灰度图像,以及相机投影矩阵和深度的初始值,可以采用如下算法实现SFM射影三维重建。
即算法1的具体过程为:
输入:两幅灰度图像I1和I2,以及相机投影矩阵P和深度q的初始化
输出:相机投影矩阵P和深度q
迭代
1、由式子(6)和式子(7)确定式子(9)中的H和b;
2、由式子(10)计算增量δθ,并确定相应的增量δP和δq;
3、由式子(8)更新参数P和q;
直到收敛
为了克服局部极值点的困难,采用从粗到细(from coarse to fine)的金字塔方法。即首先在较低分辨率的图像实现三维重建;然后对所估计深度进行插值,并且修正相机投影矩阵,以此作为下一层较高分辨率三维重建的初始解;直到最高分辨率。
关于深度的插值,可以采用双线性插值(bilinear interpolation)、双三次插值(bicubic interpolation)或者其它类似插值方法实现。
关于不同精度层之间相机投影矩阵的修正。假设相邻两层的图像在x和y方向的像素比为s1和s2(s1,s2<1),在较低精度层估计的第二个相机投影矩阵为P(i+1)(其中上标i+1代表图像金字塔结构的第i+1层),那么对应第i层图像的第二个相机投影矩阵为
Figure PCTCN2015073999-appb-000056
即算法2的具体过程为:
输入:两幅灰度图像
输出:相机投影矩阵P和深度q
1、计算两幅图像的m层金字塔表示;
2、for i=m:-1∶1
ifi≠m
以上一层估计的深度q(i+1)为基准,采用插值方法计算在当前层的深度q(i),以其作为深度的初始化;
利用上一层估计的相机投影矩阵P(i+1),根据式子(11)计算当前层的相机投影矩阵P(i),以其作为第二个相机投影矩阵的初始化;
else
初始化:第二个相机的相机投影矩阵设置为P(m)=[I3 0]和所有点的深度信息为q(m)=1;
end
采用算法1估计该层的相机投影矩阵P(i)和深度q(i)
end
B.基于两幅灰度图像的射影三维重建的离散化形式
由于数字图像本身以离散的形式存在,下面对目标函数(3)直接给出其离散形式:
Figure PCTCN2015073999-appb-000057
目标函数(12)本质上是一个非线性最小二乘问题,可以采用高斯-牛顿(Gauss-Newton)算法(或者其它类似算法,如Levenberg Marquardt,LM算法)实现迭代优化。为了简单起见,首先考虑以u和v作为变量的情形。对于目标函数(12)的第一部分数据项,采用高斯-牛顿 近似方法,可以得到相关的高斯-牛顿海森(Hessian)矩阵Hdata和梯度向量bdata
Figure PCTCN2015073999-appb-000058
对于目标函数(12)的第二部分平滑项,采用一阶差分代替其中的偏导数。具体来说,
Figure PCTCN2015073999-appb-000059
Figure PCTCN2015073999-appb-000060
同样地,
Figure PCTCN2015073999-appb-000061
Figure PCTCN2015073999-appb-000062
Figure PCTCN2015073999-appb-000063
这里可以采用其它形式的差分以近似偏导数,如
Figure PCTCN2015073999-appb-000064
这些细微的变化不会改变算法的整体结构。
由于差分计算涉及到其邻居像素,对平滑项的推导不如数据项(13)简洁,需要对单个像素点进行分析。跟迭代算法1类似,由前一次迭代已经得到u和v的估计,每次迭代的目的是确定其增量δu和δυ。这样,目标函数(12)中的平滑项可以表示成:
Figure PCTCN2015073999-appb-000065
Figure PCTCN2015073999-appb-000066
上述两项之和可以用高斯-牛顿海森矩阵Hx,y和梯度向量bx,y表示:
Figure PCTCN2015073999-appb-000067
其中δx,y=[δux-1,y δux,y δux,y-1 δvx-1,y δvx,y δvx,y-1]T
Figure PCTCN2015073999-appb-000068
Figure PCTCN2015073999-appb-000069
Figure PCTCN2015073999-appb-000070
Figure PCTCN2015073999-appb-000071
Figure PCTCN2015073999-appb-000072
Figure PCTCN2015073999-appb-000073
对所有像素建立类似(14)的高斯-牛顿近似,联立得到平滑项的高斯-牛顿海森矩阵Hsmooth和梯度向量bsmooth
Figure PCTCN2015073999-appb-000074
注意,式子(15)中求和项里的加法与通常意义上的加法有所不同,因为每个δx,y涉及到其邻居像素,如δx,y的定义可以看出,因此式子(15)中的求和运算需要考虑δx,y之间的对齐。
综合式子(13)和式子(15),可以求得目标函数(12)的高斯-牛顿海森矩阵H和梯度向量b:
Figure PCTCN2015073999-appb-000075
增量δu和δv可以通过求解如下方程得到:
-H-1b  (17)
在本发明提出的方案中,最终的参数是相机投影矩阵P和深度q。跟连续域的推导一样,为了简练的表达式,建立一个包括相机投影矩阵P和深度q的参数向量θ。由复合函数法则,增量δθ为:
δθ=-(JTHJ)-1JTb  (18)
其中雅可比矩阵
Figure PCTCN2015073999-appb-000076
即算法3的具体实现过程为:
输入:两幅灰度图像I1和I2,以及相机投影矩阵P和深度q的初始化
输出:相机投影矩阵P和深度q
迭代
1、计算式子(18)中的H、J和b;
2、由(18)计算增量δθ,并分别给出相应的增量δP和δq;
3、由式子(8)更新参数P和q;
直到收敛
同样,与连续域的三维重建一样,可以采用由粗到精的金字塔方法实现离散形式的三维重建,其基本框架与算法2一样。不同之处在于在离散三维重建中,采用算法2实现各层的三维重建。为了避免冗余,由粗到细的金字塔三维重建离散算法这里予以省略。
C.基于两幅彩色图像的三维重建
对于基于彩色图像的三维重建,其原理和基于灰度图像的三维重建一样。彩色图像的表示方案有很多种,比如RGB(Red Green Blue)、HSV(Hue Saturation Value)、HSL(Hue Saturation Lightness)和HSI(Hue Saturation Intensity)。下面以在RGB彩色图像的离散三维重建为例,说明如何处理基于彩色图像的三维重建。构造离散目标函数如下(可以类似地构造连续域上的 目标函数):
Figure PCTCN2015073999-appb-000077
目标函数(19)的优化算法与目标函数(12)完全相同,这里予以省略。另外,也同样可以实现连续域上彩色图像的三维重建,其实现算法与连续域灰度图像的三维重建类似。
D.基于多幅图像的三维重建
基于n(n>2)幅图像的三维重建,其基本算法与基于两幅图像的三维重建一样,构造一个类似(3)或者(12)的目标函数,包括数据项和平滑项。与基于两幅图像的三维重建一样,可以把世界坐标系设置为第一个相机的坐标系,这样第一个相机的投影矩阵为[I3 0]∈R3,4,其它n-1相机投影矩阵和深度q为待估计参数。
基于多幅图像的三维重建,数据项和平滑项的构造有很多不同的选择。这里分别对数据项和平滑项给出两种不同的构造方案,但不限于此。数据项的第一种构造方案如下
Figure PCTCN2015073999-appb-000078
其中
Figure PCTCN2015073999-appb-000079
Figure PCTCN2015073999-appb-000080
上标表示图像序列,(ui,vi)代表第i幅图像上与(x,y)相对应的坐标。第二种方案是
Figure PCTCN2015073999-appb-000081
在第一种方案,式(20)中,与两幅图像(12)的数据项非常相似,即灰度不变假设,假设同一个点在所有图像中具有相同的灰度值。在第二种方案(21)中,灰度不变假设略有改变,只考虑相邻图像之间的灰度不变假设。第二种方案比较适合基于视频序列的三维重建。
在平滑项中,给出两种构造方案(22)和(23)
Figure PCTCN2015073999-appb-000082
Figure PCTCN2015073999-appb-000083
在(22)中,偏移量都是以第一幅图像为基准,而在(23)中考虑相邻图像之间的偏移量。
基于多幅图像的三维重建实现算法与两幅图像的三维重建类似,其具体算法予以省略。
E.在三维重建中引入梯度(gradient)不变假设
为了克服不同光照条件带来图像的变化,在优化目标函数中引入梯度(gradient)不变假设,即假设同一个三维点在不同图像中的梯度保持不变。以基于两幅灰度图像的三维重建为例,说明如何在三维重建中引入梯度不变假设。构造目标函数如下:
Figure PCTCN2015073999-appb-000084
对于式子(24)的迭代优化算法与算法3一致,这里予以忽略。
F.在优化目标函数中引入鲁棒函数
由于优化目标函数(3)和(12),以及在其它类似的构造中,数据项和平滑项都是以平方项的形式出现,这样的模型在场景或者目标的深度出现不平滑的情况时,效果比较差。为此,在优化目标函数中引入某个鲁棒函数ρ。以(12)为例,
Figure PCTCN2015073999-appb-000085
鲁棒函数ρ的选取有很多,比如Charbonnier函数
Figure PCTCN2015073999-appb-000086
其中∈是一个很小的正常数;Lorentzian函数
Figure PCTCN2015073999-appb-000087
σ为某个常数。
G.在深度上引入平滑约束
除了可以在像素偏移量上引入平滑约束之外,另外一个方案是直接把平滑约束引入到三维目标的深度q上。以离散情形(12)为例,可以构造如下目标函数:
Figure PCTCN2015073999-appb-000088
其中
Figure PCTCN2015073999-appb-000089
另外一种方案是同时对像素偏移量和深度引入平滑约束,优化目标函数变为:
Figure PCTCN2015073999-appb-000090
H.基于两幅灰度图像的相似三维重建和欧几里德三维重建
在上面的发明方案中,重建的结果是射影三维结构,不是常见的欧几里德(Euclidean)三维结构,这节提出相似(similarity)三维重建和欧几里德三维重建方案。
根据射影几何原理,相机的投影矩阵可以由相机内部参数和相机外部参数描述:
P=K[R t]  (26)
其中相机内部参数αx、αy、s、px和py包含在3×3矩阵
Figure PCTCN2015073999-appb-000091
相机外部参数由旋转矩阵R和平移向量t确定,其中R刻画世界坐标系统到相机坐标系统的旋转变换。
与前面射影重建相似,假设世界坐标系统与第一个相机的坐标系统相同,这样相机之间的运动信息完全由第二个相机的外部参数描述。为了简单起见,假设两个相机具有相同的内部参数。为了把第一相机投影矩阵化为标准型[I3 0],相应地设第二相机形式为
P=K[R t]K-1  (27)
关于描述场景或者目标的深度参数q与射影三维重建的一样。
实现相似三维重建的方案与射影重建相似,即优化目标函数(3)或者(12),不同之处在于第二相机投影矩阵P的形式(27)。这里,只给出相似三维重建的离散实现方案。与射影三维重建的连续方案一样,可以实现连续域的相似三维重建。
旋转矩阵R由三个角度参数确定,即分别绕x轴、y轴和z轴的旋转角度γx、γy和γz
Figure PCTCN2015073999-appb-000092
假设在射影三维重建中n+12维参数向量θ的前12个量为相机投影矩阵参数,其余的为n个深度参数。同时,假设在相似三维重建中,参数向量θ′的前11个量为3个旋转角度参数γ=[γx,γy,γz]T、3个平移向量参数t和5个相机内部参数αx、αy、s、px和py,构成一个11维的向量θ″,后面有n个深度参数。关于式子(27),定义雅可比矩阵
Figure PCTCN2015073999-appb-000093
Figure PCTCN2015073999-appb-000094
其中In为n×n的单位阵。那么,在相似三维重建中,迭代过程求解参数增量为:
δθ′=-(J″TJTHJJ″)-1J″TJTb  (28)
其中H、J和b是式子(18)的H、J和b。
当已知相机的部分参数的条件下,比如当相机是标定时,即已知相机内部参数,同样可以实现上述相似三维重建。当相机的内部参数和外部参数都已知的条件下,可以实现欧几里德三维重建。
I.在大基线(large baseline)情形下的SFM三维重
在射影几何中,大基线(large baseline)是指相机之间的相对运动比较大,造成图像之间有显著的区别,究其原因,可能是因为相机之间的旋转角度或者平移过大,也可能是因为相机之间的焦距差别太大。在大基线情形中,可以综合现有的三维重建方法和本发明前面提出的方案,实现大基线的SFM三维重建。具体来说,SFM三维重建分为三步,第一步从图像提取特征并匹配,如Harris特征、SIFT特征或KLT特征;第二步,在所提取特征的基础上,估计特征点的三维信息和相机的相机投影矩阵;第三步,在前面两步的基础上,利用前面提出的方法实现紧致SFM三维重建。其中,以第二步估计得到的相机投影矩阵作为第三步的相机投影矩阵初始值,对第二步估计得到的三维场景的深度进行插值,作为第三步的三维场景的深度初始值。
专业术语的中英文对照
基于运动的建模  structure from motion(SFM)
紧致的  dense
相机投影矩阵  camera projection matrix
射影的  projective
相似  similarity
欧几里德  Euclidean
格点  lattice
变分  variational
欧拉-拉格朗日方程  Euler-Lagrange equation
从粗到细  from coarse to fine
金字塔  pyramid
高斯-牛顿算法  Gauss-Newton algorithm
高斯-牛顿海森矩阵  Gauss-Newton Hessian matrix
海森矩阵  Hessian matrix
内部参数  internal parameters
外部参数  external parameters
大基线  large baseline
以上所述的本发明的实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神原则之内所作出的修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。

Claims (8)

  1. 一种无特征提取的紧致SFM三维重建方法,其特征在于,包括以下步骤:
    S1.输入关于某场景的n幅图像,n≥2;
    S2.建立与某个相机坐标系相一致的世界坐标系,设世界坐标系与第一相机的坐标系相一致,即世界坐标系的原点、x轴和y轴与第一相机的相机中心、第一相机成像平面的x轴和y轴重合,其z轴垂直指向第一相机的成像平面;
    S3.以三维场景的深度和相机投影矩阵作为变量,所述三维场景的深度是指第1幅图像像素点对应的三维空间点具有的深度q;所述相机投影矩阵是指其它(n-1)幅图像的3×4矩阵Pi,2≤i≤n;
    S4.构造类似光流估计的目标函数,所述目标函数是连续域上的变分目标函数或其离散形式的目标函数;
    S5.采用由粗到细的金字塔方法,在连续域或者离散域上设计迭代算法对目标函数进行优化,输出表示场景三维信息的深度和代表相机相对位姿信息的相机投影矩阵;
    S6.根据表示场景三维信息的深度,实现紧致的射影、相似或者欧几里德重建。
  2. 根据权利要求1所述的无特征提取的紧致SFM三维重建方法,其特征在于,在实现射影三维重建中,参数化具体为:在建立世界坐标系的同时,其第一相机的相机投影矩阵为
    Figure PCTCN2015073999-appb-100001
    其中I3是一个3×3的单位阵,0是一个3×1的零向量;其它相机投影矩阵Pi∈R3,4,2≤i≤n,作为待估计的未知参数;场景的三维结构由定义在第一副图像上的三维场景的深度决定:假设与第一幅图像像素(x,y)相对应的三维空间点的三维场景的深度为qx,y,则该三维点的三维坐标为
                                  (qx,y×x,qx,y×y,qx,y)  (1)
    在射影三维重建中,相机投影矩阵Pi和三维场景的深度qx,y作为待估计的未定参数,为了表达式的简练,在不造成误解的情况下,省略下标x,y。
  3. 根据权利要求2所述的无特征提取的紧致SFM三维重建方法,其特征在于,实现连续域上射影三维重建的具体实现过程为:
    构造的连续域上的目标函数具体为:
                     f(P2,…,Pn,q)=fdata+fsmooth_uv+fsmooth_depth  (2)
    其中
    Figure PCTCN2015073999-appb-100002
    Figure PCTCN2015073999-appb-100003
    Figure PCTCN2015073999-appb-100004
    对上述目标函数的说明如下:(a)
    Figure PCTCN2015073999-appb-100005
    为梯度算子,
    Figure PCTCN2015073999-appb-100006
    为拉普拉斯算子;(b)目标函数分为三部分,数据项fdata,偏移平滑项fsmooth_uv和深度平滑项fsmooth_depth,其中α、β、τ1和τ2是非负权重;(c)图像有k个色彩分量C1,…,Ck
    Figure PCTCN2015073999-appb-100007
    代表第一幅图像在位置(x,y)的色彩I分量值,相应地,
    Figure PCTCN2015073999-appb-100008
    为第i幅图像在位置(ui,vi)的色彩I分量值;(d)鲁棒函数ρ的引入是为了克服深度发生剧变带来的影响,鲁棒函数ρ为Charbonnier函数
    Figure PCTCN2015073999-appb-100009
    其中∈是一个足够小的的正数,ε<10-6;或者为Lorentzian函数
    Figure PCTCN2015073999-appb-100010
    Figure PCTCN2015073999-appb-100011
    σ为某个常数;当不引入鲁棒函数,则ρ(x)=x;(e)ui和vi是定义在图像域上、以相机投影矩阵Pi和深度q为参数的函数:
    Figure PCTCN2015073999-appb-100012
    Figure PCTCN2015073999-appb-100013
    代表与第一幅图像像素(x,y)相对应的三维点在第i幅图像的成像位置
    Figure PCTCN2015073999-appb-100014
    Figure PCTCN2015073999-appb-100015
    其中Pi,j为第i个相机投影矩阵Pi的第j个行向量;为了表达式的简练,在不造成误解的情况下,在
    Figure PCTCN2015073999-appb-100016
    Figure PCTCN2015073999-appb-100017
    中省略下标x,y;
    在连续域上设计的迭代优化算法具体为:因为三维场景的深度是定义在第一幅图像上的连续函数,在极值点必须满足欧拉-拉格朗日方程;同时,在极值点对相机投影矩阵参数的偏导数为0;在图像的离散格点上,联合欧拉-拉格朗日方程和对相机投影矩阵参数偏导数为0的两类方程,并采用增量方式表示形式,能够把求解相机投影矩阵和三维场景深度增量的迭代过程转化为求解如下线性方程组
                                      Hδθ+b=0  (6)
    其中向量θ由相机投影矩阵Pi2≤i≤n和三维场景的深度q按次序构造而成;这样,每次迭代归结为求解
                                    δθ=-H-1b  (7),
    从而确定相应的增量δPi和δq;根据所求解的增量更新参数Pi和q,Pi←δPi+Pi,q←δq+q,直到收敛;
    即算法1的具体过程为:
    输入:n幅图像,初始化三维场景的深度q和相机投影矩阵Pi,2≤i≤n;
    输出:相机投影矩阵Pi(2≤i≤ni)、三维场景的深度q和场景的三维表示;
    1、迭代
    1)、由欧拉-拉格朗日方程和目标函数对相机投影矩阵参数的偏导数为0确定式子(7)中的H和b;
    2)、由式子(7)计算增量δθ,并确定相应的增量δPi和δq;
    3)、更新参数Pi,2≤i≤n和q:Pi←δPi+Pi,q←δq+q;
    直到收敛
    2、根据收敛后的三维场景的深度q,由式子(1)计算场景的三维表示。
  4. 根据权利要求3所述的无特征提取的紧致SFM三维重建方法,其特征在于,目标函数(2)中的数据项和偏移平滑项能够采用其它类似的变化形式:
    Figure PCTCN2015073999-appb-100018
    Figure PCTCN2015073999-appb-100019
    其中
    Figure PCTCN2015073999-appb-100020
    Figure PCTCN2015073999-appb-100021
    鲁棒函数的引入还能够以其它变化形式出现,式子(3)的数据项的另外一种变化形式为:
    Figure PCTCN2015073999-appb-100022
  5. 根据权利要求2所述的无特征提取的紧致SFM三维重建方法,其特征在于,构造离散形式的目标函数具体为:
    f(P2,…,Pn,q)=fdata+fsmooth_uv+fsmooth_depth  (11)
    其中
    Figure PCTCN2015073999-appb-100023
    Figure PCTCN2015073999-appb-100024
    Figure PCTCN2015073999-appb-100025
    离散目标函数(11)及其变化形式的迭代优化算法具体为:离散形式的目标函数(11)在本质上是一个非线性最小二乘问题,能够采用常规的Levenberg-Marquardt算法或高斯-牛顿算法,每次迭代过程归结为求解一个线性方程组(15):
                                δθ=-(H+μI)-1b  (15),
    其中H是海森矩阵或者高斯-牛顿海森矩阵,b是梯度向量,μ是非负数,取决于采用Levenberg-Marquardt算法或高斯-牛顿算法,从而确定相应的增量δPi和δq;根据增量更新参数Pi和q,Pi←δPi+Pi,q←δq+q,直到收敛;
    算法2具体实现过程:
    输入:n幅图像,以及相机投影矩阵Pi和三维场景的深度q的初始化,2≤i≤n;
    输出:相机投影矩阵Pi(2≤i≤ni)、三维场景的深度q和场景的三维表示;
    1、迭代
    1)、计算式子(15)中的高斯-牛顿海森矩阵H和梯度向量b;
    2)、由式子(15)计算增量δθ,并分别确定相应的增量δPi和δq;
    3)、更新参数Pi和q:Pi←δPi+Pi,q←δq+q,2≤i≤n;
    直到收敛;
    2、根据收敛后的三维场景的深度q,由式子(1)计算场景的三维表示。
  6. 根据权利要求1所述的无特征提取的紧致SFM三维重建方法,其特征在于,由粗到细的金字塔方法步骤具体为:计算图像的n层金字塔表示;在最粗图像层,初始化n-1个相机投影矩阵为
    Figure PCTCN2015073999-appb-100026
    2≤i≤n,所有点的三维场景的深度初始化为1;由粗到细依次估计相机投影矩阵和三维场景的深度,并且对相机投影矩阵和三维场景的深度分别修正和插值,以此作为下一精细图像层迭代过程的初始值;
    关于不同精度层之间三维场景的深度的插值,采用双线性插值或双三次插值方法实现;
    关于不同精度层之间相机投影矩阵的修正,设相邻两级精度的图像在x和y方向的像素比为s1和s2,s1,s2<1,在较低精度图像层估计得到某个相机的相机投影矩阵为P(k+1),其中上标(k+1)代表图像金字塔结构的第k+1层,那么对应第k层图像的相机投影矩阵为
    Figure PCTCN2015073999-appb-100027
    由粗到细金字塔方法的具体迭代算法如下:
    即算法3的具体过程为:
    输入:n幅图像;
    输出:相机投影矩阵Pi(2≤i≤ni)、三维场景的深度q和场景的三维表示;
    1、计算图像的m层金字塔表示;
    2、迭代:图像层k从第m层依次到第1层
    (1)如果k≠m
    以上一层估计的三维场景的深度q(k+1)为基准,采用插值方法计算在本层的三维场景的深度q(k),以其作为三维场景的深度的初始化;
    利用上一层图像估计的相机投影矩阵Pi (k+1),2≤i≤n,根据式子(16)计算本层的相机投影矩阵Pi (k),以其作为相机投影矩阵的初始化;
    否则,在第m层图像
    初始化:第i个相机的相机投影矩阵设置为
    Figure PCTCN2015073999-appb-100028
    2≤i≤n,所有点的三维场景的深度信息设置为q(m)=1;
    结束
    (2)采用算法1或者算法2估计该层相机投影矩阵Pi (k),2≤i≤n和三维场景的深度q(k);结束迭代
    3、输出相机投影矩阵和三维场景的深度:Pi←Pi (1)(2≤i≤n),q←q(1)
    4、根据三维场景的深度q,由式子(1)计算场景的三维表示。
  7. 根据权利要求2或6所述的无特征提取的紧致SFM三维重建方法,其特征在于,实现相似三维重建或者欧几里德三维重建的具体过程为:
    参数化具体为:相机投影矩阵由相机内部参数和相机外部参数描述:
    P=K[R t]
    其中相机内部参数αx、αy、s、px和py包含在3×3矩阵
    Figure PCTCN2015073999-appb-100029
    相机外部参数由3×3的旋转矩阵R和3×1平移向量t确定,旋转矩阵R由三个角度参数确定,即分别绕x轴、y轴和z轴的旋转角度γx、γy和γz
    Figure PCTCN2015073999-appb-100030
    当相机内部参数和外部参数都是未知的,内部参数αx、αy、s、px、py、平移向量t、旋转角度γx、γy和γz和三维场景的深度q为待估计的未定参数,实现相似三维重建;
    当相机内部参数是已知的,而外部参数是未知的,平移向量t、旋转角度γx、γy和γz和三维场景的深度q为待估计的未定参数,实现相似三维重建;
    当相机的内部参数和外部参数都已知的条件下,实现欧几里德三维重建中,在这种情形中,三维场景的深度q为待估计的未定参数。
  8. 根据权利要求6所述的无特征提取的紧致SFM三维重建方法,其特征在于,所述无特征提取的紧致SFM三维重建方法还能够推广到大基线情形,具体步骤为:在射影几何中,大基线情形是指相机之间的相对运动比较大,造成图像之间有显著的区别,在大基线情形中,具体来说,SFM三维重建分为三步:
    第一步,从图像提取特征并匹配,提取的特征为:Harris特征、SIFT特征或KLT特征;
    第二步,在所提取特征的基础上,估计特征点的三维信息和相机投影矩阵;
    第三步,在前面两步的基础上,利用算法3实现紧致SFM三维重建;
    其中,以第二步估计得到的相机投影矩阵作为第三步的相机投影矩阵初始值,对第二步估计得到的三维场景的深度进行插值,作为第三步的三维场景的深度初始值。
PCT/CN2015/073999 2014-04-08 2015-03-11 一种基于无特征提取的紧致sfm三维重建方法 WO2015154601A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016557182A JP6216468B2 (ja) 2014-04-08 2015-03-11 無特徴抽出の高密度sfm三次元再構成法
US15/038,325 US9686527B2 (en) 2014-04-08 2015-03-11 Non-feature extraction-based dense SFM three-dimensional reconstruction method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201410139234.4A CN103914874B (zh) 2014-04-08 2014-04-08 一种无特征提取的紧致sfm三维重建方法
CN201410139234.4 2014-04-08

Publications (1)

Publication Number Publication Date
WO2015154601A1 true WO2015154601A1 (zh) 2015-10-15

Family

ID=51040527

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2015/073999 WO2015154601A1 (zh) 2014-04-08 2015-03-11 一种基于无特征提取的紧致sfm三维重建方法

Country Status (4)

Country Link
US (1) US9686527B2 (zh)
JP (1) JP6216468B2 (zh)
CN (1) CN103914874B (zh)
WO (1) WO2015154601A1 (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109147025A (zh) * 2018-07-11 2019-01-04 北京航空航天大学 一种面向rgbd三维重建的纹理生成方法
CN109242955A (zh) * 2018-08-17 2019-01-18 山东师范大学 一种基于单幅图像的工件制造特征自动识别方法及装置
CN109785373A (zh) * 2019-01-22 2019-05-21 东北大学 一种基于散斑的六自由度位姿估计系统及方法
CN109919911A (zh) * 2019-01-26 2019-06-21 中国海洋大学 基于多视角光度立体的移动三维重建方法
CN110009732A (zh) * 2019-04-11 2019-07-12 司岚光电科技(苏州)有限公司 基于gms特征匹配的面向复杂大尺度场景三维重建方法
CN110033447A (zh) * 2019-04-12 2019-07-19 东北大学 一种基于点云方法的高铁重轨表面缺陷检测方法
CN110223348A (zh) * 2019-02-25 2019-09-10 湖南大学 基于rgb-d相机的机器人场景自适应位姿估计方法
CN110310337A (zh) * 2019-06-24 2019-10-08 西北工业大学 一种基于光场基本矩阵的多视光场成像系统全参数估计方法
CN110322514A (zh) * 2019-06-24 2019-10-11 西北工业大学 一种基于多中心投影模型的光场相机参数估计方法
CN110490928A (zh) * 2019-07-05 2019-11-22 天津大学 一种基于深度神经网络的相机姿态估计方法
CN110880185A (zh) * 2019-11-08 2020-03-13 南京理工大学 基于条纹投影的高精度动态实时360度全方位点云获取方法
CN111127560A (zh) * 2019-11-11 2020-05-08 江苏濠汉信息技术有限公司 一种用于三维重建的三目视觉系统的标定方法及系统
CN111210507A (zh) * 2020-01-06 2020-05-29 合肥工业大学 一种面向多视图三维重建的初始视图选取方法
CN111598954A (zh) * 2020-04-21 2020-08-28 哈尔滨拓博科技有限公司 一种快速高精度摄像头参数计算方法
CN111739068A (zh) * 2020-05-06 2020-10-02 西安电子科技大学 一种光场相机相对位姿估计方法
CN112509109A (zh) * 2020-12-10 2021-03-16 上海影创信息科技有限公司 一种基于神经网络模型的单视图光照估计方法
CN113096107A (zh) * 2021-04-20 2021-07-09 湖南科技大学 基于傅立叶变换的b样条函数欧拉解概率密度成像方法
CN113658263A (zh) * 2021-06-17 2021-11-16 石家庄铁道大学 基于视觉场景的电磁干扰源可视化标注方法
CN115063485A (zh) * 2022-08-19 2022-09-16 深圳市其域创新科技有限公司 三维重建方法、装置及计算机可读存储介质
CN115082643A (zh) * 2022-05-23 2022-09-20 苏州大学 应用于纳米线组装的微纳操作视觉引导方法及系统
CN115147619A (zh) * 2022-06-14 2022-10-04 西北工业大学 一种优化图像添加次序的增量式运动恢复结构方法
CN115908708A (zh) * 2022-11-16 2023-04-04 南京农业大学 基于Kinect的植物群体全局三维重建方法
CN117994358A (zh) * 2024-04-03 2024-05-07 苏州西默医疗科技有限公司 一种精确度高的牙科手术显微镜标定方法

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914874B (zh) * 2014-04-08 2017-02-01 中山大学 一种无特征提取的紧致sfm三维重建方法
CN104574432B (zh) * 2015-02-15 2017-05-24 四川川大智胜软件股份有限公司 一种自动多视角人脸自拍图像的三维人脸重建方法及系统
CN104599284B (zh) * 2015-02-15 2017-06-13 四川川大智胜软件股份有限公司 基于多视角手机自拍图像的三维人脸重建方法
CN104777700B (zh) * 2015-04-01 2016-08-24 北京理工大学 高沉浸投影多投影机优化部署方法
CN105069804B (zh) * 2015-08-21 2018-04-20 清华大学 基于智能手机的三维模型扫描重建方法
CN105160673A (zh) * 2015-08-28 2015-12-16 山东中金融仕文化科技股份有限公司 一种物体的定位方法
US10424072B2 (en) * 2016-03-01 2019-09-24 Samsung Electronics Co., Ltd. Leveraging multi cues for fine-grained object classification
US10579860B2 (en) 2016-06-06 2020-03-03 Samsung Electronics Co., Ltd. Learning model for salient facial region detection
CN106952215B (zh) * 2017-02-27 2020-02-28 珠海全志科技股份有限公司 一种图像金字塔特征提取电路、装置及方法
CN108618749B (zh) * 2017-03-22 2020-06-19 南通大学 基于便携式数字化眼底照相机的视网膜血管三维重建方法
CN109559271B (zh) * 2017-09-26 2023-02-28 富士通株式会社 对深度图像进行优化的方法和装置
CN107680159B (zh) * 2017-10-16 2020-12-08 西北工业大学 一种基于投影矩阵的空间非合作目标三维重建方法
CN109816687A (zh) * 2017-11-20 2019-05-28 天津工业大学 轮式移动机器人视觉伺服轨迹跟踪并发深度辨识
CN108259858B (zh) * 2018-04-10 2020-10-30 华雁智能科技(集团)股份有限公司 变电站场景与设备的监控方法及装置
CN110378993A (zh) * 2018-04-12 2019-10-25 Oppo广东移动通信有限公司 建模方法及相关装置
CN108876897B (zh) * 2018-04-20 2022-10-18 杭州电子科技大学 快速运动下的场景三维重建方法
CN108828533B (zh) * 2018-04-26 2021-12-31 电子科技大学 一种类内样本相似结构保持非线性投影特征提取方法
TWI676153B (zh) * 2018-07-25 2019-11-01 國立中央大學 利用2d影像資訊修補不完整3d深度影像之方法
CN109410316B (zh) * 2018-09-21 2023-07-07 达闼机器人股份有限公司 物体的三维重建的方法、跟踪方法、相关装置及存储介质
CN109325992B (zh) * 2018-10-19 2023-07-04 珠海金山数字网络科技有限公司 图像绘制方法和装置、计算设备及存储介质
CN109697753B (zh) * 2018-12-10 2023-10-03 智灵飞(北京)科技有限公司 一种基于rgb-d slam的无人机三维重建方法、无人机
CN109741403B (zh) * 2018-12-29 2023-04-07 重庆邮电大学 一种基于全局线性的相机平移标定方法
CN109829502B (zh) * 2019-02-01 2023-02-07 辽宁工程技术大学 一种面向重复纹理及非刚性形变的像对高效稠密匹配方法
CN110012474A (zh) * 2019-02-18 2019-07-12 长江大学 三维锥体有向传感器网络覆盖方法及系统
WO2020181509A1 (zh) * 2019-03-12 2020-09-17 深圳市大疆创新科技有限公司 一种影像处理方法、装置及系统
CN110084887B (zh) * 2019-04-15 2022-10-28 北京空间飞行器总体设计部 一种空间非合作目标相对导航模型三维重建方法
CN110378995B (zh) * 2019-05-29 2023-02-17 中德(珠海)人工智能研究院有限公司 一种利用投射特征进行三维空间建模的方法
CN110298890B (zh) * 2019-06-24 2022-09-06 西北工业大学 一种基于普朗克参数化的光场相机标定方法
CN110310338B (zh) * 2019-06-24 2022-09-06 西北工业大学 一种基于多中心投影模型的光场相机标定方法
CN110544294B (zh) * 2019-07-16 2023-09-01 深圳进化动力数码科技有限公司 一种基于全景视频的稠密三维重构方法
CN110740331B (zh) * 2019-08-05 2023-01-31 辽宁师范大学 基于自适应步长和Levenberg-Marquardt优化的视频弹性运动估计方法
CN110555908B (zh) * 2019-08-28 2022-12-02 西安电子科技大学 基于室内移动目标背景修复的三维重建方法
CN110706332B (zh) * 2019-09-25 2022-05-17 北京计算机技术及应用研究所 一种基于噪声点云的场景重建方法
CN110909778B (zh) * 2019-11-12 2023-07-21 北京航空航天大学 一种基于几何一致性的图像语义特征匹配方法
CN111353537B (zh) * 2020-02-28 2023-02-07 西安理工大学 基于EPI_Volume的LF_SURF光场图像特征匹配方法
CN111383354B (zh) * 2020-04-02 2024-02-20 西安因诺航空科技有限公司 一种基于sfm的三维点云朝向修正方法
CN111724466B (zh) * 2020-05-26 2023-09-26 同济大学 一种基于旋转矩阵的3d重建优化方法和装置
CN111899280B (zh) * 2020-07-13 2023-07-25 哈尔滨工程大学 采用深度学习和混合型位姿估计的单目视觉里程计方法
CN112308972A (zh) * 2020-10-20 2021-02-02 北京卓越电力建设有限公司 一种大规模电缆隧道环境模型重构方法
CN112395775B (zh) * 2020-12-04 2024-02-13 西安工业大学 一种战斗部破片飞散参数计算方法
CN112472293B (zh) * 2020-12-15 2022-10-21 山东威高医疗科技有限公司 一种术前三维影像与术中透视图像的配准方法
CN112762825B (zh) * 2020-12-24 2022-02-22 复旦大学 表征摄影测量系统三维坐标重构误差的矩阵谱半径方法
CN112581494B (zh) * 2020-12-30 2023-05-02 南昌航空大学 基于金字塔块匹配的双目场景流计算方法
JP7076598B1 (ja) 2021-02-03 2022-05-27 株式会社Albert 動画又は複数画像からの3次元情報生成装置
CN112815849B (zh) * 2021-02-19 2022-07-12 三门核电有限公司 一种基于激光跟踪的核电管道建模方法
CN113096174A (zh) * 2021-03-24 2021-07-09 苏州中科广视文化科技有限公司 一种基于多平面扫描的端到端网络的多视点场景重建方法
CN113034695B (zh) * 2021-04-16 2022-11-22 广东工业大学 一种基于Wasserstein距离的物体包络体多视图重建与优化方法
CN115379194B (zh) * 2021-05-19 2024-06-04 北京小米移动软件有限公司 深度图像的量化方法及装置、终端设备、存储介质
CN113256796A (zh) * 2021-06-01 2021-08-13 北京理工大学 基于Kinect V2传感器三维点云环境实时重构方法
CN113689535B (zh) * 2021-08-20 2022-11-22 北京道达天际科技股份有限公司 基于无人机影像的建筑物模型的生成方法和装置
CN113888633B (zh) * 2021-09-24 2024-05-31 北京清杉科技有限公司 基于实时定位与建图算法的三维重建方法以及装置
CN114067047A (zh) * 2021-10-27 2022-02-18 东南大学 折射率场重建方法、装置及存储介质
CN114140510B (zh) * 2021-12-03 2024-09-13 北京影谱科技股份有限公司 一种增量式三维重建方法、装置以及计算机设备
CN114463357B (zh) * 2022-01-27 2024-05-24 枣庄矿业(集团)付村煤业有限公司 一种在重介质选煤中实时确定介质堆动态信息的方法
CN114565714B (zh) * 2022-02-11 2023-05-23 山西支点科技有限公司 一种单目视觉传感器混合式高精度三维结构恢复方法
CN114494383B (zh) * 2022-04-18 2022-09-02 清华大学 基于Richard-Lucy迭代的光场深度估计方法
CN115035240B (zh) * 2022-05-13 2023-04-11 清华大学 实时三维场景重建方法及装置
CN115098709B (zh) * 2022-06-24 2024-09-03 中国人民解放军国防科技大学 多视图数据的特征选择方法及相关设备
CN115797796B (zh) * 2023-02-08 2023-05-02 中国科学院空天信息创新研究院 基于光学影像和sar影像密集匹配的目标级变化检测方法
CN116433476B (zh) * 2023-06-09 2023-09-08 有方(合肥)医疗科技有限公司 Ct图像处理方法及装置
CN117474993B (zh) * 2023-10-27 2024-05-24 哈尔滨工程大学 水下图像特征点亚像素位置估计方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101038678A (zh) * 2007-04-19 2007-09-19 北京理工大学 基于单幅图像的光滑对称曲面重建方法
US20130044186A1 (en) * 2011-08-19 2013-02-21 Hailin Jin Plane-based Self-Calibration for Structure from Motion
CN103247075A (zh) * 2013-05-13 2013-08-14 北京工业大学 基于变分机制的室内环境三维重建方法
US20130266180A1 (en) * 2012-04-06 2013-10-10 Adobe Systems Incorporated Keyframe Selection for Robust Video-Based Structure from Motion
CN103914874A (zh) * 2014-04-08 2014-07-09 中山大学 一种无特征提取的紧致sfm三维重建方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6760488B1 (en) * 1999-07-12 2004-07-06 Carnegie Mellon University System and method for generating a three-dimensional model from a two-dimensional image sequence
US6859549B1 (en) * 2000-06-07 2005-02-22 Nec Laboratories America, Inc. Method for recovering 3D scene structure and camera motion from points, lines and/or directly from the image intensities
SE518620C2 (sv) * 2000-11-16 2002-10-29 Ericsson Telefon Ab L M Scenkonstruktion och kamerakalibrering med robust användning av "cheiralitet"
US7046840B2 (en) * 2001-11-09 2006-05-16 Arcsoft, Inc. 3-D reconstruction engine
CN102663812B (zh) * 2012-03-27 2015-02-11 南昌航空大学 基于变分光流的三维运动检测与稠密结构重建的直接方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101038678A (zh) * 2007-04-19 2007-09-19 北京理工大学 基于单幅图像的光滑对称曲面重建方法
US20130044186A1 (en) * 2011-08-19 2013-02-21 Hailin Jin Plane-based Self-Calibration for Structure from Motion
US20130266180A1 (en) * 2012-04-06 2013-10-10 Adobe Systems Incorporated Keyframe Selection for Robust Video-Based Structure from Motion
CN103247075A (zh) * 2013-05-13 2013-08-14 北京工业大学 基于变分机制的室内环境三维重建方法
CN103914874A (zh) * 2014-04-08 2014-07-09 中山大学 一种无特征提取的紧致sfm三维重建方法

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109147025B (zh) * 2018-07-11 2023-07-18 北京航空航天大学 一种面向rgbd三维重建的纹理生成方法
CN109147025A (zh) * 2018-07-11 2019-01-04 北京航空航天大学 一种面向rgbd三维重建的纹理生成方法
CN109242955A (zh) * 2018-08-17 2019-01-18 山东师范大学 一种基于单幅图像的工件制造特征自动识别方法及装置
CN109242955B (zh) * 2018-08-17 2023-03-24 山东师范大学 一种基于单幅图像的工件制造特征自动识别方法及装置
CN109785373A (zh) * 2019-01-22 2019-05-21 东北大学 一种基于散斑的六自由度位姿估计系统及方法
CN109785373B (zh) * 2019-01-22 2022-12-23 东北大学 一种基于散斑的六自由度位姿估计系统及方法
CN109919911A (zh) * 2019-01-26 2019-06-21 中国海洋大学 基于多视角光度立体的移动三维重建方法
CN109919911B (zh) * 2019-01-26 2023-04-07 中国海洋大学 基于多视角光度立体的移动三维重建方法
CN110223348A (zh) * 2019-02-25 2019-09-10 湖南大学 基于rgb-d相机的机器人场景自适应位姿估计方法
CN110223348B (zh) * 2019-02-25 2023-05-23 湖南大学 基于rgb-d相机的机器人场景自适应位姿估计方法
CN110009732B (zh) * 2019-04-11 2023-10-03 司岚光电科技(苏州)有限公司 基于gms特征匹配的面向复杂大尺度场景三维重建方法
CN110009732A (zh) * 2019-04-11 2019-07-12 司岚光电科技(苏州)有限公司 基于gms特征匹配的面向复杂大尺度场景三维重建方法
CN110033447A (zh) * 2019-04-12 2019-07-19 东北大学 一种基于点云方法的高铁重轨表面缺陷检测方法
CN110033447B (zh) * 2019-04-12 2022-11-08 东北大学 一种基于点云方法的高铁重轨表面缺陷检测方法
CN110310337B (zh) * 2019-06-24 2022-09-06 西北工业大学 一种基于光场基本矩阵的多视光场成像系统全参数估计方法
CN110322514A (zh) * 2019-06-24 2019-10-11 西北工业大学 一种基于多中心投影模型的光场相机参数估计方法
CN110310337A (zh) * 2019-06-24 2019-10-08 西北工业大学 一种基于光场基本矩阵的多视光场成像系统全参数估计方法
CN110490928A (zh) * 2019-07-05 2019-11-22 天津大学 一种基于深度神经网络的相机姿态估计方法
CN110490928B (zh) * 2019-07-05 2023-08-15 天津大学 一种基于深度神经网络的相机姿态估计方法
CN110880185A (zh) * 2019-11-08 2020-03-13 南京理工大学 基于条纹投影的高精度动态实时360度全方位点云获取方法
CN111127560A (zh) * 2019-11-11 2020-05-08 江苏濠汉信息技术有限公司 一种用于三维重建的三目视觉系统的标定方法及系统
CN111210507A (zh) * 2020-01-06 2020-05-29 合肥工业大学 一种面向多视图三维重建的初始视图选取方法
CN111210507B (zh) * 2020-01-06 2024-03-19 合肥工业大学 一种面向多视图三维重建的初始视图选取方法
CN111598954A (zh) * 2020-04-21 2020-08-28 哈尔滨拓博科技有限公司 一种快速高精度摄像头参数计算方法
CN111739068A (zh) * 2020-05-06 2020-10-02 西安电子科技大学 一种光场相机相对位姿估计方法
CN111739068B (zh) * 2020-05-06 2024-03-01 西安电子科技大学 一种光场相机相对位姿估计方法
CN112509109A (zh) * 2020-12-10 2021-03-16 上海影创信息科技有限公司 一种基于神经网络模型的单视图光照估计方法
CN113096107A (zh) * 2021-04-20 2021-07-09 湖南科技大学 基于傅立叶变换的b样条函数欧拉解概率密度成像方法
CN113658263B (zh) * 2021-06-17 2023-10-31 石家庄铁道大学 基于视觉场景的电磁干扰源可视化标注方法
CN113658263A (zh) * 2021-06-17 2021-11-16 石家庄铁道大学 基于视觉场景的电磁干扰源可视化标注方法
CN115082643A (zh) * 2022-05-23 2022-09-20 苏州大学 应用于纳米线组装的微纳操作视觉引导方法及系统
CN115147619A (zh) * 2022-06-14 2022-10-04 西北工业大学 一种优化图像添加次序的增量式运动恢复结构方法
CN115063485B (zh) * 2022-08-19 2022-11-29 深圳市其域创新科技有限公司 三维重建方法、装置及计算机可读存储介质
CN115063485A (zh) * 2022-08-19 2022-09-16 深圳市其域创新科技有限公司 三维重建方法、装置及计算机可读存储介质
CN115908708B (zh) * 2022-11-16 2023-08-15 南京农业大学 基于Kinect的植物群体全局三维重建方法
CN115908708A (zh) * 2022-11-16 2023-04-04 南京农业大学 基于Kinect的植物群体全局三维重建方法
CN117994358A (zh) * 2024-04-03 2024-05-07 苏州西默医疗科技有限公司 一种精确度高的牙科手术显微镜标定方法

Also Published As

Publication number Publication date
US9686527B2 (en) 2017-06-20
JP6216468B2 (ja) 2017-10-18
JP2017503290A (ja) 2017-01-26
US20170019653A1 (en) 2017-01-19
CN103914874B (zh) 2017-02-01
CN103914874A (zh) 2014-07-09

Similar Documents

Publication Publication Date Title
WO2015154601A1 (zh) 一种基于无特征提取的紧致sfm三维重建方法
Fitzgibbon et al. Automatic 3D model acquisition and generation of new images from video sequences
CN103106688B (zh) 基于双层配准方法的室内三维场景重建方法
Zhou et al. Color map optimization for 3d reconstruction with consumer depth cameras
Bartoli et al. Direct estimation of non-rigid registrations
CN110111250B (zh) 一种鲁棒的自动全景无人机图像拼接方法及装置
CN107845134A (zh) 一种基于彩色深度相机的单个物体的三维重建方法
Quiroga et al. Local/global scene flow estimation
Blumenthal-Barby et al. High-resolution depth for binocular image-based modeling
CN110580715B (zh) 一种基于照度约束和格网变形的图像对齐方法
Concha et al. An evaluation of robust cost functions for RGB direct mapping
CN106595602B (zh) 基于同名直线特征的相对定向方法
Benhimane et al. Integration of Euclidean constraints in template based visual tracking of piecewise-planar scenes
Yuan et al. An Improved Method of 3D Scene Reconstruction Based on SfM
Uzpak et al. Style transfer for keypoint matching under adverse conditions
Baker et al. Lucas-kanade 20 years on: Part 5
Hu et al. Direct optical-flow-aware computational framework for 3D reconstruction
Roxas et al. Real-time variational fisheye stereo without rectification and undistortion
Yang Non-rigid image registration for visible color and thermal ir face
Huang et al. The Research of Image Mosaic Techniques Based on Optimized SIFT Algorithm
Cao et al. Make object connect: A pose estimation network for UAV images of the outdoor scene
Chen et al. Generalized content-preserving warps for image stitching
Heyden et al. Auto-calibration via the absolute quadric and scene constraints
Wang et al. Comparison and analysis of transformation models on UAV image mosaic
Xu et al. SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15776297

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016557182

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15038325

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15776297

Country of ref document: EP

Kind code of ref document: A1