WO2017114507A1

WO2017114507A1 - 基于射线模型三维重构的图像定位方法以及装置

Info

Publication number: WO2017114507A1
Application number: PCT/CN2016/113804
Authority: WO
Inventors: 周杰; 邓磊; 段岳圻
Original assignee: 清华大学
Priority date: 2015-12-31
Filing date: 2016-12-30
Publication date: 2017-07-06
Also published as: US10580204B2; CN105844696A; US20190005718A1; CN105844696B

Abstract

一种基于射线模型三维重构的图像定位方法及装置，其中方法包括：预先采集多个场景的多个图像，并分别对多个图像进行特征提取以得到对应的多个特征点集合（S101）；对多个图像进行两两图像的特征匹配，并根据两两图像的特征匹配生成对应的本征矩阵，并对本征矩阵进行噪声处理（S102）；基于射线模型根据噪声处理后的特征匹配以及本征矩阵进行三维重构以生成三维特征点云以及重构的摄像机位姿集合（S103）；获取查询图像，并对查询图像进行特征提取以得到对应的二维特征点集合（S104）；基于定位姿态图优化框架根据二维特征点集合、三维特征点云以及重构的摄像机位姿集合进行图像定位（S105）。该方法提高重构效果，降低重构过程的采集成本，提高计算速度，并在图像定位过程中，提高图像定位的精度。

Description

基于射线模型三维重构的图像定位方法以及装置

相关申请的交叉引用

本申请要求清华大学于2015年12月31日提交的、发明名称为“基于射线模型三维重构的图像定位方法以及装置”的、中国专利申请号“201511026787.X”的优先权。

技术领域

本发明涉及图像处理及模式识别技术领域，尤其涉及一种基于射线模型三维重构的图像定位方法以及装置。

背景技术

图像定位技术是通过一张或一组图像，计算得到自身的位姿。该项技术可以用于机器人导航、路径规划、数字旅游、虚拟现实等，能够适用于GPS(Global Positioning System，全球定位系统)无法工作的区域，如室内和地下等。相比基于蓝牙、WiFi(Wireless Fidelity，无线保真)的定位技术，图像定位技术不依赖于专业设备，实施成本低。

相关技术中，基于图像定位的方法主要有两类：一类是基于图像检索的方法，此类方法寻找查询图像在数据库中的近邻图像，以其位置作为自身位置；另一类是基于三维重构结合图像-点云(2D-3D)匹配的方法，这类方法首先预先采集大量关于目标场景的平面图像，离线进行三维重构,得到场景的三维特征点云，并当在线定位阶段时，提取查询图像特征，并将其与三维特征点云进行2D-3D匹配，利用匹配结果估计目标摄像机的位姿。

但是存在的问题是：针对上述图像检索方法，由于没有更充分的利用三维信息，只能适用于查询图像与库图像姿态差异较小的情况，其定位精度不优于库图像本身的位置精度和采样间隔；相比图像检索方法，上述第二类方法虽然能够得到精度更高的定位结果，但是，其三维重构算法只能用于平面摄像机，受限于平面摄像机较小的视场，通常需要对同一位置变换多个角度进行拍摄，得到数量较大的平面图像集合进行三维重建，重构代价较高，如采集量大、计算量大等。

发明内容

本发明的目的旨在至少在一定程度上解决上述的技术问题之一。

为此，本发明的第一个目的在于提出一种基于射线模型三维重构的图像定位方法。该方法提高了重构效果，降低了重构过程的采集成本，提高了计算速度，并在图像定位过程中，提高图像定位的精度。

本发明的第二个目的在于提出一种基于射线模型三维重构的图像定位装置。

本发明的第三个目的在于提出一种存储介质。

为了实现上述目的，本发明第一方面实施例的基于射线模型三维重构的图像定位方法，包括以下步骤：预先采集多个场景的多个图像，并分别对所述多个图像进行特征提取以得到对应的多个特征点集合；对所述多个图像进行两两图像的特征匹配，并根据所述两两图像的特征匹配生成对应的本征矩阵，并对所述本征矩阵进行噪声处理；基于射线模型根据噪声处理后的所述特征匹配以及本征矩阵进行三维重构以生成三维特征点云以及重构的摄像机位姿集合；获取查询图像，并对所述查询图像进行特征提取以得到对应的二维特征点集合；以及基于定位姿态图优化框架根据所述二维特征点集合、所述三维特征点云以及重构的摄像机位姿集合进行图像定位。

根据本发明实施例的基于射线模型三维重构的图像定位方法，在基于射线模型的三维重构过程中，通过使用三维射线描述二维像素坐标，射线模型能够无畸变地表达多种摄像机模型(如全景、鱼眼、平面)，即能够适用于多种类型的摄像机，并充分利用其内在的几何性质，使得重构效果更好，且降低了采集成本，提高了计算速度，并且在图像定位过程中，提出的基于姿态图优化的定位框架，融合了图像点云之间的2D-3D特征匹配和近邻摄像机的位姿信息，提高了图像定位的精度。

为了实现上述目的，本发明第二方面实施例的基于射线模型三维重构的图像定位装置，包括：第一获取模块，用于预先采集多个场景的多个图像，并分别对所述多个图像进行特征提取以得到对应的多个特征点；生成模块，用于对所述多个图像进行两两图像的特征匹配，并根据所述两两图像的特征匹配生成对应的本征矩阵，并对所述本征矩阵进行噪声处理；重构模块，用于基于射线模型根据噪声处理后的所述本征矩阵进行三维重构以生成三维特征点云以及重构的摄像机位姿集合；第二获取模块，用于获取查询图像，并对所述查询图像进行特征提取以得到对应的二维特征点集合；以及图像定位模块，用于基于定位姿态图优化框架根据所述二维特征点集合、所述三维特征点云以及重构的摄像机位姿集合进行图像定位。

根据本发明实施例的基于射线模型三维重构的图像定位装置，在基于射线模型的三维重构过程中，通过使用三维射线描述二维像素坐标，射线模型能够无畸变地表达多种摄像机模型(如全景、鱼眼、平面)，即能够适用于多种类型的摄像机，并充分利用其内在的几何性质，使得重构效果更好，且降低了采集成本，提高了计算速度，并且在图像定位过程中，提出的基于姿态图优化的定位框架，融合了图像点云之间的2D-3D特征匹配和近邻摄像机的位姿信息，提高了图像定位的精度。

为了实现上述目的，本发明第三方面实施例的存储介质，用于存储应用程序，所述应用程序用于执行本发明第一方面实施例所述的基于射线模型三维重构的图像定位方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中，

图1是根据本发明一个实施例的基于射线模型三维重构的图像定位方法的流程图；

图2是根据本发明实施例的生成三维特征点云以及重构的摄像机位姿集合的流程图；

图3是根据本发明实施例的图像定位的具体实现过程的流程图；

图4是根据本发明一个实施例的基于射线模型三维重构的图像定位方法的示例图；

图5是根据本发明一个实施例的基于射线模型三维重构的图像定位装置的结构框图；

图6是根据本发明一个实施例的重构模块的结构框图；

图7是根据本发明另一个实施例的重构模块的结构框图；以及

图8是根据本发明一个实施例的图像定位模块的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述根据本发明实施例的基于射线模型三维重构的图像定位方法以及装置。

图1是根据本发明一个实施例的基于射线模型三维重构的图像定位方法的流程图。如图1所示，该基于射线模型三维重构的图像定位方法可以包括：

S101，预先采集多个场景的多个图像，并分别对多个图像进行特征提取以得到对应的多个特征点集合。

其中，在本发明的实施例中，术语“多个”可进行广义理解，即对应足够多的数量。此外，在本发明的实施例中，图像的类型可包括但不限于全景类型、鱼眼类型和平面类型等。

具体地，可预先采集足够的场景图像作为本实施例所提到的图像，并分别对这些图像提取SIFT(Scale-invariant feature transform，尺度不变特征变换)特征，得到每个特征点的位置以及描述子集合，其中该描述子集合用于描述对应的特征点的周围区域信息。

S102，对多个图像进行两两图像的特征匹配，并根据两两图像的特征匹配生成对应的本征矩阵，并对本征矩阵进行噪声处理。

具体而言，在本发明的实施例中，可先根据多个特征点集合对多个图像进行两两匹配，并存储每个图像对的特征点匹配情况。之后，可基于匹配上的特征点集合估计本征矩阵。

更具体地，可根据特征点的描述子集合对所有图像进行两两匹配，并储存每个图像对的特征点匹配情况，然后，可基于匹配上的特征点估计本征矩阵，并同时对该本征矩阵进行过滤噪声。可以理解，在本发明的实施例中，若将上述两两匹配的特征点组织起来，则可形成多条轨迹，其中，每条轨迹对应于将被重构的一个3D(三维)点。

S103，基于射线模型根据噪声处理后的特征匹配以及本征矩阵进行三维重构以生成三维特征点云以及重构的摄像机位姿集合。

可以理解，相较于传统的基于像素的平面模型，本发明通过射线模型能够适应不同的摄像机类型(如全景类型、鱼眼类型、平面类型等)，并将其统一起来。

具体地，可先构建姿态图，其中，该姿态图可包含摄像机借点、三维(3D)点节点、摄像机-摄像机连接边、摄像机-3D点连接边等，这些可共同用于描述摄像机集合与3D点集合之间的可视性关系。之后，可基于射线模型的增量式重构，即：可先选择相对姿态估计质量较高的一对摄像机作为初始种子，利用基于射线模型的三角测量(triangulation)寻找新的样本3D点，之后可利用新的样本3D点基于射线模型寻找更多的摄像机，不断迭代并去噪优化，直至寻找不到更多的摄像机或者3D点。

具体而言，在本发明的一个实施例中，如图2所示，基于射线模型根据噪声处理后的特征匹配以及本征矩阵进行三维重构以生成三维特征点云以及摄像机位姿集合的具体实现过程可包括以下步骤：

S201，对噪声处理后的本征矩阵进行分解以得到对应的多个摄像机之间的相对姿态。

S202，根据多个摄像机之间的相对姿态和多个特征点构建对应的姿态图。

具体地，可通过预设的姿态图创建公式根据多个摄像机之间的相对姿态和多个特征点构建对应的姿态图。其中，在本发明的实施例中，预设的姿态图创建公式可为：

G＝(NP,NX,EP,EX) (1)

其中，NP为摄像机节点，NX为特征点(即样本3D点)节点，EP为摄像机-摄像机连接边，边上附有摄像机i和k之间的相对位置姿态属性，该属性可包括相对旋转R_ik和相对平移方向C_ik，即EP_relpose(i,k)＝(R_ik,C_ik)；EX为摄像机-特征点连接边，该边上附有该摄像机观测到的特征点坐标EX_ox＝x_ij；根据该姿态图可以定义可视性函数visX(X_j,P_s)和visP(P_i,X_s)，其中visX(X_j,P_s)＝{i:(i,j)∈EX,i∈P_s}意为给定特征点X_j和摄像机集合P_s的条件下，返回P_s中观测到X_j的摄像机集合；visP(P_i,X_s)＝{j:(i,j)∈EX,j∈X_s}意为给定特征点集合X_s和摄像机P_i的条件下，返回X_s中被P_i观测到的特征点集合。

S203，分别获取多个摄像机的模型，并分别根据多个摄像机的模型定义对应的射线模型。

具体地，可先获取摄像机的模型，如全景模型、鱼眼模型、平面模型等，之后可根据不同的摄像机的模型分别定义对应的射线模型。需要说明的是，射线模型是基于每条射线r可以用原点和单位球上的另一个点x(x,y,z),x²+y²+z²＝1所定义的，该射线与图像坐标u(u,v)通过映射函数一一对应；映射函数k可定义为x＝k(u,K),u＝k^-1(x,K)，其中K为摄像机的内参；对于不同的摄像机模型，其映射函数各自不同，其中，对于全景摄像机、鱼眼摄像机、平面摄像机所对应的映射函数可分别由如下式(2)-(4)描述：

k(u,(f,u_c))＝(cos(t)sin(p),-sin(t),cos(t)cos(p))

φ＝arctan2(v₁,u₁)

k(u,(f,u_c))＝(cos(φ)sin(θ),-cos(θ),sin(φ)sin(θ))

k(u,(f,u_c))＝(cos(t)sin(p),-sin(t),cos(t)cos(p))

其中，式(2)-(4)中u_c为摄像机主点坐标，f为焦距，特别的对于全景摄像机

p为绕y轴的旋转角度，t为绕x轴的俯仰角度，u₁、v₁、φ、θ、r均为临时变量。

S204，基于对应的射线模型对姿态图进行增量式重构以生成三维特征点云以及重构的摄像机位姿集合。

具体地，可先选择多个摄像机之间的相对姿态估计质量较高的一对摄像机作为初始种子，之后可利用基于对应的射线模型的三角测量(triangulation)寻找新的3D点，而后利用新的3D点基于该射线模型寻找更多的摄像机，不断迭代，直至寻找不到更多的摄像机或者3D点；其中，在该过程可不断实施非线性优化，以用于减小三维重构的误差；同时使用质量评价函数剔除质量不高的摄像机和3D点。需要说明的是，在该过程中的距离度量、三角测量、摄像机姿态估计、非线性优化、质量评价函数等模块都是针对射线模型所改进的，相比传统的仅适用平面图像的重构算法，具有更广泛的普适性。

由此，在基于射线模型的三维重构算法中，通过使用三维射线描述二维像素坐标，射线模型能够无畸变地表达多种摄像机模型(如全景、鱼眼、平面等)，即适用于多种类型的摄像机，扩大了适用范围。

进一步地，在本发明的一个实施例中，在生成三维特征点云以及重构的摄像机位姿集合之后，该图像定位方法还可包括：建立三维特征点云中每个三维特征点云的索引树，并针对重构的摄像机位姿集合中多个摄像头建立空间位置的索引树。具体地，在三维重构完成之后，可建立点云特征与摄像机位置索引树，其中可以理解，三维特征点云中的每个点都附带若干特征，这些特征来自于观测到该点的图像；在后续在线定位阶段中，需要建立查询图像的特征与该特征点云的匹配，以实现图像定位；为了加速匹配过程，本发明对特征点云建立Kd-tree索引树，以加快检索速度；此外，由于在线定位阶段需要检索查询图像的空间近邻，所以本发明又对重构出的摄像机建立空间位置的Kd-tree索引树。

需要说明的是，在本发明的实施例中，上述步骤S101-S103均可为离线分析。也就是说，通过上述步骤S101-S103可以预先建立图像库，并根据该图像库预先生成对应的三维特征点云以及重构的摄像机位姿集合，并存储，以供后续在线图像定位阶段的使用。

S104，获取查询图像，并对查询图像进行特征提取以得到对应的二维特征点集合。

具体地，可对获取到的查询图像提取特征，得到该查询图像的二维特征点集合。需要说明的是，每一个二维特征点对应一个特征描述子，而3D特征点云中每个3D点对应多个特征描述子，这些描述子可由三维重构阶段多张图像所贡献。

S105，基于定位姿态图优化框架根据二维特征点集合、三维特征点云以及重构的摄像机位姿集合进行图像定位。

具体地，可将查询图像的特征与离线部分生成的3D点云的特征进行匹配(即2D-3D匹配)，依据足够数量的有效匹配，利用摄像机姿态估计算法估计查询图像的初始位姿，之后，可根据该初始位姿查询近邻库摄像机(即近邻图像)，并融合2D-3D匹配和与近邻图像之间的相对姿态建立定位姿态图优化框架并进行优化以得到更高精度的定位结果。

具体而言，在本发明的一个实施例中，如图3所示，基于定位姿态图优化框架根据二维特征点集合、三维特征点云以及重构的摄像机位姿集合进行图像定位的具体实现过程可包括以下步骤：

S301，根据多个三维特征点云的索引树将二维特征点集合与三维特征点云进行有效匹配以得到双向2D-3D匹配集合。

具体地，可先对某一个二维特征点F_i ^2D在3D点云特征集合F^3D中进行k近邻查询(如k＝5)，如果k近邻中来自不同3D点的最近邻与次近邻的比值小于某一阈值th_match，则认为二维特征点与最近邻3D点之间构建了一个2D至3D的单向有效匹配，F^2D中所有此类匹配构成了一个2D至3D的单向有效匹配集合M^2D→3D(F^2D,F^3D)；其次对M^2D→3D(F^2D,F^3D)中的每个3D点，反向在查询图像的特征集合F^2D中查询近邻和次近邻.若最近邻与次近邻的比值小于阈值th_match，则认为得到了一个有效的3D至2D的单向匹配，这些匹配构成3D至2D的单项匹配集合M^2D←3D(F^2D,F^3D)；这两单向匹配集合M^2D→3D(F^2D,F^3D)和M^2D←3D(F^2D,F^3D)的交集即为双向2D-3D匹配集合M^2D-3D(F^2D,F^3D)。

S302，通过摄像机姿态估计算法对双向2D-3D匹配集合进行估计以生成查询图像的初始位姿。

具体地，基于双向2D-3D匹配集合M^2D-3D(F^2D,F^3D)通过摄像机姿态估计算法剔除不满足摄像机几何约束的2D-3D匹配，得到内点集合I^2D-3D，并估计出查询图像的初始位姿P_q ^2D-3D＝R_q ^2D-3D[I|-C_q ^2D-3D]，其中，P_q ^2D-3D为查询摄像机的摄像机矩阵，由旋转矩阵R和该摄像机矩阵的光心位置C构成。

S303，根据查询图像的初始位姿以及空间位置的索引树在重构的摄像机位姿集合中进行查询以得到近邻图像。

具体地，可先从查询图像的初始位姿中得到查询图像q的初始空间位置C_q ^2D-3D，之后可根据该查询图像的初始空间位置以及空间位置的索引树，在3D特征点云对应的重构的摄像机位姿集合中查询以得到k近邻{P_i,i＝1,...,k}，即近邻图像。

S304，将查询图像与近邻图像进行特征匹配以得到对应的多个有效匹配集合。

具体地，可将查询图像与近邻图像进行2D-2D的特征匹配得到两个图像之间的多个有效匹配集合。

S305，根据多个有效匹配集合生成近邻图像之间的相对姿态。

具体地，基于该有效匹配集合估计本征矩阵，并同时得到内点匹配，当匹配数量少于某一阈值时，可认为该本征矩阵噪声较大，移除该近邻图像，并分解该本征矩阵以得到与近邻图像间的相对姿态R_iq,C_iq，其中相对姿态中的平移C_iq只能提供方向，不能提供大小。

S306，融合双向2D-3D匹配集合和近邻图像之间的相对姿态建立定位姿态图优化框架。

具体地，可定义关于查询图像q的姿态图G_q＝(NP,NX,EP,EX)，其中,NP为摄像机节点，包含查询图像的摄像机P_q和其近邻图像的摄像机{P_i,i＝1,...,k}，NX为3D点节点，对应于2D-3D匹配得到的中的3D点；EP为查询图像的摄像机P_q与近邻图像的摄像机{P_i,i＝1,...,k}的连接边，边上附有i和q之间的相对位置姿态，包括相对旋转R_iq和相对平移方向C_iq，即EP_rel-pose(i,q)＝(R_iq,C_iq)；EX为查询图像的摄像机P_q与3D点X_j的连接边，边上附有查询图像的摄像机P_q观测到的特征点射线坐标EX_ox＝x_qj。

之后，对反投影误差及相对姿态误差之和进行优化，基于该查询图像构建目标函数(即上述的定位姿态图优化框架)如下：

其中，P_q＝R_q[I|-C_q]为待优化的查询图像的摄像机矩阵，R_q,C_q为该摄像机在世界坐标系下的旋转和平移；{(x_qj,X_j),j＝1,...n}为输入的双向2D-3D匹配集合；{(P_i,R_iq,C_iq),i＝1,...m}为查询图像的近邻图像以及相应的相对姿态集合；λ为两类代价的平衡因子；d_rel()为相对姿态边上的代价函数，其定义如下：

其中，相对姿态的代价函数包含两项，分别为旋转的代价和平移方向的代价，二者相互独立；旋转的代价定义为R_i,R_q的相对欧拉角，

平移方向的代价为观测出的平移方向R_i,C_iq与待优化的平移方向

之间的弦距离。

S307，根据定位姿态图优化框架对查询图像的初始位姿进行优化以实现图像定位。

具体地，采用2D-3D的定位结果(即上述的查询图像的初始位姿)P_q ^2D-3D作为初值，根据定位姿态图优化框架通过Levenberg-Marquardt算法对该查询图像的初始位姿P_q ^2D-3D进行优化以得到更高精度的定位结果。

由此，相比传统仅使用2D-3D匹配信息的定位方法，本发明通过使用图优化的方法融合了2D-3D的匹配信息和图像间的相对姿态信息，提高了最终定位结果的精确性。

需要说明的是，上述步骤S104-S105为在线计算，即接收查询图像，然后根据该查询图像查询预先生成的三维特征点云以及重构的摄像机位姿集合，以实现图像定位。

下面将结合图4对本发明实施例的基于射线模型三维重构的图像定位方法进行描述。

举例而言，如图4所示，可预先进行离线重构，以得到三维特征点云以及重构的摄像机位姿集合，即可先离线采集足够场景的图像，并提取图像特征并对图像进行两两匹配，之后，可构建姿态图，并基于射线模型的增量式进行三维重构，以得到三维特征点云以及重构的摄像机位姿集合，并建立三维特征点云的索引树以及摄像头的空间位置索引树。当获取到查询图像时，可进行在线定位，即可先对获取到的查询图像提取特征，并将提取到的特征与三维特征点云进行2D-3D的有效匹配以得到双向2D-3D匹配集合，之后通过摄像机姿态估计算法对该双向2D-3D匹配集合进行估计以生成查询图像的初始位姿，并检索近邻摄像机并计算相对位姿，最后，通过建立定位姿态图融合二者信息得到更高精度的定位结果，即目标摄像机位置与姿态。

为了实现上述实施例，本发明还提出了一种基于射线模型三维重构的图像定位装置。

图5是根据本发明一个实施例的基于射线模型三维重构的图像定位装置的结构框图。如图5所示，该基于射线模型三维重构的图像定位装置可以包括：第一获取模块100、生成模块200、重构模块300、第二获取模块400和图像定位模块500。

具体地，第一获取模块100可用于预先采集多个场景的多个图像，并分别对多个图像进行特征提取以得到对应的多个特征点集合。其中，在本发明的实施例中，术语“多个”可进行广义理解，即对应足够多的数量。此外，在本发明的实施例中，图像的类型可包括但不限于全景类型、鱼眼类型和平面类型等。

更具体地，第一获取模块100可预先采集足够的场景图像作为本实施例提到的图像，并分别对这些图像提取SIFT(Scale-invariant feature transform，尺度不变特征变换)特征，得到每个特征点的位置以及描述子集合，其中该描述子集合用于描述对应的特征点的周围区域信息。

生成模块200可用于对多个图像进行两两图像的特征匹配，并根据两两图像的特征匹配生成对应的本征矩阵，并对本征矩阵进行噪声处理。具体而言，在本发明的实施例中，生成模块200可先根据多个特征点集合对多个图像进行两两匹配，并存储每个图像对的特征点匹配情况，之后，可基于匹配上的特征点集合估计本征矩阵。

更具体地，生成模块200可根据特征点的描述子集合对所有图像进行两两匹配，并储存每个图像对的特征点匹配情况，然后，可基于匹配上的特征点估计本征矩阵，并同时对该本征矩阵进行过滤噪声。可以理解，在本发明的实施例中，若将上述两两匹配的特征点组织起来，则可形成多条轨迹，其中，每条轨迹对应于将被重构的一个3D(三维)点。

重构模块300可用于基于射线模型根据噪声处理后的本征矩阵进行三维重构以生成三维特征点云以及重构的摄像机位姿集合。可以理解，相较于传统的基于像素的平面模型，本发明通过射线模型能够适应不同的摄像机类型(如全景类型、鱼眼类型、平面类型等)，并将其统一起来。

更具体地，重构模块300可先构建姿态图，其中，该姿态图可包含摄像机借点、三维(3D)点节点、摄像机-摄像机连接边、摄像机-3D点连接边等，这些可共同用于描述摄像机集合与3D点集合之间的可视性关系，之后，可基于射线模型的增量式重构，即：可先选择相对姿态估计质量较高的一对摄像机作为初始种子，利用基于射线模型的三角测量(triangulation)寻找新的3D点，之后可利用新的3D点基于射线模型寻找更多的摄像机，不断迭代并去噪优化，直至寻找不到更多的摄像机或者3D点。

具体而言，在本发明的实施例中，如图6所示，该重构模块300可包括：分解单元310、构建单元320、定义单元330和重构单元340。更具体地，分解单元310可用于对噪声处理后的本征矩阵进行分解以得到对应的多个摄像机之间的相对姿态。

构建单元320可用于根据多个摄像机之间的相对姿态和多个特征点构建对应的姿态图。更具体地，可通过预设的姿态图创建公式根据多个摄像机之间的相对姿态和多个特征点构建对应的姿态图。其中，在本发明的实施例中，预设的姿态图创建公式可为上述式(1)。

定义单元330可用于分别获取多个摄像机的模型，并分别根据多个摄像机的模型定义对应的射线模型。更具体地，定义单元330可先获取摄像机的模型，如全景模型、鱼眼模型、平面模型等，之后可根据不同的摄像机的模型分别定义对应的射线模型。需要说明的是，射线模型是基于每条射线r可以用原点和单位球上的另一个点x(x,y,z),x²+y²+z²＝1所定义的，该射线与图像坐标u(u,v)通过映射函数一一对应；映射函数k可定义为x＝k(u,K),u＝k^-1(x,K)，其中K为摄像机的内参；对于不同的摄像机模型，其映射函数各自不同，其中，对于全景摄像机、鱼眼摄像机、平面摄像机所对应的映射函数可分别由上述式(2)-(4)描述。

重构单元340可用于基于对应的射线模型对姿态图进行增量式重构以生成三维特征点云以及重构的摄像机位姿集合。更具体地，重构单元340可先选择多个摄像机之间的相对姿态估计质量较高的一对摄像机作为初始种子，之后可利用基于对应的射线模型的三角测量(triangulation)寻找新的3D点，而后利用新的3D点基于该射线模型寻找更多的摄像机，不断迭代，直至寻找不到更多的摄像机或者3D点；其中，在该过程可不断实施非线性优化，以用于减小三维重构的误差；同时使用质量评价函数剔除质量不高的摄像机和3D点。需要说明的是，在该过程中的距离度量、三角测量、摄像机姿态估计、非线性优化、质量评价函数等模块都是针对射线模型所改进的，相比传统的仅适用平面图像的重构算法，具有更广泛的普适性。

进一步地，在本发明的一个实施例中，如图7所示，该重构模块300还可包括：建立单元350，建立单元350可用于在重构单元340生成三维特征点云以及重构的摄像机位姿集合之后，建立三维特征点云中每个三维特征点云的索引树，并针对重构的摄像机位姿集合中多个摄像头建立空间位置的索引树。具体地，建立单元350在重构单元340三维重构完成之后，可建立点云特征与摄像机位置索引树，其中可以理解，三维特征点云中的每个点都附带若干特征，这些特征来自于观测到该点的图像；在后续在线定位阶段中，需要建立查询图像的特征与该特征点云的匹配，以实现图像定位；为了加速匹配过程，本发明对特征点云建立Kd-tree索引树，以加快检索速度；此外，由于在线定位阶段需要检索查询图像的空间近邻，所以本发明又对重构出的摄像机建立空间位置的Kd-tree索引树。

第二获取模块400可用于获取查询图像，并对查询图像进行特征提取以得到对应的二维特征点集合。更具体地，第二获取模块400可对获取到的查询图像提取特征，得到该查询图像的二维特征点集合。需要说明的是，每一个二维特征点对应一个特征描述子，而3D 特征点云中每个3D点对应多个特征描述子，这些描述子可由三维重构阶段多张图像所贡献。

图像定位模块500可用于基于定位姿态图优化框架根据二维特征点集合、三维特征点云以及重构的摄像机位姿集合进行图像定位。更具体地，图像定位模块500可将查询图像的特征与离线部分生成的3D点云的特征进行匹配(即2D-3D匹配)，依据足够数量的有效匹配，利用摄像机姿态估计算法估计查询图像的初始位姿，之后，可根据该初始位姿查询近邻库摄像机(即近邻图像)，并融合2D-3D匹配和与近邻图像之间的相对姿态建立定位姿态图优化框架并进行优化以得到更高精度的定位结果。

具体而言，在本发明的实施例中，如图8所示，该图像定位模块500可包括：第一匹配单元510、第一生成单元520、查询单元530、第二匹配单元540、第二生成单元550、建立单元560和图像定位单元570。

具体地，第一匹配单元510可用于根据多个三维特征点云的索引树将二维特征点集合与三维特征点云进行有效匹配以得到双向2D-3D匹配集合。

更具体地，第一匹配单元510可先对某一个二维特征点F_i ^2D在3D点云特征集合F^3D中进行k近邻查询(如k＝5)，如果k近邻中来自不同3D点的最近邻与次近邻的比值小于某一阈值th_match，则认为二维特征点与最近邻3D点之间构建了一个2D至3D的单向有效匹配，F^2D中所有此类匹配构成了一个2D至3D的单向有效匹配集合M^2D→3D(F^2D,F^3D)；其次对M^2D→3D(F^2D,F^3D)中的每个3D点，反向在查询图像的特征集合F^2D中查询近邻和次近邻.若最近邻与次近邻的比值小于阈值th_match，则认为得到了一个有效的3D至2D的单向匹配，这些匹配构成3D至2D的单项匹配集合M^2D←3D(F^2D,F^3D)；这两单向匹配集合M^2D→3D(F^2D,F^3D)和M^2D←3D(F^2D,F^3D)的交集即为双向2D-3D匹配集合M^2D-3D(F^2D,F^3D)。

第一生成单元520可用于通过摄像机姿态估计算法对双向2D-3D匹配集合进行估计以生成查询图像的初始位姿。更具体地，第一生成单元520可基于双向2D-3D匹配集合M^2D-3D(F^2D,F^3D)通过摄像机姿态估计算法剔除不满足摄像机几何约束的2D-3D匹配，得到内点集合I^2D-3D，并估计出查询图像的初始位姿P_q ^2D-3D＝R_q ^2D-3D[I|-C_q ^2D-3D]，其中，P_q ^2D-3D为查询摄像机的摄像机矩阵，由旋转矩阵R和该摄像机矩阵的光心位置C构成。

查询单元530可用于根据查询图像的初始位姿以及空间位置的索引树在重构的摄像机位姿集合中进行查询以得到近邻图像。更具体地，查询单元530可先从查询图像的初始位姿中得到查询图像q的初始空间位置C_q ^2D-3D，之后可根据该查询图像的初始空间位置以及空间位置的索引树，在3D特征点云对应的重构的摄像机位姿集合中查询以得到k近邻{P_i,i＝1,...,k}，即近邻图像。

第二匹配单元540可用于将查询图像与近邻图像进行特征匹配以得到对应的多个有效匹配集合。更具体地，第二匹配单元540可将查询图像与近邻图像进行2D-2D的特征匹配得到两个图像之间的多个有效匹配集合。

第二生成单元550可用于根据多个有效匹配集合生成近邻图像之间的相对姿态。更具体地，第二生成单元550可基于该有效匹配集合估计本征矩阵，并同时得到内点匹配，当匹配数量少于某一阈值时，可认为该本征矩阵噪声较大，移除该近邻图像，并分解该本征矩阵以得到与近邻图像间的相对姿态R_iq,C_iq，其中相对姿态中的平移C_iq只能提供方向，不能提供大小。

建立单元560可用于融合双向2D-3D匹配集合和近邻图像之间的相对姿态建立定位姿态图优化框架。更具体地，建立单元560可定义关于查询图像q的姿态图G_q＝(NP,NX,EP,EX)，其中,NP为摄像机节点，包含查询图像的摄像机P_q和其近邻图像的摄像机{P_i,i＝1,...,k}，NX为3D点节点，对应于2D-3D匹配得到的中的3D点；EP为查询图像的摄像机P_q与近邻图像的摄像机{P_i,i＝1,...,k}的连接边，边上附有i和q之间的相对位置姿态，包括相对旋转R_iq和相对平移方向C_iq，即EP_rel-pose(i,q)＝(R_iq,C_iq)；EX为查询图像的摄像机P_q与3D点X_j的连接边，边上附有查询图像的摄像机P_q观测到的特征点射线坐标EX_ox＝x_qj，之后，对反投影误差及相对姿态误差之和进行优化，基于该查询图像构建目标函数(即上述的定位姿态图优化框架)如上述式(5)。

图像定位单元570可用于根据定位姿态图优化框架对查询图像的初始位姿进行优化以实现图像定位。更具体地，图像定位单元570可采用2D-3D的定位结果(即上述的查询图像的初始位姿)P_q ^2D-3D作为初值，根据定位姿态图优化框架通过Levenberg-Marquardt算法对该查询图像的初始位姿P_q ^2D-3D进行优化以得到更高精度的定位结果。

为了实现上述实施例，本发明还提出了一种存储介质，用于存储应用程序，该应用程序用于执行本发明上述任一个实施例所述的基于射线模型三维重构的图像定位方法。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

一种基于射线模型三维重构的图像定位方法，其特征在于，包括以下步骤：

预先采集多个场景的多个图像，并分别对所述多个图像进行特征提取以得到对应的多个特征点集合；

对所述多个图像进行两两图像的特征匹配，并根据所述两两图像的特征匹配生成对应的本征矩阵，并对所述本征矩阵进行噪声处理；

基于射线模型根据噪声处理后的所述特征匹配以及本征矩阵进行三维重构以生成三维特征点云以及重构的摄像机位姿集合；

获取查询图像，并对所述查询图像进行特征提取以得到对应的二维特征点集合；以及

基于定位姿态图优化框架根据所述二维特征点集合、所述三维特征点云以及重构的摄像机位姿集合进行图像定位。
如权利要求1所述的基于射线模型三维重构的图像定位方法，其特征在于，所述对所述多个图像进行两两图像的特征匹配，并根据所述两两图像的特征匹配生成对应的本征矩阵，具体包括：

根据所述多个特征点集合对所述多个图像进行两两匹配，并存储每个图像对的特征点匹配情况；以及

基于匹配上的特征点集合估计本征矩阵。
如权利要求1或2所述的基于射线模型三维重构的图像定位方法，其特征在于，基于射线模型根据噪声处理后的所述特征匹配以及本征矩阵进行三位重构以生成样本三维特征点云以及重构的摄像机位姿集合，具体包括：

对所述噪声处理后的本征矩阵进行分解以得到对应的多个摄像机之间的相对姿态；

根据所述多个摄像机之间的相对姿态和多个特征点构建对应的姿态图；

分别获取所述多个摄像机的模型，并分别根据所述多个摄像机的模型定义对应的射线模型；

基于所述对应的射线模型对所述姿态图进行增量式重构以生成三维特征点云以及重构的摄像机位姿集合。
如权利要求3所述的基于射线模型三维重构的图像定位方法，其特征在于，在生成三维特征点云以及重构的摄像机位姿集合之后，所述方法还包括：

建立所述三维特征点云中多个三维特征点云的索引树，并针对所述重构的摄像机位姿集合中多个摄像头建立空间位置的索引树。
如权利要求4所述的基于射线模型三维重构的图像定位方法，其特征在于，基于定位姿态图优化框架根据所述二维特征点集合、所述三维特征点云以及重构的摄像机位姿集合进行图像定位，具体包括：

根据所述多个三维特征点云的索引树将所述二维特征点集合与所述三维特征点云进行有效匹配以得到双向2D-3D匹配集合；

通过摄像机姿态估计算法对所述双向2D-3D匹配集合进行估计以生成所述查询图像的初始位姿；

根据所述查询图像的初始位姿以及所述空间位置的索引树在所述重构的摄像机位姿集合中进行查询以得到近邻图像；

将所述查询图像与所述近邻图像进行特征匹配以得到对应的多个有效匹配集合；

根据所述多个有效匹配集合生成所述近邻图像之间的相对姿态；

融合所述双向2D-3D匹配集合和所述近邻图像之间的相对姿态建立所述定位姿态图优化框架；以及

根据所述定位姿态图优化框架对所述查询图像的初始位姿进行优化以实现图像定位。
一种基于射线模型三维重构的图像定位装置，其特征在于，包括：

第一获取模块，用于预先采集多个场景的多个图像，并分别对所述多个图像进行特征提取以得到对应的多个特征点集合；

生成模块，用于对所述多个图像进行两两图像的特征匹配，并根据所述两两图像的特征匹配生成对应的本征矩阵，并对所述本征矩阵进行噪声处理；

重构模块，用于基于射线模型根据噪声处理后的所述本征矩阵进行三维重构以生成三维特征点云以及重构的摄像机位姿集合；

第二获取模块，用于获取查询图像，并对所述查询图像进行特征提取以得到对应的二维特征点集合；以及

图像定位模块，用于基于定位姿态图优化框架根据所述二维特征点集合、所述三维特征点云以及重构的摄像机位姿集合进行图像定位。
如权利要求6所述的基于射线模型三维重构的图像定位装置，其特征在于，所述生成模块具体用于：

根据所述多个特征点集合对所述多个图像进行两两匹配，并存储每个图像对的特征点匹配情况；以及

基于匹配上的特征点集合估计本征矩阵。
如权利要求6或7所述的基于射线模型三维重构的图像定位装置，其特征在于，所述重构模块包括：

分解单元，用于对所述噪声处理后的本征矩阵进行分解以得到对应的多个摄像机之间的相对姿态；

构建单元，用于根据所述多个摄像机之间的相对姿态和多个特征点构建对应的姿态图；

定义单元，用于分别获取所述多个摄像机的模型，并分别根据所述多个摄像机的模型定义对应的射线模型；

重构单元，用于基于所述对应的射线模型对所述姿态图进行增量式重构以生成三维特征点云以及重构的摄像机位姿集合。
如权利要求8所述的基于射线模型三维重构的图像定位装置，其特征在于，还包括：

建立单元，用于在所述重构单元生成三维特征点云以及重构的摄像机位姿集合之后，建立所述三维特征点云中多个三维特征点云的索引树，并针对所述重构的摄像机位姿集合中多个摄像头建立空间位置的索引树。
如权利要求9所述的基于射线模型三维重构的图像定位装置，其特征在于，所述图像定位模块包括：

第一匹配单元，用于根据所述多个三维特征点云的索引树将所述二维特征点集合与所述三维特征点云进行有效匹配以得到双向2D-3D匹配集合；

第一生成单元，用于通过摄像机姿态估计算法对所述双向2D-3D匹配集合进行估计以生成所述查询图像的初始位姿；

查询单元，用于根据所述查询图像的初始位姿以及所述空间位置的索引树在所述重构的摄像机位姿集合中进行查询以得到近邻图像；

第二匹配单元，用于将所述查询图像与所述近邻图像进行特征匹配以得到对应的多个有效匹配集合；

第二生成单元，用于根据所述多个有效匹配集合生成所述近邻图像之间的相对姿态；

建立单元，用于融合所述双向2D-3D匹配集合和所述近邻图像之间的相对姿态建立所述定位姿态图优化框架；以及

图像定位单元，用于根据所述定位姿态图优化框架对所述查询图像的初始位姿进行优化以实现图像定位。
一种存储介质，其特征在于，用于存储应用程序，所述应用程序用于执行权利要求1至5中任一项所述的基于射线模型三维重构的图像定位方法。