WO2020181509A1

WO2020181509A1 - 一种影像处理方法、装置及系统

Info

Publication number: WO2020181509A1
Application number: PCT/CN2019/077898
Authority: WO
Inventors: 邓凯强; 梁家斌; 宋孟肖
Original assignee: 深圳市大疆创新科技有限公司
Priority date: 2019-03-12
Filing date: 2019-03-12
Publication date: 2020-09-17
Also published as: CN111247563A

Abstract

本发明实施例提供一种影像处理方法，包括根据多个影像的特征点之间的对应关系，确定每个影像的每个特征点的顶点度数，所述顶点度数用于指示所述特征点对应的空间三维点在所述多个影像中被提取为特征点的次数；对所述每个影像进行格网划分，获得所述每个影像的格网数；根据所述每个影像的格网数和所述每个影像的每个特征点的顶点度数，从所述多个影像的特征点中确定目标特征点集合。采用本发明实施例提供的方法，可以减少参与SFM算法的特征点数量，从而降低SFM算法的运算规模，提高运行效率。

Description

一种影像处理方法、装置及系统

技术领域

本发明涉及图像处理领域，尤其涉及一种影像处理方法、装置及系统。

背景技术

由于无人机具有数据采集灵活、时效性强等特点，基于无人机影像序列的三维重建方法可以代替传统的机载测量、地面测量等时效性低的三维空间信息获取方式。基于无人机影像进行三维重建可以采用运动结构恢复(Structure from Motion,SFM)方法。该方法可以对影像中的特征点进行检测和匹配，以重建三维空间信息。然而，目前三维重建过程中具有内存占用大、运行效率低等问题。

发明内容

本发明实施例提供一种影像处理方法，可以降低内存占用率，并提高运行效率。

一方面，本发明实施例提供一种影像处理方法，包括：

根据多个影像的特征点之间的对应关系，确定每个影像的每个特征点的顶点度数，所述顶点度数用于指示所述特征点对应的空间三维点在所述多个影像中被提取为特征点的次数；

对所述每个影像进行格网划分，获得所述每个影像的格网数；

根据所述每个影像的格网数和所述每个影像的每个特征点的顶点度数，从所述多个影像的特征点中确定目标特征点集合。

另一方面，本发明实施例提供一种影像处理装置，包括存储器和处理器；

所述存储器用于存储程序代码；

所述处理器，调用所述程序代码，当程序代码被执行时，用于执行以下操作：

另一方面，本发明实施例提供一种影像处理系统，包括：

可移动平台，用于通过拍摄相机获取多个影像；

影像处理设备，用于基于上述多个影像执行如下操作：

本发明实施例中，根据多个影像的特征点之间的对应关系，确定每个影像的每个特征点的顶点度数；对所述每个影像进行格网划分，获得所述每个影像的格网数；根据所述每个影像的格网数和所述每个影像的每个特征点的顶点度数，确定目标特征点集合。实施本发明实施例，可以减少参与SFM算法的特征点数量，从而降低SFM算法的运算规模，提高运行效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种影像处理系统的结构示意图；

图2是本发明实施例提供的一种影像处理方法的流程图；

图3是本发明实施例提供的一种多个影像的特征点之间对应关系的示意图；

图4是本发明实施例提供的一种确定目标特征点集合的方法的流程图；

图5是本发明实施例提供的另一种确定目标特征点集合的方法的流程图；

图6是本发明实施例提供的另一种确定目标特征点集合的方法的流程图；

图7是本发明实施例提供的另一种影像处理方法的流程图；

图8是本发明实施例提供的一种影像处理装置的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

为了解决现有技术中SFM算法提取的特征点数量大，算法运行效率低的问题，本发明实施例提出一种影像处理方法，可以应用于一种影像处理系统中，能够根据每个影像的格网数和每个影像的每个特征点的顶点度数，确定目标特征点集合。也就是说，本发明实施例所述的影像处理方法能够减少特征点数，从而减少SFM的内存占用，提高SFM的运行效率。以下结合附图对本发明实施例的相关内容进行阐述。

以下结合上述所示的影像处理系统，对本发明实施例所述的影像处理方法进行相对详细的阐述。

请参见图1，图1是本发明实施例提供的一种影像处理系统的结构示意图，所述系统包括影像处理设备11和可移动平台12；其中，可移动平台12可以包括但不限于无人机、无人车和移动机器人等，可移动平台上可以挂载拍摄相机13以拍摄影像，图1以无人机为例。可移动平台12可通过拍摄相机13获取多个影像，并将获取的多个影像由影像处理设备11进行处理，以重建三维空间信息。

重建三维空间信息可以采用运动结构恢复(Structure from Motion,SFM)算法。SFM算法的原理为利用多个影像的特征点以及多个影像的特征点之间的对应关系，估计拍摄相机的位置和姿态以及三维空间信息，如图2，SFM算法的主要步骤包括：

S201、获取多个影像的特征点以及多个影像的特征点之间的对应关系；

S202、根据多个影像的特征点以及多个影像的特征点之间的对应关系，估计拍摄相机的位置和姿态以及三维空间信息；

S203、采用光束法平差优化拍摄相机的位置和姿态以及三维空间信息。

其中，光束法平差为SFM的核心，光束法平差实质是一个非线性最小二乘优化问题，通过对拍摄相机的初始位置和初始姿态以及特征点对应的三维点进行最优拟合，以优化三维空间信息以及相机的位置和姿态，以便更接近于真实的三维空间信息。

可以理解的是，特征点为影像中具有鲜明特性、能够有效反映影像本质特征并且能够标识影像中目标物体的点。影像中的特征点可以通过不同的特征点检测方法获取，常见的特征点检测方法有加速分割测试获取特征(Features from Accelerated Segment Test，FAST)，尺度不变特征转换(Scale Invariant Feature Transform，SIFT)，加速稳健特征(Speeded Up Robust Feature，SURF)等。

多个影像的特征点之间可以存在一种对应关系，如图3所示，其中，影像1和影像2从不同角度拍摄了三维点X；影像1的特征点x ₁为该三维点X在影像1中的成像，影像2中的特征点x ₂为该三维点X在影像2中的成像，则x ₁和x ₂之间具有一定的对应关系。相应地，若有多张影像同时拍摄到了该三维点X，那么该三维点X对应的多张影像上的特征点x ₁,x ₂,…,x _n之间均存在一种对应关系。进而，利用多个影像的特征点以及多个影像的特征点之间的对应关系，可以估计拍摄相机的位置和姿态以及三维空间信息。可以理解的是，图2所示的拍摄相机的光心C ₁表示拍摄相机在拍摄影像1时的位置，拍摄相机的光心C ₂表示拍摄相机在拍摄影像2时的位置。

目前，三维重建算法利用多影像进行三维重建时，通常会提取数量上远大于SFM算法实际所需的特征点，进而将全部的特征点加入光束法平差中进行优化。然而，该方式将导致SFM算法的运算规模过大，严重降低了运行效率，因此，如何合理的降低SFM算法的运算规模，提高运行效率成为一个亟待解决的问题。

为了解决上述问题，本发明实施例提供一种影像处理方法，该影像处理方法可以应用于图1所示的影像处理系统中，该影像处理方法可包括以下步骤：

S401，根据多个影像的特征点之间的对应关系，确定每个影像的每个特征点的顶点度数，所述顶点度数用于指示所述特征点对应的空间三维点在所述多个影像中被提取为特征点的次数。

本发明实施例中，多个影像的特征点之间的对应关系可以基于每个特征点之间的特征描述子来获得。首先，影像处理设备可以采用特征点检测方法，获取每个影像中的特征点，并且获取每个特征点的特征描述子；其次，基于各特征点的特征描述子之间的距离来确定两个特征点之间的对应关系。

其中，基于各特征点的特征描述子之间的距离可以为欧式距离或汉明距离。例如，对于float类型的特征描述子，可以将描述子视为一个高维度的向量，通过计算两个向量之间的欧式距离，来确定两个特征点是否相互对应。又例如，对于bit类型的特征描述子，可以通过计算两个向量之间的汉明距离来确定两个特征点是否相互对应。

以图3为例，采用128位的描述子对影像1和影像2中的特征点进行描述，影像1中的特征点x ₁的特征描述子为(11111…111)，影像2中的特征点x ₂的特征描述子为(11111…000)。可以计算特征点x ₁的特征描述子与特征点x ₂的特征描述子之间的距离为(00000…111)，若该距离小于预设的阈值，则特征点x ₁和特征点x ₂对应相同的场景三维点X。

在一种实施例中，步骤S401中，根据多个影像的特征点之间的对应关系，确定每个影像的每个特征点的顶点度数，可包括以下步骤：

S4011，获取多个影像的特征点的特征描述子；

S4012，根据多个影像的特征点的特征描述子之间的距离，确定所述每个影像的每个特征点的顶点度数。

其中，S4012中，根据所述多个影像的特征点的特征描述子之间的距离，确定每个影像的每个特征点的顶点度数，可包括：当所述多个影像中任一特征点与N个特征点的特征描述子的距离小于预设距离阈值时，则确定所述任一特征点的所述顶点度数为N+1。以图3为例，若影像1中的特征点x ₁的特征描述子与影像2中的特征点x ₂的特征描述子之间的距离小于预设的阈值，则特征点x ₁和特征点x ₂的顶点度数均为2。

可选地，当多个影像中任一特征点与N个特征点的特征描述子的距离小于预设距离阈值时，该N+1个特征点可以为同名特征点。相应地，顶点度数可用于指示特征点对应的空间三维点在多个影像中被提取为特征点的次数。因此，可遍历所有待处理的影像，进而确定每个特征点的顶点度数。具体的，当所述多个影像中任一特征点与N个特征点的特征描述子的距离小于预设距离阈值时，则确定所述任一特征点的所述顶点度数为N+1。例如，对于影像1中的特征点x ₁，通过计算特征点x ₁的特征描述子与除影像1之外的所有待处理影像中的所有特征点的特征描述子的距离，得到特征点x ₁的特征描述子与N个特征点的特征描述子的距离均小于预设距离阈值，则可以确定该特征点x ₁的同名特征点的数量为N+1，相应的，该特征点x ₁的顶点度数为N+1。

S402，对所述每个影像进行格网划分，获得所述每个影像的格网数。

可选的，每个影像可以采用均匀格网划分，或非均匀格网划分。也就是说，每个影像的格网数相等或不等。

例如，影像1均匀划分为100*100个格网，则影像1的格网数为10000；又例如，影像2均匀划分为80*80个格网，则影像2的格网数为6400。又例如，影像1的格网数可为10000，影像2的格网数可为6400。

本发明实施例对每个影像进行格网划分，使每个影像中的特征点都分布于各格网中；在后续对特征点进行筛选时，有利于对每个格网中的特征点进行筛选。可见，该发明实施方式考虑到每个影像中的特征点数量非常大，并且各特征点在影像中可能是非均匀分布的，例如，若影像中的某一区域有较多的弱纹理或者重复纹理，则该区域的特征点较少；若影像中的某一区域的纹理比较丰富，则该区域的特征点较多，因此，采用基于格网的方式确定目标特征点集合，有利于使得筛选的特征点能够有效反映影像本质特征。

S403，根据所述每个影像的格网数和所述每个影像的每个特征点的顶点度数，从所述多个影像的特征点中确定目标特征点集合。

下面对图4实施例中的S403进一步描述，请参见图5，当每个影像的特征点数大于每个影像的格网数时，S403可以包括以下步骤：

S4031，当所述每个影像的特征点数大于所述每个影像的格网数时，针对所述每个影像中的每个格网，保留所述每个格网中顶点度数最大的特征点。

具体的，对于一个影像，确定该影像的特征点数是否大于该影像的格网数；当该影像的特征点数大于该影像的格网数时，则对该影像中的每个格网中的特征点，保留每个格网中顶点度数最大的特征点，每个影像保留的特征点构成一个特征点集合。例如，影像1均匀划分为2*2的格网，则影像1的格网数为4。假设影像1包括6个特征点P ₁₁、P ₁₂…P ₁₆，其中，格网1包含的特征点为P ₁₁，格网2包含的像素点坐标为P ₁₂和P ₁₃，格网3包含的像素点坐标为P ₁₄，格网4包含的像素点坐标为P ₁₅和P ₁₆。分析可知影像1包括的特征点数大于格网数，则针对影像1的每个格网，保留每个格网中顶点度数最大的点。具体的，格网1和格网3分别只包含一个特征点，则保留格网1和格网3的所有特征点；格网2包含两个特征点P ₁₂和P ₁₃，则比较P ₁₂和P ₁₃的顶点度数，假设P ₁₂的顶点度数大于P ₁₃的顶点度数，则格网2保留特征点P ₁₂；格网4分别包含两个特征点P ₁₅和P ₁₆，则比较P ₁₅和P ₁₆的顶点度数，假设P ₁₆的顶点度数大于P ₁₅的顶点度数，则格网2保留特征点P ₁₆。综上所述，影像1保留的特征点集合为{P ₁₁,P ₁₂,P ₁₄,P ₁₆}。可以理解的是，顶点度数越大的特征点对应的空间三维点在多个影像中被提取为特征点的次数越多，则顶点度数越大的特征点更加可靠，根据顶点度数大的特征点的集合恢复三维点的精度越高。此外，保留每个格网中顶点度数最大的特征点可以使得所确定的目标特征点集合在影像上均匀分布，不会出现部分影像特征点特别多而部分影像特征点特别少的现象，保证了整体解算不会陷入局部最优解，从而使得SFM解算的整体精度有所提升。

S4032，对所述多个影像保留的特征点取并集，作为所述目标特征点集合。

对于多个待处理的影像，若影像中的特征点数大于影像的格网数，则可以采用上述S4031中的方法，保留每个影像中的每个格网中顶点度数最大的特征点。每个影像保留的特征点构成一个特征点集合，那么多个影像保留的特征点构成多个特征点集合。将上述多个特征点集合取并集，得到目标特征点集合。例如，影像1保留的特征点集合为{P ₁₁,P ₁₂,P ₁₄,P ₁₅}，影像2保留的特征点集合为{P ₂₁,P ₂₂,P ₂₄,P ₂₅}，则目标特征点集合为{P ₁₁,P ₁₂,P ₁₄,P ₁₅,P ₂₁,P ₂₂,P ₂₄,P ₂₅}。

下面对图4实施例中的S403进一步描述，请参见图6，当每个影像的特征点数小于每个影像的格网数时，S403可以包括以下步骤：

S4033，当所述每个影像的特征点数小于所述每个影像的格网数时，则针对所述每个影像中的每个格网，保留所述每个格网中所有的特征点。

S4034，对所述多个影像保留的特征点取并集，作为所述目标特征点集合。

具体的，当影像的特征点数小于该影像的格网数时，保留该影像包括的所有特征点。可以理解的是，S4033和S4034的具体实施方式可以参考上述实施例S4031和S4032中每个影像保留特征点以及确定目标特征点集合的实施方式，在此不赘述。

请参见图7，图7为本发明实施例提供的另一种影像处理方法的流程示意图，该方法基于图4至图6所示的实施例中获取的目标特征点集合，阐述了如何恢复拍摄相机在拍摄时刻的位置和姿态，以及得到更加准确的三维空间信息。具体的，该影像处理方法可进一步的包括以下步骤S701-S703：

S701，获取拍摄相机的初始位置和初始姿态。

拍摄相机的初始位置和初始姿态可以根据影像中记录的全球定位系统(Global Positioning System，GPS)定位信息得到，和/或根据同名特征点匹配得到的拍摄相机的相对位置信息得到。可以理解的是，采用上述方法得到的拍摄相机的初始位置和初始姿态通常相对于拍摄相机真实位置和姿态存在误差。

S702，根据所述拍摄相机的初始位置和初始姿态以及所述目标特征点集合，确定初始三维点集合。

目标特征点集合中包括的一组同名特征点为空间中的一个三维点在不同的影像中的投影点，则根据拍摄相机的初始位置和初始姿态以及一组同名特征点，可以在空间中确定一个三维点。可以理解的是，对于目标特征点集合中包括多组同名特征点，则根据拍摄相机的初始位置和初始姿态以及多组同名特征点，可以在空间中确定多个三维点，所述多个三维点构成初始三维点集合。由于拍摄相机的初始位置和初始姿态存在误差，那么初始三维点集合包括的多个三维点与空间中的实际三维点间也存在误差。

S703，对所述拍摄相机的初始位置和初始姿态，所述目标特征点集合以及所述初始三维点集合进行拟合，得到所述拍摄相机的目标位置和目标姿态以及所述目标三维点集合。

上述步骤为光束法平差的核心步骤，光束法平差的实质是一个非线性最小二乘优化问题，通过将目标特征点集合以及初始三维点集合进行最优拟合，可以得到目标三维点集合以及拍摄相机的目标位置和目标姿态。可以理解的是，拍摄相机的目标位置和目标姿态为空间中拍摄相机的实际位置和实际姿态。

请参见表1，表1分别将上述两种方案的内存占用、运行时间以及迭代次数进行了比较。其中，数据集1为正摄数据集，影像均90度垂直向下拍摄获得，共137张；数据集2为倾斜数据集，包括了正摄向下的数据和四个方向倾斜拍摄获得的影像，共269张影像。数据集1使用本申请的影像处理方法相较于现有方案中未确定目标特征点集的方式相比，内存峰值由14.78GB降到了7.59GB，减少了近一半；数据集2使用本申请的影像处理方法之后，内存峰值由30.06GB降到了10.80GB，减少了近2/3。可见，本申请的影像处理方法能够极大程度的解决SFM算法的内存瓶颈问题。

本申请所述的影像处理方法在其他方面的性能提升也比较明显。例如，从运行效率上看，相较于现有方案，数据集1的运行时间由199秒提升至32秒，数据集2的运行时间由418秒提升至75秒，可见，两数据集均有近5倍的运行效率提升。再例如，由于光束法平差本质上是一个非线性最小二乘优化的问题，一般都会采用迭代的方式求解，因此迭代次数越少说明数据收敛性越好，平差结果越精确。从平差迭代次数来看，相较于现有方案，数据集1的迭代次数由90次降低到38次，减少了近2/3；数据集2的迭代次数由130次降低到64次，减少了近一半。

表1

综上所述，本发明实施例提供的一种影像处理方法，基于目标特征点集合，采用光束法平差确定拍摄相机的目标位置和目标姿态以及目标三维点集合；该影像处理方法基于对特征点筛选后的目标特征点集合，可以降低光束法平差的运算规模，降低SFM的内存占用，提高算法的运行效率。

本发明实施例还提供一种影像处理装置，可以执行上述影像处理方法中的相应步骤。请参见图8，该影像处理装置包括存储器801和处理器802；存储器801用于存储程序代码；处理器802调用程序代码，当程序代码被执行时，用于执行以下操作：

在一种实施例中，处理器802还用于：

获取所述多个影像的特征点的特征描述子；

根据所述多个影像的特征点的特征描述子之间的距离，确定所述每个影像的每个特征点的顶点度数。

在一种实施例中，处理器802还用于：

当所述多个影像中任一特征点与N个特征点的特征描述子的距离小于预设距离阈值时，则确定所述任一特征点的所述顶点度数为N+1。

在一种实施例中，处理器802还用于：

当所述每个影像的特征点数大于所述每个影像的格网数时，针对所述每个影像中的每个格网，保留所述每个格网中顶点度数最大的特征点；

对所述多个影像保留的特征点取并集，作为所述目标特征点集合。

在一种实施例中，处理器802还用于：

当所述每个影像的特征点数小于所述每个影像的格网数时，则针对所述每个影像中的每个格网，保留所述每个格网中所有的特征点；

在一种实施例中，处理器802还用于：

基于所述目标特征点集合，确定拍摄相机的目标位置和目标姿态，以及目标三维点集合。

在一种实施例中，处理器802还用于：

获取拍摄相机的初始位置和初始姿态；

根据所述拍摄相机的初始位置和初始姿态以及所述目标特征点集合，确定初始三维点集合；

对所述拍摄相机的初始位置和初始姿态，所述目标特征点集合以及所述初始三维点集合进行拟合，得到所述拍摄相机的目标位置和目标姿态以及所述目标三维点集合。

本发明实施例提供了一种影像处理装置，该装置可以根据所述每个影像的格网数和所述每个影像的每个特征点的顶点度数，确定目标特征点集合，可以减少特征点数，从而减少SFM的内存占用，提高SFM的运行效率。

在本发明的实施例中还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明图4至图7所对应实施例中描述的相关功能，也可实现图8所述的影像处理装置的功能，在此不再赘述。

所述计算机可读存储介质可以是前述任一实施例所述的设备的内部存储单元，例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备，例如所述设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

一种影像处理方法，其特征在于，包括：

根据多个影像的特征点之间的对应关系，确定每个影像的每个特征点的顶点度数，所述顶点度数用于指示所述特征点对应的空间三维点在所述多个影像中被提取为特征点的次数；

对所述每个影像进行格网划分，获得所述每个影像的格网数；

根据所述每个影像的格网数和所述每个影像的每个特征点的顶点度数，从所述多个影像的特征点中确定目标特征点集合。
根据权利要求1所述的方法，其特征在于，所述根据多个影像的特征点之间的对应关系，确定每个影像的每个特征点的顶点度数，包括：

获取所述多个影像的特征点的特征描述子；

根据所述多个影像的特征点的特征描述子之间的距离，确定所述每个影像的每个特征点的顶点度数。
根据权利要求2所述的方法，其特征在于，所述根据所述多个影像的特征点的特征描述子之间的距离，确定每个影像的每个特征点的顶点度数，包括：

当所述多个影像中任一特征点与N个特征点的特征描述子的距离小于预设距离阈值时，则确定所述任一特征点的所述顶点度数为N+1。
根据权利要求3所述的方法，其特征在于，所述距离包括欧式距离或汉明距离。
根据权利要求1所述的方法，其特征在于，所述根据所述每个影像的格网数和所述每个影像的每个特征点的顶点度数，从所述多个影像的特征点中确定目标特征点集合，包括：

当所述每个影像的特征点数大于所述每个影像的格网数时，针对所述每个影像中的每个格网，保留所述每个格网中顶点度数最大的特征点；

对所述多个影像保留的特征点取并集，作为所述目标特征点集合。
根据权利要求5所述的方法，其特征在于，所述方法还包括：

当所述每个影像的特征点数小于所述每个影像的格网数时，则针对所述每个影像中的每个格网，保留所述每个格网中所有的特征点；

对所述多个影像保留的特征点取并集，作为所述目标特征点集合。
根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

基于所述目标特征点集合，确定拍摄相机的目标位置和目标姿态，以及目标三维点集合。
根据权利要求7所述的方法，其特征在于，所述基于所述目标特征点集合，确定拍摄相机的目标位置和目标姿态，以及目标三维点集合，包括：

获取拍摄相机的初始位置和初始姿态；

根据所述拍摄相机的初始位置和初始姿态以及所述目标特征点集合，确定初始三维点集合；

对所述拍摄相机的初始位置和初始姿态，所述目标特征点集合以及所述初始三维点集合进行拟合，得到所述拍摄相机的目标位置和目标姿态以及所述目标三维点集合。
根据权利要求1所述的方法，其特征在于，所述每个影像的格网数相等或不等。
一种影像处理装置，其特征在于，包括存储器和处理器；

所述存储器用于存储程序代码；

所述处理器，调用所述程序代码，当程序代码被执行时，用于执行以下操作：

根据多个影像的特征点之间的对应关系，确定每个影像的每个特征点的顶点度数，所述顶点度数用于指示所述特征点对应的空间三维点在所述多个影像中被提取为特征点的次数；

对所述每个影像进行格网划分，获得所述每个影像的格网数；

根据所述每个影像的格网数和所述每个影像的每个特征点的顶点度数，从所述多个影像的特征点中确定目标特征点集合。
根据权利要求10所述的影像处理装置，其特征在于，所述处理器在根据多个影像的特征点之间的对应关系，确定每个影像的每个特征点的顶点度数，时，执行如下操作：

获取所述多个影像的特征点的特征描述子；

根据所述多个影像的特征点的特征描述子之间的距离，确定所述每个影像的每个特征点的顶点度数。
根据权利要求11所述的影像处理装置，其特征在于，所述处理器在根据所述多个影像的特征点的特征描述子之间的距离，确定每个影像的每个特征点的顶点度数时，执行如下操作：

当所述多个影像中任一特征点与N个特征点的特征描述子的距离小于预设距离阈值时，则确定所述任一特征点的所述顶点度数为N+1。
根据权利要求12所述的影像处理装置，其特征在于，所述距离包括欧式距离或汉明距离。
根据权利要求10所述的影像处理装置，其特征在于，所述处理器在根据所述每个影像的格网数和所述每个影像的每个特征点的顶点度数，从所述多个影像的特征点中确定目标特征点集合时，执行如下操作：

当所述每个影像的特征点数大于所述每个影像的格网数时，针对所述每个影像中的每个格网，保留所述每个格网中顶点度数最大的特征点；

对所述多个影像保留的特征点取并集，作为所述目标特征点集合。
根据权利要求14所述的影像处理装置，其特征在于，所述处理器调用所述程序代码时，还执行如下操作：

当所述每个影像的特征点数小于所述每个影像的格网数时，则针对所述每个影像中的每个格网，保留所述每个格网中所有的特征点；

对所述多个影像保留的特征点取并集，作为所述目标特征点集合。
根据权利要求10至13任一项所述的影像处理装置，其特征在于，所述处理器调用所述程序代码时，还执行如下操作：

基于所述目标特征点集合，确定拍摄相机的目标位置和目标姿态，以及目标三维点集合。
根据权利要求16所述的影像处理装置，其特征在于，所述处理器在基于所述目标特征点集合，确定拍摄相机的目标位置和目标姿态，以及目标三维点集合时，执行如下操作：

获取拍摄相机的初始位置和初始姿态；

根据所述拍摄相机的初始位置和初始姿态以及所述目标特征点集合，确定初始三维点集合；

对所述拍摄相机的初始位置和初始姿态，所述目标特征点集合以及所述初始三维点集合进行拟合，得到所述拍摄相机的目标位置和目标姿态以及所述目标三维点集合。
根据要求10所述的影像处理装置，其特征在于，所述每个影像的格网数相等或不等。
一种影像处理系统，其特征在于，包括：

可移动平台，用于通过拍摄相机获取多个影像；

影像处理设备，用于执行如权利要求1至9任一项所述的影像处理方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1至9任一项所述的影像处理方法。