WO2021027692A1

WO2021027692A1 - 视觉特征库的构建方法、视觉定位方法、装置和存储介质

Info

Publication number: WO2021027692A1
Application number: PCT/CN2020/107597
Authority: WO
Inventors: 杜斯亮; 康泽慧; 方伟
Original assignee: 华为技术有限公司
Priority date: 2019-08-09
Filing date: 2020-08-07
Publication date: 2021-02-18
Also published as: US20220156968A1; CN112348885A

Abstract

本申请提供了视觉特征库的构建方法、视觉定位方法、装置和存储介质。该视觉特征库的构建方法包括：获取建库图像，并对建库图像进行特征提取，以得到建库图像的特征点和建库图像的特征点的描述子；通过将建库图像的特征点对应的射线与3D模型相交，将该射线与3D模型的交点的3D位置确定为建库图像的特征点的3D位置，接下来再将建库图像的特征点的描述子和建库图像写入到视觉特征库中，从而完成视觉特征库的构建。本申请能够在建库图像数量一定的情况下，从建库图像中提取更多数量的特征点的信息，从而使得构建得到的视觉特征库包含更多数量的建库图像的特征点的信息，便于后续根据该视觉特征库更好地进行视觉定位。

Description

视觉特征库的构建方法、视觉定位方法、装置和存储介质

本申请要求于2019年08月09日提交中国专利局、申请号为201910736102.2、申请名称为“视觉特征库的构建方法、视觉定位方法、装置和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及视觉定位领域，并且更具体地，涉及一种视觉特征库的构建方法、视觉定位方法、装置和存储介质。

背景技术

视觉定位被广泛运用到多种领域中，例如，自动驾驶，增强现实等领域。视觉定位一般是利用事先建立好的视觉特征库，通过相机拍摄的单张图像来推算相机的位姿信息。

为了实现较为准确的视觉定位，一般要构建出包含足够信息的视觉特征库。传统方案一般是对采集图像进行特征提取和特征匹配，然后获取匹配特征点的描述子和三维(3 dimensions，3D)位置，并将匹配特征点的描述子和3D位置保存到视觉特征库中。

传统方案在构建视觉特征库时需要先进行特征的匹配，只有采集图像中匹配成功的特征点的信息才能保存到视觉特征库中，这样就使得传统方案在建库图像数量一定的情况下，只能从建库图像中采集得到较少的特征点的信息，使得最终构建得到的视觉特征库中包含的建库图像的特征点的信息偏少。

发明内容

本申请提供一种视觉特征库的构建方法、视觉定位方法、装置和存储介质，通过建库图像的特征点对应的射线与3D模型进行射线相交的方式，能够在建库图像数量一定的情况下，从建库图像中提取更多数量的特征点的信息，从而使得构建得到的视觉特征库包含更多数量的建库图像的特征点的信息，便于后续根据该视觉特征库更好地进行视觉定位。

第一方面，提供了一种视觉特征库的构建方法，该方法包括：获取建库图像；对建库图像进行特征提取，以得到建库图像的特征点和建库图像的特征点的描述子；将建库图像的特征点对应的射线与3D模型相交，以确定建库图像的特征点的3D位置；构建视觉特征库，视觉特征库包括建库图像的特征点的描述子和建库图像的特征点的3D位置。

其中，上述建库图像的特征点的3D位置为射线与3D模型相交的交点的3D位置，建库图像的特征点对应的射线是以建库图像的投影中心为起点，并经过建库图像的特征点的射线。

可选地，上述建库图像与3D模型位于同一坐标系中，建库图像的投影中心为第一拍摄单元拍摄建库图像时所处的位置。

上述建库图像与3D模型可以位于同一世界坐标系中。

上述第一拍摄单元是拍摄建库图像的拍摄单元，该第一拍摄单元具体可以是摄像头。

上述建库图像为一张图像或者多张图像。

上述建库图像是通过相机或者其他图像拍摄设备拍摄得到的，该建库图像用于构建视觉特征库。

上述建库图像可以是全景图像，广角图像等。

可选地，上述获取建库图像，包括：从相机或者图像拍摄设备获取建库图像。

当建库图像是由相机或者图像拍摄设备拍摄得到时，可以与相机或者图像拍摄设备建立通信连接(可以是有线通信也可以是无线通信)，以获取建库图像。

应理解，上述建库图像的特征包括多个特征点。

本申请中，通过射线与3D模型相交的方式来获取建库图像特征点的3D位置，与传统方案中仅能够获取图像之间匹配上的特征点的3D位置相比，可以在建库图像数量一定的情况下，从建库图像中获取到更多数量的特征点的信息，使得构建得到的视觉特征库包含更多数量的特征点的信息。

进一步的，由于在建库图像数量一定的情况下，本申请构建得到的视觉特征库包含更多数量的特征点的信息，使得后续利用该视觉特征库进行视觉定位时取得更好的视觉定位效果。

此外，由于在建库图像数量一定的情况下，本申请的视觉特征库的构建方法构建得到的视觉特征库包含更多数量的特征点的信息，使得本申请的视觉特征库的构建方法能够适用于辐射差异较大、弱纹理等较难进行准确进行视觉定位的场景中，在这些场景中采用本申请实施例的视觉特征库的构建方法得到的视觉特征库进行视觉定位能够取得更好的视觉定位效果。

结合第一方面，在第一方面的某些实现方式中，对建库图像进行特征提取，以得到建库图像的特征点和建库图像的特征点的描述子，包括：采用特征提取算法对建库图像进行特征提取，以得到建库图像的特征点和建库图像的特征点的描述子。

上述特征提取算法是用于提取建库图像的特征点和建库图像的特征点的描述算子的算法。

具体地，在对建库图像进行特征提取时，可以采用以下特征提取算法中的一种或者多种。

ORB(英文全称为oriented FAST and rotated BRIEF，中文译文是定向快并且旋转简单)算法，ORB算法是一种快速特征点提取和描述的算法；

SIFT(英文全称为scale-invariant feature transform，中文译文为尺度不变的特征变换)算法；

SuperPoint(中文译文为超级点)算法；

D2-Net算法，D2-Net算法是论文(A Trainable CNN for Joint Detection and Description of Local Features，中文译文为用于联合检测和本地特征描述的可训练CNN，其中，CNN表示卷积神经网络)提出的一种特征提取算法；

线特征算法；

上述特征提取算法可以称为特征提取算子。

应理解，当采用多种特征提取算法对建库图像进行特征提取时能够提取到多种类型的建库图像的特征点和建库图像的特征点的描述子。

本申请中，当采用多种特征提取算法对建库图像进行特征提取时，能够从建库图像中获取更多种类的特征点和特征点的描述子，使得最终构建得到的视觉特征库中能够包含更多种类的特征点的，能够提高后续根据该视觉特征库进行视觉定位的效果。

结合第一方面，在第一方面的某些实现方式中，视觉特征库还包括建库图像的特征点的语义信息和建库图像的特征点的语义信息的置信度。

其中，建库图像的特征点的语义信息与建库图像的特征点所在区域的语义信息相同，建库图像的特征点的语义信息的置信度与建库图像的特征点所在区域的语义信息的置信度相同，建库图像的每个区域的语义信息和每个区域的语义信息的置信度是对建库图像进行语义分割得到的。

上述语义信息可以包括行人、道路、车辆、树、建筑物、天空和玻璃等等。当上述建库图像是室内的图像的话，上述语义信息还可以包括家具，电器等等。

上述语义信息的置信度可以称为语义信息的可信度。

本申请中，当视觉特征库中包含建库图像的特征点的语义信息和所述建库图像的特征点的语义信息的置信度时，能够在后续进行视觉定位时考虑到不同特征点对应的语义信息和置信度以确定不同特征点在进行视觉定位时的重要程度，能够进行更精准的视觉定位，提高视觉定位的准确度。

结合第一方面，在第一方面的某些实现方式中，视觉特征库还包括建库图像的描述子，其中，建库图像的描述子是由建库图像的特征点的描述子合成得到的。

由于建库图像的特征点可以是多个特征点，因此，对建库图像的特征点的描述子进行合成，实际上是对建库图像中的多个特征点的描述子进行合成。

上述建库图像的特征点的描述子可以称为局部描述子，建库图像的描述子可以称为全局描述子。

本申请中，当视觉特征库中包括建库图像的描述子时，便于后续再进行视觉定位时提高确定匹配特征点的过程，加快视觉定位的过程。

具体地，当视觉特征库中包括建库图像的描述子时，在根据该视觉特征库进行视觉定位时能够先根据待处理图像的描述子从视觉特征库中进行粗略的筛选，先选择出描述子比较接近的N(N为正整数)张图像，然后再从该N张图像的特征点中确定出待处理图像的特征点的匹配特征点，能够加速视觉定位的过程，提高视觉定位的效率。

结合第一方面，在第一方面的某些实现方式中，对建库图像进行特征提取，以得到建库图像的特征点和建库图像的特征点的描述子，包括：对建库图像进行场景模拟，生成多种场景下的场景图像；对上述多种场景下的场景图像进行特征提取，以得到建库图像的特征点以及建库图像的特征点的描述子。

可选地，上述多种场景包括白天、夜晚、雨天、雪天以及阴天中的至少两种。

可选地，上述多种场景的光照条件不同。

也就是说，对于上述多种场景来说，每种场景的光照条件可以与其他场景的光照条件都不相同。另外，光照条件不同具体可以是指光照强度不同。

多种场景下的场景图像还可以称为多种场景图像，每种场景图像是对建库图像进行一种场景模拟得到的。

本申请中，通过对建库图像进行场景模拟，进而对场景模拟后得到的多种场景图像进行特征提取，使得最终构建得到的视觉特征库中包含从不同场景图像中提取得到的特征点的信息，使得视觉特征库中包含的信息更加丰富，便于后续根据该视觉特征库进行更有效的视觉定位。

具体地，在进行视觉定位时，如果视觉特征库中包含多种场景图像的特征点，那么，可以先从多种场景图像中确定出与待处理图像拍摄时的场景最接近的目标场景图像，然后再从该目标场景图像中确定待处理图像的特征点的匹配特征点，可以为待处理图像的特征点确定更准确的匹配特征点，进而提高视觉定位的成功率。

结合第一方面，在第一方面的某些实现方式中，对建库图像进行特征提取，以得到建库图像的特征点和建库图像的特征点的描述子，包括：对建库图像进行切分处理，以得到多张切片图像；对多张切片图像进行特征提取，以得到建库图像的特征点和建库图像的特征点的描述子。

其中，在上述多张切片图像中，相邻切片图像的部分图像内容相同，上述建库图像可以是全景图像。

当建库图像是全景图像时，通过对全景图像进行切分，并对切分得到的切片图像进行特征提取，便于后续在进行视觉定位时较为准确的确定出待处理图像(需要进行视觉定位的图像)的特征点的匹配点，进而提高视觉定位的准确率。

具体地，当建库图像是全景图像时，由于全景投影的成像方式与用户拍摄的图像的成像方式不同，通过以对建库图像进行切分处理，能够得到不同视角的切片图像，从而消除建库图像与用户拍摄的图像的成像方式的差异，使得在根据视觉特征库对用户拍摄的图像进行视觉定位时，能够更准确的确定出用户拍摄的图像的特征点的匹配特征点。

结合第一方面，在第一方面的某些实现方式中，上述方法还包括：接收来自用户设备的待处理图像；对待处理图像进行特征提取，以得到待处理图像的特征点和待处理图像的特征点的描述子；将待处理图像的特征点对应的射线与3D模型相交，以确定待处理图像的特征点的3D位置；更新视觉特征库，更新后的视觉特征库包括待处理图像的特征点和待处理图像的特征点的3D位置。

其中，待处理图像的特征点的3D位置为待处理图像的特征点对应的射线与3D模型相交的交点的3D位置，待处理图像的特征点对应的射线是以待处理图像的投影中心为起点，并经过待处理图像的特征点的射线；

可选地，待处理图像与3D模型位于同一坐标系中，待处理图像的投影中心为第二拍摄单元拍摄待处理图像时所处的位置。

上述待处理图像可以是用户设备拍摄的图像。上述待处理图像与3D模型可以位于同一世界坐标系中。

另外，上述第二拍摄单元是拍摄建库图像的拍摄单元，该第二拍摄单元具体可以是摄像头。

本申请中，通过获取来自用户设备的待处理图像，并在确定之后待处理图像的特征点的3D位置后对视觉特征库进行更新，使得更新后的视觉特征库包含的信息的实时性更强。

结合第一方面，在第一方面的某些实现方式中，在更新视觉特征库之前，上述方法还包括：确定待处理图像的语义信息与参照图像的语义信息不同，其中，参照图像是视觉特征库中与待处理图像的位置最接近的图像。

本申请中，当视觉特征库中的参照图像与待处理图像的语义信息不同时，说明待处理图像对应的物体的图像内容可能发生了变化，此时通过对视觉特征库进行更新，能够图像信息反映的语义信息不够准确的情况下及时对视觉特征库进行更新，提高视觉特征库的实时性。

结合第一方面，在第一方面的某些实现方式中，上述方法还包括：获取建模数据，建模数据包括建模图像和点云数据；对建模图像进行特征提取，以得到建模图像的特征点；对建库图像和建模图像中的任意两张图像的特征点进行特征匹配，对匹配得到的特征点进行串点，以得到同名特征点序列；根据同名特征点序列对建库图像和建模图像进行平差处理，以得到建库图像的位姿和建模图像的位姿；根据建模图像的位姿和点云数据，构建3D模型。

上述匹配得到的特征点是不同的图像中对应真实世界同一地物点的特征点。上述对匹配得到的特征点进行串点具体可以是将建库图像和建模图像中对应真实世界同一地物点的特征点连接起来，以得到由多个特征点连接的序列(同名特征点序列)。

得到同名特征点序列之后，可以根据同名特征点序列以及预先设定好的控制点对建库图像和建模图像中的特征点进行位置校正，使得得到的建库图像的位姿和建模图像的位姿更加准确，便于后续构建更加准确的视觉特征库。

上述建模图像可以是无人机拍摄得到的图像(室外环境下可以采用无人机拍摄得到建模图像)，也可以是扫描得到的图像(室内环境下可以采用扫描仪扫描得到建模图像)。上述建模图像是用于建立3D模型的图像。

本申请中，通过对建库图像和建模图像进行平差处理，使得建库图像和建模图像对齐，使得视觉特征库中的建库图像的特征点的3D位置更加准确，便于后续根据该视觉特征库进行更准确的定位。

结合第一方面，在第一方面的某些实现方式中，上述建库图像为全景图像。

当建库图像为全景图像时，建库图像包含的信息更多，能够在构建视觉特征库的过程中从建库图像中提取到更多的特征点。

在对建库图像进行特征提取时，可以先对建库图像进行场景模拟，以得到多种场景下的场景图像，然后对每种场景下的场景图像进行切分处理(当然也可以只对其中的部分场景图像进行切分处理)，以得到多张切片图像。

结合第一方面，在第一方面的某些实现方式中，上述对建库图像进行特征提取，以得到建库图像的特征点和建库图像的特征点的描述子，包括：对建库图像进行场景模拟，以得到多种场景下的场景图像；对该多种场景下的场景图像分别进行切分处理，以得到多张切片图像；对多张切片图像进行特征提取，以得到建库图像的特征点和建库图像的特征点的描述子。

其中，上述多种场景包括白天、夜晚、雨天、雪天以及阴天中的至少两种，在上述多张切片图像中，相邻切片图像的部分图像内容相同。

具体地，假设对建库图像进行场景模拟，以得到三种场景下的场景图像分别为第一场景图像、第二场景图像和第三场景图像，接下来，分别对第一场景图像、第二场景图像和第三场景图像进行切分处理，以得到多张切片图像。假设对每个场景图像进行切分得到8 张切片图像，那么，通过对第一场景图像、第二场景图像和第三场景图像进行切分处理，可以得到24张切片图像，接下来对这24张切片图像进行特征提取，从而得到建库图像的特征点和描述子。

在对建库图像进行特征提取时，也可以先对建库图像进行切分处理，以得到切片图像，然后对每个切片图像进行场景模拟(当然也可以只对其中的部分切片图像进行场景模拟)。

结合第一方面，在第一方面的某些实现方式中，上述对建库图像进行特征提取，以得到建库图像的特征点和建库图像的特征点的描述子，包括：对建库图像进行切分处理，以得到多张切片图像；对所述多张切片图像中的每张切片图像进行场景模拟，以得到多种场景下的场景图像；对多种场景下的场景图像进行特征提取，以得到建库图像的特征点以及建库图像的特征点的描述子。

其中，在上述多张切片图像中，相邻切片图像的部分图像内容相同，上述多种场景包括白天、夜晚、雨天、雪天以及阴天中的至少两种。

具体地，假设对建库图像进行切分处理，以得到8张切片图像，接下来，再对这8张切片图像进行场景模拟。假设对每个切片图像进行场景模拟，以得到4种场景下的场景图像，那么，对这8张切片图像分别进行场景模拟，可以得到32张场景图像，接下来对这32张场景图像进行特征提取，从而得到建库图像的特征点和描述子。

上述采用多种特征提取算法对建库图像进行特征提取可以是先对建库图像进行切分处理和/或场景模拟，然后对得到的图像进行特征提取，从而得到建库图像的特征点和所述建库图像的特征点的描述子。

结合第一方面，在第一方面的某些实现方式中，上述对建库图像进行特征提取，以得到建库图像的特征点和建库图像的特征点的描述子，包括：对建库图像进行切分处理，以得到多张切片图像；采用多种特征提取算法分别对多张切片图像中的每张切片图像进行特征提取，以得到建库图像的特征点和所述建库图像的特征点的描述子。

其中，在上述多张切片图像中，相邻切片图像的部分图像内容相同。

例如，对建库图像进行切分处理，以得到了12张切片图像，接下来，采用3种特征提取算法分别对12张切片图像中的每种切片图像进行特征提取，从而得到建库图像的特征点和所述建库图像的特征点的描述子。

结合第一方面，在第一方面的某些实现方式中，上述对建库图像进行特征提取，以得到建库图像的特征点和建库图像的特征点的描述子，包括：对建库图像进行场景模拟，生成多种场景下的场景图像；采用多种特征提取算法分别对多种场景下的场景图像进行特征提取，以得到建库图像的特征点以及所述建库图像的特征点的描述子。

其中，上述多种场景包括白天、夜晚、雨天、雪天以及阴天中的至少两种。

例如，对建库图像进行场景模拟，以得到了4种场景下的场景图像，接下来，采用3种特征提取算法分别对这4种场景下的场景图像进行特征提取，从而得到建库图像的特征点和所述建库图像的特征点的描述子。

结合第一方面，在第一方面的某些实现方式中，上述对建库图像进行特征提取，以得到建库图像的特征点和建库图像的特征点的描述子，包括：对建库图像进行场景模拟，以得到多种场景下的场景图像；对该多种场景下的场景图像分别进行切分处理，以得到多张切片图像；采用多种特征提取算法分别对多张切片图像进行特征提取，以得到建库图像的特征点和建库图像的特征点的描述子。

例如，对建库图像进行场景模拟，以得到三种场景下的场景图像分别为第一场景图像、第二场景图像和第三场景图像，接下来，分别对第一场景图像、第二场景图像和第三场景图像进行切分处理，对每个场景图像进行切分得到8张切片图像，那么，通过对第一场景图像、第二场景图像和第三场景图像进行切分处理，可以得到24张切片图像，接下来再采用3种特征提取算法分别对这24张切片图像进行特征提取，从而得到建库图像的特征点和描述子。

结合第一方面，在第一方面的某些实现方式中，上述对建库图像进行特征提取，以得到建库图像的特征点和建库图像的特征点的描述子，包括：对建库图像进行切分处理，以得到多张切片图像；对所述多张切片图像中的每张切片图像进行场景模拟，以得到多种场景下的场景图像；采用多种特征提取算法分别对多种场景下的场景图像进行特征提取，以得到建库图像的特征点以及建库图像的特征点的描述子。

例如，对建库图像进行切分处理，以得到8张切片图像，接下来，再对这8张切片图像中的每个切片图像进行场景模拟，以得到4种场景下的场景图像，共得到32张图像，接下来，再采用3种特征提取算法分别对这32张图像进行特征提取，从而得到建库图像的特征点和描述子。

第二方面，提供了一种视觉定位方法，该方法包括：获取待处理图像；对待处理图像进行特征提取，以得到待处理图像的特征点和待处理图像的特征点的描述子；根据待处理图像的特征点的描述子，从视觉特征库中确定出待处理图像的特征点的匹配特征点；根据匹配特征点的3D位置，确定拍摄单元拍摄待处理图像时的位姿信息。

上述视觉特征库包括建库图像的特征点的描述子和建库图像的特征点的3D位置，视觉特征库满足下列条件中的至少一种：

建库图像的特征点包括多组特征点，该多组特征点中的任意两组特征点的描述子的描述方式不同；

视觉特征库包括建库图像的描述子，建库图像的描述子是由建库图像的特征点的描述子合成得到的；

建库图像的特征点为多种场景图像的特征点，多种场景图像是对建库图像进行场景模拟得到的，多种场景包括白天、夜晚、雨天、雪天以及阴天中的至少两种；

建库图像的特征点和建库图像的特征点的描述子是对多张切片图像进行特征提取得到的，多张切片图像是对建库图像进行切分处理得到的，其中，在多张切片图像中，相邻切片图像的部分图像内容相同；

视觉特征库包括建库图像的特征点的语义信息和建库图像的特征点的语义信息的置信度。

本申请中的视觉特征库与传统方案的视觉特征库相比包含更多的信息，因此，本申请中能够根据该视觉特征库更好地进行视觉定位，提高视觉定位的效果。

具体地，由于本申请中的视觉特征库中包括更多的信息，因此，根据该视觉特征库对待处理图像进行视觉定位时，能够更精准的确定待处理图像的特征点的匹配特征点，进而能够实现对待处理图像更精准的定位。

上述第二方面中的视觉特征库可以是根据上述第一方面中的视觉特征库的构建方法构建得到的。

上述多组特征点以及多组特征点的描述子可以是根据多种特征提取算法对建库图像进行特征提取得到的。该多种特征提取算法可以是ORB算法、SIFT算法和SuperPoint算法、D2-net以及线特征中的任意两个算法。

当上述视觉特征库中包含多组特征点时，使得视觉特征库中包含更多的特征点的相关信息，便于后续根据视觉特征库更好地进行视觉定位。

上述建库图像的描述子可以是描述建库图像的整体特征的描述子，上述建库图像的描述子可以是在构建视觉特征库的过程中通过对建库图像的特征点的描述子进行合成得到的，这里的建库图像的特征点可以是指从建库图像中提取到的所有的特征点。

结合第二方面，在第二方面的某些实现方式中，上述建库图像的特征点包括多组特征点，上述根据待处理图像的特征点的描述子，从视觉特征库中确定出待处理图像的特征点的匹配特征点，包括：根据待处理图像的特征点的描述子的描述方式，从多组特征点中确定出目标组特征点；根据待处理图像的特征点的描述子，从目标组特征点中确定出待处理图像的特征点的匹配特征点。

其中，上述目标组特征点是多组特征点中描述子的描述方式与待处理图像的特征点的描述子的描述方式与相同的一组特征点。

当建库图像的特征点包括多组特征点时，视觉特征库中包含的特征点的信息更多，通过从多组特征点中选择出与待处理图像的特征点的描述子的描述方式相同的目标特征点，能够在后续从目标特征点中选择出与待处理图像的特征点更匹配的匹配特征点，提高视觉定位的效果。

结合第二方面，在第二方面的某些实现方式中，上述视觉特征库包括建库图像的描述子，上述根据待处理图像的特征点的描述子，从视觉特征库中确定出待处理图像的特征点的匹配特征点，包括：根据待处理图像的描述子从建库图像中确定出N张图像；从上述N张图像的特征点中确定出待处理图像的特征点的匹配特征点。

其中，上述待处理图像的描述子是由待处理图像的特征点的描述子合成得到的，建库图像由N(N为正整数)张图像和M(M为正整数)张图像组成，待处理图像的描述子与上述N张图像中的任意一张图像的描述子的距离小于或者等于待处理图像的描述子与建库图像中剩余的M张图像中的任意一张图像的描述子的距离。

当视觉特征库中包括建库图像的描述子时，能够先根据待处理图像的描述子从视觉特征库中进行粗略的筛选，选择出描述子比较接近的N张图像，然后再从该N张图像的特征点中确定出待处理图像的特征点的匹配特征点，能够加速视觉定位的过程，提高视觉定位的效率。

结合第二方面，在第二方面的某些实现方式中，上述建库图像的特征点为多种场景下的场景图像的特征点，上述根据待处理图像的特征点的描述子，从视觉特征库中确定出待处理图像的特征点的匹配特征点，包括：从多种场景下的场景图像中确定目标场景图像；根据待处理图像的特征点的描述子，从目标场景图像的特征点中确定出待处理图像的特征点的匹配特征点。

其中，目标场景图像是多种场景下的场景图像中对应的场景与拍摄待处理图像时的场景最接近的场景图像。

当视觉特征库中包含多种场景图像的特征点时，可以先从多种场景图像中确定出与待处理图像拍摄时的场景最接近的目标场景图像，然后再从该目标场景图像中确定待处理图像的特征点的匹配特征点，可以为待处理图像的特征点确定更准确的匹配特征点，进而提高视觉定位的成功率。

结合第二方面，在第二方面的某些实现方式中，上述视觉特征库包括建库图像的特征点的语义信息和建库图像的特征点的语义信息的置信度，上述根据匹配特征点的3D位置，确定拍摄单元拍摄待处理图像时的位姿信息，包括：根据匹配特征点的语义信息的置信度，对匹配特征点的3D位置进行加权处理；根据加权处理结果确定拍摄单元拍摄待处理图像时的位姿信息。

其中，在对匹配特征点的3D位置进行加权处理时，置信度越高的匹配特征点对应的权重越大。

本申请中，当视觉特征库中包含建库图像的特征点的语义信息和所述建库图像的特征点的语义信息的置信度时，能够在进行视觉定位时考虑到不同特征点对应的语义信息和置信度确定不同特征点在进行视觉定位时的重要程度，能够进行更精准的视觉定位，提高视觉定位的准确度。

结合第二方面，在第二方面的某些实现方式中，上述建库图像为全景图像。

可选地，上述第二方面中的视觉特征库是根据上述第一方面中的视觉特征库的构建方法构建得到的。

在建库图像数量一定的情况下，上述第一方面的方法构建得到的视觉特征库包含更多数量的建库图像的特征点的信息，因此，在建库图像数量一定的情况下，采用第一方面的方法构建得到的视觉特征库进行视觉定位能够提高视觉定位的效果。

第三方面，提供了一种视觉特征库的构建装置，该装置包括用于执行上述第一方面及第一方面中的任意一种实现方式中的方法的模块。

第四方面，提供了一种视觉定位装置，该装置包括用于执行上述第二方面及第二方面中的任意一种实现方式中的方法的模块。

第五方面，提供了一种视觉特征库的构建装置，包括存储器和处理器，所述存储器用于存储程序，所述处理器用于执行程序，当所述程序被执行时，所述处理器用于执行上述第一方面及第一方面中的任意一种实现方式中的方法。

在上述处理器执行第一方面及第一方面中的任意一种实现方式中的方法时，处理器可以通过(调用)通信接口来获取建库图像(此时可以通过通信接口从其他装置获取建库图像)或者从存储器中获取建库图像(此时建库图像存储在存储器中)，然后通过处理器对建库图像进行一系列处理，最终构建得到视觉特征库。

第六方面，提供了一种视觉定位装置，包括存储器和处理器，所述存储器用于存储程序，所述处理器用于执行程序，当所述程序被执行时，所述处理器用于执行上述第二方面及第二方面中的任意一种实现方式中的方法。

在上述处理器执行第二方面及第二方面中的任意一种实现方式中的方法时，处理器可以通过(调用)摄像头来获取待处理图像或者从存储器中获取待处理图像，然后通过处理器对待处理图像进行一系列处理，最终实现视觉定位。

上述第三方面或者第五方面的视觉特征库的构建装置可以是服务器、云端设备或者具有一定运算能力的计算机设备。

上述第四方面或者第六方面的视觉定位装置具体可以是手机，电脑，个人数字助理，可穿戴设备，车载设备，物联网设备、虚拟现实设备、增强现实设备等等。

第七方面，提供了一种计算机可读存储介质，所述计算机可读介质存储介质用于存储程序代码，当所述程序代码被计算机执行时，所述计算机用于执行上述第一方面及第一方面中的任意一种实现方式中的方法。

第八方面，提供了一种计算机可读存储介质，所述计算机可读介质存储介质用于存储程序代码，当所述程序代码被计算机执行时，所述计算机用于执行上述第二方面及第二方面中的任意一种实现方式中的方法。

第九方面，提供了一种芯片，所述芯片包括处理器，所述处理器用于执行上述第一方面及第一方面中的任意一种实现方式中的方法。

上述第九方面的芯片可以位于服务器中，或者位于云端设备中，或者位于具有一定运算能够力能够构建视觉特征库构建的计算机设备中。

第十方面，提供了一种芯片，所述芯片包括处理器，所述处理器用于执行上述第二方面及第二方面中的任意一种实现方式中的方法。

上述第十方面的芯片可以位于终端设备中，该终端设备可以是手机，电脑，个人数字助理，可穿戴设备，车载设备，物联网设备、虚拟现实设备、增强现实设备等等。

第十一方面，提供了一种用于使得计算机或者终端设备执行上述第一方面及第一方面中的任意一种实现方式中的方法的计算机程序(或称计算机程序产品)。

第十二方面，提供了一种用于使得计算机或者终端设备执行上述第二方面及第二方面中的任意一种实现方式中的方法的计算机程序(或称计算机程序产品)。

附图说明

图1是本申请实施例的视觉特征库的构建方法的示意性流程图；

图2是对建库图像进行特征提取的示意图；

图3是确定建库图像的特征点的3D位置的过程的示意图；

图4是对建库图像进行语义分割并得到建库图像的语义信息和置信度的示意图；

图5是获得建库图像的描述子的过程的示意图；

图6是获得建库图像的描述子的过程的示意图；

图7是对建库图像进行场景模拟得到多种场景图像的示意图；

图8是对建库图像进行切分得到切片图像的示意图；

图9是对建库图像进行场景模拟和切分处理的示意图；

图10是对建库图像进行切分处理和场景模拟的示意图；

图11是本申请实施例的视觉定位方法的示意性流程图；

图12为本申请实施例的视觉特征库的构建方法应用在具体的产品形态上的示意图；

图13是本申请实施例的视觉特征库的构建装置的示意性框图；

图14是本申请实施例的视觉定位装置的示意性框图；

图15是本申请实施例的视觉特征库的构建装置的硬件结构示意图；

图16是本申请实施例提供的视觉定位装置的硬件结构示意图；

图17是本申请实施例的终端设备的硬件结构示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

视觉定位是利用终端设备拍摄的图像或视频以及预先建立好的3D地图，通过特征提取、特征匹配和透视N点投影(pespective-n-point，PNP)等一系列算法，来估计出终端设备的拍摄单元所处的位置和姿态。视觉定位可以应用在增强现实、无人驾驶以及智能移动机器人领域。

其中，在增强现实领域，视觉定位具体可以用于3D导航、3D广告投放和虚拟人偶交互等。例如，可以将虚拟的3D导航图标等精确地安置在真实场景的适当位置，以实现精准定位。

在自动驾驶领域，可以通过视觉定位获取车辆的准确位置。在智能移动机器人领域，可以通过视觉定位来实时获得智能移动机器人的位置和姿态，进而控制智能移动机器人的动作。

进行精准的视觉定位的关键在于构建出包含足够精确信息的视觉特征库。下面结合附图对本申请实施例的视觉定位方法进行详细介绍。

图1是本申请实施例的视觉特征库的构建方法的示意性流程图。图1所示的方法可以有视觉特征库的构建装置来执行。该视觉特征库的构建装置具体可以是服务器、云端设备或者具有一定运算能力(运算能力能够满足视觉特征库的构建)的计算机设备。

图1所示的方法包括步骤1001至1004，下面分别对这些步骤进行详细的介绍。

1001、获取建库图像；

上述建库图像可以是用于构建视觉特征库的图像，该建库图像既可以是一张图像，也可以是多张图像。当建库图像为多张图像时，本申请实施例中对建库图像的处理过程可以视为对建库图像的任意一张图像的处理。

上述建库图像可以是用相机拍摄得到的，该述建库图像可以是全景图像，也可以是非全景图像(例如，广角图像)。上述建库图像还可以称为建库影像。

在上述步骤1001中，当建库图像存储在相机内部时，视觉特征库的构建装置可以通过与相机通信的方式从相机获得建库图像，当建库图像存储在视觉特征库的构建装置内的存储器中时，视觉特征库的构建装置可以直接从存储器中获取建库图像。

1002、对建库图像进行特征提取，以得到所述建库图像的特征点和所述建库图像的特征点的描述子。

应理解，在本申请中，建库图像的特征点可以是多个，通过对建库图像进行特征提取得到的是建库图像的多个特征点，本申请中为了描述方便，统一采用建库图像的特征点这一名称。

在步骤1002中，可以采用特征提取算法对建库图像进行特征提取，以得到建库图像的特征点和建库图像的特征点的描述子。

在上述步骤1002中，可以采用一种或者多种特征提取算法对建库图像进行特征提取，以得到建库图像的特征点和建库图像的特征点的描述子。

其中，上述特征提取算法是用于提取图像中的特征点以及图像的特征点的描述子的算法。在本申请中，可用的特征提取算法可以包括以下几种：

ORB算法；

SIFT算法；

SuperPoint算法；

D2-Net算法；

线特征算法；

上述特征提取算法还可以称为特征提取算子。

在上述步骤1002中，可以采用ORB算法，SIFT算法、SuperPoint算法、D2-net算法以及线特征算法中的一种或者多种对建库图像进行特征提取。

本申请中，当采用多种特征提取算法对建库图像进行特征提取时，能够从建库图像中获取更多种类的特征点和特征点的描述子，使得最终构建得到的视觉特征库中能够包含更多种类的特征点，可以提高后续根据该视觉特征库进行视觉定位的效果。

具体地，当视觉特征库中包含多种类型的特征点和特征点的描述子时，在根据该视觉特征库对待处理图像进行视觉定位时，能够较从视觉特征库的多种类型的特征点中更准确确定出与待处理图像的特征点相匹配的匹配特征点，可以提高视觉定位的效果。

下面结合图2对建库图像的特征提取过程进行说明。

如图2所示，可以采用三种特征提取算法对建库图像进行特征提取，以得到三类特征点和三类特征点的描述子。

上述三种特征提取算法可以包括：

其中，第一类特征点、第二类特征点和第三类特征点可以是分别根据ORB算法，SIFT算法和SuperPoint算法对建库图像进行特征提取后得到的特征点，第一类特征点的描述子、第二类特征点的描述子和第三类特征点的描述子也是根据相应的特征提取算法得到的，每一类特征点的2D坐标可以是根据建库图像直接得到的。

1003、将建库图像的特征点对应的射线与3D模型相交，以确定(得到)建库图像的特征点的3D位置。

在上述步骤1003中，建库图像的特征点的3D位置是建库图像的特征点对应的射线与3D模型相交的交点的3D位置，建库图像的特征点对应的射线是以建库图像的投影中心为起点并经过所述建库图像的特征点的射线。

上述建库图像与上述3D模型位于同一坐标系中，上述建库图像的投影中心为第一拍摄单元拍摄建库图像时(第一拍摄单元)所处的位置。应理解，这里的第一拍摄单元是拍摄建库图像的拍摄单元。

下面结合图3对确定建库图像的特征点的3D位置的过程进行详细描述。

如图3所示，建库图像的特征点P在建库图像的图像坐标系中的坐标为[x _p y _p] ^T，通过坐标变换将特征点P变换到相机坐标系下，以得到特征点P在相机坐标系中的坐标如公式(1)所示。

其中，[x _o y _o f]为相机内参，具体地，f为相机焦距，(x _o y _o)为相机主点位置。

接下来，在将特征点P在相机坐标系下的坐标转换到世界坐标系中，以得到的特征点P在世界坐标系中的坐标如公式(2)所示。

其中，

是将特征点P从相机坐标系下转换到世界坐标系的旋转矩阵，该旋转矩阵的参数可以根据相机坐标系与世界坐标系的位置关系来确定，

是相机投影中心在世界坐标系下的坐标。

经过上述坐标转换过程，将特征点P转换到了世界坐标系中，此时相当于将建库图像转换到了世界坐标系中，而图3所示的3D模型(图3中位于世界坐标系统中的六面体表示3D模型)本身就位于世界坐标系中，因此，建库图像和3D模型均位于世界坐标系中。接下来，以相机坐标系的原点为起点，构建一条经过特征点P的射线，该射线与3D模型相交的交点的3D位置就是特征点P的3D位置。如图3所示，该交点的位置坐标为

因此，通过射线相交得到特征点P的3D位置为

1004、构建视觉特征库，该视觉特征库包括建库图像的特征点的描述子和建库图像的特征点的3D位置。

由于在建库图像数量一定的情况下，本申请构建得到的视觉特征库包含更多数量的特征点的信息，使得后续利用该视觉特征库进行视觉定位时取得更好的视觉定位效果。

在本申请中，视觉特征库除了包含建库图像的特征点的描述子和建库图像的特征点的3D位置之外，视觉特征库还可以包括以下两种信息。

(1)建库图像的特征点的语义信息和建库图像的特征点的语义信息的置信度；

(2)建库图像的描述子。

具体地，可以在本申请的视觉特征库的构建方法中，生成上述三种信息的一种或者多种之后，然后将该三种信息中的一种或者多种写入(保存到)视觉特征库中。

下面结合附图对上述两种信息的生成过程进行详细的描述。

(1)建库图像的特征点的语义信息及置信度。

在本申请中，可以通过以步骤A和步骤B来确定建库图像的特征点的语义信息及置信度。

步骤A：对建库图像进行语义分割，以得到建库图像的语义分割结果；

步骤B：根据建库图像的语义分割结果生成建库图像的特征点的语义信息和建库图像的特征点的语义信息的置信度。

其中，步骤A得到的建库图像的语义分割结果包括建库图像的每个区域的语义信息和每个区域的语义信息的置信度。接下来，在步骤B中，可以将建库图像的特征点所在区域的语义信息确定为建库图像的特征点的语义信息，将建库图像的特征点所在区域的语义信息的置信度确定为建库图像的特征点的语义信息的置信度。

如图4所示，通过对建库图像进行语义分割，可以将建库图像划分成对应6个区域，这6个区域的图像的语义分别是行人、道路、树、建筑物、天空和玻璃。

接下来，可以对建库图像的特征点进行语义识别，在进行语义识别时，具体可以根据建库图像的特征点的2D坐标确定建库图像的特征点所在的图像区域，特征点所在的图像区域的语义信息就是该特征点的语义信息，从而得到建库图像的特征点的信息不仅包括特征点的2D坐标和特征点的描述子，还包括特征点的语义信息和特征点的语义信息的置信度。

例如，对于建库图像中的某个特征点来说，通过该特征点的2D坐标确定该特征点所在的图像区域的语义为道路，那么，就可以确定该特征点的语义也为道路。

应理解，上述图4所示的过程是对直接建库图像直接进行语义分割，以最终得到建库图像的特征点的语义类别(语义信息的具体表现形式)和建库图像的特征点的语义类别的置信度。事实上，在本申请中，还可以先对建库图像进行切分(切分的过程可以如图1所示)，然后对得到的切片图像进行语义分割，以最终得到建库图像的特征点的语义信息和建库图像的特征点的语义信息的置信度。

另外，在本申请中，还可以先对建库图像进行场景模拟，在得到多种场景图像之后，再对多种场景进行语义分割，从而最终得到建库图像的特征点的语义信息和建库图像的特征点的语义信息的置信度。

(2)建库图像的描述子。

在本申请中，可以通过对建库图像的特征点的描述子进行合成，来得到建库图像的描述子。

通过合成建库图像的特征点的描述子，能够得到建库图像的描述子，可以将建库图像的描述子写入到视觉特征库中，使得视觉特征库中包含的信息更加丰富。

如图5所示，采用一种特征提取算法(可以是ORB算法，SIFT算法、SuperPoint算法、D2-net算法以及线特征算法中的一种)对建库图像进行特征提取，以得到特征点的描述子，接下来，对该特征点描述子进行合成，以得到建库图像的描述子，然后将特征点的描述子和建库图像的描述子都写入到视觉特征库中。

在提取建库图像的特征点时，还可以采用多种特征算法对建库图像进行特征提取，以得到多种类型的特征点以及特征点的描述子，接下来，可以对每一类特征点的描述子进行合并得到建库图像的描述子。

如图6所示，采用三种不同的特征提取算法(可以是ORB算法，SIFT算法、SuperPoint算法、D2-net算法以及线特征算法中的任意三种)对建库图像进行特征提取，以得到第一类特征点及其描述子，第二类特征点及其描述子，第三类特征点及其描述子。接下来，可以对第一类特征点的描述子进行合并处理得到建库图像的第一类描述子，对第二类特征点的描述子进行合并处理得到建库图像的第二类描述子，对第三类特征点的描述子进行合并处理得到建库图像的第三类描述子。接下来，可以将特征点的不同类型的描述子以及建库图像的不同类型的描述子写入到视觉特征库中。

另外，在保存建库图像的描述子时，可以将建库图像的描述子保存到视觉特征库中的图像检索库中，便于后续进行视觉定位时进行查找。

为了模拟不同的场景下的图像，在本申请中，在根据建库图像进行特征提取时，可以先对建库图像进行场景模拟，以得到不同场景的场景图像，然后再对不同场景的场景图像进行特征提取，从而获取到更多以场景下的图像的特征点和描述子。

可选地，上述步骤1002具体包括：

1002a、对建库图像进行场景模拟，生成多种场景下的建库图像；

1002b、对多种场景下的建库图像进行特征提取，以得到建库图像的特征点以及建库图像的特征点的描述子。

其中，上述步骤1002a中的多种场景可以包括白天、夜晚、雨天、雪天以及阴天中的至少两种。

通过对建库图像进行场景模拟，能够得到不同场景下的场景图像，进而得到从不同场景图像中提取到的信息，使得最终生成的视觉特征库包含的信息更加丰富。

例如，如图7所示，通过对建库图像进行场景模拟，可以得到白天、夜晚、雨天以及雪天场景的场景图像。应理解，图7仅示出了部分场景下的场景图像，在本申请中还可以通过对建库图像进行场景模拟得到其他场景下的场景图像，例如，阴天和多云等场景下的场景图像。

应理解，上述图7所示的过程是对建库图像直接进行场景模拟，以得到多种场景图像。事实上，在本申请中，还可以先对建库图像进行切分(切分的过程可以如图8所示)，然后对得到的切片图像进行场景模拟，以得到多种场景图像。

由于全景投影的成像方式与用户拍摄的图像的成像方式不同，当建库图像为全景图像时，可以对建库图像进行切分处理，以得到不同视角的切片图像，从而消除建库图像与用户拍摄的图像的成像方式的差异，使得在根据视觉特征库对用户拍摄的图像进行视觉定位时，能够更准确的确定出用户拍摄的图像的特征点的匹配特征点。

可选地，上述步骤1002具体包括：

1002c、对建库图像进行切分处理，以得到多张切片图像；

1002d、对多张切片图像进行特征提取，以得到建库图像的特征点和建库图像的特征点的描述子。

其中，在步骤1002c得到的多张切片图像中，相邻切片图像的部分图像内容相同。上述步骤1002c中的建库图像具体可以是全景图像或者广角图像。

下面结合图8对图像的切分过程进行描述。

如图8所示，可以对建库图像进行切分处理(也可以称为投影处理)，以得到切片图像1至切片图像K，不同的切片图像对应的视角不同(切片图像1至切片图像K对应的视角分别为视角1至视角K)，在切片图像1至切片图像K中，切片图像i和切片图像i+1为相邻的切片图像，其中，1≤i＜K，K为正整数。

上述K的数值可以根据构建视觉特征库的需求来设定。

在设置K的数值时可以使得用户拍摄的图像与切分得到的切分图像的视角范围比较接近。上述K的数值具体可以是8，12，16等数值。

其中，图8所示的切分过程切分得到的相邻切片图像的部分图像内容相同。例如，切片图像1和切片图像2相邻，切片图像1和切片图像2的部分图像内容相同。

应理解，图8所示的切分过程是对建库图像进行直接切分，以得到多个切片图像。事实上，在本申请中，还可以先对建库图像进行场景模拟(进行场景模拟的过程可以如图7所示)，然后再对每个场景图像进行切分，以得到多个切片图像。

在本申请中，在对建库图像进行一系列处理得到视觉特征库中，为了使得视觉特征库中包含的信息的实时性更强，还可以进行众包更新。这里的众包更新是指可以接收来自用户设备的待处理图像，并对待处理图像进行一系列处理，将待处理图像的特征点的描述子以及待处理图像的描述子也写入到视觉特征库中，从而实现对视觉特征库的更新，使得视觉特征库包含更多的信息。

具体地，上述步骤1002中对建库图像进行特征提取，以得到建库图像的特征点和建库图像的特征点的描述子，包括：

1002e、对建库图像进行场景模拟，以得到多种场景下的场景图像；对该多种场景下的场景图像分别进行切分处理，以得到多张切片图像；

1002f、对多张切片图像进行特征提取，以得到建库图像的特征点和建库图像的特征点的描述子。

假设对建库图像进行场景模拟，以得到三种场景下的场景图像分别为第一场景图像、第二场景图像和第三场景图像，接下来，分别对第一场景图像、第二场景图像和第三场景图像进行切分处理，以得到多张切片图像。假设对每个场景图像进行切分得到8张切片图像，那么，通过对第一场景图像、第二场景图像和第三场景图像进行切分处理，可以得到24张切片图像，接下来对这24张切片图像进行特征提取，从而得到建库图像的特征点和描述子。

例如，如图9所示，可以先对建库图像进行场景模拟，以得到白天、夜晚、雨天和雪天这四种场景下的场景图像，然后再将每种场景图像切分成8个切片图像。例如，对白天场景下的图像进行切分的，以得到视角分别为视角1至视角8的8张切片图像。对这四种场景下的图像进行切分处理，最终得到了切片图像1至切片图像32，接下来，可以对这32张切片图像进行特征提取，以得到建库图像的特征点和建库图像的特征点的描述子。

应理解，在图9所示的过程中，在对每种场景下的图像进行切分时，切分得到的切片图像的数量可以不同。例如，在对白天、夜晚、雨天和雪天这四种场景下的场景图像进行切分得到的切片图像的数量分别为8、8、12和12(这里的数量仅为举例，还可以是其他数量)。

在上述步骤1002中，也可以先对建库图像进行切分处理，以得到切片图像，然后对每个切片图像进行场景模拟(当然也可以只对其中的部分切片图像进行场景模拟)。

1002r、对建库图像进行切分处理，以得到多张切片图像；

1002s、对多张切片图像中的每张切片图像进行场景模拟，以得到多种场景下的场景图像；

1002t、对多种场景下的场景图像进行特征提取，以得到建库图像的特征点以及建库图像的特征点的描述子。

假设对建库图像进行切分处理，以得到8张切片图像，接下来，再对这8张切片图像进行场景模拟。假设对每个切片图像进行场景模拟，以得到4种场景下的场景图像，那么，对这8张切片图像分别进行场景模拟，可以得到32张场景图像，接下来对这32张场景图像进行特征提取，从而得到建库图像的特征点和描述子。

例如，如图10所示，可以先对建库图像进行切分处理，以得到切片图像1至切片图像8，然后再分别对这8个切片图像分别进行场景模拟，以得到白天、夜晚和雨天场景下的场景图像。具体地，如图10所示，通过对切片图像1至切片图像8进行场景模拟，以得到了场景图像1至场景图像24，接下来，可以对场景图像1至场景图像24进行特征提取，以得到建库图像的特征点和建库图像的特征点的描述子。

应理解，图10所示的切片图像的数量以及场景均为示例说明，事实上，在对建库图像进行切分处理时还可以得到其他数量的切片图像，并这些切片图像进行场景模拟时，也可以得到其他场景下的图像。

在上述步骤1002中，还可以先分别对建库图像进行切分处理或场景模拟，然后再采用多种特征提取算法进行特征提取。

1002j、对建库图像进行切分处理，以得到多张切片图像；

1002k、采用多种特征提取算法分别对多张切片图像中的每张切片图像进行特征提取，以得到建库图像的特征点和所述建库图像的特征点的描述子。

1002g、对建库图像进行场景模拟，生成多种场景下的场景图像；

1002h、采用多种特征提取算法分别对多种场景下的场景图像进行特征提取，以得到建库图像的特征点以及所述建库图像的特征点的描述子。

在上述步骤1002中，还可以先分别对建库图像进行切分处理和场景模拟(先进行切分处理后进行场景模拟，或者先进行场景模拟后进行切分处理)，然后再采用多种特征提取算法进行特征提取。

1002u、对建库图像进行场景模拟，以得到多种场景下的场景图像；

1002v、对该多种场景下的场景图像分别进行切分处理，以得到多张切片图像；

1002w、采用多种特征提取算法分别对多张切片图像进行特征提取，以得到建库图像的特征点和建库图像的特征点的描述子。

1002x、对建库图像进行切分处理，以得到多张切片图像；

1002y、对多张切片图像中的每张切片图像进行场景模拟，以得到多种场景下的场景图像；

1002z、采用多种特征提取算法分别对多种场景下的场景图像进行特征提取，以得到建库图像的特征点以及建库图像的特征点的描述子。

可选地，图1所示的方法还包括以下步骤：

2001、接收来自用户设备的待处理图像；

2002、对待处理图像进行特征提取，以得到待处理图像的特征点和待处理图像的特征点的描述子；

2003、将待处理图像的特征点对应的射线与3D模型相交，以确定待处理图像的特征点的3D位置；

2004、更新视觉特征库，更新后的视觉特征库包括待处理图像的特征点和待处理图像的特征点的3D位置。

其中，待处理图像的特征点的3D位置为待处理图像的特征点对应的射线与3D模型相交的交点的3D位置，待处理图像的特征点对应的射线是以待处理图像的投影中心为起点，并经过待处理图像的特征点的射线，待处理图像与3D模型位于同一坐标系中，待处理图像的投影中心为第二拍摄单元拍摄待处理图像时所处的位置。

上述步骤2001至步骤2003的处理过程与上文中的步骤1001至1003描述的过程相同，这里不再详细描述。

可选地，在执行2005之前，还可以先执行2006和2007：

2007、从视觉特征库中确定出参照图像；

2008、确定待处理图像的语义信息与参照图像的语义信息不同。

上述参照图像是视觉特征库中与待处理图像的位置最接近的图像；

参照图像的位置和待处理图像的位置可以由各自的特征点的3D位置来确定，在从视觉特征库中确定出参照图像时，具体可以将建库图像中的每张图像的特征点的3D位置与待处理图像的3D位置进行比较，从中选择出一个特征点的3D位置与待处理图像的3D位置最接近(特征点的3D位置与待处理图像的3D位置重合最多)的图像作为参照图像。

上文结合附图对本申请实施例的视觉特征库的构建方法进行了详细描述，应理解，本申请实施例的视觉特征库的构建方法构建得到的视觉特征库可以用于进行视觉定位。下面结合附图对本申请实施例的视觉定位方法进行详细的介绍。

图11是本申请实施例的视觉定位方法的示意性流程图。图11所示的方法可以采用图1所示的方法构建得到的视觉特征库进行视觉定位。图11所示的方法可以由视觉定位设备来执行，该视觉定位设备具体可以是手机，电脑，个人数字助理，可穿戴设备，车载设备，物联网设备、虚拟现实设备、增强现实设备等等。

图11所示的方法包括步骤3001至步骤3004，下面对步骤3001至步骤3004进行详细的介绍。

3001、获取待处理图像。

上述待处理图像可以是视觉定位设备拍摄的图像，例如，该待处理图像可以是手机拍摄的图像。

3002、对待处理图像进行特征提取，以得到待处理图像的特征点和待处理图像的特征点的描述子。

上述步骤3002的具体实现过程可以参见上文中对步骤1002的描述，为了避免不必要的重复和冗余，这里不再进行详细描述。

3003、根据待处理图像的特征点的描述子，从视觉特征库中确定出待处理图像的特征点的匹配特征点。

具体地，在步骤3003中，可以根据待处理图像的特征点的描述子从视觉特征库中确定出待处理图像的特征点的匹配特征点，该匹配特征点的描述子是视觉特征库中与待处理图像的特征点的描述子最接近的。

3004、根据匹配特征点的3D位置，确定拍摄单元拍摄待处理图像时的位姿信息。

上述视觉特征库包括建库图像的特征点的描述子和建库图像的特征点的3D位置，上述视觉特征库满足下列条件中的至少一种：

建库图像的特征点包括多组特征点，多组特征点中的任意两组特征点的描述子的描述方式不同；

本申请实施例中的视觉特征库与传统方案的视觉特征库相比，包含更丰富的信息，因此，在根据本申请实施例中的视觉特征库进行视觉定位时，能够得到更好的视觉定位效果，可以使得视觉定位的效果更加准确。

上述步骤3004中根据匹配特征点的3D位置，确定拍摄单元拍摄待处理图像时的位姿信息时，可以先将匹配特征点的3D位置确定为待处理图像的特征点的位置，然后根据待处理图像的特征点的位置来确定拍摄单元拍摄待处理图像时的位姿信息。

应理解，在本申请中，待处理图像的特征点可以是多个，通过待处理图像的多个特征点的3D位置能够推导出拍摄单元拍摄待处理图像时的位姿信息。本申请中为了描述方便，统一采用待处理图像的特征点这一名称。

当视觉特征库中包含的不同的信息时，本申请实施例的视觉定位过程可能会有所不同，下面对视觉特征库中包含不同信息时的视觉定位过程进行详细描述。

情况一：建库图像的特征点包括多组特征点。

在情况一中，上述步骤3003中确定待处理图像的特征点的匹配特征点具体包括：

3003a、根据待处理图像的特征点的描述子的描述方式，从多组特征点中确定出目标组特征点；

3003b、根据待处理图像的特征点的描述子，从目标组特征点中确定出待处理图像的特征点的匹配特征点。

其中，上述待处理图像的特征点的描述子的描述方式与目标组特征点的描述方式相同。上述多组特征点是分别采用不同的特征提取算法对建库图像进行特征提取得到的。

本申请中，当建库图像的特征点包括多组特征点时，视觉特征库中包含的特征点的信息更多，通过从多组特征点中选择出与待处理图像的特征点的描述子的描述方式相同的目标特征点，能够在后续从目标特征点中选择出与待处理图像的特征点更匹配的匹配特征点，提高视觉定位的效果。

情况二：视觉特征库包括建库图像的描述子。

在情况二中，上述步骤3003中确定待处理图像的特征点的匹配特征点具体包括：

3003c、根据待处理图像的描述子从建库图像中确定出N张图像；

3003d、从N张图像的特征点中确定出待处理图像的特征点的匹配特征点。

其中，上述待处理图像的描述子由待处理图像的特征点的描述子合成得到的，上述待处理图像的描述子与上述N张图像中的任意一张图像的描述子的距离小于或者等于待处理图像的描述子与建库图像中剩余的M张图像中的任意一张图像的描述子的距离，上述建库图像由N张图像和M张图像组成。

本申请中，当视觉特征库中包括建库图像的描述子时，能够先根据待处理图像的描述子从视觉特征库中进行粗略的筛选，选择出描述子比较接近的N张图像，然后再从该N张图像的特征点中确定出待处理图像的特征点的匹配特征点，能够加速视觉定位的过程，提高视觉定位的效率。

情况三：建库图像的特征点为多种场景图像的特征点。

在情况三中，上述步骤3003中确定待处理图像的特征点的匹配特征点具体包括：

3003e、从多种场景图像中确定目标场景图像；

3003f、根据待处理图像的特征点的描述子，从目标场景图像的特征点中确定出待处理图像的特征点的匹配特征点。

其中，在步骤3003e所示的多种场景图像中，目标场景图像所对应的场景与拍摄待处理图像时的场景最接近。

本申请中，当视觉特征库中包含多种场景图像的特征点时，可以先从多种场景图像中确定出与待处理图像拍摄时的场景最接近的目标场景图像，然后再从该目标场景图像中确定待处理图像的特征点的匹配特征点，可以为待处理图像的特征点确定更准确的匹配特征点，进而提高视觉定位的成功率。

情况四：视觉特征库包括所述建库图像的特征点的语义信息和所述建库图像的特征点的语义信息的置信度。

在情况四中，上述步骤3004中确定拍摄单元拍摄待处理图像时的位姿信息具体包括：

3004a、根据所述匹配特征点的语义信息的置信度，对所述匹配特征点的3D位置进行加权处理；

3004b、根据加权处理结果确定所述拍摄单元拍摄所述待处理图像时的位姿信息。

其中，在上述步骤3004a进行加权处理的过程中，置信度越高的匹配特征点对应的权重越大。

图12为本申请实施例的视觉特征库的构建方法应用在具体的产品形态上的示意图。

如图12所示，通过全景相机进行拍摄，以得到建库图像，通过无人机或者激光扫描仪进行扫描得到建模数据，其中，全景相机、无人机以及激光扫描仪的内部参数已经标定好。另外，在室外场景下可以采用无人机获取建模数据，而在室内场景下可以采用激光扫描仪来获取建模数据。

在得到了建库图像和建模数据之后，可以通过服务器中的各个模块对建库图像和建模数据进行处理，最终得到建库图像的特征点的3D位置和建库图像的描述子，然后将建库图像的描述子保存在图像检索库中，将建库图像的特征点的3D位置保存在3D特征库中。

在对建库图像和建模数据进行处理时，可以利用服务器中的软件模块实现对建库图像和建模数据的处理。具体地，建模数据中包括建模图像和点云数据，可以利用数据对齐模块对建库图像和建模图像进行数据对齐，然后再利用3D模块结合建模数据进行3D建模得到3D模型；可以根据语义识别模块确定建库图像的特征点的语义信息和建库图像的特征点的语义信息的置信度；可以根据场景模拟模块对建库图像进行场景模拟，以得到多种场景下的场景图像；可以采用特征提取模块对建库图像进行特征提取，以得到建库图像的特征点和建库图像的特征点的描述子。可以采用3D位置获取模块确定建库图像的特征点的3D位置。

下面结合具体的测试结果对本申请实施例的视觉特征库的构建方法的效果进行说明。表1分别示出了利用现有方案和本申请方案构建得到的视觉特征库进行视觉定位的成功率。如表1所示，第一列为视觉特征库的构建方案，其中，传统方案是基于从运动中恢复结构(structure from motion，SFM)的视觉特征库的构建方案，本申请方案为本申请实施例的视觉特征库的构建方法，第二列为相应的视觉定位方案，包括ORB定位(采用ORB特征提取算法提取特征的视觉定位方案)和rootSIFT定位(采用ORB特征提取算法提取特征的视觉定位方案)，第三列为视觉定位的成功率。

由表1可知，无论采用ORB定位还是rootSIFT定位，在基于本申请方案得到的视觉特征库进行视觉定位的成功率都要高于基于传统方案得到的视觉特征库进行视觉定位的成功率，其中，在采用ORB定位时，基于本申请方案得到的视觉特征库进行视觉定位的成功率为93％，远远大于基于传统方案得到的视觉特征库进行视觉定位的成功率61％，在采用rootSIFT定位时，基于本申请方案得到的视觉特征库进行视觉定位的成功率为98％，也远远大于于基于传统方案得到的视觉特征库进行视觉定位的成功率71％。

表1

视觉特征库构建方案	视觉定位方案	视觉定位成功率
传统方案	ORB定位	61％
本申请方案	ORB定位	93％
传统方案	rootSIFT定位	71％
本申请方案	rootSIFT定位	98％

上文结合附图对本申请实施例的视觉特征库的构建方法和视觉定位方法进行了详细介绍，下面结合附图对本申请实施例的视觉特征库的构建装置和视觉定位装置进行介绍，应理解，下文中介绍的视觉特征库的构建装置能够执行本申请实施例的视觉特征库的构建方法，下文中介绍的视觉定位装置能够执行本申请实施例的视觉定位方法。下面在介绍这两种装置时适当省略重复的描述。

图13是本申请实施例的视觉特征库的构建装置的示意性框图。图13所示的装置5000包括获取单元5001、特征提取单元5002、位置确定单元5003以及构建单元5004。

其中，图13所示的装置5000具体可以用于执行图1所示的方法。具体地，获取单元5001用于执行步骤1001，特征提取单元5002用于执行步骤1002，位置确定单元5003用于执行步骤1003，构建单元5004用于执行步骤1004。

图14是本申请实施例的视觉定位装置的示意性框图。图14所示的装置6000包括获取单元6001、特征提取单元6002、特征匹配单元6003以及视觉定位单元6004。

其中，图14所示的装置6000具体可以用于执行图11所示的方法。具体地，获取单元6001用于执行步骤3001，特征提取单元6002用于执行步骤3002，特征匹配单元6003用于执行步骤3003，视觉定位单元6004用于执行步骤3004。

图15是本申请实施例的视觉特征库的构建装置的硬件结构示意图。

图15所示的视觉特征库的构建装置7000包括存储器7001、处理器7002、通信接口7003以及总线7004。其中，存储器7001、处理器7002、通信接口7003通过总线7004实现彼此之间的通信连接。

上述处理器7002可以通过(调用)通信接口7003来获取建库图像(此时可以通过通信接口从其他装置获取建库图像)或者从存储器7001中获取建库图像(此时建库图像存储在存储器7001中)，然后通过处理器7002对建库图像进行一系列处理，最终构建得到视觉特征库。

下面对上述装置7000中的各个模块和单元进行详细介绍。

存储器7001可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器7001可以存储程序，当存储器7001中存储的程序被处理器7002执行时，处理器7002用于执行本申请实施例的视觉特征库的构建方法的各个步骤。

处理器7002可以采用通用的中央处理器(central processing unit，CPU)，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请方法实施例的视觉特征库的构建方法。

处理器7002还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的视觉特征库的构建方法的各个步骤可以通过处理器7002中的硬件的集成逻辑电路或者软件形式的指令完成。

上述处理器7002还可以是通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。

通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器7001，处理器7002读取存储器7001中的信息，结合其硬件完成本视觉特征库的构建装置中包括的单元所需执行的功能，或者执行本申请方法实施例的视觉特征库的构建方法。

通信接口7003使用例如但不限于收发器一类的收发装置，来实现视觉特征库的构建装置7000与其他设备或通信网络之间的通信。例如，可以通过通信接口7003获取待构建的神经网络的信息以及构建神经网络过程中需要的训练数据。

总线7004可包括在视觉特征库的构建装置7000各个部件(例如，存储器7001、处理器7002、通信接口7003)之间传送信息的通路。

上述视觉特征库的构建装置5000中的获取单元5001可以相当于视觉特征库的构建装置7000中的通信接口7003，用于获取建库图像。

上述视觉特征库的构建装置5000中的特征提取单元5002、位置确定单元5003以及构建单元5004相当于视觉特征库的构建装置7000中的处理器7002，用于对建库图像进行一系列的处理后最终构建得到视觉特征库。

图16是本申请实施例提供的视觉定位装置的硬件结构示意图。图16所示的视觉定位装置8000包括存储器8001、处理器8002、通信接口8003以及总线8004。其中，存储器8001、处理器8002、通信接口8003通过总线8004实现彼此之间的通信连接。

上述处理器8002可以通过(调用)摄像头(图16中未示出)来获取待处理图像或者从存储器8001中获取待处理图像，然后通过处理器8002对待处理图像进行一系列处理，最终实现视觉定位。

上文中对视觉特征库的构建装置7000中的各个模块的限定和解释同样也适用于视觉定位装置8000，这里不再详细描述。

上述存储器8001可以用于存储程序，处理器8002用于执行存储器8001存储的程序，当存储器8001存储的程序被执行时，处理器8002用于执行本申请实施例的视觉定位方法的各个步骤。

上述视觉定位装置6000中的获取单元6001可以相当于视觉定位装置8000中的通信接口8003，用于获取待处理图像。

上述视觉定位装置6000中的特征提取单元6002、特征匹配单元6003以及视觉定位单元6004相当于视觉定位装置8000中的处理器8002，用于对待处理图像进行一系列的处理后确定拍摄单元拍摄待处理图像时的位姿信息。

上述图13所示的视觉特征库的构建装置5000和图15所示的视觉特征库的构建装置7000具体可以是服务器、云端设备或者具有一定运算能力的计算机设备。

上述图14所示的视觉定位装置6000和图16所示的视觉定位装置8000具体可以是手机，电脑，个人数字助理，可穿戴设备，车载设备，物联网设备、虚拟现实设备、增强现实设备等等。

本申请实施例的视觉定位方法可以由终端设备来执行，下面结合图17对终端设备的结构进行详细的描述。

图17是本申请实施例的终端设备的硬件结构示意图。图17所示的终端设备可以执行本申请实施例的视觉定位方法。

图17所示的终端设备可以执行图3所示的视觉定位方法的各个步骤。具体地，可以通过摄像头3060可以获取待处理图像(摄像头可以执行上述步骤3001)，接下来再通过处理器对待处理图像进行处理能够实现视觉定位(处理器可以执行上述步骤3002至3004)。

图17所示的终端设备包括通信模块3010、传感器3020、用户输入模块3030、输出模块3040、处理器3050、摄像头3060、存储器3070以及电源3080。下面分别对这些模块进行详细的介绍。

通信模块3010可以包括至少一个能使该终端设备与其他设备(例如，云端设备)之间进行通信的模块。例如，通信模块3010可以包括有线网络接口、广播接收模块、移动通信模块、无线因特网模块、局域通信模块和位置(或定位)信息模块等其中的一个或多个。

传感器3020可以感知用户的一些操作，传感器3020可以包括距离传感器，触摸传感器等等。传感器3020可以感知用户触摸屏幕或者靠近屏幕等操作。

用户输入模块3030，用于接收输入的数字信息、字符信息或接触式触摸操作/非接触式手势，以及接收与系统的用户设置以及功能控制有关的信号输入等。用户输入模块3030包括触控面板和/或其他输入设备。

输出模块3040包括显示面板，用于显示由用户输入的信息、提供给用户的信息或系统的各种菜单界面等。该输出模块3040可以显示视觉定位结果。

可选的，可以采用液晶显示器(liquid crystal display，LCD)或有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板。在其他一些实施例中，触控面板可覆盖显示面板上，形成触摸显示屏。另外，输出模块3040还可以包括音频输出模块、告警器以及触觉模块等。

摄像头3060，用于拍摄图像，摄像头3060拍摄的图像可以送入到处理器中进行视觉定位，处理器通过对摄像头拍摄的图像进行处理(具体处理过程可以如步骤3001至3004所示)，从而得到摄像头3060的拍摄图像时的位姿信息。

电源3080可以在处理器3050的控制下接收外部电力和内部电力，并且提供整个终端设备各个模块运行时需要的电力。

处理器3050可以指示一个或多个处理器，例如，处理器3050可以包括一个或多个中央处理器，或者包括一个中央处理器和一个图形处理器，或者包括一个应用处理器和一个协处理器(例如微控制单元或神经网络处理器)。当处理器3050包括多个处理器时，这多个处理器可以集成在同一块芯片上，也可以各自为独立的芯片。一个处理器可以包括一个或多个物理核，其中物理核为最小的处理模块。

存储器3070存储计算机程序，该计算机程序包括操作系统程序3071和应用程序3072等。典型的操作系统如微软公司的Windows，苹果公司的MacOS等用于台式机或笔记本的系统，又如谷歌公司开发的基于

的安卓

系统等用于移动终端的系统。当本申请实施例的资源调度方法通过软件的方式实现时，可以认为是通过应用程序3071来具体实现的。

存储器3070可以是以下类型中的一种或多种：闪速(flash)存储器、硬盘类型存储器、微型多媒体卡型存储器、卡式存储器(例如SD或XD存储器)、随机存取存储器(random access memory,RAM)、静态随机存取存储器(static RAM,SRAM)、只读存储器(read only memory,ROM)、电可擦除可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、可编程只读存储器(programmable ROM,PROM)、磁存储器、磁盘或光盘。在其他一些实施例中，存储器3070也可以是因特网上的网络存储设备，系统可以对在因特网上的存储器3070执行更新或读取等操作。

处理器3050用于读取存储器3070中的计算机程序，然后执行计算机程序定义的方法，例如处理器3050读取操作系统程序3072从而在该系统运行操作系统以及实现操作系统的各种功能，或读取一种或多种应用程序3071，从而在该系统上运行应用。

例如，上述存储器3070可以存储一种计算机程序(该计算机程序是本申请实施例的资源调度方法对应的程序)，当处理器3050执行该极端及程序时，处理器3050能够执行本申请实施例的资源调度方法。

存储器3070还存储有除计算机程序之外的其他数据3073，例如，存储器3070可以存储本申请的资源调度方法中涉及的绘帧线程的负载特征，绘帧线程的负载预测值等等。

图17中各个模块的连接关系仅为一种示例，图17中的各个模块还可以是其他的连接关系，例如，终端设备中所有模块通过总线连接。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种视觉特征库的构建方法，其特征在于，包括：

获取建库图像；

对所述建库图像进行特征提取，以得到所述建库图像的特征点和所述建库图像的特征点的描述子；

将所述建库图像的特征点对应的射线与3D模型相交，以确定所述建库图像的特征点的3D位置，其中，所述建库图像的特征点的3D位置为所述建库图像的特征点对应的射线与所述3D模型相交的交点的3D位置，所述建库图像的特征点对应的射线是以所述建库图像的投影中心为起点并经过所述建库图像的特征点的射线；

构建视觉特征库，所述视觉特征库包括所述建库图像的特征点的描述子和所述建库图像的特征点的3D位置。
如权利要求1所述的构建方法，其特征在于，对所述建库图像进行特征提取，以得到所述建库图像的特征点和所述建库图像的特征点的描述子，包括：

采用多种特征提取算法对所述建库图像进行特征提取，以得到所述建库图像的特征点和所述建库图像的特征点的描述子。
如权利要求1或2所述的构建方法，其特征在于，所述视觉特征库还包括所述建库图像的特征点的语义信息和所述建库图像的特征点的语义信息的置信度，其中，所述建库图像的特征点的语义信息与所述建库图像的特征点所在区域的语义信息相同，所述建库图像的特征点的语义信息的置信度与所述建库图像的特征点所在区域的语义信息的置信度相同，所述建库图像的每个区域的语义信息和所述每个区域的语义信息的置信度是对所述建库图像进行语义分割得到的。
如权利要求1-3中任一项所述的构建方法，其特征在于，所述视觉特征库还包括建库图像的描述子，其中，所述建库图像的描述子是由所述建库图像的特征点的描述子合成得到的。
如权利要求1-4中任一项所述的构建方法，其特征在于，对所述建库图像进行特征提取，以得到所述建库图像的特征点和所述建库图像的特征点的描述子，包括：

对所述建库图像进行场景模拟，生成多种场景下的场景图像，其中，所述多种场景包括白天、夜晚、雨天、雪天以及阴天中的至少两种；

对所述多种场景下的场景图像进行特征提取，以得到所述建库图像的特征点以及所述建库图像的特征点的描述子。
如权利要求1-5中任一项所述的构建方法，其特征在于，对所述建库图像进行特征提取，以得到所述建库图像的特征点和所述建库图像的特征点的描述子，包括：

对所述建库图像进行切分处理，以得到多张切片图像，在所述多张切片图像中，相邻切片图像的部分图像内容相同；

对所述多张切片图像进行特征提取，以得到所述建库图像的特征点和所述建库图像的特征点的描述子。
如权利要求1-6中任一项所述的构建方法，其特征在于，所述方法还包括：

接收来自用户设备的待处理图像；

对所述待处理图像进行特征提取，以得到所述待处理图像的特征点和所述待处理图像的特征点的描述子；

将所述待处理图像的特征点对应的射线与所述3D模型相交，以确定所述待处理图像的特征点的3D位置，其中，所述待处理图像的特征点的3D位置为所述待处理图像的特征点对应的射线与所述3D模型相交的交点的3D位置，所述待处理图像的特征点对应的射线是以所述待处理图像的投影中心为起点，并经过所述待处理图像的特征点的射线，所述待处理图像与所述3D模型位于同一坐标系中，所述待处理图像的投影中心为第二拍摄单元拍摄所述待处理图像时所处的位置；

更新所述视觉特征库，所述更新后的视觉特征库包括所述待处理图像的特征点和所述待处理图像的特征点的3D位置。
如权利要求7所述的构建方法，其特征在于，在更新所述视觉特征库之前，所述方法还包括：

确定所述待处理图像的语义信息与参照图像的语义信息不同，其中，所述参照图像是所述视觉特征库中与所述待处理图像的位置最接近的图像。
如权利要求1-8中任一项所述的构建方法，其特征在于，所述方法还包括：

获取建模数据，所述建模数据包括建模图像和点云数据；

对所述建模图像进行特征提取，以得到所述建模图像的特征点；

对所述建库图像和所述建模图像中的任意两张图像的特征点进行特征匹配，对匹配得到的特征点进行串点，以得到同名特征点序列；

根据所述同名特征点序列对所述建库图像和所述建模图像进行平差处理，以得到所述建库图像的位姿和所述建模图像的位姿；

根据所述建模图像的位姿和点云数据，构建所述3D模型。
如权利要求1-9中任一项所述的构建方法，其特征在于，所述建库图像为全景图像。
一种视觉定位方法，其特征在于，包括：

获取待处理图像；

对所述待处理图像进行特征提取，以得到所述待处理图像的特征点和所述待处理图像的特征点的描述子；

根据所述待处理图像的特征点的描述子，从视觉特征库中确定出所述待处理图像的特征点的匹配特征点，所述视觉特征库包括建库图像的特征点的描述子和所述建库图像的特征点的3D位置，所述视觉特征库满足下列条件中的至少一种：

所述建库图像的特征点包括多组特征点，所述多组特征点中的任意两组特征点的描述子的描述方式不同；

所述视觉特征库包括所述建库图像的描述子，所述建库图像的描述子是由所述建库图像的特征点的描述子合成得到的；

所述建库图像的特征点为多种场景下的场景图像的特征点，所述多种场景下的场景图像是对所述建库图像进行场景模拟得到的，所述多种场景包括白天、夜晚、雨天、雪天以及阴天中的至少两种；

所述建库图像的特征点和所述建库图像的特征点的描述子是对多张切片图像进行特征提取得到的，所述多张切片图像是对所述建库图像进行切分处理得到的，在所述多张切片图像中，相邻切片图像的部分图像内容相同；

所述视觉特征库包括所述建库图像的特征点的语义信息和所述建库图像的特征点的语义信息的置信度；

根据所述匹配特征点的3D位置，确定拍摄单元拍摄所述待处理图像时的位姿信息。
如权利要求11所述的视觉定位方法，其特征在于，所述建库图像的特征点包括多组特征点，所述根据所述待处理图像的特征点的描述子，从视觉特征库中确定出所述待处理图像的特征点的匹配特征点，包括：

根据所述待处理图像的特征点的描述子的描述方式，从所述多组特征点中确定出目标组特征点，所述目标组特征点的描述方式与所述待处理图像的特征点的描述子的描述方式相同；

根据所述待处理图像的特征点的描述子，从所述目标组特征点中确定出所述待处理图像的特征点的匹配特征点。
如权利要求11或12所述的视觉定位方法，其特征在于，所述视觉特征库包括所述建库图像的描述子，所述根据所述待处理图像的特征点的描述子，从视觉特征库中确定出所述待处理图像的特征点的匹配特征点，包括：

根据所述待处理图像的描述子从所述建库图像中确定出N张图像，其中，所述待处理图像的描述子由所述待处理图像的特征点的描述子合成得到的，所述待处理图像的描述子与所述N张图像中的任意一张图像的描述子的距离小于或者等于所述待处理图像的描述子与所述建库图像中剩余的M张图像中的任意一张图像的描述子的距离，所述建库图像由N张图像和M张图像组成；

从N张图像的特征点中确定出待处理图像的特征点的匹配特征点。
如权利要求如权利要求11-13中任一项所述的视觉定位方法，其特征在于，所述建库图像的特征点为多种场景下的场景图像的特征点，所述根据所述待处理图像的特征点的描述子，从视觉特征库中确定出所述待处理图像的特征点的匹配特征点，包括：

从所述多种场景下的场景图像中确定目标场景图像，其中，在所述多种场景下的场景图像中，所述目标场景图像对应的场景与拍摄所述待处理图像时的场景最接近；

根据所述待处理图像的特征点的描述子，从所述目标场景图像的特征点中确定出所述待处理图像的特征点的匹配特征点。
如权利要求11-14中任一项所述的视觉定位方法，其特征在于，所述视觉特征库包括所述建库图像的特征点的语义信息和所述建库图像的特征点的语义信息的置信度，所述根据所述匹配特征点的3D位置，确定拍摄单元拍摄所述待处理图像时的位姿信息，包括：

根据所述匹配特征点的语义信息的置信度，对所述匹配特征点的3D位置进行加权处理，并根据加权处理结果确定所述拍摄单元拍摄所述待处理图像时的位姿信息，其中，置信度越高的所述匹配特征点对应的权重越大。
一种视觉特征库的构建装置，其特征在于，包括：

获取单元，用于获取建库图像；

特征提取单元，用于对所述建库图像进行特征提取，以得到所述建库图像的特征点和所述建库图像的特征点的描述子；

位置确定单元，将所述建库图像的特征点对应的射线与3D模型相交，以确定所述建库图像的特征点的3D位置，其中，所述建库图像的特征点的3D位置为所述建库图像的特征点对应的射线与所述3D模型相交的交点的3D位置，所述建库图像的特征点对应的射线是以所述建库图像的投影中心为起点并经过所述建库图像的特征点的射线；

构建单元，用于构建视觉特征库，所述视觉特征库包括所述建库图像的特征点的描述子和所述建库图像的特征点的3D位置。
如权利要求16所述的构建装置，其特征在于，所述特征提取单元用于：

采用多种特征提取算法对所述建库图像进行特征提取，以得到所述建库图像的特征点和所述建库图像的特征点的描述子。
如权利要求16或17所述的构建装置，其特征在于，所述特征提取单元用于：

对所述建库图像进行场景模拟，生成多种场景下的场景图像，其中，所述多种场景包括白天、夜晚、雨天、雪天以及阴天中的至少两种；

对所述多种场景下的场景图像进行特征提取，以得到所述建库图像的特征点以及所述建库图像的特征点的描述子。
如权利要求16-18中任一项所述的构建装置，其特征在于，所述特征提取单元用于：

对所述建库图像进行切分处理，以得到多张切片图像，在所述多张切片图像中，相邻切片图像的部分图像内容相同；

对所述多张切片图像进行特征提取，以得到所述建库图像的特征点和所述建库图像的特征点的描述子。
如权利要求16-19中任一项所述的构建装置，其特征在于，所述获取单元还用于：

接收来自用户设备的待处理图像；

所述特征提取单元用于对所述待处理图像进行特征提取，以得到所述待处理图像的特征点和所述待处理图像的特征点的描述子；

所述位置确定单元用于将所述待处理图像的特征点对应的射线与所述3D模型相交，以确定所述待处理图像的特征点的3D位置，其中，所述待处理图像的特征点的3D位置为所述待处理图像的特征点对应的射线与所述3D模型相交的交点的3D位置，所述待处理图像的特征点对应的射线是以所述待处理图像的投影中心为起点，并经过所述待处理图像的特征点的射线，所述待处理图像与所述3D模型位于同一坐标系中，所述待处理图像的投影中心为第二拍摄单元拍摄所述待处理图像时所处的位置；

所述构建单元用于更新所述视觉特征库，所述更新后的视觉特征库包括所述待处理图像的特征点和所述待处理图像的特征点的3D位置。
如权利要求20所述的构建装置，其特征在于，所述构建单元还用于：

在更新所述视觉特征库之前，确定所述待处理图像的语义信息与参照图像的语义信息不同，其中，所述参照图像是所述视觉特征库中与所述待处理图像的位置最接近的图像。
如权利要求16-21中任一项所述的构建装置，其特征在于，所述获取单元还用于：

获取建模数据，所述建模数据包括建模图像和点云数据；

所述特征提取单元用于：

对所述建模图像进行特征提取，以得到所述建模图像的特征点；

对所述建库图像和所述建模图像中的任意两张图像的特征点进行特征匹配，对匹配得到的特征点进行串点，以得到同名特征点序列；

根据所述同名特征点序列对所述建库图像和所述建模图像进行平差处理，以得到所述建库图像的位姿和所述建模图像的位姿；

所述构建单元用于根据所述建模图像的位姿和点云数据，构建所述3D模型。
一种视觉定位装置，其特征在于，包括：

获取单元，用于获取待处理图像；

特征提取单元，用于对所述待处理图像进行特征提取，以得到所述待处理图像的特征点和所述待处理图像的特征点的描述子；

特征匹配单元，用于根据所述待处理图像的特征点的描述子，从视觉特征库中确定出所述待处理图像的特征点的匹配特征点，所述视觉特征库包括建库图像的特征点的描述子和所述建库图像的特征点的3D位置，所述视觉特征库满足下列条件中的至少一种：

所述建库图像的特征点包括多组特征点，所述多组特征点中的任意两组特征点的描述子的描述方式不同；

所述视觉特征库包括所述建库图像的描述子，所述建库图像的描述子是由所述建库图像的特征点的描述子合成得到的；

所述建库图像的特征点为多种场景下的场景图像的特征点，所述多种场景下的场景图像是对所述建库图像进行场景模拟得到的，所述多种场景包括白天、夜晚、雨天、雪天以及阴天中的至少两种；

所述建库图像的特征点和所述建库图像的特征点的描述子是对多张切片图像进行特征提取得到的，所述多张切片图像是对所述建库图像进行切分处理得到的，在所述多张切片图像中，相邻切片图像的部分图像内容相同；

所述视觉特征库包括所述建库图像的特征点的语义信息和所述建库图像的特征点的语义信息的置信度；

视觉定位单元，用于根据所述匹配特征点的3D位置，确定拍摄单元拍摄所述待处理图像时的位姿信息。
如权利要求23所述的视觉定位装置，其特征在于，所述建库图像的特征点包括多组特征点，所述特征匹配单元用于：

根据所述待处理图像的特征点的描述子的描述方式，从所述多组特征点中确定出目标组特征点，所述目标组特征点的描述方式与所述待处理图像的特征点的描述子的描述方式相同；

根据所述待处理图像的特征点的描述子，从所述目标组特征点中确定出所述待处理图像的特征点的匹配特征点。
如权利要求23或24所述的视觉定位装置，其特征在于，所述视觉特征库包括所述建库图像的描述子，所述特征匹配单元用于：

根据所述待处理图像的描述子从所述建库图像中确定出N张图像，其中，所述待处理图像的描述子由所述待处理图像的特征点的描述子合成得到的，所述待处理图像的描述子与所述N张图像中的任意一张图像的描述子的距离小于或者等于所述待处理图像的描述子与所述建库图像中剩余的M张图像中的任意一张图像的描述子的距离，所述建库图像由N张图像和M张图像组成；

从N张图像的特征点中确定出待处理图像的特征点的匹配特征点。
如权利要求如权利要求23-25中任一项所述的视觉定位装置，其特征在于，所述建库图像的特征点为多种场景下的场景图像的特征点，所述特征匹配单元用于：

从所述多种场景下的场景图像中确定目标场景图像，其中，在所述多种场景下的场景图像中，所述目标场景图像对应的场景与拍摄所述待处理图像时的场景最接近；

根据所述待处理图像的特征点的描述子，从所述目标场景图像的特征点中确定出所述待处理图像的特征点的匹配特征点。
如权利要求23-26中任一项所述的视觉定位装置，其特征在于，所述视觉特征库包括所述建库图像的特征点的语义信息和所述建库图像的特征点的语义信息的置信度，所述视觉定位单元用于：

根据所述匹配特征点的语义信息的置信度，对所述匹配特征点的3D位置进行加权处理，并根据加权处理结果确定所述拍摄单元拍摄所述待处理图像时的位姿信息，其中，置信度越高的所述匹配特征点对应的权重越大。
一种视觉特征库的构建装置，其特征在于，包括：

存储器，用于存储程序；

处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被所述处理器执行时，所述处理器执行如权利要求1-10中任一项所述的方法。
一种视觉定位装置，其特征在于，包括：

存储器，用于存储程序；

处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被所述处理器执行时，所述处理器执行如权利要求11-15中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行如权利要求1-10中任一项所述的构建方法或者权利要求11-15中任一项所述的视觉定位方法。