WO2022036980A1

WO2022036980A1 - 位姿确定方法、装置、电子设备、存储介质及程序

Info

Publication number: WO2022036980A1
Application number: PCT/CN2020/140274
Authority: WO
Inventors: 刘浩敏; 杭蒙; 张壮; 章国锋
Original assignee: 浙江商汤科技开发有限公司
Priority date: 2020-08-17
Filing date: 2020-12-28
Publication date: 2022-02-24
Also published as: JP7236565B2; TW202208879A; CN111983635B; CN111983635A; KR20220028042A; JP2022548441A; CN114814872A

Abstract

本公开涉及一种位姿确定方法、装置、电子设备、存储介质及程序。所述方法包括：获取目标场景中的第一终端采集的采集数据；获取包含所述目标场景的全局地图；其中，所述全局地图，是基于第二终端对包含所述目标场景的全局场景进行数据采集所获得的地图数据生成的，且所述全局地图满足精度条件；根据所述采集数据以及所述全局地图之间的特征对应关系，确定所述第一终端在采集过程中的至少一个第一位姿。通过上述方法，可以规模化采集地采集精度较高的第一位姿数据，减少对目标场景的额外设备设置或是多个设备之间的额外标定同步产生的运算量。

Description

位姿确定方法、装置、电子设备、存储介质及程序

相关申请的交叉引用

本公开基于申请号为202010826704.X、申请日为2020年8月17日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本公开作为参考。

技术领域

本公开涉及计算机视觉技术领域，涉及但不限于一种位姿确定方法、装置、电子设备、存储介质及计算机程序。

背景技术

随着移动传感器、网络基础设施和云计算的快速发展，增强现实应用场景的规模已经从中小型扩展到大规模环境，大规模环境下的定位是增强现实应用的关键需求。相关技术中的定位技术，需要借助于大量的运动真值数据、比如设备在移动过程中的位姿数据才能实现，并且，在进行算法基准测试或模型训练时，也需要借助于大量的包括位姿数据在内的运动真值数据才能实现。因此，如何以较低的成本获取精度较高的运动真值数据，成为目前一个亟待解决的问题。

发明内容

本公开实施例提出了一种位姿确定方法、装置、电子设备、存储介质以及计算机程序。

本公开实施例提供了一种位姿确定方法，所述方法包括：

获取目标场景中的第一终端采集的采集数据；获取包含所述目标场景的全局地图；其中，所述全局地图，是基于第二终端对包含所述目标场景的全局场景进行数据采集所获得的地图数据生成的，且所述全局地图满足精度条件；

根据所述采集数据以及所述全局地图之间的特征对应关系，确定所述第一终端在采集过程中的至少一个第一位姿。

本公开实施例还提供了一种位姿确定装置，所述装置包括：

采集数据获取模块配置为：获取目标场景中的第一终端采集的采集数据；

全局地图获取模块配置为：获取包含所述目标场景的全局地图；其中，所述全局地图，是基于第二终端对包含所述目标场景的全局场景进行数据采集所获得的地图数据生成的，且所述全局地图满足精度条件；

位姿确定模块配置为：根据所述采集数据以及所述全局地图之间的特征对应关系，确定所述第一终端在采集过程中的至少一个第一位姿。

在本公开的一些实施例中，所述全局地图包括至少一帧视觉点云，所述视觉点云包括所述全局场景中的至少一个三维特征点；所述采集数据包括第一采集图像；

本公开实施例还提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行如前任一所述的位姿确定方法。

本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如前任一所述的位姿确定方法。

本公开实施例还提供了一种计算机程序，所述计算机程序包括计算机可读代码，在所述计算机可读代码在电子设备中运行的情况下，所述电子设备的处理器执行用于实现如前任一所述的位姿确定方法。

在本公开实施例中，通过获取目标场景中第一终端采集的采集数据，以及获取包含目标场景的全局地图，并根据采集数据以及全局地图之间的特征对应关系，来确定第一终端在采集过程中的至少一个第一位姿。通过上述过程，可以重复利用全局场景的全局地图，在生成全局地图后即可规模化通过第一终端采集大量的第一位姿数据，而且获取用于生成第一位姿的采集数据的方式也较为简单，仅通过第一终端即可实现采集，减小了对目标场景的额外设备设置或是多个设备之间的额外标定同步等，从而降低了第一位姿的获取成本；并且，由于全局地图满足精度条件，因此基于采集数据以及全局地图之间的特征对应关系所得到的第一位姿的数据，也具有较高精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1为本公开实施例提供的位姿确定方法的流程图；

图2为本公开实施例提供的视觉点云优化前后的对比示意图；

图3为本公开实施例提供的第二终端的结构示意图；

图4为本公开实施例提供的运动真值数据获取的流程示意图；

图5为本公开实施例提供的位姿确定装置的结构示意图；

图6为本公开实施例提供的第一种电子设备的结构示意图；

图7为本公开实施例提供的第二种电子设备的结构示意图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

另外，为了更好地说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

移动定位是增强现实、自动驾驶、移动机器人等应用领域中的关键技术。增强现实，用于根据实时定位结果将虚拟物体与真实环境无缝融合，以实现对车辆或移动机器人的路径规划。早期的移动定位主要依靠专用硬件设备例如激光设备、差分全球定位系统(Global Positioning System，GPS)设备、高精度惯导设备实现，但这些设备的成本高且灵活性差，因此难以广泛应用。随着配置摄像头且计算能力明显改善的移动设备的普及，基于低成本的视觉传感器和IMU的(Simultaneous Localization And Mapping，SLAM)取得了重大突破，且已经能够在较小范围内实现实时定位。在增强显示方面，随着智能终端中配置的基于SLAM的增强现实平台的推出，智能终端进入了增强现实(Augmented Reality，AR)时代。通过重建大规模场景的高精地图提供地球级场景中的厘米级别的定位，比如对位姿的确定，成为了一种趋势。然而，在相关技术中尚未出现基于低成本的设备实现高精度的位姿确定的方案。

图1为本公开实施例提供的位姿确定方法的流程图，该方法可以应用于位姿确定装置。其中，位姿确定装置可以为终端设备、服务器或者其他处理设备等。终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。

在本公开的一些实施例中，本公开实施例提供的位姿确定方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

如图1所示，所述位姿确定方法可以包括步骤S11至步骤S13：

步骤S11、获取目标场景中的第一终端采集的采集数据。

步骤S12、获取包含目标场景的全局地图。

其中，全局地图，是基于第二终端对包含目标场景的全局场景进行数据采集所获得的地图数据生成的，且全局地图满足精度条件。

步骤S13、根据采集数据以及全局地图之间的特征对应关系，确定第一终端在采集过程中的至少一个第一位姿。

在本公开的一些实施例中，目标场景可以是第一终端获取采集数据的任意场景，其实现形式可以根据实际需求进行灵活决定，在本公开实施例中不做限制。

在本公开的一些实施例中，目标场景可以包括室外场景，比如广场、街道或是空地等。

在本公开的一些实施例中，目标场景可以包括室内场景，比如教室、办公楼或是住宅楼等。

在本公开的一些实施例中，目标场景可以同时包含室外场景和室内场景。

在本公开的一些实施例中，第一终端可以是具有数据采集功能的移动终端，任何具有移动以及数据采集功能的设备，均可以作为第一终端。

在本公开的一些实施例中，第一终端可以是AR设备，比如手机或是AR眼镜等。

在本公开的一些实施例中，采集数据可以是第一终端在目标场景中采集的数据，采集数据的实现形式及其包含的数据内容，均可以根据第一终端的数据采集方式、或第一终端的数据采集的实际实现形式灵活决定，本公开实施例对此不做限定。

在本公开的一些实施例中，在第一终端为AR设备的情况下，采集数据可以包括AR设备对目标场景进行图像采集所得到的第一采集图像等；在第一终端为AR设备的情况下，采集数据还可以包括AR设备中的IMU对目标场景数据采集所得到的第一IMU数据等。

在本公开的一些实施例中，第一终端可以通过在目标场景中移动，以实现采集数据的采集，其中，第一终端的具体移动过程和方式均可以根据实际情况灵活选择。

在本公开的一些实施例中，可以通过从第一终端中读取采集数据、或是接收第一终端传输的采集数据的方式，获取采集数据；在本公开的一些实施例中，本公开实施例中提供的位姿确定方法也可以应用于第一终端中，在这种情况下，可以直接获取第一终端在目标场景中所采集的采集数据。

在本公开的一些实施例中，在目标场景为包含某一空地或广场的室外场景的情况下，全局场景可以是包含目标场景的郊区或市区的场景，同时该全局场景既可以包括该郊区或是市区中的室外场景，也可以包括该郊区或是市区中的室内场景等。

在本公开的一些实施例中，地图数据可以包括对全局场景进行图像采集得到的第二采集图像；地图数据可以包括对全局场景进行IMU数据采集所得到的第二IMU数据；地图数据还可以包括对全局场景进行雷达扫描所得到的激光点云数据等。

在本公开的一些实施例中，在第二终端包括用于图像采集的视觉传感器的情况下，地图数据可以包含第二采集图像；在第二终端包括用于采集IMU数据的IMU传感器的情况下，地图数据可以包含第二IMU数据；在第二终端包括用于采集激光点云的雷达的情况下，地图数据可以包含激光点云数据。第二终端包含的硬件结构以及连接方式同样可以详见后续各公开实施例，在此也先不做展开。

在本公开的一些实施例中，全局地图的实现形式可以根据全局场景的实际情况，以及地图数据的数据内容所共同决定。在本公开的一些实施例中，全局地图可以包含全局场景中各三维特征点的相关信息。在本公开的一些实施例中，全局地图可以包含全局场景中各三维特征点的相关信息，其中，全局场景中的三维特征点可以以图像的形式展示，三维特征点的相关信息包含的信息内容可以根据实际情况灵活决定，比如包含三维特征点的坐标以及三维特征点的特征信息，其中三维特征点的特征信息可以包含有三维特征点对应的特征描述子、三维特征点对应的通信信号指纹、或是语义信息中的一种或多种等与特征相关的信息。

在本公开的一些实施例中，全局地图的精度，可以是全局地图中各三维特征点的位置精度，比如可以是全局地图中包含的三维特征点的坐标，与三维特征点在全局场景中的实际位置之间的位置差值。因此，全局地图的精度条件，可以用于确定全局地图中各三维特征点的位置是否达到精度要求，精度条件的具体内容可以根据实际情况灵活设定。

在本公开的一些实施例中，直接判断全局地图中三维特征点的坐标、与其实际位置之间的位置差值的难度可能较高，因此，可以通过地图数据的数据采集量是否达到一定的数据值，或是生成全局地图的方法精度是否达到要求等方式，来间接判断全局地图是否满足精度条件。举例来说，可以通过判断采集的地图数据所对应的地理范围，与全局场景所覆盖的地理范围之间的比值是否达到预设阈值的方式，来间接推断全局地图是否满足精度条件。

在本公开的一些实施例中，可以通过获取第二终端采集的地图数据，从而根据地图数据在位姿确定装置内生成全局地图；全局地图也可以在其他的装置或设备内进行生成，在这种情况下，获取全局地图的方式可以为直接从存储或生成全局地图的装置中，读取全局地图。

在本公开的一些实施例中，第二终端可以在全局场景中移动，从而采集相应的地图数据。

在公开实施例中，步骤S11和步骤S12的实现顺序在本公开实施例中不做限制，示例性地，步骤S11与步骤S12可以按照一定的先后顺序依次执行，步骤S11与步骤S12也可以同时执行。

在本公开实施例中，采集数据可以是对目标场景进行采集所得到的数据，因此，采集数据可以反应目标场景的特征；全局地图对应的全局场景由于包含目标场景，因此全局地图中也可以包含目标场景的特征，如此，根据采集数据以及全局地图之间的特征对应关系，可以包括采集数据与全局地图之间的特征对应关系。并且，由于第一终端在目标场景中移动可以采集大量的采集数据，采集数据之间也可以反应目标场景的特征，因此，在本公开实施例中，采集数据以及全局地图之间的特征对应关系，也可以包括采集数据自身包含的各个数据内部之间的特征对应关系。

在本公开的一些实施例中，第一位姿，可以是第一终端在目标场景的移动过程中，执行数据采集操作的时刻所对应的一个或多个位姿；其中，第一位姿的数量可以根据实际情况灵活决定。在本公开的一些实施例中，第一位姿可以与采集数据相对应，即第一位姿可以是第一终端在采集各采集数据的时刻所对应的位姿。

在本公开实施例中，通过获取目标场景中第一终端采集的采集数据，以及获取包含目标场景的全局地图，并根据采集数据以及全局地图之间的特征对应关系，能够确定第一终端在采集过程中的至少一个第一位姿。通过上述过程，可以重复利用全局场景的全局地图，在生成全局地图后即可规模化通过第一终端采集大量的第一位姿，而获取用于生成第一位姿的采集数据的方式也较为简单，仅通过第一终端即可实现采集，减小了对目标场景的额外设备设置或是多个设备之间的额外标定同步，从而降低了第一位姿获取的成本；并且，由于全局地图满足精度条件，因此基于采集数据以及全局地图之间的特征对应关系所得到的第一位姿，也具有较高精度。

如上述各公开实施例所述，地图数据的获得形式可以根据实际情况灵活决定，而基于地图数据生成全局地图的方式可以根据地图数据的实际情况灵活决定。因此，在本公开的一些实施方式中，地图数据可以包括：全局场景中的激光点云、第二采集图像以及第二IMU数据。

本公开实施例中提出的位姿确定方法还包括：

获取通过第二终端采集的全局场景的地图数据；

根据地图数据，对全局场景进行离线重建，生成全局场景的全局地图。

在本公开的一些实施例中，激光点云，可以是通过第二终端对全局场景进行雷达扫描所得到的多个激光点构成的点云，激光点云中包含的激光点数量可以根据第二终端的雷达扫描情况，以及第二终端在全局场景中的移动轨迹所共同灵活确定，在本公开实施例中不做限制。

在本公开的一些实施例中，第二采集图像，可以是第二终端在全局场景内移动的过程中所采集到的多个图像，第二采集图像的数量可以根据第二终端在全局场景中的移动情况，以及第二终端包含的用于采集图像的硬件设备的数量所共同决定，在本公开实施例中不做限制。

在本公开的一些实施例中，第二IMU数据，可以是第二终端在全局场景内移动的过程中所采集到的相关惯性测量数据，第二IMU数据的数量同样可以根据第二终端在全局场景中的移动情况，以及第二终端包含的用于采集IMU数据的硬件设备的数量所共同决定，在本公开实施例中不做限制。

在本公开实施例中，通过获取包括激光点云、第二采集图像以及第二IMU数据的地图数据，并根据获取的地图数据，对全局场景进行离线重建，生成全局场景的全局地图。通过上述过程，可以在对全局场景完成较为全面的地图数据采集以后，再综合采集到的大量地图数据，对全局场景进行全面地离线重建，从而使得生成的全局地图具有较高的精度，进而使得基于全局地图和采集数据确定的至少一个第一位姿的结果较为准确；同时，由于地图数据包含激光点云、第二采集图像以及第二IMU数据，这些数据的获取方式较为容易且获取过程受空间制约的情况较少，因此，本公开实施例提出的姿态确定方法，获取地图数据以及全局地图的难度较小，从而降低了对环境和/或设备的依赖，进而使得该位姿确定方法能够应用在各种场景中。

如上述公开实施例所述，离线重建的过程可以根据实际情况灵活决定。在本公开的一些实施方式中，根据地图数据，对全局场景进行离线重建，生成全局场景的全局地图，包括：

根据第二IMU数据和激光点云，确定第二终端在数据采集过程中的至少一个第二位姿；

根据至少一个第二位姿、结合第二采集图像，对全局场景进行视觉地图重建，得到至少一帧视觉点云；其中，视觉点云包括全局场景中的至少一个三维特征点；

根据至少一帧视觉点云，得到全局场景的全局地图。

在本公开的一些实施例中，可以根据第二IMU数据，在第二终端在数据采集过程中的不同的时刻，将获取的激光点投影至该时刻下的激光雷达帧上，从而可以基于激光点的投影结果，对第二终端在数据采集过程中不同时刻的第二位姿进行估算。

在本公开的一些实施例中，在确定第二终端在数据采集过程中的至少一个第二位姿以后，可以根据至少一个第二位姿，结合第二采集图像，对全局场景进行视觉地图重建，来得到至少一帧视觉点云。视觉点云可以包括全局场景中的至少一个三维特征点，视觉点云的数量以及包含的三维特征点的数量在本公开实施例中不做限制。

在本公开的一些实施例中，全局地图可以包括一帧或多帧视觉点云。如上述各公开实施例所述，全局地图可以包含全局场景中各三维特征点的相关信息。在本公开的一些实施例中，视觉点云可以通过视觉图像得到，在这种情况下，全局地图还可以包括至少一帧用于观测视觉点云的视觉图像。

在本公开的一些实施例中，视觉点云包括的三维特征点，由于三维特征点也可以存储在全局地图中，因此视觉点云也可以与三维特征点的特征信息进行对应。在本公开的一些实施例中，三维特征点的特征描述子可以根据第二采集图像中提取的特征确定，因此，视觉点云可以与三维特征点的特征描述子进行对应。在本公开的一些实施例中，地图数据中还可以包含与通信相关的信号数据，比如WiFi信号、蓝牙信号或是UWB信号等，这些信号可以作为信号指纹，与三维特征点对应，从而作为三维特征点的特征信息，因此，视觉点云可以与三维特征点的通信信号指纹进行对应；在本公开的一些实施例中，第二采集图像中还可以包含一些语义信息，这些语义信息也可以与三维特征点之间建立对应关系，从而作为三维特征点的特征信息，在这种情况下，视觉点云可以与语义信息建立对应关系。

在本公开的一些实施例中，可以通过尺度不变特征变换(Scale-Invariant Feature Transform，SIFT)对第二采集图像进行特征提取和匹配，从而生成至少一帧视觉点云，示例性地，根据通过激光点云和第二IMU数据所确定的至少一个第二位姿之后，还可以进一步从至少一帧视觉点云中，观测到的各三维特征点的坐标等信息。

在本公开的一些实施例中，可以将得到的全部视觉点云，以及这些视觉点云所对应的三维特征点的特征信息等，共同作为全局地图；在本公开的一些实施例中，也可以从得到的视觉点云中选定一帧或多帧，并根据这一帧或多帧视觉点云对应的三维特征点的特征信息等，共同作为全局地图。

在本公开实施例中，可以综合利用激光点云、第二IMU数据和第二采集图像，通过视觉点云来表征全局场景中各三维特征点的位置和特征等信息，利用较易获取的数据即可实现全局地图的重建，且重建的结果较为准确，提升了整个姿态确定过程的便捷性和确定精度。

在本公开的一些实施方式中，根据至少一个第二位姿，结合第二采集图像，对全局场景进行视觉地图重建，得到至少一帧视觉点云，包括：

根据至少一个第二位姿、结合第二采集图像，对全局场景进行视觉地图重建，得到至少一帧初始视觉点云；

根据激光点云和/或第二采集图像，获取视觉地图重建过程中的第三约束信息；

根据第三约束信息，对至少一帧初始视觉点云进行优化，得到至少一帧视觉点云。

由于根据激光点云确定的第二位姿，精度可能较低。在这种情况下，直接利用确定的第二位姿，结合第二采集图像进行视觉地图重建得到的视觉点云，可能包含较大的噪声。因此，在本公开实施例中，在根据第二位姿和第二采集图像，对全局场景进行视觉地图重建后，可以将视觉地图重建得到的图像作为初始视觉点云，并根据激光点云和/或第二采集图像所产生的第三约束信息，对初始视觉点云进行进一步优化，从而降低初始视觉点云中的噪声，来得到具有较高精度的视觉点云。

其中，根据第二位姿以及第二采集图像进行视觉地图重建，得到至少一帧初始视觉点云的过程，可以参考上述公开实施例，在此不再赘述。

在本公开实施例中，第三约束信息可以为根据激光点云和/或第二采集图像所确定的约束信息。

在本公开的一些实施方式中，根据激光点云，获取视觉地图重建过程中的第三约束信息可以包括：

通过实时激光里程计与建图(Lidar Odometry and Mapping in real-time，LOAM)方法，对激光点云进行特征提取，确定激光点云的平面特征信息以及边缘特征信息；

根据激光点云的平面特征信息，确定视觉地图重建过程中激光点云的平面约束信息；

根据激光点云的边缘特征信息，确定视觉地图重建过程中激光点云的边缘约束信息；

根据激光点云的平面约束信息和/或激光点云的边缘约束信息，获取视觉地图重建过程中的第三约束信息。

其中，激光点云的平面特征信息可以根据激光点云的实际情况灵活确定，基于激光点云的平面特征信息所确定的平面约束信息的具体形式，可以根据实际情况进行灵活选择，示例性地，平面约束信息可以通过式(1)计算得到：

在式(1)中，n与m为两个不同的激光点云坐标系， ^mn为坐标系m中特征点 ^mq处的平面特征法向量， ^mn ^T为 ^mn的转置，

为坐标系n与m之间的变换关系， ⁿp为坐标系n中的特征点， ^mq为坐标系m中的特征点，

为依据

这一坐标变换关系对 ⁿp执行的坐标变换，∑ _p为激光点云平面特征的协方差矩阵，其中，∑ _p的数值可以根据实际情况灵活设置，比如，∑ _p可以设置为0.2m ²。

同理，激光点云的边缘特征信息也可以根据激光点云的实际情况灵活确定，基于激光点云的边缘特征信息所确定的边缘约束信息的具体形式，可以根据实际情况进行灵活选择，示例性地，边缘约束信息可以通过式(2)计算得到：

在式(2)中， ^mI为坐标系m中特征点 ^mq处的边缘特征方向向量，∑ _e为激光点云边缘特征的协方差矩阵，其余参数与式(1)中对应参数的含义相同，其中，∑ _e的数值可以根据实际情况灵活设置，比如，∑ _e可以设置为0.5m ²。

在分别确定激光点云的平面约束信息以及激光点云的边缘约束信息以后，可以将平面约束信息和边缘约束信息均作为第三约束信息，也可以将平面约束信息或是边缘约束信息中的一种作为第三约束信息，具体如何选择可以根据实际情况灵活确定。

在本公开的一些实施例中，根据第二采集图像，获取视觉地图重建过程中的第三约束信息可以包括：

将与初始视觉点云对应的三维特征点投影至初始视觉点云，得到投影结果；

根据投影结果与初始视觉点云中二维特征点之间的误差，获取视觉地图重建过程中的视觉约束信息；其中，二维特征点是初始视觉点云中与三维特征点对应的二维特征点；

根据视觉约束信息，获取视觉地图重建过程中的第三约束信息。

根据投影结果与初始视觉点云中与三维特征点对应的二维特征点之间的误差，获取视觉地图重建过程中的视觉约束信息的具体过程，可以根据实际情况灵活选择。示例性地，视觉约束信息可以通过式(3)计算得到：

在式(3)中，X _j为与视觉点云对应的第j个三维特征点，x _ij为第i帧初始视觉点云中与三维特征点X _j对应的二维特征点，f( ^WT _i,X _j)为将三维特征点X _j投影至第i帧初始视觉点云的投影结果，∑ _v为图像特征约束的协方差矩阵，其中，∑ _v的数值可以根据实际情况灵活设定，示例性地，∑ _v可以设置为2像素平方。

在本公开的一些实施例中，第三约束信息可以包括激光点云的平面约束信息、激光点云的边缘约束信息以及视觉约束信息中的一种或多种。在本公开的一些实施例中，第三约束信息可以同时包含激光点云的平面约束信息、激光点云的边缘约束信息和视觉约束信息，在这种情况下，根据第三约束信息，对至少一帧初始视觉点云进行优化，得到至少一帧视觉点云的过程可以通过式(4)实现：

在式(4)中，L _p为激光点云中属于平面的点所构成的点云，L'p为L _p的集合，L _e为激光点云中属于边缘的点所构成的点云，L'e为L _e的集合，其余各参数的含义可以参考上述各公开实施例。

在本公开的一些实施例中，根据第三约束信息，对至少一帧初始视觉点云进行优化，可以包括对初始视觉点云包括的三维特征点进行优化，还可以包括对第二终端中采集第二采集图像的设备的位姿进行优化，在对第二终端中采集第二采集图像的设备的位姿进行优化的情况下，相应地，也可以对第二终端对应的第二位姿进行优化，从而减少了由于第二位姿的精确度较低所导致的视觉点云中包含的噪声。并且，在对视觉点云进行优化后，还可以基于视觉点云的优化结果，再次获取视觉地图重建过程的第三约束信息，并基于第三约束信息，对视觉点云进行进一步的迭代优化，迭代的次数可以根据实际情况灵活选择，在本公开实施例中不做限制。

图2为本公开实施例提供的视觉点云优化前后的对比示意图。在图2中针对同一场景，方框201和方框202中为优化前的视觉点云对应的视觉图像，方框203和方框204中为优化后的视觉点云对应的视觉图像，从图2中可以看出，优化后视觉点云中的噪声点有所减少、且清晰度有明显改善，优化后的视觉点云具有更高的精度，相应的，优化后的视觉点云对应的三维特征点的精度也有所改善。

因此，在本公开实施例中，第二终端可以包括：

雷达，用于获取全局场景中的激光点云；

视觉传感器，用于获取全局场景中的第二采集图像；

IMU传感器，用于获取全局场景中的第二IMU数据。

在本公开的一些实施例中，雷达可以是具有激光点云采集功能的任意雷达，示例性地，雷达可以为三维(Three Dimension,3D)雷达。视觉传感器可以是具有图像采集功能的任意传感器，比如相机等。在本申请的一些实施例中，第二终端可以同时包括具有360°图像采集功能的4阵列相机。IMU传感器的实现形式同样可以根据实际情况灵活决定。第二终端中雷达、视觉传感器以及IMU传感器之间的设置位置和连接关系可以根据实际情况灵活选择。

在本公开的一些实施例中，雷达、视觉传感器与IMU传感器之间可以刚性连接，具体的连接顺序可以根据实际情况灵活选择。在本公开的一些实施例中，视觉传感器和IMU传感器可以固定连接并封装为一个固定结构单元，雷达可以设置在固定结构单元的上方。在本公开的一些实施例中，视觉传感器、IMU传感器和雷达还可以固定设置在一个背包中。

图3为本公开实施例提供的第二终端的结构示意图。从图3中可以看出，视觉传感器和IMU传感器可以固定连接并封装为固定结构单元301，该固定结构单元301的下端可以设置在背包302内从而便于携带，雷达303可以设置在固定结构单元301的上方。

在本公开实施例中，通过第二终端中包含雷达、视觉传感器和IMU传感器，可以对全局场景中的地图数据进行全面采集，从而便于后续全局地图的生成。通过图3所示的简单且成本低的硬件设备第二终端采集地图数据，能够降低获取地图数据的设备成本，从而降低了确定第一位姿数据的硬件实现成本和难度。

由于第二终端可以包括雷达、视觉传感器以及IMU传感器等硬件设备，这些硬件设备在使用前可能需要进行标定或测量数据时间校准，并且，在对各硬件进行标定的同时，还可以对不同硬件之间的坐标变换关系进行标定，以提高生成的全局地图的精度。因此，在本公开的一些实施例中，根据地图数据，对全局场景进行离线重建，生成全局场景的全局地图之前，还可以包括：

对视觉传感器与IMU传感器之间的坐标变换关系进行标定，得到第一标定结果；

对雷达与视觉传感器之间的坐标变换关系进行标定，得到第二标定结果；

根据第一标定结果和第二标定结果，对视觉传感器、IMU传感器以及雷达之间的坐标变换关系进行联合标定。

在本公开实施例中，对视觉传感器与IMU传感器之间的坐标变换关系进行标定的方式可以根据实际情况灵活选择，示例性地，可以通过Kalibr工具实现视觉传感器和IMU传感器的标定；对雷达与视觉传感器之间的坐标变换关系进行标定的方式同样可以根据实际情况灵活选择；还可以通过AutoWare框架实现雷达与视觉传感器的标定。示例性地，由于在标定过程中还可能存在误差，因此在一种可能的实现方式中，还可以根据第一标定结果和第二标定结果，对视觉传感器、IMU传感器以及雷达之间的坐标变换关系进行联合标定与优化，以使得不同硬件设备之间的坐标变换关系更加准确。

在本公开的一些实施例中，联合标定可以通过式(5)实现：

在式(5)中，C _i为第二终端中的第i个视觉传感器，I为IMU传感器，L为雷达，

为第i个视觉传感器与IMU传感器之间的坐标变换关系， ^IT _L为雷达与IMU传感器之间的坐标变换关系，

为雷达与第i个视觉传感器之间的坐标变换关系，协方差∑ _c/∑ _L分别代表IMU传感器和雷达各自标定过程中的误差，该误差的值可以根据实际情况进行灵活设定，示例性地，∑ _c和∑ _L的对角矩阵中所有旋转分量均可以设置为0.01rad ²，∑ _c的所有转换分量均可以设置为0.03m ²，∑ _L的所有转换分类可以设置为(0.03，0.03，0.15)m ²。

通过式(5)中所示的基于联合标定得到的视觉传感器和IMU传感器之间的坐标变换关系、以及雷达与IMU传感器之间的坐标变换关系，可以使得整体的标定误差较小，因此，在上述标定结束之后再进行全局地图的生成，就可以大大提升全局地图的精度，从而提升整个位姿确定过程的精度。

本公开实施例提出的位姿确定方法还可以包括：

在第二终端采集地图数据的过程中，根据地图数据对全局场景进行实时重建，生成全局场景的实时地图。

向目标设备发送地图数据和/或实时地图；其中，目标设备，用于显示对全局场景完成数据采集的地理范围。

在本公开的一些实施例中，为了便于掌握地图数据的采集情况，还可以在第二终端采集地图数据的过程中，根据地图数据对全局场景进行实时重建，生成全局场景的实时地图。实时地图的实现形式可以参考全局地图，在此不再赘述，在一个示例中，实时地图中可以覆盖全局场景中，第二终端已经采集到的地图数据所对应的各场景。

在实际应用中，由于实时重建可以基于当前已采集的地图数据进行重建，相对于离线重建中基于采集完成后得到的大量地图数据进行重建来说，重建的数据量较小，因此可以具有更高的重建速度。在本公开的一些实施例中，实时重建过程中，可以省略离线重建中的一些优化过程来提高重建速度，比如，实时重建过程中，可以省略获取第三约束信息以及根据第三约束信息对视觉点云进行优化的过程。在本公开的一些实施例中，实时重建可以通过一些特定的3D雷达即时定位与地图构建SLAM，又称为同步建图与定位(Concurrent Mapping and Localization，CML)系统来实现，示例性地，还可以通过开源的Cartographer库，来对全局场景进行实时重建，生成全局场景的实时地图。

在本公开的一些实施例中，目标设备可以用于显示对全局场景完成数据采集的地理范围，即目标设备可以显示第二终端已采集到的地图数据所覆盖的地理范围，从而指示第二终端在全局场景中的后续移动方向和地图数据的采集需求。在本公开的一些实施例中，目标设备可以是地图数据采集人员能够灵活控制的手持设备，比如平板电脑或是手机等；在本公开的一些实施例中，在将第二终端设置在移动设备上(比如自动机器人等)进行地图数据的采集的条件下，目标设备可以是移动设备的控制器或是显示屏等。

在本公开的一些实施例中，可以向目标设备发送已采集的地图数据，或者向目标设备发送实时地图，或者向目标设备同时发送地图数据和实时地图等。

在实际应用中，如果第二设备采集的地图数据不够全面，比如漏掉对全局场景中部分场景内地图数据的采集，将容易导致离线建立的全局地图精度降低，如果重新对全局场景进行地图数据的采集，则会产生额外的人力成本以及计算成本；另外，在实际应用中，在地图数据的采集过程中，也可能会发生重复采集的情况。而在本公开实施例中，在第二终端采集地图数据的过程中，根据地图数据对全局场景进行实时重建生成实时地图，并向目标设备发送地图数据和/或实时地图，就可以基于实时地图，对全局场景中已进行地图数据采集的区域进行实时预览，并可以随时把控地图的重建质量，从而提升地图数据的采集效率和成功率，也能够降低地图数据遗漏采集或重复采集的风险。

通过上述各公开实施例的各种组合形式可以生成全局地图，从而使得通过步骤S12获取全局地图具有实现的可能性。在获取到采集数据以及全局地图以后，如上述各公开实施例所述，可以通过步骤S13，来确定第一终端在采集过程中的至少一个第一位姿。

步骤S13的实现方式可以灵活确定，在本公开实施例中，全局地图可以包括至少一帧视觉点云，视觉点云包括全局场景中的至少一个三维特征点；采集数据包括第一采集图像；在这种情况下，步骤S13可以包括：

将第一采集图像与至少一帧视觉点云进行特征匹配，得到全局特征匹配结果；

根据全局特征匹配结果，确定第一终端在采集过程中的至少一个第一位姿。

在本公开的一些实施例中，第一采集图像，可以是第一终端在目标场景中所采集到的图像，第一采集图像的数量可以可以为一帧，也可以为多帧，根据实际情况进行确定即可，在本公开实施例中不做限定。

在本公开的一些实施例中，全局特征匹配结果可以是至少一帧视觉点云中、与第一采集图像中的二维特征点相匹配的三维特征点。

视觉点云的实现形式可以参考上述各公开实施例，在此不再赘述。

在本公开的一些实施例中，第一采集图像与视觉点云之间的特征匹配关系，可以根据实际情况灵活选择，任何可以实现图像之间特征匹配的方法，均可以作为第一采集图像和视觉点云之间的特征匹配方式，示例性地，可以采用SIFT，和/或采用稀疏光流跟踪方法(Kanade-Lucas-Tomasi Tracking Method，KLT)，对第一采集图像以及至少一帧视觉点云进行特征匹配。

在一种可能的实现方式中，将第一采集图像与所述至少一帧视觉点云进行特征匹配，得到全局特征匹配结果，可以包括：

将第一采集图像中的二维特征点，与至少一帧视觉点云包括的三维特征点进行匹配，得到全局特征匹配结果。

在本公开的一些实施例中，可以将第一采集图像中的二维特征点，与至少一帧视觉点云包括的三维特征点进行特征匹配，来得到全局匹配结果。其中，用于特征匹配的特征信息可以是特征描述子、通信信号指纹或是语义信息等各类特征信息的一种或多种。

在本公开的一些实施例中，全局特征匹配结果，可以通过近似最近邻搜索(Approximate Nearest Neighbor，ANN)的方式进行实现。比如，对于第一采集图像所包含的特征，可以在全局地图中寻找与该特征最接近的K个特征(K的数量可以根据实际情况进行灵活设定)。然后这K个特征可以对全局地图中的各帧视觉点云进行投票，以确定视觉点云是否与第一采集图像相对应，如果某帧或某几帧视觉点云的投票数超过设定的阈值，则可以认为某帧或某几帧视觉点云对应的视觉图像为第一采集图像的共视图像，在共视图像中，与第一采集图像中的二维特征点匹配的各三维特征点，可以作为全局特征匹配结果。

在本公开实施例中，通过ANN将第一采集图像中的二维特征点，与至少一帧视觉点云对应的三维特征点进行匹配，得到全局特征匹配结果的操作，可以减少特征匹配过程中误匹配的次数，提高全局特征匹配结果的精度，从而提升位姿确定的精度。

在得到全局特征匹配结果以后，可以根据全局特征匹配结果，确定第一终端在采集过程中的至少一个第一位姿，这一过程的实现方式同样可以根据实际情况灵活选择，不局限于下述各公开实施例。在一种可能的实现方式中，可以将全局特征匹配结果，通过随机一致性采样(Random Sample Consensus，RANSAC)方法和透视N点定位(Perspective n Points，PnP)等方法进行位姿估算，并通过重投影误差的优化方式对估算的位姿进行优化，从而得到第一终端在采集过程中的至少一个第一位姿。

通过上述过程，可以利用全局地图中视觉点云所对应的特征，与第一采集图像之间的特征进行匹配，从而利用第一采集图像中匹配到的特征对第一终端的位姿进行估算，来获取第一终端的至少一个位姿，由于全局地图的精度满足精度条件，因此基于与全局地图特征匹配的结果所确定的第一位姿，也具有较高的精度，也能够提升第一位姿确定过程的精度。

在本公开的一些实施例中，全局地图包括目标场景中的至少一帧视觉点云；采集数据可以包括至少两帧第一采集图像，步骤S13可以包括：

步骤S131，将第一采集图像与至少一帧视觉点云进行特征匹配，得到全局特征匹配结果；

步骤S132，将至少两帧第一采集图像进行特征匹配，得到本地特征匹配结果；

步骤S133，根据全局特征匹配结果和本地特征匹配结果，确定第一终端在采集过程中的至少一个第一位姿。

其中，将第一采集图像与至少一帧视觉点云进行特征匹配，得到全局特征匹配结果的方式，可以参考上述各公开实施例，在此不再赘述。

由于生成的全局地图可能无法实现对全局场景的完全覆盖，仅根据第一采集图像与视觉点云之间进行特征匹配所得到的全局特征匹配结果，确定第一位姿的方式，可能会由于视觉点云包括的三维特征点不全或是数量较少等原因，导致确定第一位姿的结果不准确或是无法确定第一位姿。因此，在本公开的一些实施例中，可以在采集数据包括至少两帧第一采集图像的情况下，根据不同第一采集图像之间的特征匹配关系，进一步得到本地特征匹配结果，再根据全局特征匹配结果和本地特征匹配结果，共同确定第一终端在采集过程中的至少一个第一位姿。

本地特征匹配结果可以是不同第一采集图像帧之间相互匹配的二维特征点，根据至少两帧第一采集图像进行特征匹配的过程可以根据实际情况灵活选择。在本公开的一些实施例中，可以通过KLT方法，利用不同的第一采集图像之间的光流特征，进行特征匹配，从而得到本地特征匹配结果。

在本公开的一些实施例中，步骤S133中基于全局特征匹配结果确定第一位姿的方式，可以通过RANSAC和PnP对全局特征匹配结果和本地特征匹配结果，进行位姿的估算以及进一步地优化实现的。

在本公开实施例中，通过步骤S131至步骤S133，可以基于本地特征匹配结果，对全局特征匹配结果进行辅助，从而减小由于全局地图对全局场景覆盖不全面对位姿确定结果的影响，提高第一位姿的精度。

在本公开的一些实施例中，采集数据还可以包括第一IMU数据，在这种情况下，步骤S133可以包括：

根据全局特征匹配结果和/或本地特征匹配结果，获取第一约束信息；

根据第一IMU数据，获取第二约束信息；

根据第一约束信息和第二约束信息中的至少一种，对全局特征匹配结果和本地特征匹配结果进行处理，得到第一终端在采集过程中的至少一个第一位姿。

其中，第一IMU数据可以是第一终端在目标场景中进行数据采集的过程中，采集到的惯性测量数据。

在本公开的一些实施例中，在通过全局特征匹配结果和本地特征匹配结果确定第一位姿的过程中，还可以获取第一约束信息和第二约束信息，来对求取第一位姿的过程添加约束。其中，第一约束信息可以是根据全局特征匹配结果和/或本地特征匹配结果所得到的约束信息。具体如何获取第一约束信息。

在本公开的一些实施例中，可以利用全局特征匹配结果中匹配的三维特征点和二维特征点的信息，来获取第一约束信息。在一个示例中，根据全局特征匹配结果，获取第一约束信息的过程可以通过式(6)实现：

在式(6)中， ^WT _i为第一终端中用于采集第一采集图像的设备在采集第i帧第一采集图像情况下的位姿，

为全局特征匹配结果中匹配的第j个三维特征点，

为全局特征匹配结果中与

匹配的二维特征点，

为将三维特征点

投影至第i帧第一采集图像上的投影结果。

在本公开的一些实施例中，可以利用本地特征匹配结果中匹配的三维特征点和二维特征点的信息，来获取第一约束信息。在一个示例中，根据本地特征匹配结果，获取第一约束信息的过程可以通过式(7)实现：

在式(7)中，x _ij为本地特征匹配结果中匹配的第j个二维特征点，X _j为本地特征匹配结果中x _ij在目标场景中映射的三维特征点，f( ^WT _i,X _j)为将三维特征点X _j投影至第i帧第一采集图像上的投影结果，其余参数的含义可以参考前述公开实施例。

式(6)或者式(7)的计算结果均可作为第一约束信息。在本公开的一些实施例中，还可以根据全局特征匹配结果和本地特征匹配结果，共同获取第一约束信息，在这种情况下，可以将式(6)与式(7)中获取第一约束信息的方式结合，以得到第一约束信息。

在本公开的一些实施例中，第二约束信息可以是根据第一IMU数据所得到的约束信息。

在本公开的一些实施例中，可以利用第一终端中采集第一采集图像以及采集第一IMU数据的设备的相关参数，来获取第二约束信息。示例性地，根据第一IMU数据，获取第二约束信息的过程可以通过式(8)实现：

在式(8)中，C _i＝( ^WT _i, ^Wv _i,b _a,b _g)为采集第i帧第一采集图像的情况下第一终端的参数， ^Wv _i为第一终端的速度，b _a为第一终端中测量第一IMU数据的设备的加速度偏置，b _g为第一终端中测量第一IMU数据的设备的陀螺仪测量偏置，h()为IMU成本函数，其余参数的含义可以参考上述各公开实施例。

在本公开的一些实施例中，可以根据第一终端在采集第一采集图像的过程中，第一IMU数据的变化情况，来确定第二约束信息。

在本公开的一些实施例中，对全局特征匹配结果和本地特征匹配结果进行处理，可以包括：通过光束法平差，对全局特征匹配结果和本地特征匹配结果进行处理。

其中，光束法平差(Bundle Adjustment，BA)是一种位姿求解的实现方式。在本公开的一些实施例中，可以通过BA对约束信息进行求解，计算最小误差下的第一位姿。示例性地，可以将第一约束信息和第二约束信息共同作为约束信息，在这种情况下，通过BA对约束信息进行求解的过程可以通过下述式(9)进行表示：

其中各参数的含义可以参考前述各公开实施例，在此不再赘述。

在本公开的一些实施例中，可以利用关键帧求解以及增量BA(Incremental Consistent and Efficient Bundle Adjustment，ICE-BA)的求解方法，对式(9)进行计算，从而确定至少一个第一位姿。

通过上述过程，可以利用第一约束信息以及第二约束信息中的至少一种，对得到的第一位姿进行优化，从而使得最终确定的第一位姿整体更加平滑，减小抖动性；并且，利用关键帧以及ICE-BA等方式对第一位姿进行求解，可以有效减小第一位姿确定过程中的计算量，从而提高位姿确定过程的效率。如上述各公开实施例所述，本公开实施例中确定的第一位姿的精度较高，因此本公开实施例中提出的方法，可以应用于移动定位领域中的各类场景，具体应用于何种场景可以根据实际情况进行选择。

在本公开的一些实施例中，本公开实施例中提出的位姿确定方法，可以用于离线确定设备位姿。在本公开的一些实施例中，通过本公开实施例中提出的位姿确定方法确定的第一位姿，可以用于对一些与移动定位相关的神经网络算法进行结果准确性的评估等。

携带有运动真值的数据集，是研发SLAM技术的重要条件。其中，运动中真值可以用于对SLAM算法的精度进行评价和对比，也可以在对一些极端情况如针对运动模糊、光照变化剧烈、特征点稀少的图片进行处理时，作为SLAM算法精度的提升标准，从而能够提高SLAM算法应对极端场景的能力。在实际应用中，在室外应用场景中，运动真值主要通过GPS获取；在室内应用场景中，运动真值主要通过在室内环境中搭建高精度运动捕捉系统如VICON、lighthouse等实现。

然而，GPS定位精度只有米级别，因此无法实现高精度的运动真值获取，而差分GPS目前可以达到较高的定位精度，但这种方法的成本过高；并且，GPS的精度和定位成功率容易收到建筑物遮挡的影响，且无法在室内使用。对于室内应用场景而言，以VICON为例，该系统是一种基于反射式的捕捉系统，它需要在被捕捉的物体上贴附一种定制的反光球作为信号接收器，当捕捉摄像机发射特定光线时，反光球会反射同样波长的光信号给摄像机，通过多个捕捉摄像机采集到的光信号，就可以计算得到精确的被捕捉物体的定位结果。这种方法需要提前在需要采集的轨迹真值的周围环境中、布置安装并标定VICON等运动捕捉系统的设备，因此无论设备还是部署成本都很高，一个小房间的设备成本就接近百万，更难以扩展至大尺度场景。此外，每个待采集真值的移动设备都需要安装并标定信号接收器，采集每组数据前都需要将接收信号与移动设备上的传感器做时间同步，费时费力，难以扩展至海量数据的采集。

在相关技术中，基于外部信号例如蓝牙、地磁等信号也能够实现实时定位，但这些方法通常需要依赖于先行构建的与定位环境匹配的信号指纹地图，并且，定位精度可以随着在环境中采集到的每个点位的信号的密集程度变化。为了获取每个点位的运动真值，就需要操作人员在定位环境中使用测量工具实地测量，这会产生较高的时间成本和人力成本，因此，无法通过这种方法获得海量的运动真值。

随着深度学习技术的快速发展，许多基于样本数据驱动的定位方法的优越性得以体现。比如，在视觉定位领域，由于深度神经网络、卷积神经网络的快速发展，通过提取大量图像样本数据中的特征点描述子并对其进行匹配的效果，甚至优于传统技术。在步行者航位推算(Pedestrian Dead Reckoning，PDR)领域，基于深度神经网络的行人轨迹恢复方法，也被证明优于传统的基于计步器的方法，甚至在简单条件下已接近视觉惯性SLAM的跟踪精度。然而，这些数据驱动方法的最终表现严重依赖于样本数据，因此对样本数据的质量、数量、场景多样性等方面的需求愈发旺盛，现有的运动真值获取方法无法满足这样的要求。本公开实施例在确定确定方法中，还提供了运动真值数据的获取方法。

在本公开的一些实施例中，本公开实施例提出的位姿确定方法还包括：

根据第一终端在采集过程中的至少一个第一位姿，确定运动真值数据，其中，运动真值数据用于以下操作中的至少一种：

判断定位结果的精度、对神经网络进行训练以及与全局地图进行信息融合。

其中，运动真值数据可以是神经网络训练中，认定其结果为真实值的数据，即神经网络算法中的Ground Truth数据。由于本公开实施例中确定的第一位姿为第一终端在数据采集这一运动过程中的位姿数据，且精度较高，因此可以将第一位姿作为运动真值数据。

根据第一终端在采集过程中的至少一个第一位姿，确定运动真值数据的过程在本公开实施例中的实现方式可以根据实际情况灵活决定，不局限于下述各公开实施例。

在本公开的一些实施例中，根据第一终端在采集过程中的至少一个第一位姿，确定运动真值数据，可以包括：

将第一终端在采集过程中的至少一个第一位姿作为所述运动真值数据；和/或，

将采集数据中的至少一种，以及第一终端在采集过程中的至少一个第一位姿，作为运动真值数据，其中，采集数据包括：

无线网络WiFi数据、蓝牙数据、地磁数据、超宽带UWB数据、第一采集图像以及第一IMU数据中的一种或多种。

在本公开的一些实施例中，可以直接将确定的至少一个第一位姿，作为运动真值数据。由于确定的第一位姿的数量在本公开实施例中不做限定，因此得到的运动真值数据的数量在本公开实施例中也不做限定，在本公开的一些实施例中，可以将确定的各第一位姿均作为运动真值数据，或者随机地从多个第一位姿中选定一个或多个第一位姿来作为运动真值数据。

在本公开的一些实施例中，还可以将采集数据中的至少一种来作为运动真值数据。在本公开的一些实施例中，采集数据可以包括第一采集图像和/或第一IMU数据；在本公开的一些实施例中，由于第一终端的实现方式不受限定，其采集的数据类型也可能灵活发生变化与扩展，因此采集数据还可以包括无线网络WiFi数据、蓝牙数据、地磁数据以及UWB数据中的一种或多种等。

由于不同类型的采集数据均可以由第一终端进行采集，因此这些采集数据均可以与确定的第一位姿之间具有相应的对应关系，也可以在位姿确定的过程提供相应的约束，来辅助进行位姿确定。因此在本公开的一些实施例中，可以将多种类型的采集数据也作为运动真值数据。

通过将至少一个第一位姿，以及采集数据中的至少一种作为运动真值数据，可以进一步增加运动真值数据的数据量，从而使得运动真值数据在不同场景下的应用具有更好的效果。

在本公开的一些实施例中，运动真值数据可以用于判断定位结果的精度，具体如何判断在本公开实施例中不做限制。比如，可以将运动真值数据作为神经网络评价算法中用于评判算法准确度的benchmark数据集中的数据，从而用于对定位结果精度的判断。

在本公开的一些实施例中，运动真值数据也可以用于对神经网络进行训练，具体如何应用在训练过程中在本公开实施例中不做限制。比如，可以将运动真值数据作为神经网络中的训练数据和/或测试数据等，从而应用于神经网络的训练过程中。

在本公开的一些实施例中，运动真值数据还可以与全局地图进行信息融合，比如运动真值数据还可以包括如WiFi数据、蓝牙数据、地磁数据或是UWB数据等采集数据，而这些采集数据与第一位姿之间存在对应关系，因此，可以将这些采集数据作为额外的辅助数据，通过第一位姿与全局地图之间的对应关系，将这些采集数据也融合进全局地图中，从而进一步提升全局地图的数据精度和数据全面性，也可以进一步提升利用融合后的全局地图，进行其余的位姿确定的准确性。

图4为本公开实施例提供的运动真值数据获取的流程示意图，如图4所示，该运动真值数据获取流程，可以包括全局地图重建401以及运动真值数据定位402两个环节。

其中，全局地图重建401环节，用于重建全局地图。如图4所示，全局地图重建401环节，可以基于雷达SLAM4011、特征匹配4012以及视觉-雷达联合优化4013三个子环节得到全局地图4014。

通过操作人员背负的第二终端在全局场景中移动，从而利用雷达SLAM4011对全局场景中的激光点云进行采集，利用视觉传感器对全局场景中的第二采集图像进行采集，以及利用IMU传感器对全局场景中的第二IMU数据进行采集。

在第二终端对全局场景进行扫描的过程中，可以利用已获取的激光点云、第二采集图像以及第二IMU数据对全局地图进行实时重建，得到实时地图。在本公开实施例中，实时地图可以反应操作人员在全局场景中已经进行地图数据采集的范围，因此可以将实时地图发送至目标设备中。

在第二终端对全局场景进行扫描完成后，可以利用获取的全局场景中的激光点云、第二采集图像以及第二IMU数据对全局地图进行离线重建，得到全局地图。激光点云和第二IMU数据可以通过雷达SLAM4011进行计算，从而确定雷达在地图数据采集过程中的至少一个位姿，而且可以通过雷达与视觉传感器之间的坐标变换关系，将雷达的位姿准换为视觉传感器的位姿，从而得到第二终端的至少一个第二位姿；同时，第二采集图像可以通过特征匹配4012的方式进行视觉地图重建得到至少一帧初始视觉点云；可以利用确定的至少一个第二位姿作为初始位姿，以及第二采集图像中的特征为视觉地图重建过程提供第三约束信息，从而对得到的初始视觉点云进行视觉-雷达联合优化4013。通过上述过程，可以得到优化后的视觉点云，以及从视觉点云中包括的三维特征点的位置与特征信息。进一步地，可以将视觉点云以及三维特征点作为全局地图4014，从而实现全局地图的重建。

在完成全局地图重建后，可以进入到运动真值数据定位402的过程，运动真值数据定位402环节需要借助于包括AR眼镜4021或手机4022在内的第一终端实现，其中，运动真值数据定位402可以包括本地特征跟踪4023、全局特征跟踪4024、视觉-惯性联合优化4025以及运动真值数据存储4026四个子环节。

在图4中，通过包括AR眼镜4021或手机4022在内的第一终端，在全局场景中的某个目标场景内进行移动，来获取采集数据。其中，采集数据可以包括第一采集图像以及第一IMU数据。

第一采集图像可以与全局地图进行全局特征匹配4024，从而实现视觉定位，得到全局特征匹配结果。第一采集图像中的不同帧图像之间还可以进行本地特征跟踪4023，从而得到本地特征匹配结果。在得到全局特征匹配结果以及本地特征匹配结果以后，可以根据全局特征匹配结果、本地特征匹配结果以及采集的第一IMU数据，进行视觉-惯性的联合优化4025，从而确定第一终端在目标场景的移动过程中的至少一个第一位姿。在得到至少一个第一位姿以后，可以将得到的第一位姿作为运动真值数据，并执行运动真值数据存储4026，示例性地，可以将运动真值数据存储在数据库中。

本公开实施例提供的运动真值数据的获取方法，所采用的设备主要为集成激光雷达、相机和IMU的高精地图采集设备，因此，设备总体成本较低；且全局场景以及目标场景无需预先布置，因此，尺度扩展性明显优于需预先布置场景的相关方案，在尺度上限主要取决于离线算力，且现有算法和算力已可满足数十万平的场景的情况下，本公开实施例提供的运动真值数据获取方法，可用于大尺度场景；同时，同一全局场景中的全局地图可重用，在采集和重建全局地图后即可规模化采集移动终端的海量数据，移动数据的采集只依赖移动设备的内置传感器，因此每次采集前无需进行和其他外部设备的标定、同步等局限规模化采集的额外操作；另外，本公开实施例提供的运动真值数据获取方法，还不受应用场景的限制，可以同时适用于室内外场景。

需要说明的是，本公开实施例获取的运动真值不仅限于用于神经网络的评价或训练中，也可以扩展应用于其他场景，本公开对此不作限定。

可以理解，本公开提及的上述各个方法实施例，在不违背原理逻辑的情况下，均可以彼此相互结合形成结合后的实施例，限于篇幅，本公开不再赘述。本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

此外，本公开还提供了位姿确定装置、电子设备、计算机可读存储介质、程序，上述均可用来实现本公开提供的任一种位姿确定方法，相应技术方案和描述和参见方法部分的相应记载，不再赘述。

图5为本公开实施例提供的位姿确定装置5的结构示意图。该位姿确定装置可以为终端设备、服务器或者其他处理设备等。其中，终端设备可以为UE、移动设备、用户终端、终端、蜂窝电话、无绳电话、PDA、手持设备、计算设备、车载设备、可穿戴设备等。

在本公开的一些实施例中，该位姿确定装置可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

如图5所示，所述位姿确定装置5可以包括：

采集数据获取模块501配置为：获取目标场景中的第一终端采集的采集数据。全局地图获取模块502配置为：获取包含目标场景的全局地图；其中，全局地图，是基于第二终端对包含目标场景的全局场景进行数据采集所获得的地图数据生成的，且全局地图满足精度条件。

位姿确定模块503配置为：根据采集数据以及全局地图之间的特征对应关系，确定第一终端在采集过程中的至少一个第一位姿。

在本公开的一些实施例中，全局地图包括至少一帧视觉点云，视觉点云包括全局场景中的至少一个三维特征点；采集数据包括第一采集图像；位姿确定模块503配置为：将第一采集图像与至少一帧视觉点云进行特征匹配，得到全局特征匹配结果；根据全局特征匹配结果，确定第一终端在采集过程中的至少一个第一位姿。

在本公开的一些实施例中，全局地图包括目标场景中的至少一帧视觉点云；采集数据包括至少两帧第一采集图像；位姿确定模块503配置为：第一采集图像与至少一帧视觉点云进行特征匹配，得到全局特征匹配结果；对至少两帧第一采集图像进行特征匹配，得到本地特征匹配结果；根据全局特征匹配结果和本地特征匹配结果，确定第一终端在采集过程中的至少一个第一位姿。

在本公开的一些实施例中，采集数据还包括第一惯性测量IMU数据；位姿确定模块503配置为：根据全局特征匹配结果和/或本地特征匹配结果，获取第一约束信息；根据第一IMU数据，获取第二约束信息；根据第一约束信息和第二约束信息中的至少一种，对全局特征匹配结果和本地特征匹配结果进行处理，得到第一终端在采集过程中的至少一个第一位姿。

在本公开的一些实施例中，位姿确定模块503配置为：通过光束法平差，对全局特征匹配结果和本地特征匹配结果进行处理。

在本公开的一些实施例中，位姿确定模块配置为：将第一采集图像中的二维特征点，与至少一帧视觉点云包括的三维特征点进行匹配，得到全局特征匹配结果。

在本公开的一些实施例中，装置还包括：运动真值数据获取模块；运动真值数据获取模块配置为：根据第一终端在采集过程中的至少一个第一位姿，确定运动真值数据。

在本公开的一些实施例中，运动真值数据获取模块配置为：将第一终端在采集过程中的至少一个第一位姿作为运动真值数据；和/或，将采集数据中的至少一种，以及第一终端在采集过程中的至少一个第一位姿，作为运动真值数据；其中，采集数据包括：无线网络WiFi数据、蓝牙数据、地磁数据、超宽带UWB数据、第一采集图像以及第一IMU数据中的一种或多种。

在本公开的一些实施例中，运动真值数据用于以下操作中的至少一种：判断定位结果的精度、对神经网络进行训练以及与全局地图进行信息融合。

在本公开的一些实施例中，地图数据包括：全局场景中的激光点云、第二采集图像以及第二IMU数据；装置还包括：地图数据获取模块和全局地图生成模块；其中，地图数据获取模块配置为：获取通过第二终端采集的全局场景的地图数据；全局地图生成模块配置为：根据地图数据，对全局场景进行离线重建，生成全局场景的全局地图。

在本公开的一些实施例中，全局地图生成模块配置为：根据第二IMU数据和激光点云，确定第二终端在数据采集过程中的至少一个第二位姿；根据至少一个第二位姿、结合第二采集图像，对全局场景进行视觉地图重建，得到至少一帧视觉点云，其中，视觉点云与全局场景中的多个三维特征点对应；根据至少一帧视觉点云，得到全局场景的全局地图。

在本公开的一些实施例中，全局地图生成模块配置为：根据至少一个第二位姿，结合第二采集图像，对全局场景进行视觉地图重建，得到至少一帧初始视觉点云；根据激光点云和/或第二采集图像，获取视觉地图重建过程中的第三约束信息；根据第三约束信息，对至少一帧初始视觉点云进行优化，得到至少一帧视觉点云；其中，第三约束信息，包括激光点云的平面约束信息、激光点云的边缘约束信息以及视觉约束信息中的一种或多种。

在本公开的一些实施例中，第二终端包括：雷达配置为、；获取全局场景中的激光点云；视觉传感器配置为：获取全局场景中的第二采集图像；IMU传感器配置为：获取全局场景中的第二IMU数据。

在本公开的一些实施例中，位姿确定装置5配置为：对视觉传感器与IMU传感器之间的坐标变换关系进行标定，得到第一标定结果；对雷达与视觉传感器之间的坐标变换关系进行标定，得到第二标定结果；根据第一标定结果和第二标定结果，对视觉传感器、IMU传感器以及雷达之间的坐标变换关系进行联合标定。

在本公开的一些实施例中，位姿确定装置5配置为：在第二终端采集地图数据的过程中，根据地图数据对全局场景进行实时重建，生成全局场景的实时地图；向目标设备发送地图数据和/或实时地图，其中，目标设备，配置为显示对全局场景完成数据采集的地理范围。

本公开实施例还提出一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是非易失性计算机可读存储介质。

本公开实施例还提出一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行上述方法。

本公开实施例还提供了一种计算机程序程序，该计算机程序包括计算机可读代码，当计算机可读代码在电子设备中运行时，电子设备中的处理器执行用于实现如上任一实施例提供的位姿确定方法。

本公开实施例还提供了另一种计算机程序产品，用于存储计算机可读指令，指令被执行时使得计算机执行上述任一实施例提供的位姿确定方法的操作。

电子设备可以被提供为终端、服务器或其它形态的设备。

图6示出根据本公开实施例的一种电子设备6的框图。例如，电子设备6可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等终端。

参照图6，电子设备6可以包括以下一个或多个组件：处理器601，第一存储器602，第一电源组件603，多媒体组件604，音频组件605，第一输入/输出接口606，传感器组件607，以及通信组件608。

处理器601通常控制电子设备6的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理器601的数量可以为一个或多个，处理器601可以包括一个或多个模块，便于处理器601和其他组件之间的交互。例如，处理器601可以包括多媒体模块，以方便其与多媒体组件604之间的交互。

第一存储器602被配置为存储各种类型的数据以支持在电子设备6的操作。这些数据的示例包括用于在电子设备6上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。第一存储器602可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random-Access Memory，SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable read only memory，EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，只读存储器(Read-Only Memory,ROM)，磁存储器，快闪存储器，磁盘或光盘。

第一电源组件603为电子设备6的各种组件提供电能。第一电源组件603可以包括电源管理系统，一个或多个电源，及其他与为电子设备6生成、管理和分配电力相关联的组件。

多媒体组件604包括在所述电子设备6和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(Liquid Crystal Display，LCD)和触摸面板(Touch Panel，TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器不仅可以感测触摸或滑动动作的边界，而且还可以检测与所述触摸或滑动操作相关的持续时间和压力。多媒体组件604包括前置摄像头和/或后置摄像头。当电子设备6处于操作模式如拍摄模式或视频模式的情况下，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件605被配置为输出和/或输入音频信号。例如，音频组件605包括一个麦克风(Micphone,MIC)，当电子设备6处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在第一存储器602或经由通信组件608发送。音频组件605还包括一个扬声器，用于输出音频信号。

第一输入/输出接口606为处理器601与外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件607包括一个或多个传感器，用于为电子设备6提供各个方面的状态评估。例如，传感器组件607可以检测到电子设备6的打开/关闭状态，组件的相对定位，例如所述组件为电子设备6的显示器和小键盘，传感器组件607还可以检测电子设备6的位置改变、或电子设备6某个组件的位置改变、用户与电子设备6接触的存在或不存在、电子设备6方位或加速/减速和电子设备6的温度变化。传感器组件607可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件607还可以包括光传感器，如互补金属氧化物半导体(Complementary Metal Oxide Semiconductor，CMOS)或图像传感器(Charge-coupled Device，CCD)，用于在成像应用中使用。该传感器组件607还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件608被配置为便于电子设备6和其他设备之间有线或无线方式的通信。电子设备6可以接入基于通信标准的无线网络，如WiFi，第二代无线通信技术(The 2nd Generation，2G)或第三代移动通信技术(The 3rd Generation,3G)，或它们的组合。在一个示例性实施例中，通信组件608经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件608还包括近场通信(Near Field Communication,NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(Radio Frequency Identification，RFID)技术，红外数据协会(Infrared Data Association， IrDA)技术，UWB技术，蓝牙(Blue-Tooth，BT)技术和其他技术来实现。

在示例性实施例中，电子设备6可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理设备(Digital Signal Processing Device,DSPD)、可编程逻辑器件(Programmable Logic Device，PLD)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的第一存储器602，上述计算机程序指令可由电子设备6的处理器601执行以完成前述实施例所述的位姿确定方法。

图7为本公开实施例的第二种电子设备6的结构示意图。例如，电子设备6可以被提供为一服务器。参照图7，电子设备6包括处理组件701，其中，处理组件701可以包括一个或多个处理器601；电子设备6还包括由第二存储器702所代表的存储器资源，第二存储器702被配置为存储处理组件701的执行的指令，例如应用程序。第二存储器702中存储的应用程序可以包括至少一组指令。此外，处理组件701被配置为执行指令，以执行上述位姿确定方法。

电子设备7还可以包括第二电源组件703、网络接口704被配置为将电子设备6连接到网络以及第二输入/输出接口705。其中，第二电源组件703被配置为执行电子设备6的电源管理。电子设备6可以操作存储在第二存储器702的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本公开实施例还提供了一种非易失性计算机可读存储介质，该存储介质中存储有计算机程序指令，该计算机程序指令被处理器执行时，例如包括计算机程序指令的第一存储器602或第二存储器702，上述计算机程序指令可由电子设备6的处理组件701执行以完成上述位姿确定方法。

本公开实施例还提供了一种计算机程序，计算机程序包括计算机可读代码，在计算机可读代码在电子设备中运行的情况下，电子设备的处理器执行如前任一实施例提供的位姿确定方法。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(Random Access Memory,RAM)、ROM、EPROM或闪存、静态随机存取存储器(Static Random-Access Memory,SRAM)、便携式压缩盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、数字多功能盘(Digital Video Disc,DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(Local Area Network，LAN)或广域网(Wide Area Network，WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、FPGA或可编程逻辑阵列(Programmable logic arrays，PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

工业实用性

本申请实施例公开了一种位姿确定方法、装置、电子设备、存储介质及程序，所述方法包括：获取目标场景中的第一终端采集的采集数据；获取包含所述目标场景的全局地图；其中，所述全局地图，是基于第二终端对包含所述目标场景的全局场景进行数据采集所获得的地图数据生成的，且所述全局地图满足精度条件；根据所述采集数据以及所述全局地图之间的特征对应关系，确定所述第一终端在采集过程中的至少一个第一位姿。本申请实施例提供的位姿确定方法，能够降低第一位姿的获取成本，且还能改善第一位姿的精度。

Claims

一种位姿确定方法，所述方法包括：

获取目标场景中的第一终端采集的采集数据；

获取包含所述目标场景的全局地图；其中，所述全局地图，是基于第二终端对包含所述目标场景的全局场景进行数据采集所获得的地图数据生成的，且所述全局地图满足精度条件；

根据所述采集数据以及所述全局地图之间的特征对应关系，确定所述第一终端在采集过程中的至少一个第一位姿。
根据权利要求1所述的方法，其中，所述全局地图包括至少一帧视觉点云，所述视觉点云包括所述全局场景中的至少一个三维特征点；所述采集数据包括第一采集图像；

所述根据所述采集数据以及所述全局地图之间的特征对应关系，确定所述第一终端在采集过程中的至少一个第一位姿，包括：

将所述第一采集图像与所述至少一帧视觉点云进行特征匹配，得到全局特征匹配结果；

根据所述全局特征匹配结果，确定所述第一终端在采集过程中的至少一个所述第一位姿。
根据权利要求1所述的方法，其中，所述全局地图包括所述目标场景中的至少一帧视觉点云；所述采集数据包括至少两帧第一采集图像；

所述根据所述采集数据以及所述全局地图之间的特征对应关系，确定所述第一终端在采集过程中的至少一个第一位姿，包括：

将所述第一采集图像与所述至少一帧视觉点云进行特征匹配，得到全局特征匹配结果；

将所述至少两帧第一采集图像进行特征匹配，得到本地特征匹配结果；

根据所述全局特征匹配结果和所述本地特征匹配结果，确定所述第一终端在采集过程中的至少一个所述第一位姿。
根据权利要求3所述的方法，其中，所述采集数据还包括第一惯性测量IMU数据；

所述根据所述全局特征匹配结果和所述本地特征匹配结果，确定所述第一终端在采集过程中的至少一个第一位姿，包括：

根据所述全局特征匹配结果和/或所述本地特征匹配结果，获取第一约束信息；

根据所述第一IMU数据，获取第二约束信息；

根据所述第一约束信息和所述第二约束信息中的至少一种，对所述全局特征匹配结果和所述本地特征匹配结果进行处理，得到所述第一终端在采集过程中的至少一个所述第一位姿。
根据权利要求4所述的方法，其中，所述对所述全局特征匹配结果和所述本地特征匹配结果进行处理，包括：

通过光束法平差，对所述全局特征匹配结果和所述本地特征匹配结果进行处理。
根据权利要求2至5中任意一项所述的方法，其中，所述将所述第一采集图像与所述至少一帧视觉点云进行特征匹配，得到全局特征匹配结果，包括：

将所述第一采集图像中的二维特征点，与所述至少一帧视觉点云包括的三维特征点进行匹配，得到所述全局特征匹配结果。
根据权利要求1所述的方法，其中，所述方法还包括：

根据所述第一终端在采集过程中的至少一个所述第一位姿，确定运动真值数据。
根据权利要求7所述的方法，其中，所述根据所述第一终端在采集过程中的至少一个所述第一位姿，确定运动真值数据，包括：

将所述第一终端在采集过程中的至少一个所述第一位姿作为所述运动真值数据；

和/或，

将所述采集数据中的至少一种，以及所述第一终端在采集过程中的至少一个所述第一位姿，作为所述运动真值数据，其中，所述采集数据包括：

无线网络WiFi数据、蓝牙数据、地磁数据、超宽带UWB数据、第一采集图像以及第一IMU数据中的一种或多种。
根据权利要求7或8任一所述的方法，其中，所述运动真值数据用于以下操作中的至少一种：

判断定位结果的精度、对神经网络进行训练以及与所述全局地图进行信息融合。
根据权利要求1所述的方法，其中，所述地图数据包括：所述全局场景中的激光点云、第二采集图像以及第二IMU数据；

所述方法还包括：

获取通过所述第二终端采集的所述全局场景的地图数据；

根据所述地图数据，对所述全局场景进行离线重建，生成所述全局场景的全局地图。
根据权利要求10所述的方法，其中，所述根据所述地图数据，对所述全局场景进行离线重建，生成所述全局场景的全局地图，包括：

根据所述第二IMU数据以及所述激光点云，确定所述第二终端在数据采集过程中的至少一个第二位姿；

根据至少一个所述第二位姿、结合所述第二采集图像，对所述全局场景进行视觉地图重建，得到至少一帧视觉点云；其中，所述视觉点云包括所述全局场景中的至少一个三维特征点；

根据所述至少一帧视觉点云，得到所述全局场景的全局地图。
根据权利要求11所述的方法，其中，所述根据所述至少一个所述第二位姿、结合所述第二采集图像，对所述全局场景进行视觉地图重建，得到至少一帧视觉点云，包括：

根据所述至少一个所述第二位姿、结合所述第二采集图像，对所述全局场景进行视觉地图重建，得到至少一帧初始视觉点云；

根据所述激光点云和/或所述第二采集图像，获取视觉地图重建过程中的第三约束信息；其中，所述第三约束信息，包括所述激光点云的平面约束信息、所述激光点云的边缘约束信息以及视觉约束信息中的一种或多种；

根据所述第三约束信息，对所述至少一帧初始视觉点云进行优化，得到至少一帧视觉点云。
根据权利要求10所述的方法，其中，所述第二终端包括：

雷达，用于获取所述全局场景中的激光点云；

视觉传感器，用于获取所述全局场景中的第二采集图像；

IMU传感器，用于获取所述全局场景中的第二IMU数据。
根据权利要求13所述的方法，其中，所述根据所述地图数据，对所述全局场景进行离线重建，生成所述全局场景的全局地图之前，还包括：

对所述视觉传感器与所述IMU传感器之间的坐标变换关系进行标定，得到第一标定结果；

对所述雷达与所述视觉传感器之间的坐标变换关系进行标定，得到第二标定结果；

根据所述第一标定结果和所述第二标定结果，对所述视觉传感器、IMU传感器以及雷达之间的坐标变换关系进行联合标定。
根据权利要求10至14中任意一项所述的方法，其中，所述方法还包括：

在所述第二终端采集所述地图数据的过程中，根据所述地图数据对所述全局场景进行实时重建，生成所述全局场景的实时地图；

向目标设备发送所述地图数据和/或所述实时地图；其中，所述目标设备，用于显示对所述全局场景完成数据采集的地理范围。
一种位姿确定装置，包括：

采集数据获取模块配置为：获取目标场景中的第一终端采集的采集数据；

全局地图获取模块配置为：获取包含所述目标场景的全局地图；其中，所述全局地图，是基于第二终端对包含所述目标场景的全局场景进行数据采集所获得的地图数据生成的，且所述全局地图满足精度条件；

位姿确定模块配置为：根据所述采集数据以及所述全局地图之间的特征对应关系，确定所述第一终端在采集过程中的至少一个第一位姿。
根据权利要求16所述的装置，其中，所述全局地图包括至少一帧视觉点云，所述视觉点云包括所述全局场景中的至少一个三维特征点；所述采集数据包括第一采集图像；

所述位姿确定模块配置为：将所述第一采集图像与所述至少一帧视觉点云进行特征匹配，得到全局特征匹配结果；根据所述全局特征匹配结果，确定所述第一终端在采集过程中的至少一个所述第一位姿。
根据权利要求16所述的装置，其中，所述全局地图包括所述目标场景中的至少一帧视觉点云；所述采集数据包括至少两帧第一采集图像；

所述位姿确定模块配置为：将所述第一采集图像与所述至少一帧视觉点云进行特征匹配，得到全局特征匹配结果；将所述至少两帧第一采集图像进行特征匹配，得到本地特征匹配结果；根据所述全局特征匹配结果和所述本地特征匹配结果，确定所述第一终端在采集过程中的至少一个所述第一位姿。
根据权利要求18所述的装置，其中，所述采集数据还包括第一惯性测量IMU数据；

所述位姿确定模块配置为：根据所述全局特征匹配结果和/或所述本地特征匹配结果，获取第一约束信息；根据所述第一IMU数据，获取第二约束信息；根据所述第一约束信息和所述第二约束信息中的至少一种，对所述全局特征匹配结果和所述本地特征匹配结果进行处理，得到所述第一终端在采集过程中的至少一个所述第一位姿。
根据权利要求19所述的装置，其中，

所述位姿确定模块配置为：通过光束法平差，对所述全局特征匹配结果和所述本地特征匹配结果进行处理。
根据权利要求17至20任一所述的装置，其中：

所述位姿确定模块配置为：将所述第一采集图像中的二维特征点，与所述至少一帧视觉点云包括的三维特征点进行匹配，得到所述全局特征匹配结果。
根据权利要求16所述的装置，所述装置还包括运动真值获取模块，其中，

所述运动真值获取模块配置为：根据所述第一终端在采集过程中的至少一个所述第一位姿，确定运动真值数据。
根据权利要求22所述的装置，其中，

所述运动真值获取模块配置为：将所述第一终端在采集过程中的至少一个所述第一位姿、作为所述运动真值数据；

和/或，

将所述采集数据中的至少一种，以及所述第一终端在采集过程中的至少一个所述第一位姿，作为所述运动真值数据，其中，所述采集数据包括：无线网络WiFi数据、蓝牙数据、地磁数据、超宽带UWB数据、第一采集图像以及第一IMU数据中的一种或多种。
根据权利要求22或23任一所述的装置，其中，

所述运动真值数据用于以下操作中的至少一种：

判断定位结果的精度、对神经网络进行训练以及与所述全局地图进行信息融合。
根据权利要求16所述的装置，其中，所述地图数据包括：所述全局场景中的激光点云、第二采集图像以及第二IMU数据；所述装置还包括地图数据获取模块以及全局地图生成模块；

所述地图数据获取模块配置为：获取通过所述第二终端采集的所述全局场景的地图数据；

所述全局地图生成模块配置为：根据所述地图数据，对所述全局场景进行离线重建，生成所述全局场景的全局地图。
根据权利要求25所述的装置，其中，

所述全局地图生成模块配置为：根据所述第二IMU数据以及所述激光点云，确定所述第二终端在数据采集过程中的至少一个第二位姿；根据所述至少一个所述第二位姿、结合所述第二采集图像，对所述全局场景进行视觉地图重建，得到至少一帧视觉点云；根据所述至少一帧视觉点云，得到所述全局场景的全局地图；其中，所述视觉点云包括所述全局场景中的至少一个三维特征点。
根据权利要求26所述的装置，其中，

所述全局地图生成模块配置为：根据所述至少一个所述第二位姿、结合所述第二采集图像，对所述全局场景进行视觉地图重建，得到至少一帧初始视觉点云；根据所述激光点云和/或所述第二采集图像，获取视觉地图重建过程中的第三约束信息；根据所述第三约束信息，对所述至少一帧初始视觉点云进行优化，得到至少一帧视觉点云；根据所述第三约束信息，对所述至少一帧初始视觉点云进行优化，得到至少一帧视觉点云；其中，所述第三约束信息，包括所述激光点云的平面约束信息、所述激光点云的边缘约束信息以及视觉约束信息中的一种或多种。
根据权利要求25所述的装置，其中，所述第二终端包括：

雷达配置为：获取所述全局场景中的激光点云；

视觉传感器配置为：获取所述全局场景中的第二采集图像；

IMU传感器配置为：获取所述全局场景中的第二IMU数据。
根据权利要求28所述的装置，所述装置配置为：对所述视觉传感器与所述IMU传感器之间的坐标变换关系进行标定，得到第一标定结果；对所述雷达与所述视觉传感器之间的坐标变换关系进行标定，得到第二标定结果；根据所述第一标定结果和所述第二标定结果，对所述视觉传感器、IMU传感器以及雷达之间的坐标变换关系进行联合标定。
根据权利要求25至29任一所述的装置，其中，

所述装置配置为：在所述第二终端采集所述地图数据的过程中，根据所述地图数据对所述全局场景进行实时重建，生成所述全局场景的实时地图；向目标设备发送所述地图数据和/或所述实时地图，其中，所述目标设备用于显示对所述全局场景完成数据采集的地理范围。
一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器存储的指令，以执行权利要求1至15中任意一项所述的位姿确定方法。
一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现权利要求1至15中任意一项所述的位姿确定方法。
一种计算机程序，所述计算机程序包括计算机可读代码，在所述计算机可读代码在电子设备中运行的情况下，所述电子设备的处理器执行用于实现如权利要求1至15任一项所述的位姿确定方法。