WO2021244114A1

WO2021244114A1 - 视觉定位方法和装置

Info

Publication number: WO2021244114A1
Application number: PCT/CN2021/084070
Authority: WO
Inventors: 冯文森; 张欢; 曹军; 葛建阁; 唐忠伟; 李江伟
Original assignee: 华为技术有限公司
Priority date: 2020-05-31
Filing date: 2021-03-30
Publication date: 2021-12-09
Also published as: EP4148379A4; US20230089845A1; EP4148379A1; CN113739797A

Abstract

一种视觉定位方法和装置。该视觉定位方法可以包括：获取终端设备采集的图像；获取该图像的二维线特征信息，该二维线特征信息包括建筑物与非建筑物之间的分界线信息，或非建筑物与非建筑物之间的分界线信息中至少一项；根据该终端设备的位置信息和磁力计角度偏转信息、卫星地图、以及该二维线特征信息，确定该终端设备的定位位姿。该方法可以提升视觉定位的成功率和定位精度。

Description

视觉定位方法和装置

本申请要求于2020年5月31日提交中国专利局、申请号为202010481150.4、申请名称为“视觉定位方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及一种智能感知技术，尤其涉及一种视觉定位方法和装置。

背景技术

视觉定位是使用相机所拍摄的图像或者视频来进行定位，精确定位出相机在真实世界中的位置和姿态。视觉定位是近些年来计算机视觉领域的热点问题，其在增强现实、交互虚拟现实、机器人视觉导航、公共场景监控、智能交通等诸多领域都具有十分重要的意义。

视觉定位技术包括基于卫星地图的视觉定位方法(Geo-localization)。卫星地图(Satellite Map)通过卫星对场景进行白模重建得到的。基于卫星地图的视觉定位方法，使用该卫星地图(Satellite Map)对相机所拍摄的图像或者视频进行定位，获取相机坐标系在卫星地图中的6个自由度(Degree of freedom，DoF)位姿(Pose)。该类视觉定位技术可以应对大规模场景的视觉定位。

上述基于卫星地图的视觉定位方法，存在定位成功率较低和定位精度不高的问题。

发明内容

本申请提供一种视觉定位方法和装置，以提升定位成功率和定位精度。

第一方面，本申请实施例提供一种视觉定位方法，该方法可以包括：获取终端设备采集的图像。获取该图像的二维线特征信息，该二维线特征信息包括建筑物与非建筑物之间的分界线信息，或非建筑物与非建筑物之间的分界线信息中至少一项。根据该终端设备的位置信息和磁力计角度偏转信息、卫星地图、以及该二维线特征信息，确定该终端设备的定位位姿。

本实现方式，利用二维线特征信息进行视觉定位，该二维线特征信息可以包括建筑物与非建筑物之间的分界线信息或非建筑物与非建筑物之间的分界线信息中至少一项，可以解决视野内天际线较短或不够丰富的场景下的定位失败或定位精度不高的问题，提升视觉定位的成功率和精度，并且可以提升视觉定位的鲁棒性。

一种可能的设计中，获取该图像的二维线特征信息，可以包括：对该图像进行语义分割，提取该图像的二维线特征信息。

本实现方式，通过语义分割的方式提取该图像的二维线特征信息，以便基于该二维线特征信息进行视觉定位，可以提升视觉定位的成功率和精度。

一种可能的设计中，根据该图像对应的终端设备的位置信息和磁力计角度偏转信息、卫星地图、以及该二维线特征信息，确定该终端设备的定位位姿，可以包括：根据该终端设备的位置信息和磁力计角度偏转信息，确定候选位姿集合。根据该候选位姿集合、该二维线特征信息和该卫星地图，确定N个优化位姿。根据该N个优化位姿，确定该终端设备的定位位姿。其中，N为大于1的整数。

一种可能的设计中，该候选位姿集合包括M组候选位姿，每组候选位姿包括候选位置信息和候选偏航角度集合，该候选位置信息属于第一阈值范围内，该第一阈值范围为根据该终端设备的位置信息确定的，该候选偏航角度集合属于第二阈值范围内，该第二阈值范围为根据该终端设备的磁力计角度偏转信息确定的角度集合，M为大于1的整数。

一种可能的设计中，根据该候选位姿集合、该二维线特征信息和该卫星地图，确定N个优化位姿，包括：在该候选位姿集合中选取部分候选位姿，用该部分候选位姿和该卫星地图确定该部分候选位姿的全景线特征信息，并将该全景线特征信息与该二维线特征信息进行匹配，确定多个初始位姿，对多个初始位姿进行优化，确定该N个优化位姿。

本实现方式，通过在部分候选位姿中进行匹配和优化处理，可以降低定位时长，提升定位精度。

一种可能的设计中，根据该候选位姿集合、该二维线特征信息和该卫星地图，采用搜索方法和迭代方法，确定N个优化位姿，包括：步骤1：在该M组候选位姿中选取K ₁组候选位姿，分别根据该K ₁组候选位姿中的每组候选位姿的候选位置信息和该卫星地图，获取每组候选位姿的全景线特征信息。步骤2：分别对每组候选位姿的全景线特征信息与该二维线特征信息进行匹配，确定每组候选位姿的候选偏航角度信息，每组候选位姿的候选偏航角度信息为每组候选位姿的候选偏航角度集合中与该二维线特征信息匹配度最高的角度。步骤3：根据该K ₁组候选位姿的候选偏航角度信息，得到K ₁个初始位姿，每个初始位姿包括一组候选位姿的候选位置信息和候选偏航角度信息。步骤4：对该K ₁个初始位姿采用迭代方法优化，得到K ₁个优化位姿，并得到每个优化位姿对应的最近点损失。步骤5：根据每个优化位姿的最近点损失，在该K ₁个优化位姿中确定一个优化位姿，作为该N个优化位姿中的一个优化位姿，该一个优化位姿为该K ₁个优化位姿中最近点损失最小的优化位姿。步骤6：将K ₁替换为K _1+n，重复执行步骤1至5，直至确定N个优化位姿，n取1至N-1，且K ₁>K ₂＝K ₃……＝K _N。

一种可能的设计中，K _1+n组候选位姿的中心为对K _n组候选位姿执行上述步骤1至5所确定出的一个优化位姿。

一种可能的设计中，每个初始位姿还包括预设的高度信息、俯仰角信息和翻滚角信息，每个优化位姿包括位置信息、高度信息、偏航角度信息、俯仰角信息和翻滚角信息。

一种可能的设计中，该匹配包括多模态鲁棒匹配或二维轮廓线匹配，其中，该多模态鲁棒匹配包括多重语义信息匹配或极大值抑制匹配。

本实现方式，通过多模态鲁棒匹配或二维轮廓线匹配，可以辅助提升定位效果。

一种可能的设计中，根据该N个优化位姿，确定该终端设备的定位位姿，包括：在该N个优化位姿中，选取损失最小的一个优化位姿作为该终端设备的定位位姿。其中，该损失为每个优化位姿的最近点损失和每个优化位姿对应的差值加权和，该差值为每个优化位姿的位置信息与该终端设备的位置信息之间的差值。

一种可能的设计中，该方法还可以包括：根据该终端设备的定位位姿对应的内点率、内点误差或热力图中至少一项，判断该终端设备的定位位姿是否可靠。当该终端设备的定位位姿可靠时，输出该终端设备的定位位姿。当该终端设备的定位位姿不可靠时，判定定位失败。其中，该热力图用于表示该部分候选位姿的分布。

本实现方式，通过该终端设备的定位位姿对应的内点率、内点误差或热力图中至少一项，判断该终端设备的定位位姿是否可靠，可以提升定位结果的可信程度。

一种可能的设计中，根据该终端设备的定位位姿对应的内点率、内点误差或热力图中至少一项，判断该终端设备的定位位姿是否可靠，包括：判断该终端设备的定位位姿是否满足以下条件至少之一：该终端设备的定位位姿对应的内点率大于第一阈值；或者，该终端设备的定位位姿对应的内点误差小于第二阈值；或者，该终端设备的定位位姿对应的热力图中部分候选位姿的分布的密集度大于第三阈值。

一种可能的设计中，该方法还包括：根据该终端设备的定位位姿确定虚拟物体描述信息。向该终端设备发送该虚拟物体描述信息，该虚拟物体描述信息用于在该终端设备上显示对应的虚拟物体。

第二方面，本申请实施例提供一种视觉定位方法，该方法可以包括：终端设备采集图像，并在该终端设备的用户界面上显示该图像，该图像包括拍摄到的非建筑物之间的分界线，或，建筑物和非建筑物之间的分界线中至少一项。向服务器发送该图像。接收该服务器发送的虚拟物体描述信息，该虚拟物体描述信息为根据采集该图像的终端设备的定位位姿确定的，该定位位姿为至少根据该图像的二维线特征信息和该终端设备的位置信息确定的，该二维线特征信息包括建筑物与非建筑物之间的分界线的信息，或非建筑物与非建筑物之间的分界线的信息中至少一项。在该用户界面上叠加显示该虚拟物体描述信息对应的虚拟物体。

一种可能的设计中，采集图像之前，该方法还包括：在该用户界面上显示提示信息，该提示信息用于提示用户拍摄建筑物与非建筑物之间的分界线，或非建筑物与非建筑物之间的分界线中至少一项。

一种可能的设计中，采集图像之前，该方法还可以包括通过端侧模型判断该图像是否适合做视觉定位。

例如，将该图像输入至端侧模型中，通过该端侧模型对该图像进行语义分割，该端侧模型输出该图像的语义分割结果，根据该语义分割结果获取该图像的二维线特征信息，根据该二维线特征信息判断该图像是否适合做视觉定位。

例如，终端设备针对当前query图像，基于端侧语义分割模型，对query图像进行语义分割，并提取二维线特征，包括建筑物与非建筑物之间的分界线，以及各个不同非建筑物之间的分界线，判断该二维线特征的丰富程度。如果二维线特征比较丰富，即二维线特征的长度大于某一个阈值，则适合做视觉定。

例如，判断该二维线特征信息对应的建筑物与非建筑物之间的分界线，或非建筑物与非建筑物之间的分界线中至少一项，是否丰富，若丰富，则确定该图像适合做视觉定位，若不丰富，则确定该图像不适合做视觉定位。

其中，丰富可以指，上述分界线的长度大于一个阈值。该分界线包括该二维线特征信息对应的建筑物与非建筑物之间的分界线，或非建筑物与非建筑物之间的分界线中至少一项。

当确定该图像适合做视觉定位时，可以向服务器发送给图像，以便服务器基于该图像，对终端设备进行视觉定位。

需要说明的是，本实现方式中的图像的二维线特征信息，与上述定位位姿确定所使用的图像的二维线特征信息的精度不同。上述定位位姿确定所使用的图像的二维线特征信息为服务器对该图像进行语义分割后所获取的，其精度高于本实现方式中的图像的二维线特征信息。

本实现方式，通过在终端设备对该图像进行预检测，将适合视觉定位的图像发送给服务器做进一步精确视觉定位，可以避免将不适合视觉定位的图像发送给服务器，造成传输资源和服务器侧计算资源的浪费。

第三方面，本申请实施例提供一种视觉定位装置，该视觉定位装置可以作为服务器或服务器的内部芯片，该视觉定位装置用于执行上述第一方面或第一方面的任一可能的实现方式中的视觉定位方法。具体地，该视觉定位装置以包括用于执行第一方面或第一方面的任一可能的实现方式中的视觉定位方法的模块或单元，例如，收发模块或单元，处理模块或单元。

第四方面，本申请实施例提供一种视觉定位装置，该视觉定位装置可以作为服务器或服务器的内部芯片，该视觉定位装置包括存储器和处理器，该存储器用于存储指令，该处理器用于执行存储器存储的指令，并且对存储器中存储的指令的执行使得处理器执行上述第一方面或第一方面的任一可能的实现方式中的视觉定位方法。

第五方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现第一方面或第一方面的任一可能的实现方式中的方法。

第六方面，本申请实施例提供一种视觉定位装置，该视觉定位装置可以作为终端设备或终端设备的内部芯片，该视觉定位装置用于执行上述第二方面或第二方面的任一可能的实现方式中的视觉定位方法。具体地，该视觉定位装置可以包括用于执行第二方面或第二方面的任一可能的实现方式中的视觉定位方法的模块或单元，例如，收发模块或单元，处理模块或单元。

第七方面，本申请实施例提供一种视觉定位装置，该通信装置可以作为终端设备或终端设备的内部芯片，该视觉定位装置包括存储器和处理器，该存储器用于存储指令，该处理器用于执行存储器存储的指令，并且对存储器中存储的指令的执行使得处理器执行第二方面或第二方面的任一可能的实现方式中的视觉定位方法。

第八方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现第二方面或第二方面的任一可能的实现方式中的方法。

第九方面，本申请实施例提供一种计算机程序产品，计算机程序产品包括计算机程序，当计算机程序被计算机或处理器执行时，用于执行第一方面或第一方面的任一可能的实现方式中的方法，或者，用于执行第二方面或第二方面的任一可能的实现方式中的方法，或者，用于执行第三方面或第三方面的任一可能的实现方式中的方法。

本申请实施例的视觉定位方法和装置，服务器通过获取终端设备采集的图像的二维线特征信息，该二维线特征信息可以包括建筑物与非建筑物之间的分界线信息、或非建筑物与非建筑物之间的分界线信息中至少一项，根据该终端设备的位置信息和磁力计角度偏转信息、卫星地图、以及该二维线特征信息，确定该终端设备的定位位姿。利用二维线特征信息进行视觉定位，可以解决视野内天际线较短或不够丰富的场景下的定位失败或定位精度不高的问题，提升视觉定位的成功率和精度，并且可以提升视觉定位的鲁棒性。

附图说明

图1为本申请实施例提供的一种卫星地图的示意图；

图2为本申请实施例提供的一种应用场景的示意图；

图3A为本申请实施例提供的终端设备的屏幕上显示的一种用户界面的示意图；

图3B为本申请实施例提供的终端设备的屏幕上显示的一种用户界面的示意图；

图3C为本申请实施例提供的终端设备的屏幕上显示的一种用户界面的示意图；

图4为本申请实施例提供的一种视觉定位方法的流程图；

图5为本申请实施例提供的一种图像的二维线特征信息的示意图；

图6为本申请实施例提供的一种视觉定位方法的流程图；

图7A为本申请实施例提供的一种热力图的示意图；

图7B为本申请实施例提供的一种确定终端设备的定位位姿是可靠或可信的示意图；

图8A为本申请实施例提供的一种鲁棒的基于卫星地图的视觉定位(Geo-localization)方法的流程图；

图8B为本申请实施例提供的一种维轮廓线匹配的示例说明的示意图；

图8C为本申请实施例提供的一种局部的维轮廓线匹配的示例说明的示意图；

图8D为本申请实施例提供的一种不同的匹配方式的定位结果的示意图；

图8E为本申请实施例提供的一种多重语义信息匹配的示意图；

图8F为本申请实施例提供通过ICP优化后得到的定位位姿与真实值的比对示意图；

图8G为本申请实施例提供的视觉定位方法的定位时长的示意图；

图8H为本申请实施例提供的视觉定位方法的定位准确率的示意图；

图9A为本申请实施例提供的一种视觉定位方法的处理过程的示意图；

图9B为本申请实施例提供的一种视觉定位方法的处理过程的示意图；

图10为本申请实施例提供的一种用户界面示意图；

图11为本申请实施例提供的一种视觉定位装置的结构示意图；

图12为本申请实施例提供的另一种视觉定位装置的结构示意图；

图13为本申请实施例提供的另一种视觉定位装置的结构示意图；

图14为本申请实施例提供的另一种视觉定位装置的结构示意图。

具体实施方式

本申请实施例所涉及的术语“第一”、“第二”等仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

首先对本申请实施例中的部分用语进行解释说明，以便于理解本申请实施例的视觉定位方法。

视觉定位(Visual Localization)：为了使真实世界与虚拟世界无缝融合，通过算法计算出终端设备的相机(camera)坐标系和真实世界三维坐标系的相对转换关系，进而实现真实世界里面的虚拟物体在终端设备中的显示。视觉定位技术要解决的问题是如何使用相机所拍摄的图像或者视频来进行定位，精确定位出相机在真实世界中的位置和姿态。

查询(query)图像：终端设备采集的用来实现视觉定位的RGB图像或者图片序列。

术语“图片(picture)”、“帧(frame)”或“图像(image)”可以用作同义词。

卫星地图(Satellite Map)：通过卫星图片(如图1(a)所示)对场景进行白模重建(如图1(b)所示)而得到的地图。

基于卫星地图(Satellite Map)的视觉定位(Geo-localization)：基于卫星地图(Satellite Map)，定位出终端设备的相机(camera)坐标系在卫星地图中的位姿。

位姿：可以包括位置和姿态。其中，位置可以包括(x，y，z)坐标，姿态可以包括环绕三个坐标轴的角度偏转，环绕三个坐标轴的角度偏转分别为偏航(yaw)角，俯仰(pitch)角，翻滚(roll)角。包括(x，y，z)坐标，以及偏航(yaw)角，俯仰(pitch)角和翻滚(roll)角的位姿，也可以称为6个自由度(Degree of freedom，DoF)位姿(Pose)。

位姿(例如，候选位姿、定位位姿等)的全景线特征信息：基于卫星地图，提取位姿(例如，候选位姿、定位位姿等)对应的卫星地图全景线特征信息，该全景线特征信息可以包括该位姿(例如，候选位姿、定位位姿等)对应的包括建筑物与非建筑物之间的分界线信息、或非建筑物与非建筑物之间的分界线信息中至少一项。

本申请实施例涉及终端设备。终端设备可以是移动电话、智能手机、平板个人电脑(tablet personal computer)、媒体播放器、智能电视、笔记本电脑(laptop computer)、个人数字助理(personal digital assistant，PDA)、个人计算机(personal computer)、智能手表、增强现实(augmented reality，AR)眼镜等可穿戴式设备(wearable device)、车载设备、或物联网(the Internet of things，IOT)设备等，本申请实施例对此不作限定。

图2为本申请实施例提供的一种应用场景的示意图，如图2所示，该应用场景可以包括终端设备11和服务器12，示例性的，终端设备11与服务器12可以进行通信，服务器12可以向终端设备提供视觉定位服务，以及基于视觉定位服务，向终端设备11推送虚拟物体描述信息，以使得终端设备可以呈现相应的虚拟物体，该虚拟物体可以是虚拟路标、虚拟人物等。本申请实施例提供一种视觉定位方法，以提升视觉定位的成功率和准确率，从而准确地向终端设备推送相应的虚拟物体描述信息，其具体解释说明可以参见下述实施例。

本申请实施例的视觉定位方法可以应用于AR导航、AR人机交互、辅助驾驶、自动驾驶等需要定位终端设备的相机的位置和姿态的领域。例如，超大场景视觉导航系统，视觉导航指的是通过增强现实等交互方式将用户引导至某一个目的地点。用户可实时在终端设备的屏幕上看到建议的步行方向、离目的地的距离等信息，如图3A所示，虚拟物体为屏幕上显示的J2-1-1B16会议室的步行方向，即通过增强现实向用户展示步行方向等。再例如，超大场景AR游戏交互，如图3B和3C所示，AR游戏交互可以将AR内容固定在特定的地理位置，用户所使用的终端设备可以通过本申请实施例的视觉定位方法，在屏幕上显示相应的虚拟物体(例如，图3B所示的虚拟人物，图3C所示的虚拟动画)，用户通过点击/滑动终端设备的屏幕等方式实现和虚拟物体的互动，可以引导虚拟物体和真实世界发生交互。

需要说明的是，终端设备11通常设置有摄像头，终端设备11可以通过摄像头对场景进行拍摄。上述服务器12以一个服务器为例进行举例说明，本申请不以此作为限制，例如，其也可以是包括多个服务器的服务器集群。

图4为本申请实施例提供的一种视觉定位方法的流程图，本实施例的方法涉及终端设备和服务器，如图4所示，本实施例的方法可以包括：

步骤101、终端设备采集图像。

终端设备通过摄像头采集图像，该图像可以是如上所述的查询(query)图像。

以终端设备是智能手机为例，智能手机可以根据应用程序的触发，启动拍摄功能，采集该图像。例如，可以周期性采集图像，例如，2秒，30秒等，也可以是满足预设采集条件时，采集图像，该预设采集条件可以是智能手机的GPS数据在预设范围内。终端设备采集的一个或多个图像均可以通过如下步骤，以实现视觉定位。

终端设备在采集图像时，还可以采集该终端设备的位置信息和磁力计角度偏转信息。该终端设备的位置信息和磁力计角度偏转信息的具体解释说明可以参见步骤104的相关解释说明。

步骤102、终端设备向服务器发送图像。

服务器接收终端设备发送的图像。

在一些实施例中，终端设备在发送该图像时，还可以向服务器发送该终端设备的位置信息和磁力计角度偏转信息。在一些实施例中，终端设备可以在发送图像之后，向与该图像对应的该终端设备的位置信息和磁力计角度偏转信息。

步骤103、服务器根据该图像获取该图像的二维线特征信息。

该二维线特征信息可以包括建筑物与非建筑物之间的分界线信息、或非建筑物与非建筑物之间的分界线信息中至少一项。该建筑物可以包括住宅、写字楼、体育馆、展览馆或医院等，该非建筑可以包括植被、天空、水面(例如，湖面、河面、或海面等)、或地面等。举例而言，该建筑物与非建筑物之间的分界线信息可以为建筑物与树木之间的分界线信息，或建筑物与地面之间的分界线信息(也称为建筑物的下边沿信息)，或建筑物与天空之间的分界线信息(也称为建筑物的上边沿信息)等，该不同非建筑物之间的分界线信息可以为道路与河面、道路与植被、道路与人行道、或不同道路之间的分界线信息。非建筑物与道路信息之间的分界线信息也可以称为道路的边界线信息。如图5所示，例如，该图像为如图5中左侧所示的图像，该图像中包括建筑物、道路、植被和天空，则获取的该图像的二维线特征信息可以是如图5中右侧所示的建筑物与植被之间的分界线、植被与道路之间的分界线、建筑物与道路之间的分界线、建筑物与天空之间的分界线、植被与天空之间的分界线等信息。终端设备在不同的场景采集到的图像，图像的内容可以包括建筑物和/或非建筑物等，针对不同成像内容的图像，服务器获取的图像的二维线特征信息不同。

上述建筑物与非建筑物之间的分界线信息、非建筑物与非建筑物之间的分界线信息可以称为不同类别的二维线特征信息，在一些实施例中，服务器可以根据终端设备的位置信息，或者根据终端设备的位置信息和磁力计角度偏转信息，确定图像的二维线特征信息的类别，进而获取图像的相应类别的二维线特征信息。例如，用户使用终端设备在市区街道内采集了一个图像，并发送给服务器，服务器可以根据该终端设备的位置信息，确定图像的二维线特征信息的类别，该二维线特征信息的类别包括建筑物与非建筑物之间的分界线信息和非建筑物与非建筑物之间的分界线信息，进而获取该图像的建筑物与非建筑物之间的分界线信息和非建筑物与非建筑物之间的分界线信息。再例如，用户使用终端设备在外滩江边采集了一个图像，并发送给服务器，服务器可以根据该终端设备的位置信息和磁力计角度偏转信息，确定图像的二维线特征信息的类别，该二维线特征信息的类别包括建筑物与非建筑物之间的分界线信息和非建筑物与非建筑物之间的分界线信息，进而获取该图像的建筑物与非建筑物之间的分界线信息和非建筑物与非建筑物之间的分界线信息。

在一些实施例中，服务器可以对图像进行语义分割，提取该图像的二维线特征信息。例如，对图像进行不同类别(例如，植被、建筑物、天空、水面、地面等)的语义分割，提取该图像的二维线特征信息。

上述语义分割的具体实施方式可以有很多种方式，例如，通过语义分割模型实现语义分割，输出该图像的二维线特征信息。举例而言，该语义分割模型可以是任意神经网络模型，例如，深度神经网络(Deep Neural Network，DNN)、卷积神经网络(Convolutional Neural Networks，CNN)或其组合等。该语义分割模型也可以是任意机器学习的分类器，例如，支持向量机(support vector machine，SVM)分类器。

该语义分割模型可以对输入的图像进行语义分割，区分出建筑物的轮廓线、天空、植被、地面、或水面等，进而输出该图像的二维线特征信息。该语义分割可以是密集的像素级别的分类任务。该语义分割模型可以是使用训练图像和标签值(用于表示像素点对应的类别，例如，建筑物、天空等)进行训练得到的。示例性的，在训练时采用的训练策略可以是标准的交叉熵损失，用以衡量语义分割模型的预测值与标签值之间的差距，通过最小化该交叉熵损失，提高语义分割模型的预测效果。最终训练得到的语义分割模型，能够区分图像中的建筑物与非建筑物之间的分界线、和/或非建筑物与非建筑物之间的分界线等。

步骤104、服务器根据该终端设备的位置信息和磁力计角度偏转信息、卫星地图、以及该二维线特征信息，确定该终端设备的定位位姿。

其中，该位置信息可以是终端设备的卫星定位信息，例如，可以是终端设备的全球定位系统(Global Positioning System，GPS)信息、终端设备的北斗卫星导航系统(BeiDou Navigation Satellite System，BDS)信息、终端设备的格洛纳斯(GLONASS)信息或终端设备的伽利略卫星导航系统(Galileo satellite navigation system)信息。该磁力计角度偏转信息可以是偏航(yaw)角。该位置信息和磁力计角度偏转信息可以是终端设备采集该图像时的位置信息和磁力计角度偏转信息，其可以通过终端设备的无线通信模块和磁力计获取。

服务器可以利用该终端设备的位置信息和磁力计角度偏转信息，确定多个候选位姿，基于该卫星地图，提取各个候选位姿的全景线特征信息，根据各个候选位姿的全景线特征信息和该二维线特征信息，确定该终端设备的定位位姿，从而可以结合图像的二维线特征信息，确定终端设备的定位位姿，提升定位成功率和定位精度。

示例性的，服务器可以根据终端设备的位置信息和磁力计角度偏转信息，确定候选位姿集合。该候选位姿集合可以包括多组候选位姿，每组候选位姿包括候选位置信息和候选偏航角度集合，该候选位置信息为根据该终端设备的位置信息确定的，例如，服务器可以根据该终端设备的位置信息确定候选位置范围，候选位置信息属于该候选位置范围，该候选位置范围可以为以该终端设备的位置信息为圆心，一定半径(例如，30米)的圆形区域范围。再例如，服务器可以根据该终端设备的磁力计角度偏转信息确定候选偏航角度集合，示例性的，该候选偏航角度集合可以该终端设备的磁力计角度偏转信息的正负90度范围内的偏航角度集合。服务器可以根据候选位姿集合、该二维线特征信息和卫星地图，确定N个优化位姿。根据该N个优化位姿，确定该终端设备的定位位姿。其中，N为大于1的整数。

一种可实现方式，服务器可以根据该候选位姿集合、该二维线特征信息和卫星地图，采用搜索方法和迭代方法，确定N个优化位姿。其中，该搜索方法用于在该候选位姿集合中选取部分候选位姿，用该部分候选位姿和卫星地图确定该部分候选位姿的全景线特征信息，并将该全景线特征信息与该二维线特征信息进行匹配，确定多个初始位姿，该迭代方法用于对该多个初始位姿进行优化，确定所述N个优化位姿。

该搜索方法可以选取部分候选位姿的全景线特征信息与该二维线特征信息进行匹配，从而可以减少确定终端设备的定位位姿所需时间，即减少定位时间。例如，该搜索方法可以在该候选位姿集合中进行多次搜索以确定该N个优化位姿。示例性的，进行N次搜索以确定该N个优化位姿。

以N次搜索以确定该N个优化位姿为例，服务器可以在第一次搜索时，在该候选位姿集合中选取部分候选位姿的全景线特征信息与二维线特征信息进行匹配，并使用该迭代方法确定一个优化位姿，服务器在第二次搜索时，在该候选位姿集合中选取第一次搜索确定的优化位姿附近的部分候选位姿的全景线特征信息与二维线特征信息进行匹配，并使用该迭代方法确定一个优化位姿，以此类推，重复执行搜索方法和迭代方法，直至确定N个优化位姿。

该迭代方法可以为迭代最近点算法(Iterative Closest Points Algorithm，ICP)。该迭代方法可以对匹配得到的初始位姿进行优化，得到优化位姿，从而可以提升最终确定的定位位姿的精度。

可选的，服务器可以在该N个优化位姿中，选取损失最小的一个优化位姿作为该终端设备的定位位姿。其中，该损失包括每个优化位姿的位置信息与终端设备的位置信息的差值，和每个优化位姿的最近点损失(ICP loss)。

示例性的，以一个优化位姿的损失为例，该优化位姿的位置信息与终端设备的位置信息的差值，和优化位姿的最近点损失可以采用加权求和的方式，得到该优化位姿的损失。例如，该优化位姿的损失等于，a1*该优化位姿的位置信息与终端设备的位置信息的差值+a2*优化位姿的最近点损失。a1和a2的具体取值可以根据需求进行灵活设置。

其中，该优化位姿对应的最近点损失为，基于该卫星地图，提取的该优化位姿的全景线特征信息，与该二维线特征信息进行匹配，所得到的最近点损失。

步骤105a、服务器根据终端设备的定位位姿确定虚拟物体描述信息。

例如，服务器可以根据定位位姿确定虚拟物体描述信息，该虚拟物体描述信息用于在终端设备上显示相应的虚拟物体，例如，如图3A所示的步行引导图标，该引导图标显示在真实世界的实际场景中，即显示在如图3A所示的街道上。

步骤105b、服务器向终端设备发送该虚拟物体描述信息。

步骤106、终端设备在用户界面上显示该虚拟物体描述信息对应的虚拟物体。

终端设备在用户界面上显示该虚拟物体描述信息对应的虚拟物体，该用户界面中显示有真实世界的实际场景，该虚拟物体可以采用增强现实的方式显示在该用户界面上。

本实施例，服务器通过获取终端设备采集的图像的二维线特征信息，该二维线特征信息可以包括建筑物与非建筑物之间的分界线信息或非建筑物与非建筑物之间的分界线信息中至少一项，根据该终端设备的位置信息和磁力计角度偏转信息、卫星地图、以及该二维线特征信息，确定该终端设备的定位位姿。利用二维线特征信息进行视觉定位，可以解决视野内天际线较短或不够丰富的场景下的定位失败或定位精度不高的问题，提升视觉定位的成功率和精度，并且可以提升视觉定位的鲁棒性。

图6为本申请实施例提供的一种视觉定位方法的流程图，本实施例的方法涉及终端设备和服务器，本实施例在图4所述实施例的基础上，在确定终端设备的定位位姿之后，进一步确定该定位位姿是否可靠，从而提升定位结果的可信程度，如图6所示，本实施例的方法可以包括：

步骤201、终端设备采集图像。

步骤202、终端设备向服务器发送图像。

步骤203、服务器根据该图像获取该图像的二维线特征信息。

其中，步骤201至步骤203的解释说明可以参见图4所示实施例的步骤101至步骤103，此处不再赘述。

步骤2041、服务器根据该终端设备的位置信息和磁力计角度偏转信息，确定候选位姿集合。

步骤2042、服务器根据该候选位姿集合、该二维线特征信息和该卫星地图，采用搜索方法和迭代方法，确定N个优化位姿。

其中，该搜索方法用于在该候选位姿集合中选取部分候选位姿与该二维线特征信息进行匹配，确定多个初始位姿，该迭代方法用于对该多个初始位姿进行优化，确定该N个优化位姿。

步骤2043、服务器根据该N个优化位姿，确定该终端设备的定位位姿。

其中，步骤2041至步骤2042的解释说明可以参见图4所示实施例的步骤104，此处不再赘述。

步骤205、服务器根据该终端设备的定位位姿对应的内点率、内点误差或热力图中至少一项，判断该终端设备的定位位姿是否可靠，若可靠，则执行步骤206a，若不可靠，则执行步骤208。

其中，该热力图用于表示N个优化位姿的位置信息在候选位置集合中的分布。该内点率和该内点误差用于描述基于卫星定位，终端设备的定位位姿的全景线特征信息，与该二维线特征信息的匹配程度。其中，该内点指，该二维线特征信息，与该终端设备的定位位姿的全景线特征信息的差值小于L1的点，该L1可以取小于10、或5、或4的任意正整数。该内点率指，该差值小于L1的点的总个数在该二维线特征信息所有点总个数中的占比。该内点误差指，该差值小于L1的点的差值均值。

举例而言，本申请实施例提供一种热力图的示意图，参见图7A所示，该热力图的中心为该终端设备的位置信息所在点，图中每一个实心方点代表采用上述搜索方法和迭代方法处理过的点。

在一些实施例中，服务器可以判断该终端设备的定位位姿是否满足以下条件至少之一：该终端设备的定位位姿对应的内点率大于第一阈值；或者，该终端设备的定位位姿对应的内点误差小于第二阈值；或者，该终端设备的定位位姿对应的热力图中该候选位姿的分布的密集度大于第三阈值。该第一阈值、第二阈值和第三阈值的取值可以是任意正数，其可以根据需求进行灵活设置。

该终端设备的定位位姿对应的内点率大于第一阈值；或者，该终端设备的定位位姿对应的内点误差小于第二阈值，均可以表示该终端设备的定位位姿，与该二维线特征信息较为相似，且匹配。终端设备的定位位姿对应的热力图中该候选位姿的分布的密集度大于第三阈值，可以表示搜索方法在候选位姿集合中选取的候选位姿较为集中，使得多次搜索最终确定的定位位姿较为准确。以图7A所示热力图做进一步举例说明，由图7A可见，该热力图中候选位姿的分布较为集中，则可以确定该定位位姿可靠。

换言之，终端设备的定位位姿的内点率高，和/或内点误差小，则该终端设备的定位位姿是可靠或可信的，反之，终端设备的定位位姿的内点率低，和/或内点误差大，则该终端设备的定位位姿是不可靠或不可信的。终端设备的定位位姿对应的热力图中该候选位姿的分布集中，则则该终端设备的定位位姿是可靠或可信的，反之，终端设备的定位位姿对应的热力图中该候选位姿的分布分散，则该终端设备的定位位姿是不可靠或不可信的。

以服务器通过内点率、内点误差和热力图确定该终端设备的定位位姿是可靠或可信为例，参见图7B所示，图7B中左侧所示图像为终端设备采集的图像，中间所示图像为终端设备的定位位姿的全景线特征信息与图像的二维线特征信息，即各个分界线，以建筑物与天空之间的分界线为例，如图7B中间所示的基于定位卫星的建筑物与天空之间的分界线，以及基于图像的建筑物与天空之间的分界线，基于此可以计算内点率和内点误差，再结合图7B中右侧所示的热力图，最终确定该终端设备的定位位姿是可靠或可信。

步骤206a、服务器根据终端设备的定位位姿确定虚拟物体描述信息。

执行步骤206a之后可以执行步骤206b和步骤207。

步骤206b、服务器向终端设备发送该虚拟物体描述信息。

步骤207、终端设备在用户界面上显示该虚拟物体描述信息对应的虚拟物体。

步骤208、服务器向终端设备发送提示消息，该提示消息用于指示定位失败。

该提示消息还用于指示重新采集图像。

步骤209、终端设备在用户界面上显示定位失败。

终端设备还可以在用户界面上显示提示用户重新采集图像的信息。

本实施例，服务器通过获取终端设备采集的图像的二维线特征信息，该二维线特征信息可以包括建筑物与非建筑物之间的分界线信息或非建筑物与非建筑物之间的分界线信息中至少一项，根据该终端设备的位置信息和磁力计角度偏转信息、卫星地图、以及该二维线特征信息，确定该终端设备的定位位姿，通过该终端设备的定位位姿对应的内点率、内点误差或热力图中至少一项，判断该终端设备的定位位姿是否可靠，在可靠时，输出该终端设备的定位位姿，在不可靠时，确定定位失败。利用二维线特征信息进行视觉定位，可以解决视野内天际线较短或不够丰富的场景下的定位失败或定位精度不高的问题，提升视觉定位的成功率和精度，并且可以提升视觉定位的鲁棒性。进一步，通过该终端设备的定位位姿对应的内点率、内点误差或热力图中至少一项，判断该终端设备的定位位姿是否可靠，可以提升定位结果的可信程度。

下面采用图8A所示实施例对上述步骤104的一种具体的可实现方式进行解释说明。

图8A为本申请实施例提供的一种鲁棒的基于卫星地图的视觉定位(Geo-localization)方法的流程图，本实施例的执行主体可以是服务器或服务器的内部芯片，如图8A所示，本实施例的方法可以包括：

步骤301、根据图像对应的终端设备的位置信息和磁力计角度偏转信息，确定M组候选位姿集合。

每组候选位姿包括候选位置信息和候选偏航角度集合，该候选位置信息属于第一阈值范围内，该第一阈值范围为根据该终端设备的位置信息确定的，该候选偏航角度集合属于第二阈值范围内，该第二阈值范围为根据该终端设备的磁力计角度偏转信息确定的角度集合。M取大于1的正整数。

示例性的，终端设备可以根据图像对应的终端设备的位置信息和磁力计角度偏转信息，分别构建候选位置集合(T)和候选偏航(yaw)角集合(Y)，候选位置集合(T)包括多个候选位置信息，候选偏航(yaw)角集合(Y)包括多个偏航(yaw)角，T中的一个候选位置信息和候选偏航(yaw)角集合(Y)可以组成一组候选位姿，从而可以组成多组候选位姿。

构建候选位置集合(T)的一种可实现方式为，在一个区域范围内，以第一预设间隔为间隔，选取位置点作为候选位置集合(T)中的候选位置信息，该区域范围可以是以图像对应的终端设备的位置信息(x，y)为圆心，半径为第四阈值的范围。即上述第一阈值范围的中心值为终端设备的位置信息。例如，该第四阈值可以是30米、35米等。该第一预设间隔可以是1米。

构建候选偏航(yaw)角集合(Y)的一种可实现方式为，在一个角度范围内，以第二预设间隔为间隔，选取角度作为候选偏航(yaw)角集合(Y)中的偏航(yaw)角，该角度范围可以是以图像对应的终端设备的偏航(yaw)角的正负第五阈值的范围。即上述第二阈值范围的中心值为终端设备的磁力计角度偏转信息。例如，该第五阈值可以是90度、85度等。该第二预设间隔可以是0.1度。

上述构建候选位置集合(T)和候选偏航(yaw)角集合(Y)的可实现方式为一种举例说明，本申请实施例不以此作为限制。

步骤302、在M组候选位姿中选取K ₁组候选位姿，分别根据该K ₁组候选位姿中的每组候选位姿的候选位置信息和卫星地图，获取每组候选位姿的全景线特征信息。

与对所有候选位姿信息进行匹配不同，为了降低匹配所消耗时长，本申请实施例可以在M组候选位姿中选取K ₁组候选位姿进行匹配。该K ₁组候选位姿的选取方式，可以为在M组候选位姿中，基于候选位置信息，间隔选取K ₁组候选位姿。例如，K ₁组候选位姿中相邻两个候选位置的候选位置信息间隔3米。

步骤303、分别对每组候选位姿的全景线特征信息与二维线特征信息进行匹配，确定每组候选位姿的候选偏航角度信息。

该每组候选位姿的候选偏航角度信息为每组候选位姿的候选偏航角度集合中与该二维线特征信息匹配度最高的角度。

通过对每组候选位姿的全景线特征信息与二维线特征信息进行匹配，确定该组候选位姿的候选偏航角度信息，即确定一个偏航(yaw)角。

在匹配过程中，可以使用滑窗遍历匹配候选位姿的全景线特征信息与二维线特征信息。该匹配可以包括多模态鲁棒匹配或二维轮廓线匹配，其中，该多模态鲁棒匹配包括多重语义信息匹配或极大值抑制匹配。

其中，二维轮廓线匹配的示例说明可以参见图8B所示，其中，图8B中的(a)为一个图像的匹配过程示意，即将全景线特征信息(图中较浅较长的线)与图像的二维线特征信息(图中较深较短的线)进行匹配，图8B中的(b)为另一个图像的匹配过程示意，其匹配原理相同，此处不再赘述。

对局部的二维轮廓线匹配的示例说明可以参见图8C所示，其中，图8C中左侧的匹配示意为现有技术中的匹配方式，即采用最近点距离为垂直距离的方式进行匹配，该匹配方式存在较大误差，本申请实施例的匹配方式可以如图8C中右侧的匹配示意，即采用最近点距离为水平距离的方式进行匹配，这样的匹配方式，可以使得视觉定位更加准确。

结合图8C对两种不同的匹配方式的定位结果进行示意性说明，请参照图8D，图8D为本申请实施例的图8C的匹配方式对应的定位结果。其中，图8D中第一行为采用图8C中左侧的匹配方式对图8D中的左侧的原图进行处理后的定位结果，图8D中第二行为采用图8C中右侧的匹配方式对图8D中的左侧的原图进行处理后的定位结果。由图8D可见，本申请实施例的匹配方式的定位结果对应的边界线，与真实值(ground truth)对应的边界线，更为接近。

本申请实施例结合建筑物与非建筑物之间的分界线信息、非建筑物与非建筑物之间的分界线信息进行匹配，可以有效提升定位区分度。

对多重语义信息匹配进行解释说明，以二维线特征信息为树木与天空之间的分界线信息为例，对其基本原理进行解释说明：1)图像中树木与天空的分界线一定比地图编码中建筑物与天空的分界线高；2)图像中如果建筑物的上边界超过了图像上边界，则说明其一定比地图编码中建筑物和天空的分界线低；优化方法为：如果在匹配的过程中，某一个候选位姿违反了上述规则，则认为该候选位姿不合理。

对于多重语义信息匹配的示意可以参见图8E，如图8E所示，其中图像中树木与天空的分界线一定比地图编码中建筑物与天空的分界线高，图像中建筑物的上边界超过了图像上边界，则说明其一定比地图编码中建筑物和天空的分界线低。

对极大值抑制匹配进行解释说明，由于白模、语义分割等存在误差，在匹配的过程中，可能会遇到局部存在较大误差的情况(尤其在建筑物边缘部分)，如果不加以抑制，有可能会对匹配结果造成不良的影响。优化方法为：如果二维线特征信息误差超过某一个阈值，则将其抑制为该阈值。

步骤304、根据该K ₁组候选位姿的候选偏航角度信息，得到K ₁个初始位姿，每个初始位姿包括一组候选位姿的候选位置信息和候选偏航角度信息。

以一个组为例，将通过上述步骤303确定的一个组候选位姿的候选偏航角度信息，和该组候选位姿的候选位姿信息，组成一个初始位姿。有K ₁组候选位姿，则可以通过匹配处理得到K ₁个初始位姿。

步骤305、对该K ₁个初始位姿采用迭代方法优化，得到K ₁个优化位姿，并得到每个优化位姿对应的最近点损失。

该迭代方法优化可以是如上所述的ICP。即对每个初始位姿采用ICP优化，得到一个优化位姿。例如，采用ICP优化初始位姿的偏航(yaw)角。

在一些实施例中，每个初始位姿还可以包括预设的高度信息、俯仰角信息(俯仰(pitch))和翻滚角信息(翻滚(roll))。例如，该预设的高度信息可以为1.5m等。该俯仰角信息(俯仰(pitch))和翻滚角信息(翻滚(roll))可以由同时定位与建图(Simultaneous Localization and Mapping，SLAM)算法给出。由于SLAM给出的俯仰角信息(俯仰(pitch))和翻滚角信息(翻滚(roll))会存在一些误差，采用ICP可以进一步优化俯仰角信息(俯仰(pitch))和翻滚角信息(翻滚(roll))

每个优化位姿包括位置信息、高度信息、磁力计角度信息(优化后的偏航(yaw)角)、俯仰角信息(优化后的俯仰(pitch)))和翻滚角信息(优化后的翻滚(roll))。

优化方法为：将图像(也称为query图像)的二维线特征和编码库中的线特征上的点提取出来，映射到单位球上，将其视为两组点云；然后利用ICP对点云进行匹配。ICP的输出为pitch、yaw和roll三个角度；将这三个角度作为最终输出的角度(也即上述优化后的pitch角、优化后的yaw角和优化后的roll角)，而不再采用SLAM给出的角度。

参见图8F所示，其中，图8F中的(a)为原图，即上述实施例中的图像，图8F中的(b)为不采用ICP优化得到的定位位姿对应的边界线，与真实值(ground truth)对应的边界线，由图8F中的(b)的天空与建筑物之间的分界线可见，二者相差较大，图8F中的(c)为本申请实施例的采用ICP优化得到的定位位姿对应的边界线，与真实值(ground truth)对应的边界线，由图8F中的(c)的天空与建筑物之间的分界线可见，二者相差较小。

步骤306、根据每个优化位姿的最近点损失，在该K ₁个优化位姿中确定一个优化位姿，作为该N个优化位姿中的一个优化位姿，该一个优化位姿为该K ₁个优化位姿中最近点损失最小的优化位姿。

该最近点损失可以是如上述图4所示实施例的损失中的优化位姿对应的匹配度。

步骤307、判断是否确定N个优化位姿，若否，则将K ₁替换为K _1+n，重复执行步骤302至307，若是，则执行上述步骤308。

重复执行步骤302至307直至确定N个优化位姿，n取1至N-1，且K ₁>K ₂＝K ₃……＝K _N。

在一些实施例中，K _1+n组候选位姿的中心为对K _n组候选位姿执行上述步骤302至307所确定出的一个优化位姿。即一次搜索和优化后的优化位姿可以用于确定下一次搜索和优化的多组候选位姿。例如，选取一次搜索和优化后的优化位姿周围的候选位姿进行下一次搜索和优化。

步骤308、根据该N个优化位姿，确定该终端设备的定位位姿。

例如，在该N个优化位姿中选取损失最小的一个优化位姿，作为该终端设备的定位位姿。该损失包括优化位姿的位置信息与终端设备的位置信息的差值，和优化位姿对应的匹配度。

本实施例，在视觉定位过程中，可以利用二维线特征信息，可以解决视野内天际线较短或不够丰富的场景下的定位失败或定位精度不高的问题，提升视觉定位的成功率和精度，并且可以提升视觉定位的鲁棒性。通过搜索方法和迭代最近点方法可以降低定位时长，提升定位精度。

对本申请实施例的视觉定位方法的效果进行说明，具体可以参见图8G和图8H，图8G示出了本申请实施例的视觉定位时长与现有技术的定位时长，如图8G所示，本申请实施例的视觉定位方法可以降低定位时长。图8H示出了本申请实施例的视觉定位精度与现有技术的定位精度，如图8F所示，本申请实施例的视觉定位方法，对于不同的定位误差，例如，1米1度(1m1 ^°)，2米2度(2m2 ^°)等，定位准确率均高于现有技术的定位准确率。

图9A为本申请实施例提供的一种视觉定位方法的处理过程的示意图，如图9A所示，本实施例的方法可以包括：终端设备采集图像和该终端设备的位置信息和磁力计角度偏转信息(S501)。服务器获取图像和该终端设备的位置信息和磁力计角度偏转信息。服务器对该图像进行语义分割(S502)，基于语义分割的结果提取该图像的二维线特征信息(S503)。服务器基于该终端设备的位置信息和磁力计角度偏转信息，确定M组候选位姿集合(S504)。服务器在该M组候选位姿集合中通过搜索方法选取部分候选位姿执行候选处理步骤(S505)。服务器根据部分候选位姿，从卫星地图中提取每组候选位姿的全景线特征信息(S506)。分别对每组候选位姿的全景线特征信息与二维线特征信息进行匹配，确定每组候选位姿的候选偏航角度信息，得到多个初始位姿(S507)。对该多个初始位姿采用迭代方法优化，得到多个优化位姿(S508)。在该多个优化位姿中确定一个优化位姿，作为该N个优化位姿中的一个优化位姿。重复执行(S505)至(S508)，确定N个优化位姿。在该N个优化位姿中选取损失最小的一个优化位姿，作为该终端设备的定位位姿(S509)。服务器进行置信度判定(S510)，即根据该终端设备的定位位姿对应的内点率、内点误差或热力图中至少一项，判断该终端设备的定位位姿是否可靠，当可以可靠时输出该定位位姿。

其中，上述各个步骤的具体解释说明可以参见上述实施例中相关步骤的解释说明，其具体实施方式和技术效果，此处不再赘述。

可选的，该视觉定位方法还可以包括，终端设备进行预检测处理(S511)。其中，图9A中的虚线表示可选的。

该预检测处理的一种可实现方式为：在发送图像之前，通过端侧模型判断该图像是否适合做视觉定位。

比如，终端设备针对当前query图像，基于端侧语义分割模型，对query图像进行语义分割，并提取二维线特征，包括建筑物与非建筑物之间的分界线，以及各个不同非建筑物之间的分界线，判断该二维线特征的丰富程度。如果二维线特征比较丰富，即二维线特征的长度大于某一个阈值，则适合做视觉定位。

终端设备的处理过程可以参见图9B，图9B为本申请实施例提供的一种视觉定位方法的处理过程的示意图，本实施例的执行主体可以为终端设备或终端设备的处理器，本实施例可以包括：

步骤601、终端设备采集图像、该终端设备的位置信息和磁力计角度偏转信息。

步骤602、终端设备通过端侧模型判断该图像是否适合做视觉定位，若是，则执行步骤S603，若否，则执行步骤601。

步骤603、终端设备向服务器发送该图像、该终端设备的位置信息和磁力计角度偏转信息。

与上述实施例中的语音分割模型类似，本实施例的端侧模型用于实现语义分割，输出该图像的二维线特征信息。举例而言，该端侧模型可以是任意神经网络模型，例如，深度神经网络(Deep Neural Network，DNN)、卷积神经网络(Convolutional Neural Networks，CNN)或其组合等。该语义分割模型也可以是任意机器学习的分类器，例如，支持向量机(support vector machine，SVM)分类器。

需要说明的是，预检测过程中的图像的二维线特征信息，与上述定位位姿确定所使用的图像的二维线特征信息的精度不同。上述定位位姿确定所使用的图像的二维线特征信息为服务器对该图像进行语义分割后所获取的，其精度高于预检测过程中的图像的二维线特征信息。

服务器的语义分割模型，针对query图像进行不同类别(植被、建筑物、天空等)的精细语义分割。这里的语义分割模型要比终端设备中预检测处理所使用的端侧模型大，分割精度比端侧模型精度高。

需要说明的是，在终端设备向服务器发送该图像后，服务器可以通过上述实施例的步骤确定终端设备的定位位姿，并向终端设备返回虚拟物体描述信息，以便在终端设备的用户界面上显示相应的虚拟物体。

下面结合图10，通过具体示例，对上述实施例的视觉定位方法进行说明。

图10为本申请实施例提供的一种用户界面示意图。如图10所示，包括用户界面901-用户界面902。

如用户界面901所示，终端设备可以采集图像，该图像呈现在用户界面901中。

该用户界面901可以是一个应用程序的用户界面，举例而言，该应用程序可以是用于提供AR导航服务的应用程序，用户可以点击该应用程序的图标，响应于该点击操作，终端设备可以显示该用户界面901，在用户界面901中显示该图像。

可选的，在用户界面901中还可以显示提示信息(如图10所示的文本框9011)，该提示信息用于提示用户拍摄建筑物与非建筑物之间的分界线，或非建筑物与非建筑物之间的分界线中至少一项，例如，该提示信息可以是“请尽量拍摄丰富场景：植被与建筑物之间的分界线、道路与建筑物之间的分界线等”。

用户界面901中的图像包括建筑物与植被之间的分界线、植被与道路之间的分界线、建筑物与道路之间的分界线、建筑物与天空之间的分界线、以及植被与天空之间的分界线，所以可以满足视觉定位需求。终端设备可以通过上述步骤102将图像发送给服务器。服务器可以通过上述步骤103至104，确定该终端设备的定位位姿，通过步骤105向终端设备发送该定位位姿对应的虚拟物体描述信息。终端设备根据该虚拟物体描述信息可以显示用户界面902，用户界面902中呈现了虚拟物体描述信息对应的虚拟物体，例如，咖啡馆的引导图标。

本实施例，在视觉定位过程中，可以利用二维线特征信息，可以解决视野内天际线较短或不够丰富的场景下的定位失败或定位精度不高的问题，提升视觉定位的成功率和精度，并且可以提升视觉定位的鲁棒性。通过搜索方法和迭代最近点方法可以降低定位时长，提升定位精度。并且基于定位位姿，向终端设备推送虚拟物体描述信息，以使得终端设备在用户界面上呈现该虚拟物体描述信息对应的虚拟物体，从而使得本申请实施例的视觉定位方法可以应用于AR导航、AR人机交互、辅助驾驶、自动驾驶等需要定位终端设备的相机的位置和姿态的领域，提升用户使用体验。

本申请实施例还提供一种视觉定位装置，用于执行以上各方法实施例中服务器或服务器的处理器执行的方法步骤。如图11所示，该视觉定位装置可以包括：收发模块111和处理模块112。

处理模块112，用于通过收发模块111获取终端设备采集的图像。该处理模块112，还用于根据该图像获取该图像的二维线特征信息，该二维线特征信息包括建筑物与非建筑物之间的分界线信息，或非建筑物与非建筑物之间的分界线信息中至少一项。该处理模块112，还用于根据该终端设备的位置信息和磁力计角度偏转信息、卫星地图、以及该二维线特征信息，确定该终端设备的定位位姿。

在一些实施例中，该处理模块112用于：对该图像进行语义分割，提取该图像的二维线特征信息。

在一些实施例中，该处理模块112用于：根据该终端设备的位置信息和磁力计角度偏转信息，确定候选位姿集合。根据该候选位姿集合、该二维线特征信息和该卫星地图，确定N个优化位姿。根据该N个优化位姿，确定该终端设备的定位位姿。其中，N为大于1的整数。

在一些实施例中，该处理模块112用于：在该候选位姿集合中选取部分候选位姿，用该部分候选位姿和卫星地图确定该部分候选位姿对应的全景线特征信息，并将该全景线特征信息与该二维线特征信息进行匹配，确定多个初始位姿，该迭代方法用于对该多个初始位姿进行优化，确定该N个优化位姿。

在一些实施例中，该候选位姿集合包括M组候选位姿，每组候选位姿包括候选位置信息和候选偏航角度集合，该候选位置信息属于第一阈值范围内，该第一阈值范围为根据该终端设备的位置信息确定的，该候选偏航角度集合属于第二阈值范围内，该第二阈值范围为根据该终端设备的磁力计角度偏转信息确定的角度集合，该处理模块用于：

步骤1：在M组候选位姿中选取K ₁组候选位姿，分别根据K ₁组候选位姿中的每组候选位姿的候选位置信息和卫星地图，获取每组候选位姿的全景线特征信息；

步骤2：分别对每组候选位姿的全景线特征信息与二维线特征信息进行匹配，确定每组候选位姿的候选偏航角度信息，每组候选位姿的候选偏航角度信息为每组候选位姿的候选偏航角度集合中与二维线特征信息匹配度最高的角度；

步骤3：根据K ₁组候选位姿的候选偏航角度信息，得到K ₁个初始位姿，每个初始位姿包括一组候选位姿的候选位置信息和候选偏航角度信息；

步骤4：对K ₁个初始位姿采用迭代方法优化，得到K ₁个优化位姿，并得到每个优化位姿对应的最近点损失；

步骤5：根据每个优化位姿的最近点损失，在K ₁个优化位姿中确定一个优化位姿，作为N个优化位姿中的一个优化位姿，该一个优化位姿为该K ₁个优化位姿中最近点损失最小的优化位姿；

步骤6：将K ₁替换为K _1+n，重复执行步骤1至5，直至确定N个优化位姿，n取1至N-1，且K ₁>K ₂＝K ₃……＝K _N。

在一些实施例中，K _1+n组候选位姿的中心为对K _n组候选位姿执行上述步骤1至5所确定出的一个优化位姿。

在一些实施例中，每个初始位姿还包括预设的高度信息、俯仰角信息和翻滚角信息，每个优化位姿包括位置信息、高度信息、偏航角度信息、俯仰角信息和翻滚角信息。

在一些实施例中，该匹配包括多模态鲁棒匹配或二维轮廓线匹配，其中，该多模态鲁棒匹配包括多重语义信息匹配或极大值抑制匹配。

在一些实施例中，该处理模块112用于：在该N个优化位姿中，选取损失最小的一个优化位姿作为该终端设备的定位位姿。其中，该损失为每个优化位姿对应的差值，和每个优化位姿的最近点损失的加权和，该差值为每个优化位姿的位置信息与该终端设备的位置信息之间的差值。

在一些实施例中，该处理模块112还用于：根据该终端设备的定位位姿对应的内点率、内点误差或热力图中至少一项，判断该终端设备的定位位姿是否可靠。当该终端设备的定位位姿可靠时，输出该终端设备的定位位姿。当该终端设备的定位位姿不可靠时，判定定位失败。其中，该热力图用于表示该部分候选位姿的分布。

在一些实施例中，该处理模块112用于：判断该终端设备的定位位姿是否满足以下条件至少之一：该终端设备的定位位姿对应的内点率大于第一阈值；或者，该终端设备的定位位姿对应的内点误差小于第二阈值；或者，该终端设备的定位位姿对应的热力图中该部分候选位姿的分布的密集度大于第三阈值。

在一些实施例中，该处理模块112还用于：根据该终端设备的定位位姿确定虚拟物体描述信息。通过该收发模块111向该终端设备发送虚拟物体描述信息，该虚拟物体描述信息用于在该终端设备上显示对应的虚拟物体。

本申请实施例提供的视觉定位装置可以用于执行上述视觉定位方法，其内容和效果可参考方法部分，本申请实施例对此不再赘述。

本申请实施例还提供一种视觉定位装置，如图12所示，该视觉定位装置包括处理器 1201和传输接口1202，该传输接口1202用于获取终端设备采集的图像。

传输接口1202可以包括发送接口和接收接口，示例性的，传输接口1202可以为根据任何专有或标准化接口协议的任何类别的接口，例如高清晰度多媒体接口(high definition multimedia interface，HDMI)、移动产业处理器接口(Mobile Industry Processor Interface，MIPI)、MIPI标准化的显示串行接口(Display Serial Interface，DSI)、视频电子标准协会(Video Electronics Standards Association，VESA)标准化的嵌入式显示端口(Embedded Display Port，eDP)、Display Port(DP)或者V-By-One接口，V-By-One接口是一种面向图像传输开发的数字接口标准，以及各种有线或无线接口、光接口等。

该处理器1201被配置为调用存储在存储器中的程序指令，以执行如上述方法实施例的视觉定位方法，其内容和效果可参考方法部分，本申请实施例对此不再赘述。可选的，该装置还包括存储器1203。该处理器1202可以为单核处理器或多核处理器组，该传输接口1202为接收或发送数据的接口，该视觉定位装置处理的数据可以包括音频数据、视频数据或图像数据。示例性的，该视觉定位装置可以为处理器芯片。

本申请实施例另一些实施例还提供一种计算机存储介质，该计算机存储介质可包括计算机指令，当该计算机指令在电子设备上运行时，使得该电子设备执行上述方法实施例中服务器执行的各个步骤。

本申请实施例另一些实施例还提供一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得该计算机执行上述方法实施例中服务器执行的各个步骤。

本申请实施例另一些实施例还提供一种装置，该装置具有实现上述方法实施例中服务器行为的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块，例如，获取单元或模块，确定单元或模块。

本申请实施例还提供一种视觉定位装置，用于执行以上各方法实施例中终端设备或终端设备的处理器执行的方法步骤。如图13所示，该视觉定位装置可以包括：处理模块131和收发模块132。

处理模块131，用于采集图像，并在用户界面上显示所述图像，该图像包括拍摄到的非建筑物之间的分界线，或，建筑物和非建筑物之间的分界线中至少一项。该处理模块131，还用于通过收发模块132向服务器发送该图像。该收发模块132，还用于接收该服务器发送的虚拟物体描述信息，该虚拟物体描述信息为根据采集该图像的终端设备的定位位姿确定的，该定位位姿为至少根据该图像的二维线特征信息和该终端设备的位置信息确定的，该二维线特征信息包括建筑物与非建筑物之间的分界线的信息，或非建筑物与非建筑物之间的分界线的信息中至少一项。该处理模块131，还用于在该用户界面上叠加显示该虚拟物体描述信息对应的虚拟物体。

在一些实施例中，该处理模块131还用于在采集图像之前，在该用户界面上显示提示信息，该提示信息用于提示用户拍摄建筑物与非建筑物之间的分界线，或非建筑物与非建筑物之间的分界线中至少一项。

在一些实施例中，该处理模块131还用于，在发送图像之前，通过端侧模型判断该图像是否适合做视觉定位。

图14为本申请实施例的一种视觉处理装置的结构示意图。如图14所示，视觉处理装置1400可以是上述实施例中涉及到的终端设备。视觉处理装置1400包括处理器1401和收发器1402。

可选地，视觉处理装置1400还包括存储器1403。其中，处理器1401、收发器1402和存储器1403之间可以通过内部连接通路互相通信，传递控制信号和/或数据信号。

其中，存储器1403用于存储计算机程序。处理器1401用于执行存储器1403中存储的计算机程序，从而实现上述装置实施例中的各功能。

可选地，存储器1403也可以集成在处理器1401中，或者独立于处理器1401。

可选地，视觉处理装置1400还可以包括天线1404，用于将收发器1402输出的信号发射出去。或者，收发器1402通过天线接收信号。

可选地，视觉处理装置1400还可以包括电源1405，用于给终端设备中的各种器件或电路提供电源。

除此之外，为了使得终端设备的功能更加完善，视觉处理装置1400还可以包括输入单元1406、显示单元1407(也可以认为是输出单元)、音频电路1408、摄像头1409和传感器1410等中的一个或多个。音频电路还可以包括扬声器14081、麦克风14082等，不再赘述。

本申请实施例另一些实施例还提供一种计算机存储介质，该计算机存储介质可包括计算机指令，当该计算机指令在电子设备上运行时，使得该电子设备执行上述方法实施例中终端设备执行的各个步骤。

本申请实施例另一些实施例还提供一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得该计算机执行上述方法实施例中终端设备执行的各个步骤。

本申请实施例另一些实施例还提供一种装置，该装置具有实现上述方法实施例中终端设备行为的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块，例如，采集单元或模块，发送单元或模块，显示单元或模块。

以上各实施例中提及的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。处理器可以是通用处理器、数字信号处理器(digital signal processor,DSP)、特定应用集成电路(application-specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。本申请实施例公开的方法的步骤可以直接体现为硬件编码处理器执行完成，或者用编码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

上述各实施例中提及的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory， ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

一种视觉定位方法，其特征在于，包括：

获取终端设备采集的图像；

获取所述图像的二维线特征信息，所述二维线特征信息包括建筑物与非建筑物之间的分界线信息，或非建筑物与非建筑物之间的分界线信息中至少一项；

根据所述终端设备的位置信息和磁力计角度偏转信息、卫星地图、以及所述二维线特征信息，确定所述终端设备的定位位姿。
根据权利要求1所述的方法，其特征在于，所述获取所述图像的二维线特征信息，包括：

对所述图像进行语义分割，提取所述图像的二维线特征信息。
根据权利要求1或2所述的方法，其特征在于，所述根据所述终端设备的位置信息和磁力计角度偏转信息、卫星地图、以及所述二维线特征信息，确定所述终端设备的定位位姿，包括：

根据所述终端设备的位置信息和磁力计角度偏转信息，确定候选位姿集合；

根据所述候选位姿集合、所述二维线特征信息和所述卫星地图，确定N个优化位姿；

根据所述N个优化位姿，确定所述终端设备的定位位姿；

其中，N为大于1的整数。
根据权利要求3所述的方法，其特征在于，所述候选位姿集合包括M组候选位姿，每组候选位姿包括候选位置信息和候选偏航角度集合，所述候选位置信息属于第一阈值范围内，所述第一阈值范围为根据所述终端设备的位置信息确定的，所述候选偏航角度集合属于第二阈值范围内，所述第二阈值范围为根据所述终端设备的磁力计角度偏转信息确定的角度集合，其中，M为大于1的整数。
根据权利要求3或4所述的方法，其特征在于，所述根据所述候选位姿集合、所述二维线特征信息和所述卫星地图，确定N个优化位姿，包括：

在所述候选位姿集合中选取部分候选位姿，用所述部分候选位姿和所述卫星地图确定所述部分候选位姿对应的全景线特征信息，并将所述全景线特征信息与所述二维线特征信息进行匹配，确定多个初始位姿；

对所述多个初始位姿进行优化，确定所述N个优化位姿。
根据权利要求4或5所述的方法，其特征在于，所述根据所述候选位姿集合、所述二维线特征信息和所述卫星地图，确定N个优化位姿，包括：

步骤1：在所述M组候选位姿中选取K ₁组候选位姿，分别根据所述K ₁组候选位姿中的每组候选位姿的候选位置信息和所述卫星地图，获取每组候选位姿的全景线特征信息；

步骤2：分别对所述每组候选位姿的全景线特征信息与所述二维线特征信息进行匹配，确定每组候选位姿的候选偏航角度信息，所述每组候选位姿的候选偏航角度信息为每组候选位姿的候选偏航角度集合中与所述二维线特征信息匹配度最高的角度；

步骤3：根据所述K ₁组候选位姿的候选偏航角度信息，得到K ₁个初始位姿，每个初始位姿包括一组候选位姿的候选位置信息和候选偏航角度信息；

步骤4：对所述K ₁个初始位姿采用迭代方法优化，得到K ₁个优化位姿，并得到每个优化位姿对应的最近点损失；

步骤5：根据每个优化位姿的最近点损失，在所述K ₁个优化位姿中确定一个优化位姿，作为所述N个优化位姿中的一个优化位姿，所述一个优化位姿为所述K ₁个优化位姿中最近点损失最小的优化位姿；

步骤6：将K ₁替换为K _1+n，重复执行步骤1至5，直至确定N个优化位姿，n取1至N-1，且K ₁>K ₂＝K ₃……＝K _N。
根据权利要求6所述的方法，其特征在于，K _1+n组候选位姿的中心为对K _n组候选位姿执行上述步骤1至5所确定出的一个优化位姿。
根据权利要求5至7任一项所述的方法，其特征在于，所述每个初始位姿还包括预设的高度信息、俯仰角信息和翻滚角信息，所述每个优化位姿包括位置信息、高度信息、偏航角度信息、俯仰角信息和翻滚角信息。
根据权利要求5至7任一项所述的方法，其特征在于，所述匹配包括多模态鲁棒匹配或二维轮廓线匹配，其中，所述多模态鲁棒匹配包括多重语义信息匹配或极大值抑制匹配。
根据权利要求3至9任一项所述的方法，其特征在于，所述根据所述N个优化位姿，确定所述终端设备的定位位姿，包括：

在所述N个优化位姿中，选取损失最小的一个优化位姿作为所述终端设备的定位位姿；

其中，所述损失为所述每个优化位姿的最近点损失和所述每个优化位姿对应的差值的加权和，所述差值为所述每个优化位姿的位置信息与所述终端设备的位置信息之间的差值。
根据权利要求5至10任一项所述的方法，其特征在于，所述方法还包括：

根据所述终端设备的定位位姿对应的内点率、内点误差或热力图中至少一项，判断所述终端设备的定位位姿是否可靠；

当所述终端设备的定位位姿可靠时，输出所述终端设备的定位位姿；

当所述终端设备的定位位姿不可靠时，判定定位失败；

其中，所述热力图用于表示所述部分候选位姿的分布。
根据权利要求11所述的方法，其特征在于，所述根据所述终端设备的定位位姿对应的内点率、内点误差或热力图中至少一项，判断所述终端设备的定位位姿是否可靠，包括：

判断所述终端设备的定位位姿是否满足以下条件至少之一：

所述终端设备的定位位姿对应的内点率大于第一阈值；或者，

所述终端设备的定位位姿对应的内点误差小于第二阈值；或者，

所述终端设备的定位位姿对应的热力图中所述部分候选位姿的分布的密集度大于第三阈值。
根据权利要求1至12任一项所述的方法，其特征在于，所述方法还包括：

根据所述终端设备的定位位姿确定虚拟物体描述信息；

向所述终端设备发送所述虚拟物体描述信息，所述虚拟物体描述信息用于在所述终端设备上显示对应的虚拟物体。
一种视觉定位方法，其特征在于，包括：

终端设备采集图像，并在所述终端设备的用户界面上显示所述图像，所述图像包括拍摄到的非建筑物之间的分界线，或，建筑物和非建筑物之间的分界线中至少一项；

向服务器发送所述图像；

接收所述服务器发送的虚拟物体描述信息，所述虚拟物体描述信息为根据所述终端设备的定位位姿确定的，所述定位位姿为至少根据所述图像的二维线特征信息和所述终端设备的位置信息确定的，所述二维线特征信息包括所述建筑物与非建筑物之间的分界线的信息，或所述非建筑物之间的分界线的信息中至少一项；

在所述用户界面上叠加显示所述虚拟物体描述信息对应的虚拟物体。
根据权利要求14所述的方法，其特征在于，采集图像之前，所述方法还包括：

在所述用户界面上显示提示信息，所述提示信息用于提示用户拍摄建筑物与非建筑物之间的分界线，或非建筑物与非建筑物之间的分界线中至少一项。
根据权利要求14或15所述的方法，其特征在于，发送所述图像之前，所述方法还包括通过端侧模型判断所述图像是否适合做视觉定位。
一种视觉定位装置，其特征在于，包括：

处理模块，用于通过收发模块获取终端设备采集的图像；

所述处理模块，还用于获取所述图像的二维线特征信息，所述二维线特征信息包括建筑物与非建筑物之间的分界线信息，或非建筑物与非建筑物之间的分界线信息中至少一项；

所述处理模块，还用于根据所述终端设备的位置信息和磁力计角度偏转信息、卫星地图、以及所述二维线特征信息，确定所述终端设备的定位位姿。
根据权利要求17所述的装置，其特征在于，所述处理模块用于：对所述图像进行语义分割，提取所述图像的二维线特征信息。
根据权利要求17或18所述的装置，其特征在于，所述处理模块用于：

根据所述终端设备的位置信息和磁力计角度偏转信息，确定候选位姿集合；

根据所述候选位姿集合、所述二维线特征信息和所述卫星地图，确定N个优化位姿；

根据所述N个优化位姿，确定所述终端设备的定位位姿；

其中，N为大于1的整数。
根据权利要求19所述的装置，其特征在于，所述候选位姿集合包括M组候选位姿，每组候选位姿包括候选位置信息和候选偏航角度集合，所述候选位置信息属于第一阈值范围内，所述第一阈值范围为根据所述终端设备的位置信息确定的，所述候选偏航角度集合属于第二阈值范围内，所述第二阈值范围为根据所述终端设备的磁力计角度偏转信息确定的角度集合，其中，M为大于1的整数。
根据权利要求19或20所述的装置，其特征在于，所述处理模块用于：

在所述候选位姿集合中选取部分候选位姿，用所述部分候选位姿和所述卫星地图确定所述部分候选位姿对应的全景线特征信息，并将所述全景线特征信息与所述二维线特征信息进行匹配，确定多个初始位姿；

对所述多个初始位姿进行优化，确定所述N个优化位姿。
根据权利要求20或21所述的装置，其特征在于，所述处理模块用于：

步骤1：在所述M组候选位姿中选取K ₁组候选位姿，分别根据所述K ₁组候选位姿中的每组候选位姿的候选位置信息和所述卫星地图，获取每组候选位姿的全景线特征信息；

步骤2：分别对所述每组候选位姿的全景线特征信息与所述二维线特征信息进行匹配，确定每组候选位姿的候选偏航角度信息，所述每组候选位姿的候选偏航角度信息为每组候选位姿的候选偏航角度集合中与所述二维线特征信息匹配度最高的角度；

步骤3：根据所述K ₁组候选位姿的候选偏航角度信息，得到K ₁个初始位姿，每个初始位姿包括一组候选位姿的候选位置信息和候选偏航角度信息；

步骤4：对所述K ₁个初始位姿采用迭代方法优化，得到K ₁个优化位姿，并得到每个优化位姿对应的最近点损失；

步骤5：根据每个优化位姿的最近点损失，在所述K ₁个优化位姿中确定一个优化位姿，作为所述N个优化位姿中的一个优化位姿，所述一个优化位姿为所述K ₁个优化位姿中最近点损失最小的优化位姿；

步骤6：将K ₁替换为K _1+n，重复执行步骤1至5，直至确定N个优化位姿，n取1至N-1，且K ₁>K ₂＝K ₃……＝K _N。
根据权利要求22所述的装置，其特征在于，K _1+n组候选位姿的中心为对K _n组候选位姿执行上述步骤1至5所确定出的一个优化位姿。
根据权利要求21至23任一项所述的装置，其特征在于，所述每个初始位姿还包括预设的高度信息、俯仰角信息和翻滚角信息，所述每个优化位姿包括位置信息、高度信息、偏航角度信息、俯仰角信息和翻滚角信息。
根据权利要求21至23任一项所述的装置，其特征在于，所述匹配包括多模态鲁棒匹配或二维轮廓线匹配，其中，所述多模态鲁棒匹配包括多重语义信息匹配或极大值抑制匹配。
根据权利要求19至25任一项所述的装置，其特征在于，所述处理模块用于：

在所述N个优化位姿中，选取损失最小的一个优化位姿作为所述终端设备的定位位姿；

其中，所述损失包括所述优化位姿的位置信息与所述终端设备的位置信息的差值，和所述优化位姿对应的匹配度。
根据权利要求21至26任一项所述的装置，其特征在于，所述处理模块还用于：

根据所述终端设备的定位位姿对应的内点率、内点误差或热力图中至少一项，判断所述终端设备的定位位姿是否可靠；

当所述终端设备的定位位姿可靠时，输出所述终端设备的定位位姿；

当所述终端设备的定位位姿不可靠时，判定定位失败；

其中，所述热力图用于表示所述部分候选位姿的分布。
根据权利要求27所述的装置，其特征在于，所述处理模块用于：

判断所述终端设备的定位位姿是否满足以下条件至少之一：

所述终端设备的定位位姿对应的内点率大于第一阈值；或者，

所述终端设备的定位位姿对应的内点误差小于第二阈值；或者，

所述终端设备的定位位姿对应的热力图中所述部分候选位姿的分布的密集度大于第三阈值。
根据权利要求17至28任一项所述的装置，其特征在于，所述处理模块还用于：

根据所述终端设备的定位位姿确定虚拟物体描述信息；

通过所述收发模块向所述终端设备发送所述虚拟物体描述信息，所述虚拟物体描述信息用于在所述终端设备上显示对应的虚拟物体。
一种视觉定位装置，所述视觉定位方法应用于终端设备，其特征在于，包括：

处理模块，用于采集图像，并在所述终端设备的用户界面上显示所述图像，所述图像包括拍摄到的非建筑物之间的分界线，或，建筑物和非建筑物之间的分界线中至少一项；

所述处理模块，还用于通过收发模块向服务器发送所述图像；

所述收发模块，还用于接收所述服务器发送的虚拟物体描述信息，所述虚拟物体描述信息为根据采集所述图像的终端设备的定位位姿确定的，所述定位位姿为至少根据所述图像的二维线特征信息和所述终端设备的位置信息确定的，所述二维线特征信息包括所述建筑物与非建筑物之间的分界线的信息，或所述非建筑物之间的分界线的信息中至少一项；

所述处理模块，还用于在所述用户界面上叠加显示所述虚拟物体描述信息对应的虚拟物体。
根据权利要求30所述的装置，其特征在于，所述处理模块还用于在采集图像之前，在所述用户界面上显示提示信息，所述提示信息用于提示用户拍摄建筑物与非建筑物之间的分界线，或非建筑物与非建筑物之间的分界线中至少一项。
根据权利要求30或31所述的装置，其特征在于，所述处理模块还用于，在发送图像之前，通过端侧模型判断所述图像是否适合做视觉定位。