TW202247108A

TW202247108A - 視覺定位方法、設備及電腦可讀儲存媒體

Info

Publication number: TW202247108A
Application number: TW110147158A
Authority: TW
Inventors: 章國鋒; 鮑虎軍; 黃昭陽; 周晗; 周曉巍; 李鴻升
Original assignee: 中國商浙江商湯科技開發有限公司
Priority date: 2021-05-24
Filing date: 2021-12-16
Publication date: 2022-12-01
Also published as: WO2022247126A1; CN113240656A; CN113240656B

Abstract

本公開實施例公開了一種視覺定位方法、設備及電腦可讀儲存媒體，其中，視覺定位方法包括：獲取對預設場景拍攝到的待定位圖像；對待定位圖像進行地標檢測，得到待定位圖像中目標地標點；其中，目標地標點為預設場景的若干地標點中的至少一個，若干地標點是從預設場景的場景地圖中選擇得到的，場景地圖是對預設場景進行三維建模得到的，且若干地標點分別位於場景地圖各個子區域的預設位置處；基於目標地標點在待定位圖像中的第一位置資訊和目標地標點在場景地圖中的第二位置資訊，得到待定位圖像的位姿參數。上述方案，能夠提高視覺定位的準確性和穩健性。

Description

視覺定位方法、設備及電腦可讀儲存媒體

本專利申請要求2021年05月24日提交的中國專利申請號為202110564566.7、申請人為浙江商湯科技開發有限公司，申請名稱為「視覺定位方法及相關裝置、設備」的優先權，該申請的全文以引用的方式併入本申請中。本公開涉及電腦視覺技術領域，特別是涉及一種視覺定位方法、設備及電腦可讀儲存媒體。

隨著電子資訊技術的發展，增強現實、混合現實等應用得到了越來越廣泛的應用。諸如此類應用通常要求較優的視覺定位準確性和穩健性，以達到更好的視覺效果，增強使用者體驗。

目前，通常採用基於場景座標回歸方式或者基於特徵的視覺定位框架，來構建密集的2D-3D點對，以基於稠密點對恢復相機位姿。然而，這些場景座標中通常包含大量離群點，特別是在存在移動物體、照明變化等動態環境下，離群點比例也會隨之提高，從而無法穩定且可靠地進行視覺定位。有鑑於此，如何提高視覺定位的準確性和穩健性成為亟待解決的問題。

本公開提供一種視覺定位方法、設備及電腦可讀儲存媒體。

本公開實施例提供了一種視覺定位方法，所述方法由電子設備執行，所述方法包括：獲取對預設場景拍攝到的待定位圖像；對待定位圖像進行地標檢測，得到待定位圖像中目標地標點；其中，目標地標點為預設場景的若干地標點中的至少一個，若干地標點是從預設場景的場景地圖中選擇得到的，場景地圖是對預設場景進行三維建模得到的，且若干地標點分別位於場景地圖各個子區域的預設位置處；基於目標地標點在待定位圖像中的第一位置資訊和目標地標點在場景地圖中的第二位置資訊，得到待定位圖像的位姿參數。

在本公開的一些實施例中，若干子區域是對場景地圖的表面進行劃分得到的；和/或，預設位置包括子區域的中心位置；和/或，各個子區域之間的面積差異低於第一閾值。因此，若干子區域是對場景地圖的表面進行劃分得到的，由於待定位圖像通常是對預設場景表面的成像，故能夠有利於提高在待定位圖像中所檢測的目標地標點的準確性；而將預設位置設置為包括子區域的中心位置，能夠有利於提高地標點分佈均勻的特性，有利於提升點對品質；此外，將各個子區域之間的面積差異設置為低於第一閾值，能夠有利於提高地標點分佈均勻的特性，有利於提升點對品質。

在本公開的一些實施例中，對待定位圖像進行地標檢測，得到待定位圖像中目標地標點，包括：利用地標檢測模型處理待定位圖像，預測得到第一地標預測圖像和第一方向預測圖像；對第一地標預測圖像和第一方向預測圖像進行分析，得到目標地標點；其中，第一地標預測圖像包括待定位圖像中像素點的預測地標屬性，第一方向預測圖像包括待定位圖像中像素點的第一方向屬性，預測地標屬性用於標識像素點對應的地標點，第一方向屬性包括指向地標投影的第一方向資訊，地標投影表示像素點對應的地標點在待定位圖像中的投影位置。因此，透過利用地標檢測模型處理待定位圖像，得到第一地標預測圖像和第一方向預測圖像，第一地標預測圖像包括待定位圖像中像素點的預測地標屬性，第一方向預測圖像包括待定位圖像中像素點的第一方向屬性，預測地標屬性用於標識像素點對應的地標點，第一方向屬性包括指向地標投影的第一方向資訊，地標投影表示像素點對應的地標點在待定位圖像中的投影位置。在此基礎上，再對第一地標預測圖像和第一方向預測圖像進行分析，得到目標地標點，由於第一地標預測圖像包括各個像素點所對應的地標點，而第一方向預測圖像包括各個像素點指向地標投影的方向資訊，故能夠大大降低動態環境影響，提高定位穩健性。

在本公開的一些實施例中，對第一地標預測圖像和第一方向預測圖像進行分析，得到目標地標點，包括：獲取具有相同預測地標屬性的像素點所構成的候選區域；統計候選區域中像素點的第一方向屬性的一致性情況；在一致性情況滿足預設條件的情況下，將候選區域中像素點的預測地標屬性所標識的地標點作為目標地標點，並基於候選區域中像素點的第一方向屬性，得到目標地標點在待定位圖像中的第一位置資訊。因此，透過獲取具有相同預測地標屬性的像素點所構成的候選區域，並統計候選區域中像素點的第一方向屬性的一致性情況，在一致性情況滿足預設條件的情況下，將候選區域中像素點的預測地標屬性所標識的地標點作為目標地標點，並基於候選區域中像素點的第一方向屬性，得到目標地標點在待定位圖像中的第一位置資訊。即在基於候選區域中像素點的預測地標屬性確定目標地標點之前，先對候選區域中像素點的第一方向屬性的一致性情況進行檢測，從而能夠有利於確保候選區域中像素點的第一方向屬性的一致性，提高後續所構建的點對的品質，進而能夠有利於提高視覺定位的準確性和穩健性。

在本公開的一些實施例中，在統計候選區域中像素點的第一方向屬性的一致性情況之前，方法還包括：在候選區域的區域面積小於第二閾值的情況下，過濾候選區域。因此，在統計候選區域中像素點的第一方向屬性的一致性情況之前，先檢測候選區域的區域面積，並在區域面積小於第二閾值的情況下，過濾該候選區域，透過預先過濾區域面積過小的候選區域，能夠有利於預先濾除不穩定區域，有利於提高後續所構建的點對的品質，進而能夠有利於提高視覺定位的準確性和穩健性。

在本公開的一些實施例中，第一方向資訊包括第一方向向量；統計候選區域中像素點的第一方向屬性的一致性情況，包括：獲取候選區域中像素點之間的第一方向向量的交點；統計交點的外點率，得到一致性情況。因此，第一方向資訊包括第一方向向量，透過獲取候選區域中像素點之間的第一方向向量的交點，並統計交點的外點率得到一致性情況，即一致性情況能夠有效反映候選區域中像素點的第一方向屬性的整體預測品質，有利於提高後續所構建的點對的品質，進而能夠有利於提高視覺定位的準確性和穩健性。

在本公開的一些實施例中，所地標檢測模型包括特徵提取網路、地標預測圖像和方向預測網路；利用地標檢測模型處理待定位圖像，預測得到第一地標預測圖像和第一方向預測圖像，包括：利用特徵提取網路對待定位圖像進行特徵提取，得到特徵圖像；利用地標預測網路對特徵圖像進行地標預測，得到第一地標預測圖像；以及，利用方向預測網路對特徵圖像進行方向預測，得到第一方向預測圖像。因此，地標檢測模型包括特徵提取網路、地標預測網路和方向預測網路，從而利用特徵提取網路對待定位圖像進行特徵提取，得到特徵圖像，並利用地標預測網路對特徵圖像進行地標預測，得到第一地標預測圖像，以及利用方向預測網路對特徵圖像進行方向預測，得到第一方向預測圖像，即地標預測網路和方向預測網路分別負責預測地標和方向，且地標預測網路和方向預測網路共用特徵提取所提取得到的特徵圖像，故能夠有利於提高預測效率。

在本公開的一些實施例中，利用地標預測網路對特徵圖像進行地標預測，得到第一地標預測圖像，包括：利用地標預測網路對特徵圖像進行解碼，得到第一特徵預測圖像；其中，第一特徵預測圖像包括待定位圖像中像素點的第一特徵表示；基於像素點的第一特徵表示分別與各個地標點的地標特徵表示之間的相似度，得到像素點的預測地標屬性；其中，地標特徵表示是在地標檢測模型訓練收斂之後得到的；基於待定位圖像中各個像素點的預測地標屬性，得到第一地標預測圖像。因此，透過利用地標預測網路對特徵圖像進行解碼，得到第一特徵預測圖像，且第一特徵預測圖像包括待定位圖像中像素點的第一特徵表示。在此基礎上，基於像素點的第一特徵表示分別和各個地標點的地標特徵表示之間的相似度，得到像素點的預測地標屬性，且地標特徵表示是地標檢測模型訓練收斂之後得到的，再基於待定位圖像中各個像素點的預測地標屬性，得到第一地標預測圖像，由於地標檢測模型訓練收斂之後所得到的地標特徵表示能夠準確表徵地標點特徵，故透過預測像素點的第一特徵表示，並基於第一特徵表示分別和各個地標特徵表示之間的相似度，得到像素點的預測地標屬性，能夠有利於提高預測地標屬性的準確性。

在本公開的一些實施例中，目標地標點是利用地標檢測模型檢測得到的，地標檢測模型的訓練步驟包括：分別確定子區域和地標點在樣本圖像的投影區域和投影位置；基於投影區域和投影位置，確定樣本圖像中樣本像素點的樣本地標屬性和樣本方向屬性；其中，樣本地標屬性用於標識樣本像素點對應的樣本地標點，且樣本地標點為投影區域覆蓋樣本像素點的子區域所含的地標點，樣本方向屬性包括指向樣本像素點對應的樣本地標點的投影位置的樣本方向資訊；分別基於樣本地標屬性和樣本方向屬性，得到樣本圖像的樣本地標圖像和樣本方向圖像；其中，樣本地標圖像中第一像素點標注有對應的樣本像素點的樣本地標屬性，樣本方向圖像中第二像素點標注有對應的樣本像素點的樣本方向屬性；利用樣本圖像、樣本地標圖像和樣本方向圖像訓練地標檢測模型。因此，目標地標點是利用地標檢測模型檢測得到的，透過先分別確定子區域和地標點在樣本圖像的投影區域和投影位置，之後基於投影區域和投影位置，確定樣本圖像中樣本像素點的樣本地標屬性和樣本方屬性，且樣本地標屬性用於標識樣本像素點對應的樣本地標點，樣本地標點為投影區域覆蓋樣本像素點的子區域所含的地標點，樣本方向屬性包括指向樣本像素點對應的樣本地標點的投影位置的樣本方向資訊。在此基礎上，再分別基於樣本地標屬性和樣本方向屬性，得到樣本圖像的樣本地標圖像和樣本方向圖像，且樣本地標圖像中第一像素點標注有對應的樣本像素點的樣本地標屬性，樣本方向圖像中第二像素點標注有對應的樣本像素點的樣本方向屬性。從而可以精確構建訓練樣本，之後再利用樣本圖像、樣本地標圖像和樣本方向圖像訓練地標檢測模型，進而能夠有利於提高地標檢測模型的檢測性能。

在本公開的一些實施例中，利用樣本圖像、樣本地標圖像和樣本方向圖像訓練地標檢測模型，包括：利用地標檢測模型對樣本圖像進行預測，得到樣本圖像的第二特徵預測圖像和第二方向預測圖像；其中，第二特徵預測圖像包括樣本像素點的第二特徵表示，第二方向預測圖像包括樣本像素點的第二方向屬性，第二方向屬性包括指向樣本地標投影的第二方向資訊，且樣本地標投影表示樣本地標點在樣本圖像中的投影位置；基於樣本地標圖像和第二特徵預測圖像，得到第一損失，並利用樣本方向圖像和第二方向預測圖像之間的差異，得到第二損失；基於第一損失、第二損失，最佳化地標檢測模型的網路參數。因此，利用地標檢測模型對樣本圖像進行預測，得到樣本圖像的第二特徵預測圖像和第二方向預測圖像，且第二特徵圖像包括樣本像素點的第二特徵表示，第二方向預測圖像包括樣本像素點的第二方向屬性，第二方向屬性包括指向樣本地標投影的第二方向資訊，樣本地標投影表示樣本地標點在樣本圖像中的投影位置。在此基礎上，再基於樣本地標圖像和第二特徵預測圖像，得到第一損失，並利用樣本方向圖像和第二方向預測圖像之間的差異，得到第二損失。從而基於第一損失、第二損失，最佳化地標檢測模型的網路，進而能夠透過預先構建的樣本地標圖像和樣本方向圖像監督地標檢測模型的訓練，有利於提升地標檢測模型的檢測性能。

在本公開的一些實施例中，基於樣本地標圖像和第二特徵預測圖像，得到第一損失，包括：獲取具有相同樣本地標屬性的樣本像素點所構成的圖像區域，並獲取各個地標點的待最佳化特徵表示；對於圖像區域中樣本像素點，將樣本地標屬性所標識的樣本地標點的待最佳化特徵表示作為樣本像素點的正例特徵表示，並選擇一個參考特徵表示作為樣本像素點的負例特徵表示，以及基於第二特徵表示與正例特徵表示之間的第一相似度和第二特徵表示與負例特徵表示之間的第二相似度，得到子損失；其中，參考特徵表示包括除正例特徵表示之外的待最佳化特徵表示；基於樣本圖像中樣本像素點的子損失，得到第一損失。因此，獲取具有相同樣本地標屬性的樣本像素點所構成的圖像區域，並獲取各個地標點待最佳化特徵表示。從而對於圖像區域中樣本像素點，將樣本地標屬性所標識的樣本地標點的待最佳化特徵表示作為樣本像素點的正例特徵表示，並選擇一個參考特徵表示作為樣本像素點的負例特徵表示，且參考特徵表示包括除正例特徵表示之外的待最佳化特徵表示，進而基於第二特徵表示與正例特徵表示之間的第一相似度和第二特徵表示與負例特徵表示之間的第二相似度，得到子損失，以基於樣本圖像中樣本像素點的子損失，得到第一損失，故此，一方面透過最小化第一損失，能夠使得第二特徵表示盡可能地趨近其正例特徵表示並盡可能地疏離其負例特徵表示，提高地標預測網路的預測性能，另一方面透過選擇一個參考特徵表示作為負例特徵表示，避免計算第二特徵表示與所有負樣本類的損失，能夠大大減少計算量和硬體消耗。

在本公開的一些實施例中，選擇一個參考特徵表示作為樣本像素點的負例特徵表示，包括：統計圖像區域中樣本像素點的第二特徵表示的平均特徵表示；基於平均特徵表示分別與各個參考特徵表示之間的相似度，選擇若干參考特徵表示作為圖像區域的候選特徵表示；在候選特徵表示中均勻取樣，得到樣本像素點的負例特徵表示。因此，統計圖像區域中樣本像素點的第二特表示的平均特徵表示，並基於平均特徵表示分別與各個參考特徵表示之間的相似度，選擇若干參考特徵表示作為圖像區域的候選特徵表示。從而在候選特徵表示中均勻取樣，得到樣本像素點的負例特徵表示，由於平均特徵表示能夠表徵圖像區域整體的特徵表示，故透過平均特徵表示來選擇圖像區域中像素點可選的參考特徵表示，之後在參考特徵表示中均勻取樣即可得到樣本像素點的負例特徵表示，一方面能夠有利於提升參考特徵表示的參考意義，另一方面能夠有利於降低圖像區域中每個樣本像素點選擇負例特徵表示的複雜度。

在本公開的一些實施例中，基於第一損失、第二損失，最佳化地標檢測模型的網路參數，包括：基於第一損失和第二損失，最佳化各個地標點的待最佳化特徵表示和地標檢測模型的網路參數。因此，基於第一損失和第二損失，最佳化各個地標點的待最佳化特徵和地標檢測模型的網路參數，故能夠在訓練過程中同時最佳化地標檢測模型的網路參數和各個地標點的待最佳化特徵表示，有利於提升地標檢測的準確性和穩健性，從而能夠有利於提高點對品質，進而能夠有利於提高視覺定位的準確性和穩健性。

以下裝置、電子設備等的效果描述參見上述是視覺定位方法的說明。

本公開實施例提供了一種視覺定位裝置，包括：資訊獲取模組、地標檢測模組和位姿確定模組，資訊獲取模組，配置為獲取對預設場景拍攝到的待定位圖像；地標檢測模組，配置為對待定位圖像進行地標檢測，得到待定位圖像中目標地標點；其中，目標地標點為預設場景的若干地標點中的至少一個，若干地標點是從預設場景的場景地圖中選擇得到的，場景地圖是對預設場景進行三維建模得到的，且若干地標點分別位於場景地圖各個子區域的預設位置處；位姿確定模組，配置為用於基於目標地標點在待定位圖像中的第一位置資訊和目標地標點在場景地圖中的第二位置資訊，得到待定位圖像的位姿參數。

在本公開的一些實施例中，若干子區域是對場景地圖的表面進行劃分得到的；和/或，預設位置包括子區域的中心位置；和/或，各個子區域之間的面積差異低於第一閾值。

在本公開的一些實施例中，地標檢測模組，包括：圖像處理子模組，配置為利用地標檢測模型處理待定位圖像，預測得到第一地標預測圖像和第一方向預測圖像；圖像分析子模組，配置為對第一地標預測圖像和第一方向預測圖像進行分析，得到目標地標點；其中，第一地標預測圖像包括待定位圖像中像素點的預測地標屬性，第一方向預測圖像包括待定位圖像中像素點的第一方向屬性，預測地標屬性用於標識像素點對應的地標點，第一方向屬性包括指向地標投影的第一方向資訊，地標投影表示像素點對應的地標點在待定位圖像中的投影位置。

在本公開的一些實施例中，圖像分析子模組，包括：候選區域獲取單元，配置為獲取具有相同預測地標屬性的像素點所構成的候選區域；一致性統計單元，配置為統計候選區域中像素點的第一方向屬性的一致性情況；地標確定單元，配置為在一致性情況滿足預設條件的情況下，將候選區域中像素點的預測地標屬性所標識的地標點作為目標地標點，並基於候選區域中像素點的第一方向屬性，得到目標地標點在待定位圖像中的第一位置資訊。

在本公開的一些實施例中，圖像分析子模組，還包括：候選區域過濾單元，配置為在候選區域的區域面積小於第二閾值的情況下，過濾候選區域。

在本公開的一些實施例中，第一方向資訊包括第一方向向量；一致性統計單元，還配置為獲取候選區域中像素點之間的第一方向向量的交點；統計交點的外點率，得到一致性情況。

在本公開的一些實施例中，地標檢測模型包括特徵提取網路、地標預測網路和方向預測網路；圖像處理子模組，包括：特徵提取單元，配置為利用特徵提取網路對待定位圖像進行特徵提取，得到特徵圖像；地標預測單元，配置為利用地標預測網路對特徵圖像進行地標預測，得到第一地標預測圖像；方向預測單元，配置為利用方向預測網路對特徵圖像進行方向預測，得到第一方向預測圖像。

在本公開的一些實施例中，地標預測單元，還配置為利用地標預測網路對特徵圖像進行解碼，得到第一特徵預測圖像；其中，第一特徵預測圖像包括待定位圖像中像素點的第一特徵表示；基於像素點的第一特徵表示分別與各個地標點的地標特徵表示之間的相似度，得到像素點的預測地標屬性；其中，地標特徵表示是在地標檢測模型訓練收斂之後得到的；基於待定位圖像中各個像素點的預測地標屬性，得到第一地標預測圖像。

在本公開的一些實施例中，目標地標點是利用地標檢測模型檢測得到的，視覺定位裝置還包括：投影獲取模組，配置為分別確定子區域和地標點在樣本圖像的投影區域和投影位置；屬性確定模組，配置為基於投影區域和投影位置，確定樣本圖像中樣本像素點的樣本地標屬性和樣本方向屬性；其中，樣本地標屬性用於標識樣本像素點對應的樣本地標點，且樣本地標點為投影區域覆蓋樣本像素點的子區域所含的地標點，樣本方向屬性包括指向樣本像素點對應的樣本地標點的投影位置的樣本方向資訊；樣本獲取模組，配置為分別基於樣本地標屬性和樣本方向屬性，得到樣本圖像的樣本地標圖像和樣本方向圖像；其中，樣本地標圖像中第一像素點標注有對應的樣本像素點的樣本地標屬性，樣本方向圖像中第二像素點標注有對應的樣本像素點的樣本方向屬性；模型訓練模組，配置為利用樣本圖像、樣本地標圖像和樣本方向圖像訓練地標檢測模型。

在本公開的一些實施例中，模型訓練模組包括：圖像預測子模組，配置為利用地標檢測模型對樣本圖像進行預測，得到樣本圖像的第二特徵預測圖像和第二方向預測圖像；其中，第二特徵預測圖像包括樣本像素點的第二特徵表示，第二方向預測圖像包括樣本像素點的第二方向屬性，第二方向屬性包括指向樣本地標投影的第二方向資訊，且樣本地標投影表示樣本地標點在樣本圖像中的投影位置；損失計算子模組，配置為基於樣本地標圖像和第二特徵預測圖像，得到第一損失，並利用樣本方向圖像和第二方向預測圖像之間的差異，得到第二損失；參數最佳化子模組，配置為基於第一損失、第二損失，最佳化地標檢測模型的網路參數。

在本公開的一些實施例中，損失計算子模組包括：圖像區域和特徵表示獲取單元，配置為獲取具有相同樣本地標屬性的樣本像素點所構成的圖像區域，並獲取各個地標點的待最佳化特徵表示；子損失計算單元，配置為對於圖像區域中樣本像素點，將樣本地標屬性所標識的樣本地標點的待最佳化特徵表示作為樣本像素點的正例特徵表示，並選擇一個參考特徵表示作為樣本像素點的負例特徵表示，以及基於第二特徵表示與正例特徵表示之間的第一相似度和第二特徵表示與負例特徵表示之間的第二相似度，得到子損失；其中，參考特徵表示包括除正例特徵表示之外的待最佳化特徵表示；損失統計單元，配置為基於樣本圖像中樣本像素點的子損失，得到第一損失。

在本公開的一些實施例中，子損失計算單元，還配置為統計圖像區域中樣本像素點的第二特徵表示的平均特徵表示；基於平均特徵表示分別與各個參考特徵表示之間的相似度，選擇若干參考特徵表示作為圖像區域的候選特徵表示；在候選特徵表示中均勻取樣，得到樣本像素點的負例特徵表示。

在本公開的一些實施例中，參數最佳化子模組，還配置為基於第一損失和第二損失，最佳化各個地標點的待最佳化特徵表示和地標檢測模型的網路參數。

本公開實施例提供了一種電子設備，包括相互耦接的記憶體和處理器，處理器用於執行記憶體中儲存的程式指令，以實現上述的視覺定位方法。

本公開實施例提供了一種電腦可讀儲存媒體，其上儲存有程式指令，程式指令被處理器執行時實現上述的視覺定位方法。

本公開實施例還提供一種電腦程式，所述電腦程式包括電腦可讀代碼，在所述電腦可讀代碼在電子設備中運行的情況下，所述電子設備的處理器執行上述的視覺定位方法。

本公開實施例提供的視覺定位方法、裝置、設備、媒體及程式，透過獲取對預設場景拍攝到的待定位圖像，並對待定位圖像進行地標檢測，得到待定位圖像中目標地標點，且目標地標點為預設場景的若干地標點中的至少一個，若干地標點是從預設場景的場景地圖中選擇得到的，場景地圖是對預設場景進行三維建模得到的，若干地標點分別位於場景地圖各個子區域的預設位置處。在此基礎上，再基於目標地標點在待定位圖像中的第一位置資訊和目標地標點在場景地圖中的第二位置資訊，得到待定位圖像的位姿參數。由於若干地標點分別位於場景地圖各個子區域的預設位置處，故地標點並非雜亂無章，其具有分佈均勻的特性，而在待定位圖像中所檢測到的目標地標點為若干地標點中的至少一個，且後續視覺定位過程中，僅僅依賴於目標地標點在待定位圖像中的二維位置和在場景地圖中的三維位置所組成的點對，而不再依賴於其他與地標點無關的點對。從而能夠在減少點對數量的同時提高點對品質，進而能夠有利於提高視覺定位的準確性和穩健性。

為使本公開的上述目的、特徵和優點能更明顯易懂，下文特舉較佳實施例，並配合所附附圖，作詳細說明如下。

下面結合說明書附圖，對本公開實施例的方案進行詳細說明。

以下描述中，為了說明而不是為了限定，提出了諸如特定系統結構、介面、技術之類的具體細節，以便透徹理解本公開。

本文中術語「系統」和「網路」在本文中常被可互換使用。本文中術語「和/或」，僅僅是一種描述關聯物件的關聯關係，表示可以存在三種關係，例如，A和/或B，可以表示：單獨存在A，同時存在A和B，單獨存在B這三種情況。另外，本文中字元「/」，一般表示前後關聯物件是一種「或」的關係。此外，本文中的「多」表示兩個或者多於兩個。

請參閱第1圖，第1圖是本公開視覺定位方法一實施例的流程示意圖。可以包括如下步驟：

步驟S11：獲取對預設場景拍攝到的待定位圖像。

在一個實施場景中，預設場景可以根據實際應用需要進行設置。例如，在需要在景區實現視覺定位的情況下，預設場景可以包含景區；或者，在需要在商業街實現視覺定位的情況下，預設場景可以包括商業街；或者，在需要在工業園區實現視覺定位的情況下，預設場景可以包括工業園區。其他情況可以以此類推，在此不再一一舉例。

在一個實施場景中，待定位圖像可以是以任意視角拍攝預設場景而得到的。例如，待定位圖像可以仰拍預設場景而得到的；或者，待定位圖像可以是俯拍預設場景而得到的；或者，待定位圖像可以是平拍預設場景而得到的。

在另一個實施場景中，為了提高視覺定位的準確性，在拍攝預設場景時相機光軸與水平面之間夾角應低於預設角度閾值，即待定位圖像中應盡可能多地包含預設場景，而盡可能少地包含地面、天空等無效區域。

步驟S12：對待定位圖像進行地標檢測，得到待定位圖像中目標地標點。

本公開的一些實施例中，目標地標點為預設場景的若干地標點中的至少一個，若干地標點是從預設場景的場景地圖中選擇得到的，場景地圖是對預設場景進行三維建模得到的，且若干地標點分別位於場景地圖各個子區域的預設位置處。

在一個實施場景中，可以預先採集預設場景的拍攝影片，並利用三維重建演算法對拍攝影片進行處理，得到預設場景的場景地圖。三維重建演算法可以包括但不限於：Multi View stereo、Kinect fusion等，在此不做限定。三維重建演算法的實施過程，可以參閱其演算法的技術細節。

在一個實施場景中，若干子區域是對場景地圖的表面進行劃分得到的。本公開的一些實施例中，可以透過三維過分割演算法（如，supervoxel）將場景地圖的表面劃分為若干子區域。請結合參閱第2圖，第2圖是場景地圖一實施例的示意圖。如第2圖所示，不同灰階區域表示場景地圖表面的不同子區域。

在一個實施場景中，預設位置可以包括子區域的中心位置。請繼續結合參閱第2圖，如第2圖所示，子區域中黑點即表示在該子區域所確定的地標點。

在一個實施場景中，各個子區域之間的面積差異可以低於第一閾值，第一區域可以根據實際情況進行設置，如可以設置為：10像素點、15像素點、20像素點等等，在此不做限定。也就是說，各個子區域具有相似尺寸。

上述方式，透過將場景地圖表面均勻劃分為若干子區域，並在若干子區域的中心位置選擇得到地標點，故地標點均勻分佈於場景地圖表面，從而無論以何種視角對預設場景拍攝待定位圖像，待定位圖像中均含有足夠的地標點，進而能夠有利於提高視覺定位的穩健性。

在一個實施場景中，為了提高地標檢測的效率和準確性，可以預先訓練一個地標檢測模型，從而可以利用地標檢測模型對待定位圖像進行檢測分析，得到待定位圖像中的目標地標點。為了便於描述，預設場景的若干地標點可以記為

，目標地標點可以為上述若干地標點

中的至少一個。

在另一個實施場景中，為了提升地標檢測的效率和準確性，利用地標檢測模型處理待定位圖像之後，可以得到第一地標預測圖像和第一方向預測圖像，第一地標預測圖像包括待定位圖像中像素點的預測地標屬性，第一方向預測圖像包括待定位圖像中像素點的第一方向屬性，預測地標屬性用於標識像素點對應的地標點，第一方向屬性包括指向地標投影的第一方向資訊，地標投影表示像素點對應的地標點在待定位圖像中的投影位置。在此基礎上，再對第一地標預測圖像和第一方向預測圖像進行分析，得到目標地標點。本公開的一些實施例中，地標檢測模型的訓練過程，可以查閱下述相關公開實施例。區別於前述方式，由於第一地標預測圖像包括各個像素點所對應的地標點，而第一方向預測圖像包括各個像素點指向地標投影的方向資訊，故能夠大大降低動態環境影響，提高定位穩健性。

在一個實施場景中，請結合參閱第3圖，第3圖是利用地標檢測模型檢測目標地標點一實施例的示意圖。如第3圖所示，地標檢測模型可以包括特徵提取網路、地標預測網路和方向預測網路，則可以利用特徵提取網路對待定位圖像進行特徵提取，得到特徵圖像，並利用地標預測網路對特徵圖像進行地標預測，得到第一地標預測圖像，以及利用方向預測網路對特徵圖像進行方向預測，得到第一方向預測圖像，即地標預測網路和方向預測網路分別負責預測地標和方向，且地標預測網路和方向預測網路共用特徵提取所提取得到的特徵圖像，故能夠有利於提高預測效率。

在另一個實施場景中，請繼續結合參閱第3圖，為了便於描述，具有相同預測地標屬性的像素點以相同灰階顯示，也就是說，第3圖所示的第一地標預測圖像中，以相同灰階顯示的像素點其對應於相同地標點（如，前述若干地標點

中某一地標點）。同時為了便於描述，在第一方向預測圖像中可以透過不同灰階來表示像素點的方向預測屬性。如第3圖中示例所示，0度方向、45度方向、90度方向、135度方向、180度方向、225度方向、270度方向以及315度方向分別以不同灰階表示。需要說明的是，第3圖所示的第一地標預測圖像和第一方向預測圖像僅僅是實際應用過程一種可能的表現形式，透過不同灰階來表示預測地標屬性和預測方向屬性，能夠實現地標檢測模型的預測視覺化。在實際應用過程中，也可以直接以數位來表示地標預測網路和方向預測網路的輸出結果，在此不做限定。

在又一個實施場景中，請結合參閱第4圖，第4圖是定位目標地標點一實施例的示意圖。如第4圖所示，圖中空心圓表示在待定位圖像中定位得到的目標地標點，右下角矩形框區域是對左上角矩形框區域的放大示意圖，如第4圖中右下角矩形框區域所示，相同灰階的像素點表示具有相同預測地標屬性，方向箭頭表示像素點的預測方向屬性。因此可以基於該相同的預測地標屬性，確定該預測地標屬性所標識的目標地標點（如，

中某一地標點），並基於這些具有相同預測地標屬性的像素點的預測方向屬性，確定該目標地標點在待定位圖像中的位置資訊（如，圖中實心圓所示位置）。例如，可以透過確定第4圖所示方向箭頭的交點，確定目標地標點在待定位圖像中的位置資訊。相關實施過程可以參閱下述公開實施例中相關描述。

在又一個實施場景中，第一地標預測圖像和第一方向預測圖像兩者可以與待定位圖像尺寸相同；或者，第一地標預測圖像和第一方向預測圖像至少一者也可以與待定位圖像尺寸不同。

在又一個實施場景中，可以將DeepLabV3作為地標檢測模型的骨幹網路，其能夠透過空間金字塔池化來顯著擴大感受。

步驟S13：基於目標地標點在待定位圖像中的第一位置資訊和目標地標點在場景地圖中的第二位置資訊，得到待定位圖像的位姿參數。

本公開的一些實施例中，目標地標點在待定位圖像中的第一位置資訊可以是二維座標，目標地標點在場景地圖中的第二位置資訊可以是三維座標。此外，如前所述，地標點是從預設場景的場景地圖中選擇得到的，且場景地圖是對預設場景進行三維建模得到的，故地標點在場景地圖中的第二位置資訊可以直接基於場景地圖確定得到。在此基礎上，可以基於目標地標點的標號以及場景地圖中若干地標點的標號，確定若干地標點中標號與目標地標點對應的地標點，並將對應的地標點的第二位置資訊，作為目標地標點的第二位置資訊。請結合參閱第4圖，在檢測得到若干目標地標點（即圖中空心圓）的基礎上，可以基於目標地標點在待定位圖像中的第一位置資訊和目標地標點在場景地圖中的第二位置資訊，可以建立若干2D-3D點對，基於若干2D-3D點對，可以恢復得到待定位圖像的位姿參數（如，6自由度參數）。本公開的一些實施例中，可以採用基於隨機抽樣一致（Random Sample Consensus，RANSAC） PnP演算法求取位姿參數。相關演算法步驟可以參閱RANSAC PnP的技術細節，在此不再贅述。

上述方案，透過獲取對預設場景拍攝到的待定位圖像，並對待定位圖像進行地標檢測，得到待定位圖像中目標地標點，且目標地標點為預設場景的若干地標點中的至少一個，若干地標點是從預設場景的場景地圖中選擇得到的，場景地圖是對預設場景進行三維建模得到的，若干地標點分別位於場景地圖各個子區域的預設位置處。在此基礎上，再基於目標地標點在待定位圖像中的第一位置資訊和目標地標點在場景地圖中的第二位置資訊，得到待定位圖像的位姿參數。由於若干地標點分別位於場景地圖各個子區域的預設位置處，故地標點並非雜亂無章，其具有分佈均勻的特性，而在待定位圖像中所檢測到的目標地標點為若干地標點中的至少一個，且後續視覺定位過程中，僅僅依賴於目標地標點在待定位圖像中的二維位置和在場景地圖中的三維位置所組成的點對，而不再依賴於其他與地標點無關的點對。從而能夠在減少點對數量的同時提高點對品質，進而能夠有利於提高視覺定位的準確性和穩健性。

第5圖示出可以應用本公開實施例的視覺定位方法的一種系統架構示意圖；如第5圖所示，該系統架構中包括：圖像獲取終端501、網路502和位姿參數確定終端503。為實現支撐一個示例性應用，圖像獲取終端501和位姿參數確定終端503透過網路502建立通訊連接，圖像獲取終端501透過網路502向位姿參數確定終端503上報待定位圖像，位姿參數確定終端503對待定位圖像進行地標檢測，得到待定位圖像中目標地標點；基於目標地標點在待定位圖像中的第一位置資訊和目標地標點在場景地圖中的第二位置資訊，得到待定位圖像的位姿參數。最後，位姿參數確定終端503將待定位圖像的位姿參數上傳至網路502，並透過網路502發送給圖像獲取終端501。

作為示例，圖像獲取終端501可以包括圖像採集設備，位姿參數確定終端503可以包括具有視覺資訊處理能力的視覺處理設備或遠端伺服器。網路502可以採用有線或無線連接方式。其中，當位姿參數確定終端503為視覺處理設備時，圖像獲取終端501可以透過有線連接的方式與視覺處理設備通訊連接，例如透過匯流排進行資料通訊；當位姿參數確定終端503為遠端伺服器時，圖像獲取終端501可以透過無線網路與遠端伺服器進行資料互動。

或者，在一些場景中，圖像獲取終端501可以是帶有影片採集模組的視覺處理設備，可以是帶有攝影機的主機。這時，本公開實施例的視覺定位方法可以由圖像獲取終端501執行，上述系統架構可以不包含網路502和位姿參數確定終端503。

請參閱第6圖，第6圖是第1圖中步驟S12一實施例的流程示意圖。如第6圖所示，可以包括如下步驟：

步驟S61：利用地標檢測模型處理待定位圖像，預測得到第一地標預測圖像和第一方向預測圖像。

本公開的一些實施例中，第一地標預測圖像包括待定位圖像中像素點的預測地標屬性，第一方向預測圖像包括待定位圖像中像素點的第一方向屬性，預測地標屬性用於標識像素點對應的地標點，第一方向屬性包括指向地標投影的第一方向資訊，地標投影表示像素點對應的地標點在待定位圖像中的投影位置。此外，第一地標預測圖像和第一方向預測圖像兩者可以與待定位圖像尺寸相同，或者，第一地標預測圖像和第一方向預測圖像至少一者可以與待定位圖像尺寸不同，可以參閱前述公開實施例中相關描述。

在一個實施場景中，如前述公開實施例所述，若干地標點可以記為

，則預測地標屬性可以包括像素點對應的地標點的標號，即在預測地標屬性包括i的情況下，像素點對應的地標點為

。

在一個實施場景中，第一方向資訊可以包括第一方向向量，該第一方向向量指向地標投影。本公開的一些實施例中，在地標檢測模型的檢測性能極佳的情況下，地標檢測模型所預測出來的第一方向向量可能準確地指向地標投影。在實際應用過程中，地標檢測模型的檢測性能受限於各種因素可能無法達到極佳，在此情況下，地標檢測模型所預測出來的第一方向向量可能並非準確指向地標投影，如第一方向向量所指向的位置與地標投影之間可以存在一定的角度偏差（如，1度、2度、3度等），由於待定位圖像中各個像素點均能夠預測得到一個第一方向向量，故透過多個像素點的第一方向向量，能夠修正單個第一方向向量可能存在的方向偏差，其過程可以參閱下述相關描述。

在一個實施場景中，如前述公開實施例所述，地標檢測模型可以包括特徵提取網路、地標預測網路和方向預測網路，則可以利用特徵提取網路對待定位圖像進行特徵提取，得到特徵圖像，並利用地標預測網路對特徵圖像進行地標預測，得到第一地標預測圖像，以及利用方向預測網路對特徵圖像進行方向預測，得到第一方向預測圖像。也就是說，地標預測網路和方向預測網路可以共用特徵提取網路所提取得到的特徵圖像，其可以參閱前述公開實施例相關描述。

在一個實施場景中，如前所述，第一方向資訊可以包括第一方向向量，該第一方向向量可以為一個範數為1的單位向量。

在另一個實施場景中，利用地標預測網路可以對特徵圖像進行解碼，得到第一特徵預測圖像，且第一特徵預測圖像包括待定位圖像中像素點的第一特徵表示。在此基礎上，可以基於像素點的第一特徵表示分別與各個地標點的地標特徵表示之間的相似度，得到像素點的預測地標屬性，且地標特徵表示是在地標檢測模型訓練收斂之後得到的，並基於待定位圖像中各個像素點的預測地標屬性，得到第一地標預測圖像。本公開的一些實施例中，在地標檢測模型的訓練過程中，可以維護並更新一個地標特徵表示集合P，該地標特徵表示集合P包含各個地標點（如，前述

）的待最佳化特徵表示，在地標檢測模型訓練收斂之後，即可學習到預設場景各個地標點的特徵資訊，這些特徵資訊即反映於各個地標點收斂之後的待最佳化特徵表示中。為了便於區分，可以將訓練收斂的待最佳化特徵表示稱之為地標特徵表示。地標檢測模型的訓練過程，其可以參閱下述公開實施例。

此外，對於每一像素點，可以計算像素點的第一特徵表示分別與各個地標點（如，前述

）的地標特徵表示之間的相似度，並選擇最高相似度對應的地標點，作為像素點對應的地標點，從而可以採用該地標點標識像素點，得到像素點的預測地標屬性。例如，可以計算像素點的第一特徵表示分別與各個地標點的地標特徵表示之間的內積，並選取最小內積對應的地標點在預設場景的若干地標點中的標號（如，1、2、……、n等）來標識該地標點，以得到預測地標屬性。在得到待定位圖像中每個像素點的預測地標屬性之後，即可得到第一地標預測圖像。

本公開的一些實施例中，若像素點的第一特徵表示與各個地標點的地標特徵表示之間的相似度均較低（如，均低於一個相似度閾值），則可以認為該像素點為與預設場景無關的無效像素點（如，天空、地面等），在此情況下，可以採用一個特殊標記（如，0）來進行標識。

步驟S62：對第一地標預測圖像和第一方向預測圖像進行分析，得到目標地標點。

在一個實施場景中，可以獲取具有相同預測地標屬性的像素點所構成的候選區域，即可以透過像素點的預測地標屬性，將對應於相同地標點的像素點所構成的圖像區域，作為一個候選區域。在此基礎上，可以統計候選區域中像素點的第一方向屬性的一致性情況，也就是說，對於每一候選區域，可以統計該候選區域中像素點的第一方向屬性的一致性情況，從而可以得到各個候選區域的一致性情況。故此，可以在一致性情況滿足預設條件的情況下，將候選區域中像素點的預測地標屬性所標識的地標點作為目標地標點，並基於候選區域中像素點的第一方向屬性，得到目標地標點在待定位圖像中的第一位置資訊。上述方式，在基於候選區域中像素點的預測地標屬性確定目標地標點之前，先對候選區域中像素點的第一方向屬性的一致性情況進行檢測，從而能夠有利於確保候選區域中像素點的第一方向屬性的一致性，提高後續所構建的點對的品質，進而能夠有利於提高視覺定位的準確性和穩健性。

在一個實施場景中，為了提升視覺定位的準確性和穩健性，在統計候選區域中像素點的第一方向屬性的一致性情況之前，還可以先檢測候選區域的區域面積是否小於第二閾值，若候選區域的區域面積小於第二閾值，則可以過濾該候選區域。上述方式，能夠有利於預先濾除不穩定區域（如，草叢、樹木等隨自然條件而極易發生形態變化的區域），有利於提高後續所構建的點對的品質，進而能夠有利於提高視覺定位的準確性和穩健性。

在另一個實施場景中，如前所述，第一方向資訊可以包括第一方向向量，則對於每一候選區域，可以先獲取該候選區域中像素點之間的第一方向向量的交點，再統計交點的外點率，得到該候選區域的一致性情況。在此情況下，預設條件可以相應設置為外點率低於外點率閾值，即如前所述，地標檢測模型所預測得到的第一方向向量可能存在方向偏差，在此情況下，候選區域中各個像素點的第一方向向量可能並不會準確相交於一點（即地標投影），則可以預先設置一個外點率閾值，並利用基於直線求交模型的RANSAC演算法（即RANSAC with a vote intersection model，可以參閱其相關技術細節），計算外點率，若候選區域的外點率低於外點率閾值，則可以認為地標檢測模型針對該候選區域所預測的方向一致性較好，反之，如候選區域的外點率不低於外點率閾值，則可以認為地標檢測模型針對該候選區域的學習效果欠佳或者該候選區域本身存在較大雜訊，為了防止後續影響視覺定位的準確性和穩健性，可以直接過濾該候選區域。

在又一個實施場景中，以候選區域對應於地標點j為例，地標點j在待定位圖像中的初始位置資訊

可以由前述基於直線求交模型的RANSAC演算法計算得到，這些初始位置資訊可以透過類似於期望最大化（Expectation-Maximum，EM）反覆運算演算法進行最佳化，以得到地標點j在待定位圖像中的第一位置資訊，最佳化過程，可以參閱EM反覆運算演算法的技術細節。本公開的一些實施例中，如前所述，在反覆運算最佳化過程中，若候選區域的的一致性情況欠佳，則可以直接捨棄該候選區域。

請結合參閱第7圖、第8圖、第9圖和第10圖，第7圖是利用尺度不變特徵變換（Scale Invariant Feature Transform，SIFT）特徵進行視覺定位一實施例的示意圖，第8圖是利用地標點進行視覺定位一實施例的示意圖，第9圖是第一地標預測圖像一實施例的示意圖，第10圖是第一方向預測圖像一實施例的示意圖。基於第9圖所示的第一地標預測圖像，可以統計到第8圖右側箭頭在第9圖所指候選區域的區域面積過小，故可以過濾該不穩定的候選區域（從第8圖可以看出該候選區域對應於樹木），並基於第1圖0所示的第一方向預測圖像，可以統計到第8圖左側箭頭在第10圖所指候選區域的一致性情況欠佳，故可以過濾該候選區域。在此基礎上，可以基於過濾之後剩餘的候選區域，得到目標地標點（如第8圖中X標記所示）。此外，關於第9圖所示的第一地標預測圖像中不同灰階像素點的含義和第10圖所示的第一方向預測圖像中不同灰階像素點的含義，可以參閱前述相關描述。與之不同的是，如第7圖所示，利用SIFT特徵進行視覺定位，可以得到數量龐大的特徵點（如第7圖中空心圓所示），且這些特徵點中存在諸如對應於樹木等不穩定區域的干擾點，從而一方面由於特徵點數量過於龐大，導致後續視覺定位計算量陡增，另一方面由於特徵點中極易存在干擾點，影像後續視覺定位的準確性和穩健性。

上述方案，透過利用地標檢測模型處理待定位圖像，得到第一地標預測圖像和第一方向預測圖像，第一地標預測圖像包括待定位圖像中像素點的預測地標屬性，第一方向預測圖像包括待定位圖像中像素點的第一方向屬性，預測地標屬性用於標識像素點對應的地標點，第一方向屬性包括指向地標投影的第一方向資訊，地標投影表示像素點對應的地標點在待定位圖像中的投影位置。在此基礎上，再對第一地標預測圖像和第一方向預測圖像進行分析，得到目標地標點，由於第一地標預測圖像包括各個像素點所對應的地標點，而第一方向預測圖像包括各個像素點指向地標投影的方向資訊，故能夠大大降低動態環境影響，提高定位穩健性。

請參閱第11圖，第11圖是訓練地標檢測模型一實施例的流程示意圖。可以包括如下步驟：

步驟S111：分別確定子區域和地標點在樣本圖像的投影區域和投影位置。

本公開實施例中，子區域和地標點的含義可以參閱前述公開實施例中相關描述。

在一個實施場景中，樣本圖像是以樣本位姿C對預設場景進行拍攝得到的。對於場景地圖各個子區域而言，可以透過前述樣本位姿C以及相機內參K投影到樣本圖像，以得到子區域在樣本圖像中的投影區域；類似地，對於各個地標點而言，也可以利用前述樣本位姿C以及相機內參K投影到樣本圖像，以得到地標點在樣本圖像中的投影位置。以地標點投影為例，對於若干地標點

中的地標點

而言，可以透過下面公式（1）得到其在樣本圖像中的投影位置

：

公式（1）；

上述公式（1）中，

表示投影函數，其可以參閱世界坐標系、相機坐標系、圖像坐標系以及像素坐標系之間的轉換過程。

步驟S112：基於投影區域和投影位置，確定樣本圖像中樣本像素點的樣本地標屬性和樣本方向屬性。

本公開實施例中，樣本地標屬性用於標識樣本像素點對應的樣本地標點，且樣本地標點為投影區域覆蓋樣本像素點的子區域所含的地標點，樣本方向屬性包括指向樣本像素點對應的樣本地標點的投影位置的樣本方向資訊。

對於樣本地標屬性，為了便於描述，以樣本圖像中像素點i為例，其在樣本圖像中位置座標可以記為

，像素點i被投影區域j覆蓋，投影區域j是場景地圖中子區域j在樣本圖像中的投影區域，且子區域j中包含地標點

，則像素點i的樣本地標屬性標識該地標點

，如像素點i的樣本地標屬性可以包括地標點

在若干地標點

中的地標點標籤j。其他情況可以以此類推，在此不再一一舉例。此外，若樣本圖像中某一像素點並未被投影區域覆蓋，則可以認為該像素點對應於天空或某些遠距離物體，在此情況下，該像素點的樣本地標屬性採用特殊標記來進行標識，如可以採用與若干地標點

的地標點標籤無關的特殊標記（如，0）來進行標識，以此可以表示該像素點對於視覺定位並無作用。

對於樣本方向屬性，其所包含的樣本方向資訊可以為一個指向樣本地標點的投影位置的樣本方向向量。此外，該樣本方向向量可以為一個單位向量。為了便於描述，仍以樣本圖像中像素點i為例，如前所述，像素點i對應的樣本地標點為地標點

，且地標點

在樣本圖像中投影位置可以透過上述公式（1）計算得到（即

），則上述單位向量

可以表示為：

公式（2）；

步驟S113：分別基於樣本地標屬性和樣本方向屬性，得到樣本圖像的樣本地標圖像和樣本方向圖像。

在一個實施場景中，樣本地標圖像和樣本方向圖像兩者的尺寸可以與樣本圖像尺寸相同，即樣本地標圖像中第一像素點標注有對應的樣本像素點的樣本地標屬性，樣本方向圖像中第二像素點標注有對應的樣本像素點的樣本方向屬性。也就是說，樣本地標圖像中第i行第j列第一像素點標注有樣本圖像中第i行第j列樣本像素點的樣本地標屬性，而樣本方向圖像中第i行第j列第二像素點標注有樣本圖像中第i行第j列樣本像素點的樣本方向屬性。此外，在樣本地標屬性包括地標點標籤的情況下，樣本地標圖像可以記為

，即樣本地標圖像S的解析度為H×W，且其中每一像素值均為整數；類似地，在樣本方向屬性以樣本方向向量表示的情況下，樣本方向圖像可以記為

，即樣本方向圖像d的解析度為H×W，且通道數為2，且通道圖像中每一像素值均為實數，其中一個通道圖像中像素值表示樣本方向向量的一個元素，另一個通道圖像中像素值表示樣本方向向量的另一個元素。

步驟S114：利用樣本圖像、樣本地標圖像和樣本方向圖像訓練地標檢測模型。

本公開的一些實施例中，可以利用地標檢測模型對樣本圖像進行預測，得到樣本圖像的第二特徵預測圖像和第二方向預測圖像，且第二特徵預測圖像包括樣本像素點的第二特徵表示，第二方向預測圖像包括樣本像素點的第二方向屬性，第二方向屬性包括指向樣本地標投影的第二方向資訊，樣本地標投影表示樣本地標點在樣本圖像中的投影位置。在此基礎上，可以基於樣本地標圖像和第二特徵預測圖像，得到第一損失，並利用樣本方向圖像和第二方向預測圖像之間的差異，得到第二損失，以基於第一損失和第二損失，最佳化地標檢測模型的網路參數。故此，透過預先構建的樣本地標圖像和樣本方向圖像監督地標檢測模型的訓練，有利於提升地標檢測模型的檢測性能。

在一個實施場景中，與第一方向資訊類似地，第二方向資訊可以包括第二方向向量，該第二方向向量指向樣本地標投影。本公開的一些實施例中，在地標檢測模型的檢測性能極佳的情況下，地標檢測模型所預測出來的第二方向向量可能準確地指向樣本地標投影，而在訓練過程中，地標檢測模型的性能是逐漸趨優的，且受限於各種因素，地標檢測模型的檢測性能也可能無法達到理想狀態（即100%的準確率），在此情況下，地標檢測模型所預測出來的第二方向向量可能並非準確指向樣本地標投影，如第二方向向量所指向的位置與樣本地標投影之間可以存在一定的角度偏差（如，1度、2度、3度等）。

在一個實施場景中，如前所述，可以在地標檢測模型的訓練過程中，可以維護並更新一個地標特徵表示集合P，該地標特徵表示集合P包含各個地標點（如，前述

）的待最佳化特徵表示。本公開的一些實施例中，在首次訓練時，該地標特徵表示集合P中各個地標點的待最佳化特徵表示可以是透過隨機初始化得到的。此外，為了便於描述，第二特徵預測圖像可以記為E，則樣本圖像中像素點i的第二特徵表示可以記為

。為了降低計算第一損失的計算負荷以及資源消耗，可以獲取具有相同樣本地標屬性的樣本像素點所構成的圖像區域，則對於圖像區域中樣本像素點i，可以將樣本地標屬性所標識的樣本地標點的待最佳化特徵表示作為樣本像素點i的正例特徵表示

，並選擇一個參考特徵表示作為樣本像素點i的負例特徵表示

，且參考特徵表示包括除正例特徵表示之外的待最佳化特徵表示，也就是說，可以從地標特徵表示集合P中選擇處正例特徵表示之外的待最佳化特徵表示作為參考特徵表示。在此基礎上，可以基於樣本像素點i的第二特徵表示

和正例特徵表示

之間的第一相似度以及第二特徵表示

和負例特徵表示

之間的第二相似度，得到子損失，並基於樣本圖像中樣本像素點的子損失，得到第一損失。例如，可以對樣本圖像中各個像素點的子損失進行求和，得到第一損失。上述方式，一方面透過最小化第一損失，能夠使得第二特徵表示盡可能地趨近其正例特徵表示並盡可能地疏離其負例特徵表示，提高地標預測網路的預測性能，另一方面透過選擇一個參考特徵表示作為負例特徵表示，避免計算第二特徵表示與所有負樣本類的損失，能夠大大減少計算量和硬體消耗。

在一個實施場景中，可以基於三元組損失函數處理上述第一相似度和第二相似度，以得到子損失，並對樣本圖像中各個樣本像素點的子損失進行求和，得到第一損失

：

公式（3）；

上述公式（3）中，m表示三元組損失的度量距離，sim表示餘弦相似度函數，本公開的一些實施例中，

。

在另一個實施場景中，在計算上述第一相似度和第二相似度之前，可以先對各個樣本像素點的第二特徵表示透過L2進行正規化。在此基礎上，可以計算正規化後的第二特徵表示與正例特徵表示之間的第一相似度以及正規化後的第二特徵表示與負例特徵表示之間的第二相似度。

在又一個實施場景中，請結合參閱第12圖，第12圖是計算第一損失一實施例的示意圖。如第12圖中虛線劃分所示，樣本圖像包含4塊分別具有相同樣本地標屬性的樣本像素點所構成的圖像區域，以右下角圖像區域為例，該圖像區域中樣本像素點所對應的樣本地標點均為地標點

，則可以統計該圖像區域中樣本像素點的第二特徵表示的平均特徵表示，可以將該圖像區域中樣本像素點的第二特徵表示取平均值，得到平均特徵表示

，之後可以基於平均特徵表示

分別與各個參考特徵表示之間的相似度，選擇若干參考特徵表示作為該圖像區域的候選特徵表示。例如，可以選擇相似度按照從高到低排序位於前預設序位（如，前k位元）的參考特徵表示，作為該圖像區域的候選特徵表示（如第12圖中曲線箭頭所指的三個待最佳化特徵表示）。在此基礎上，在獲取該圖像區域中各個樣本像素點的負例特徵表示時，可以在候選特徵表示中均勻取樣，得到樣本像素點的負例特徵表示。即由於相同圖像區域中樣本像素點在空間上是相互接近的，且應具有相似的特徵表示，故也可以共用相似的負例特徵表示，因此對於各個圖像區域，僅需分別挖掘具有代表性的負例特徵表示即可，從而圖像區域中各個樣本像素點僅需從這些具有代表性的負例特徵表示中進行取樣即可。例如，對於該圖像區域中樣本像素點1、樣本像素點2、樣本像素點3和樣本像素點4，可以分別從前述三個待最佳化特徵表示中均勻取樣，得到對應的負例特徵表示，如可以分別將加粗箭頭所指的待最佳化特徵表示作為各自的負例特徵表示。對於其他圖像區域，可以以此類推，在此不再一一舉例。上述方式，一方面能夠有利於提升參考特徵表示的參考意義，另一方面能夠有利於降低圖像區域中每個樣本像素點選擇負例特徵表示的複雜度。

在一個實施場景中，如前所述，第二方向屬性包括指向樣本地標投影的第二方向資訊，如第二方向資訊可以包括指向樣本地標投影的第二方向向量，為了便於描述，樣本像素點i所標記的第二方向向量可以記為

，此外樣本像素點i所標記的樣本方向向量可以記為

，則第一損失

：

公式（4）；

上述公式（4）中，l表示指示函數，

表示樣本地標圖像S中標識有對應樣本地標點的樣本像素點i（即排除表示天空或遠距離物體而標記為諸如0的特殊標記的樣本像素點）。

在一個實施場景中，在獲取第一損失和第二損失之後，可以將第一損失和第二損失進行加權求和，得到總損失

：

公式（5）；

上述公式（5）中，

表示加權因數。在此基礎上，可以基於總損失，最佳化地標檢測模型的網路參數和待最佳化特徵表示。

上述方案，透過先分別確定子區域和地標點在樣本圖像的投影區域和投影位置，之後基於投影區域和投影位置，確定樣本圖像中樣本像素點的樣本地標屬性和樣本方向屬性，且樣本地標屬性用於標識樣本像素點對應的樣本地標點，樣本地標點為投影區域覆蓋樣本像素點的子區域所含的地標點，樣本方向屬性包括指向樣本像素點對應的樣本地標點的投影位置的樣本方向資訊，在此基礎上，再分別基於樣本地標屬性和樣本方向屬性，得到樣本圖像的樣本地標圖像和樣本方向圖像，且樣本地標圖像中第一像素點標注有對應的樣本像素點的樣本地標屬性，樣本方向圖像中第二像素點標注有對應的樣本像素點的樣本方向屬性，從而可以精確構建訓練樣本，之後再利用樣本圖像、樣本地標圖像和樣本方向圖像訓練地標檢測模型，進而能夠有利於提高地標檢測模型的檢測性能。

請參閱第13圖，第13圖是本公開視覺定位裝置1300一實施例的框架示意圖。視覺定位裝置1300包括：資訊獲取模組1310、地標檢測模組1320和位姿確定模組1330，其中：

資訊獲取模組1310，配置為獲取對預設場景拍攝到的待定位圖像；

地標檢測模組1320，配置為對待定位圖像進行地標檢測，得到待定位圖像中目標地標點；其中，目標地標點為預設場景的若干地標點中的至少一個，若干地標點是從預設場景的場景地圖中選擇得到的，場景地圖是對預設場景進行三維建模得到的，且若干地標點分別位於場景地圖各個子區域的預設位置處；

位姿確定模組1330，配置為基於目標地標點在待定位圖像中的第一位置資訊和目標地標點在場景地圖中的第二位置資訊，得到待定位圖像的位姿參數。

在一些公開實施例中，若干子區域是對場景地圖的表面進行劃分得到的；和/或，預設位置包括子區域的中心位置；和/或，各個子區域之間的面積差異低於第一閾值。

在一些公開實施例中，地標檢測模組1320包括：圖像處理子模組，配置為利用地標檢測模型處理待定位圖像，預測得到第一地標預測圖像和第一方向預測圖像；圖像分析子模組，配置為對第一地標預測圖像和第一方向預測圖像進行分析，得到目標地標點；其中，第一地標預測圖像包括待定位圖像中像素點的預測地標屬性，第一方向預測圖像包括待定位圖像中像素點的第一方向屬性，預測地標屬性用於標識像素點對應的地標點，第一方向屬性包括指向地標投影的第一方向資訊，地標投影表示像素點對應的地標點在待定位圖像中的投影位置。

在一些公開實施例中，圖像分析子模組包括：候選區域獲取單元，配置為獲取具有相同預測地標屬性的像素點所構成的候選區域；一致性統計單元，配置為統計候選區域中像素點的第一方向屬性的一致性情況；地標確定單元，配置為在一致性情況滿足預設條件的情況下，將候選區域中像素點的預測地標屬性所標識的地標點作為目標地標點，並基於候選區域中像素點的第一方向屬性，得到目標地標點在待定位圖像中的第一位置資訊。

在一些公開實施例中，圖像分析子模組包括：候選區域過濾單元，配置為在候選區域的區域面積小於第二閾值的情況下，過濾候選區域。

在一些公開實施例中，第一方向資訊包括第一方向向量；一致性統計單元，還配置為獲取候選區域中像素點之間的第一方向向量的交點，並統計交點的外點率，得到一致性情況。

在一些公開實施例中，地標檢測模型包括特徵提取網路、地標預測網路和方向預測網路；圖像處理子模組包括特徵提取單元，配置為利用地標檢測模型處理待定位圖像，預測得到第一地標預測圖像和第一方向預測圖像；地標預測單元，配置為利用地標預測圖像對特徵圖像進行地標預測，得到第一地標預測圖像；方向預測單元，配置為利用方向預測網路對特徵圖像進行方向預測，得到第一方向預測圖像。

在一些公開實施例中，地標預測單元，還配置為利用地標預測網路對特徵圖像進行解碼，得到第一特徵預測圖像，且第一特徵預測圖像包括待定位圖像中像素點的第一特徵表示；基於像素點的第一特徵表示分別與各個地標點的地標特徵表示之間的相似度，得到像素點的預測地標屬性；其中，地標特徵表示是在地標檢測模型訓練收斂之後得到的；基於待定位圖像中各個像素點的預測地標屬性，得到第一地標預測圖像。

在一些公開實施例中，目標地標點是利用地標檢測模型檢測得到的，視覺定位裝置1300還包括：投影獲取模組，配置為分別確定子區域和地標點在樣本圖像的投影區域和投影位置；屬性確定模組，配置為基於投影區域和投影位置，確定樣本圖像中樣本像素點的樣本地標屬性和樣本方向屬性；其中，樣本地標屬性用於標識樣本像素點對應的樣本地標點，且樣本地標點為投影區域覆蓋樣本像素點的子區域所含的地標點，樣本方向屬性包括指向樣本像素點對應的樣本地標點的投影位置的樣本方向資訊；樣本獲取模組，配置為分別基於樣本地標屬性和樣本方向屬性，得到樣本圖像的樣本地標圖像和樣本方向圖像；其中，樣本地標圖像中第一像素點標注有對應的樣本像素點的樣本地標屬性，樣本方向圖像中第二像素點標注有對應的樣本像素點的樣本方向屬性；模型訓練模組，配置為利用樣本圖像、樣本地標圖像和樣本方向圖像訓練地標檢測模型。

在一些公開實施例中，模型訓練模組包括：圖像預測子模組，配置為利用地標檢測模型對樣本圖像進行預測，得到樣本圖像的第二特徵預測圖像和第二方向預測圖像；其中，第二特徵預測圖像包括樣本像素點的第二特徵表示，第二方向預測圖像包括樣本像素點的第二方向屬性，第二方向屬性包括指向樣本地標投影的第二方向資訊，且樣本地標投影表示樣本地標點在樣本圖像中的投影位置；損失計算子模組，配置為基於樣本地標圖像和第二特徵預測圖像，得到第一損失，並利用樣本方向圖像和第二方向預測圖像之間的差異，得到第二損失；參數最佳化子模組，配置為基於第一損失、第二損失，最佳化地標檢測模型的網路參數。

在一些公開實施例中，損失計算子模組包括：圖像區域和特徵表示獲取單元，配置為獲取具有相同樣本地標屬性的樣本像素點所構成的圖像區域；並獲取各個地標點的待最佳化特徵表示；子損失計算單元，配置為對於圖像區域中樣本像素點，將樣本地標屬性所標識的樣本地標點的待最佳化特徵表示作為樣本像素點的正例特徵表示，並選擇一個參考特徵表示作為樣本像素點的負例特徵表示，以及基於第二特徵表示與正例特徵表示之間的第一相似度和第二特徵表示與負例特徵表示之間的第二相似度，得到子損失；其中，參考特徵表示包括除正例特徵表示之外的待最佳化特徵表示；損失統計單元，配置為基於樣本圖像中樣本像素點的子損失，得到第一損失。

在一些公開實施例中，子損失計算單元，還配置為統計圖像區域中樣本像素點的第二特徵表示的平均特徵表示；基於平均特徵表示分別與各個參考特徵表示之間的相似度，選擇若干參考特徵表示作為圖像區域的候選特徵表示；在候選特徵表示中均勻取樣，得到樣本像素點的負例特徵表示。

在一些公開實施例中，參數最佳化子模組，還配置為基於第一損失和第二損失，最佳化各個地標點的待最佳化特徵表示和地標檢測模型的網路參數。

請參閱第14圖，第14圖是本公開電子設備140一實施例的框架示意圖。電子設備140包括相互耦接的記憶體141和處理器142，處理器142用於執行記憶體141中儲存的程式指令，以實現上述任一視覺定位方法。在一個實施場景中，電子設備140可以包括但不限於：微型電腦、伺服器，此外，電子設備140還可以包括筆記型電腦、平板電腦等移動設備，在此不做限定。

本公開的一些實施例中，處理器142用於控制其自身以及記憶體141以實現上述任一視覺定位方法實施例的步驟。處理器142還可以稱為中央處理單元（Central Processing Unit，CPU）。處理器142可能是一種積體電路晶片，具有信號的處理能力。處理器142還可以是通用處理器、數位訊號處理器（Digital Signal Processor，DSP）、專用積體電路（Application Specific Integrated Circuit，ASIC）、現場可程式設計閘陣列（Field Programmable Gate Array，FPGA）或者其他可程式設計邏輯器件、分立門或者電晶體邏輯器件、分立硬體元件。通用處理器可以是微處理器或者該處理器也可以是任何常規的處理器等。另外，處理器142可以由積體電路晶片共同實現。

上述方案，能夠提高視覺定位的準確性和穩健性。

請參閱第15圖，第15圖為本公開電腦可讀儲存媒體150一實施例的框架示意圖。電腦可讀儲存媒體150儲存有能夠被處理器運行的程式指令151，程式指令151用於實現上述任一視覺定位方法實施例的步驟。

上述方案，能夠提高視覺定位的準確性和穩健性。

公開實施例還提供一種電腦程式，電腦程式包括電腦可讀代碼，在電腦可讀代碼在電子設備中運行的情況下，電子設備的處理器執行如上述任一實施例所述視覺定位方法。

在本公開所提供的幾個實施例中，應該理解到，所揭露的方法和裝置，可以透過其它的方式實現。例如，以上所描述的裝置實施方式僅僅是示意性的，例如，模組或單元的劃分，僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式，例如單元或元件可以結合或者可以集成到另一個系統，或一些特徵可以忽略，或不執行。另一點，所顯示或討論的相互之間的耦合或直接耦合或通訊連接可以是透過一些介面，裝置或單元的間接耦合或通訊連接，可以是電性、機械或其它的形式。

作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位於一個地方，或者也可以分佈到網路單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施方式方案的目的。

另外，在本公開各個實施例中的各功能單元可以集成在一個處理單元中，也可以是各個單元單獨物理存在，也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬體的形式實現，也可以採用軟體功能單元的形式實現。

集成的單元如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時，可以儲存在一個電腦可讀取儲存媒體中。基於這樣的理解，本公開的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟體產品的形式體現出來，該電腦軟體產品儲存在一個儲存媒體中，包括若干指令用以使得一台電腦設備（可以是個人電腦，伺服器，或者網路設備等）或處理器（processor）執行本公開各個實施方式方法的全部或部分步驟。而前述的儲存媒體包括：USB、移動硬碟、唯讀記憶體（Read Only Memory，ROM）、隨機存取記憶體（Random Access Memory，RAM）、磁碟或者光碟等各種可以儲存程式碼的媒體。工業實用性

本申請實施例公開了一種視覺定位方法、設備及電腦可讀儲存媒體，其中，視覺定位方法包括：獲取對預設場景拍攝到的待定位圖像；對待定位圖像進行地標檢測，得到待定位圖像中目標地標點；其中，目標地標點為預設場景的若干地標點中的至少一個，若干地標點是從預設場景的場景地圖中選擇得到的，場景地圖是對預設場景進行三維建模得到的，且若干地標點分別位於場景地圖各個子區域的預設位置處；基於目標地標點在待定位圖像中的第一位置資訊和目標地標點在場景地圖中的第二位置資訊，得到待定位圖像的位姿參數。

S11~S13:步驟 501:圖像獲取終端 502:網路 503:位姿參數確定終端 S61~S62:步驟 S111~S114:步驟 1300:視覺定位裝置 1310:資訊獲取模組 1320:地標檢測模組 1330:位姿確定模組 140:電子設備 141:記憶體 142:處理器 150:電腦可讀儲存媒體 151:程式指令

為了更清楚地說明本公開實施例的技術方案，下面將對實施例中所需要使用的附圖作簡單地介紹，此處的附圖被併入說明書中並構成本說明書中的一部分，這些附圖示出了符合本公開的實施例，並與說明書一起用於說明本公開實施例的技術方案。應當理解，以下附圖僅示出了本公開的某些實施例，因此不應被看作是對範圍的限定，對於本領域普通技術人員來講，在不付出進步性勞動的前提下，還可以根據這些附圖獲得其他相關的附圖。第1圖是本公開視覺定位方法一實施例的流程示意圖；第2圖是場景地圖一實施例的示意圖；第3圖是利用地標檢測模型檢測目標地標點一實施例的示意圖；第4圖是定位目標地標點一實施例的示意圖；第5圖是應用本公開實施例的視覺定位方法的一種系統架構示意圖；第6圖是第1圖中步驟S12一實施例的流程示意圖；第7圖是利用SIFT特徵進行視覺定位一實施例的示意圖；第8圖是利用地標點進行視覺定位一實施例的示意圖；第9圖是第一地標預測圖像一實施例的示意圖；第10圖是第一方向預測圖像一實施例的示意圖；第11圖是訓練地標檢測模型一實施例的流程示意圖；第12圖是計算第一損失一實施例的示意圖；第13圖是本公開視覺定位裝置一實施例的框架示意圖；第14圖是本公開電子設備一實施例的框架示意圖；第15圖是本公開電腦可讀儲存媒體一實施例的框架示意圖。

S11~S13:步驟

Claims

一種視覺定位方法，所述方法由電子設備執行，所述方法包括：獲取對預設場景拍攝到的待定位圖像；對所述待定位圖像進行地標檢測，得到所述待定位圖像中目標地標點；其中，所述目標地標點為所述預設場景的若干地標點中的至少一個，所述若干地標點是從所述預設場景的場景地圖中選擇得到的，所述場景地圖是對所述預設場景進行三維建模得到的，且所述若干地標點分別位於所述場景地圖各個子區域的預設位置處；基於所述目標地標點在所述待定位圖像中的第一位置資訊和所述目標地標點在所述場景地圖中的第二位置資訊，得到所述待定位圖像的位姿參數。
根據請求項1所述的方法，其中，所述若干子區域是對所述場景地圖的表面進行劃分得到的；和/或，所述預設位置包括所述子區域的中心位置；和/或，所述各個子區域之間的面積差異低於第一閾值。
根據請求項1或2所述的方法，其中，所述對所述待定位圖像進行地標檢測，得到所述待定位圖像中目標地標點，包括：利用地標檢測模型處理所述待定位圖像，預測得到第一地標預測圖像和第一方向預測圖像；對所述第一地標預測圖像和所述第一方向預測圖像進行分析，得到所述目標地標點；其中，所述第一地標預測圖像包括所述待定位圖像中像素點的預測地標屬性，所述第一方向預測圖像包括所述待定位圖像中像素點的第一方向屬性，所述預測地標屬性用於標識所述像素點對應的地標點，所述第一方向屬性包括指向地標投影的第一方向資訊，所述地標投影表示所述像素點對應的地標點在所述待定位圖像中的投影位置。
根據請求項3所述的方法，其中，所述對所述第一地標預測圖像和所述第一方向預測圖像進行分析，得到所述目標地標點，包括：獲取具有相同所述預測地標屬性的像素點所構成的候選區域；統計所述候選區域中所述像素點的第一方向屬性的一致性情況；在所述一致性情況滿足預設條件的情況下，將所述候選區域中所述像素點的預測地標屬性所標識的地標點作為所述目標地標點，並基於所述候選區域中所述像素點的第一方向屬性，得到所述目標地標點在所述待定位圖像中的第一位置資訊。
根據請求項4所述的方法，其中，在所述統計所述候選區域中所述像素點的第一方向屬性的一致性情況之前，所述方法還包括：在所述候選區域的區域面積小於第二閾值的情況下，過濾所述候選區域。
根據請求項4所述的方法，其中，所述第一方向資訊包括第一方向向量；所述統計所述候選區域中所述像素點的第一方向屬性的一致性情況，包括：獲取所述候選區域中所述像素點之間的第一方向向量的交點；統計所述交點的外點率，得到所述一致性情況。
根據請求項3所述的方法，其中，所述地標檢測模型包括特徵提取網路、地標預測網路和方向預測網路；所述利用地標檢測模型處理所述待定位圖像，預測得到第一地標預測圖像和第一方向預測圖像，包括：利用所述特徵提取網路對所述待定位圖像進行特徵提取，得到特徵圖像；利用所述地標預測網路對所述特徵圖像進行地標預測，得到所述第一地標預測圖像；以及，利用所述方向預測網路對所述特徵圖像進行方向預測，得到所述第一方向預測圖像。
根據請求項7所述的方法，其中，所述利用所述地標預測網路對所述特徵圖像進行地標預測，得到所述第一地標預測圖像，包括：利用所述地標預測網路對所述特徵圖像進行解碼，得到第一特徵預測圖像；其中，所述第一特徵預測圖像包括所述待定位圖像中所述像素點的第一特徵表示；基於所述像素點的第一特徵表示分別與各個所述地標點的地標特徵表示之間的相似度，得到所述像素點的預測地標屬性；其中，所述地標特徵表示是在所述地標檢測模型訓練收斂之後得到的；基於所述待定位圖像中各個所述像素點的預測地標屬性，得到所述第一地標預測圖像。
根據請求項3所述的方法，其中，所述目標地標點是利用地標檢測模型檢測得到的，所述地標檢測模型的訓練步驟包括：分別確定所述子區域和所述地標點在樣本圖像的投影區域和投影位置；基於所述投影區域和所述投影位置，確定所述樣本圖像中樣本像素點的樣本地標屬性和樣本方向屬性；其中，所述樣本地標屬性用於標識所述樣本像素點對應的樣本地標點，且所述樣本地標點為所述投影區域覆蓋所述樣本像素點的子區域所含的地標點，所述樣本方向屬性包括指向所述樣本像素點對應的樣本地標點的投影位置的樣本方向資訊；分別基於所述樣本地標屬性和所述樣本方向屬性，得到所述樣本圖像的樣本地標圖像和樣本方向圖像；其中，所述樣本地標圖像中第一像素點標注有對應的樣本像素點的樣本地標屬性，所述樣本方向圖像中第二像素點標注有對應的樣本像素點的樣本方向屬性；利用所述樣本圖像、所述樣本地標圖像和所述樣本方向圖像訓練所述地標檢測模型。
根據請求項9所述的方法，其中，所述利用所述樣本圖像、所述樣本地標圖像和所述樣本方向圖像訓練所述地標檢測模型，包括：利用所述地標檢測模型對所述樣本圖像進行預測，得到所述樣本圖像的第二特徵預測圖像和第二方向預測圖像；其中，所述第二特徵預測圖像包括所述樣本像素點的第二特徵表示，所述第二方向預測圖像包括所述樣本像素點的第二方向屬性，所述第二方向屬性包括指向樣本地標投影的第二方向資訊，且所述樣本地標投影表示所述樣本地標點在所述樣本圖像中的投影位置；基於所述樣本地標圖像和所述第二特徵預測圖像，得到第一損失，並利用所述樣本方向圖像和所述第二方向預測圖像之間的差異，得到第二損失；基於所述第一損失、所述第二損失，最佳化所述地標檢測模型的網路參數。
根據請求項10所述的方法，其中，所述基於所述樣本地標圖像和所述第二特徵預測圖像，得到第一損失，包括：獲取具有相同所述樣本地標屬性的樣本像素點所構成的圖像區域，並獲取各個所述地標點的待最佳化特徵表示；對於所述圖像區域中所述樣本像素點，將所述樣本地標屬性所標識的樣本地標點的待最佳化特徵表示作為所述樣本像素點的正例特徵表示，並選擇一個參考特徵表示作為所述樣本像素點的負例特徵表示，以及基於所述第二特徵表示與所述正例特徵表示之間的第一相似度和所述第二特徵表示與所述負例特徵表示之間的第二相似度，得到子損失；其中，所述參考特徵表示包括除所述正例特徵表示之外的待最佳化特徵表示；基於所述樣本圖像中所述樣本像素點的子損失，得到所述第一損失。
根據請求項11所述的方法，其中，所述選擇一個參考特徵表示作為所述樣本像素點的負例特徵表示，包括：統計所述圖像區域中樣本像素點的第二特徵表示的平均特徵表示；基於所述平均特徵表示分別與各個所述參考特徵表示之間的相似度，選擇若干所述參考特徵表示作為所述圖像區域的候選特徵表示；在所述候選特徵表示中均勻取樣，得到所述樣本像素點的負例特徵表示。
根據請求項10所述的方法，其中，所述基於所述第一損失、所述第二損失，最佳化所述地標檢測模型的網路參數，包括：基於所述第一損失和所述第二損失，最佳化各個所述地標點的待最佳化特徵表示和所述地標檢測模型的網路參數。
一種電子設備，包括相互耦接的記憶體和處理器，所述處理器用於執行所述記憶體中儲存的程式指令，以實現請求項1至13任一項所述的視覺定位方法。
一種電腦可讀儲存媒體，其上儲存有程式指令，所述程式指令被處理器執行時實現請求項1至13任一項所述的視覺定位方法。