TW202141424A

TW202141424A - 目標跟蹤方法及裝置、存儲介質

Info

Publication number: TW202141424A
Application number: TW110114037A
Authority: TW
Inventors: 王飛; 陳光啟; 錢晨
Original assignee: 大陸商北京市商湯科技開發有限公司
Priority date: 2020-04-28
Filing date: 2021-04-20
Publication date: 2021-11-01
Also published as: JP2022542566A; WO2021218671A1; KR20220024986A; TWI769787B; CN111539991B; JP7292492B2; CN111539991A

Abstract

本公開提供了一種目標跟蹤方法及裝置、存儲介質，其中，該方法包括：獲取對應同一場景的多張場景圖像；對所述多張場景圖像中的每張場景圖像進行特徵提取處理以及目標部位檢測，得到所述每張場景圖像的特徵資訊以及所述每張場景圖像上的多個目標部位的位置；獲取所述每張場景圖像的特徵資訊中與所述多個目標部位的位置分別對應的目標特徵資訊；根據獲取的所述多個目標部位的位置分別對應的目標特徵資訊，確定出現在所述多張場景圖像上的多個相同的目標，其中，每張場景圖像中包括所述多個相同的目標的部分或全部目標。

Description

目標跟蹤方法及裝置、存儲介質

本發明涉及電腦視覺領域，尤其涉及一種目標跟蹤方法及裝置、存儲介質及電腦程式。

目前，通過多目標跟蹤技術分析目標的運動軌跡的需求日益增強。在進行多目標跟蹤的過程中，需要先通過目標檢測獲得多個目標所在的位置，然後對每個目標進行單目標跟蹤。

上述多目標跟蹤的處理時間與場景中目標的數目呈線性相關。例如，場景中包括N個對象，這裡的N為正整數，則多目標跟蹤需要進行N次單目標跟蹤的推理，處理時間會增加到單目標跟蹤所需時間的N倍。N的取值越大，多目標跟蹤的時間就越長，這就需要設備具備較高的計算能力且耗時較長。

本發明提供了一種目標跟蹤方法及裝置、存儲介質及電腦程式。

根據本公開實施例的第一方面，提供一種目標跟蹤方法，所述方法包括：獲取對應同一場景的多張場景圖像；對所述多張場景圖像中的每張場景圖像進行特徵提取處理以及目標部位檢測，得到所述每張場景圖像的特徵資訊以及所述每張場景圖像上的多個目標部位的位置；獲取所述每張場景圖像的特徵資訊中與所述多個目標部位的位置分別對應的目標特徵資訊；根據獲取的所述多個目標部位的位置分別對應的目標特徵資訊，確定出現在所述多張場景圖像上的多個相同的目標，其中，每張場景圖像中包括所述多個相同的目標的部分或全部目標。

在一些可選實施例中，所述對所述多張場景圖像中的每張場景圖像進行特徵提取處理以及目標部位檢測，得到所述每張場景圖像的特徵資訊以及所述每張場景圖像上的多個目標部位的位置，包括：提取所述多張場景圖像中的每張場景圖像的第一特徵圖；在所述每張場景圖像的第一特徵圖上進行目標部位檢測，得到所述每張場景圖像上的多個目標部位的位置；以及，對所述每張場景圖像的第一特徵圖進行特徵提取處理，得到多維度的第二特徵圖；所述獲取所述每張場景圖像的特徵資訊中與所述多個目標部位的位置分別對應的目標特徵資訊，包括：在所述多維度的第二特徵圖上獲取與所述多個目標部位的位置分別對應的目標特徵向量。

在一些可選實施例中，所述根據獲取的所述多個目標部位的位置分別對應的目標特徵資訊，確定出現在所述多張場景圖像上的多個相同的目標，包括：利用所述多張場景圖像中每相鄰兩張場景圖像分別對應的多個目標特徵資訊，得到所述每相鄰兩張場景圖像上各個目標部位之間的相似度；基於所述每相鄰兩張場景圖像上各個目標部位之間的相似度，確定出現在所述不同場景圖像上的多個相同的目標。

在一些可選實施例中，所述每相鄰兩張場景圖像為第一場景圖像和第二場景圖像；所述利用所述多張場景圖像中每相鄰兩張場景圖像分別對應的多個目標特徵資訊，得到所述每相鄰兩張場景圖像上各個目標部位之間的相似度，包括：確定第一場景圖像上的N個目標特徵向量分別與第二場景圖像上的M個目標特徵向量之間的相似度；其中，N和M為大於等於2的正整數；根據所述第一場景圖像上的N個目標特徵向量分別與所述第二場景圖像上的M個目標特徵向量之間的所述相似度，得到N×M維度的相似度矩陣，所述相似度矩陣中任一維度的值表示所述第一場景圖像的任一第一目標部位與所述第二場景圖像中的任一第二目標部位的相似度。

在一些可選實施例中，所述基於所述每相鄰兩張場景圖像上各個目標部位之間的相似度，確定出現在所述不同場景圖像上的多個相同的目標，包括：根據所述相似度矩陣，在所述N個目標特徵向量中的第一目標特徵向量分別與所述M個目標特徵向量之間的相似度中，確定相似度最大值；若所述相似度最大值大於預設閾值，則在所述M個目標特徵向量中確定所述相似度最大值對應的第二目標特徵向量；將所述第一場景圖像上所述第一目標特徵向量對應的第一目標部位所屬目標和所述第二場景圖像上第二目標特徵向量對應的第二目標部位所屬目標，作為相同的目標。

在一些可選實施例中，所述對所述多張場景圖像中的每張場景圖像進行特徵提取處理以及目標部位檢測，得到所述每張場景圖像的特徵資訊以及所述每張場景圖像上的多個目標部位的位置，包括：通過特徵檢測模型的骨幹網路提取所述多張場景圖像中的每張場景圖像的第一特徵圖；通過所述特徵檢測模型的部位檢測分支，在所述每張場景圖像的第一特徵圖上進行目標部位檢測，得到所述每張場景圖像上的多個目標部位的位置；以及，通過所述特徵檢測模型的特徵提取分支，對所述每張場景圖像的第一特徵圖進行特徵提取處理，得到多維度的第二特徵圖。

在一些可選實施例中，所述方法還包括：將對應同一場景的多張樣本場景圖像輸入初始神經網路模型，獲得所述初始神經網路模型輸出的每張樣本場景圖像上多個目標部位的位置分別對應的樣本特徵向量；根據所述每張樣本場景圖像上已標注的多個目標部位分別對應的目標標識，確定在每相鄰兩張樣本場景圖像上，相同的所述目標標識的所述目標部位的位置對應的所述樣本特徵向量之間的第一相似度，和/或確定不同的所述目標標識的所述目標部位的位置對應的所述樣本特徵向量之間的第二相似度；基於所述每張樣本場景圖像上已標注的多個目標部位分別對應的目標標識，根據所述第一相似度和所述第二相似度中的至少一項，對所述初始神經網路模型進行監督訓練，得到所述特徵檢測模型。

在一些可選實施例中，所述基於所述每張樣本場景圖像上已標注的多個目標部位分別對應的目標標識，根據所述第一相似度和所述第二相似度中的至少一項，對所述初始神經網路模型進行監督訓練，得到所述特徵檢測模型，包括：將第一相似度參考值與所述第一相似度之間的差作為第一損失函數；其中，所述第一相似度參考值是所述每相鄰兩張樣本場景圖像上已標注的相同的目標標識的目標部位所對應的樣本特徵向量之間的相似度參考值；將第二相似度參考值與所述第二相似度之間的差作為第二損失函數；其中，所述第二相似度參考值是所述每相鄰兩張樣本場景圖像上已標注的不同的目標標識的目標部位所對應的樣本特徵向量之間的相似度參考值；根據所述第一損失函數和所述第二損失函數中的至少一項，對所述初始神經網路模型進行訓練，得到所述特徵檢測模型。

在一些可選實施例中，所述方法還包括：確定出現在所述多個場景圖像上的多個相同的目標中的至少一個目標在預設時間段內的運動軌跡是否符合目標運動軌跡。

在一些可選實施例中，所述多張場景圖像對應教室場景，所述目標包括教學對象，所述目標運動軌跡包括教學任務中對所述教學對象指定的至少一種運動軌跡。

根據本公開實施例的第二方面，提供一種目標跟蹤裝置，所述裝置包括：獲取模組，用於獲取對應同一場景的多張場景圖像；處理模組，用於對所述多張場景圖像中的每張場景圖像進行特徵提取處理以及目標部位檢測，得到所述每張場景圖像的特徵資訊以及所述每張場景圖像上的多個目標部位的位置；特徵資訊確定模組，用於獲取所述每張場景圖像的特徵資訊中與所述多個目標部位的位置分別對應的目標特徵資訊；目標確定模組，用於根據獲取的所述多個目標部位的位置分別對應的目標特徵資訊，確定出現在所述多張場景圖像上的多個相同的目標，其中，每張場景圖像中包括所述多個相同的目標的部分或全部目標。

根據本公開實施例的第三方面，提供一種電腦可讀存儲介質，所述存儲介質存儲有電腦程式，所述電腦程式用於執行第一方面任一所述的目標跟蹤方法。

根據本公開實施例的第四方面，提供一種目標跟蹤裝置，包括：處理器；用於存儲所述處理器可執行指令的記憶體；其中，所述處理器被配置為調用所述記憶體中存儲的可執行指令，實現第一方面任一項所述的目標跟蹤方法。

根據本公開實施例的第五方面，提供一種電腦程式，其中所述電腦程式被處理器執行時，能夠實現第一方面任一項所述的目標跟蹤方法。

本公開的實施例提供的技術方案可以包括以下有益效果：

本公開實施例中，不需要在相鄰每兩張場景圖像中分別確定多個目標後，針對前一張場景圖像上的每個目標在後一張場景圖像所包括的多個目標中分別進行單目標跟蹤推理，而是針對單張場景圖像進行單幀推斷，得到多個目標部位的位置對應的目標特徵資訊，針對單幀推斷結果進行匹配，得到每相鄰兩張場景圖像中的多個相同的目標，實現了多目標跟蹤的目的，且即使當前場景中包括多個目標，由於針對整張場景圖像進行推斷，使得整個多目標跟蹤過程的時長與場景圖像中所包括的目標的數目無關，不會因為目標的數目的增長去逐個進行單目標跟蹤推理導致跟蹤時長的增加，極大節省了計算資源，縮短了多目標跟蹤的時長，有效提高了多目標跟蹤的檢測效率。

應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，並不能限制本公開。

這裡將詳細地對示例性實施例進行說明，其示例表示在附圖中。下面的描述涉及附圖時，除非另有表示，不同附圖中的相同數字表示相同或相似的要素。以下示例性實施例中所描述的實施方式並不代表與本公開相一致的所有實施方式。相反，它們僅是與如所附權利要求書中所詳述的、本公開的一些方面相一致的裝置和方法的例子。

在本公開使用的術語是僅僅出於描述特定實施例的目的，而非旨在限制本公開。在本公開和所附權利要求書中所使用的單數形式的“一種”、“所述”和“該”也旨在包括多數形式，除非上下文清楚地表示其他含義。還應當理解，本文中使用的術語“和/或”是指並包含一個或多個相關聯的列出專案的任何或所有可能組合。

應當理解，儘管在本公開可能採用術語第一、第二、第三等來描述各種資訊，但這些資訊不應限於這些術語。這些術語僅用來將同一類型的資訊彼此區分開。例如，在不脫離本公開範圍的情況下，第一資訊也可以被稱為第二資訊，類似地，第二資訊也可以被稱為第一資訊。取決於語境，如在此所運行的詞語“如果”可以被解釋成為“在……時”或“當……時”或“回應於確定”。

本公開實施例提供了一種多目標跟蹤方案，示例性的，可以適用於不同場景下的終端設備。不同的場景包括但不限於教室、部署了監控的地點、或其他需要對多目標跟蹤的室內或室外場景。終端設備可以採用任意帶攝像頭的設備，或者，終端設備也可以是外接攝像設備。終端設備可以在同一場景下先後採集多張場景圖像，或者可以直接採集視訊流，將該視訊流中的多張圖像作為所述多張場景圖像。

進一步地，終端設備對獲取的多張場景圖像中的每張場景圖像，進行特徵提取處理以及目標部位檢測，基於每張場景圖像的特徵資訊以及所述每張場景圖像上的多個目標部位的位置，獲取每張場景圖像的特徵資訊中與多個目標部位的位置分別對應的目標特徵資訊，從而確定出現在多張場景圖像中的多個相同的目標。

例如在教室中，終端設備可以採用部署在教室內的帶攝像頭的教學多媒體設備，包括但不限於教學投影機、教室內的監控設備等。終端設備獲取教室中的多張場景圖像，從而對所述多張場景圖像中的每張場景圖像進行特徵提取處理以及目標部位檢測，得到所述每張場景圖像的特徵資訊以及所述每張場景圖像上的多個目標部位的位置。獲取所述每張場景圖像的特徵資訊中與所述多個目標部位的位置分別對應的目標特徵資訊，從而確定出現在所述多張場景圖像上的多個相同的目標，實現多目標跟蹤的目的。該場景下的目標可以包括但不限於教學對象，例如學生，目標部位包括但不限於人臉部位和人體部位。

再例如，在捷運或火車站可以部署一個或多個監控攝像頭，通過監控攝像頭可以獲取捷運或火車站的多張場景圖像。該場景下的目標可以包括乘客、乘客攜帶的行李箱、工作人員等等。採用本公開實施例提供的方案，可以在捷運站或火車站這種人流量大的場景下，確定出現在多張場景圖像中的多個相同的目標，實現多目標跟蹤的目的。

示例性的，本公開實施例提供的多目標跟蹤方案還可以適用於不同場景下的雲端伺服器，該雲端伺服器可以設置外接攝像頭，由外接攝像頭在同一場景下先後採集多張場景圖像，或者可以直接採集視訊流，將該視訊流中的多張圖像作為所述多張場景圖像。所採集的場景圖像可以通過路由器或閘道發送給雲端伺服器，由雲端伺服器，對每張場景圖像進行特徵提取處理以及目標部位檢測，得到所述每張場景圖像的特徵資訊以及所述每張場景圖像上的多個目標部位的位置，從而獲取所述每張場景圖像的特徵資訊中與所述多個目標部位的位置分別對應的目標特徵資訊，進一步地，確定出現在所述多張場景圖像上的多個相同的目標。

例如，外接攝像頭設置在教室中，外接攝像頭在教室內下採集多張場景圖像，通過路由器或閘道發送給雲端伺服器，雲端伺服器執行上述目標跟蹤方法。

在本公開實施例中，還可以通過終端設備或雲端伺服器確定出現在多張場景圖像上的多個相同的目標後，用相同的標識框對同一目標進行標識並輸出標識後的場景圖像。例如在輸出的相鄰兩張場景圖像上，用紅色標識框標識出該場景中的目標1，用綠色標識框標識出該場景中的目標2，用藍色標識框標識出該場景中的目標3等等，以便更好的示出當前場景下的多個相同的目標。或者還可以通過標識框所對應的目標標識來區分相同或不同的目標，例如，在輸出的一張場景圖像上包括3個標識框，分別對應的目標標識為1、2和3，在與其相鄰的場景圖像上包括2個標識框，分別對應的目標標識為1和3，那麼可以確定這兩張場景圖像上目標標識為1的識別框對應相同的目標，目標標識為3的識別框也對應相同的目標，目標標識為1和3的識別框分別對應了不同的目標。

另外，還可以通過終端設備或雲端伺服器確定多個相同的目標中的至少一個目標在預設時間段內的運動軌跡，分析該運動軌跡是否符合目標運動軌跡。

例如，當前場景為教室，目標包括教學對象，則目標運動軌跡可以包括但不限於教學任務中對所述教學對象指定的至少一種運動軌跡，例如從當前所在位置移動到老師指定的其他位置，其他位置可以是講臺、黑板或其他同學所在位置，或者目標運動軌跡還可以包括處於同一位置。老師可以根據多個教學對象的運動軌跡，更好地進行教學工作。

再例如，以當前場景為部署了監控的捷運站或火車站為例，目標包括但不限於乘車人員，則目標運動軌跡可以包括但不限於指定的危險運動軌跡或非法運動軌跡，例如從月臺位置移動到鐵軌所在位置、移動到閘機的上方或下方等。工作人員可以根據乘車人員的運動軌跡，更好地進行車站管理，避免危險行為或逃票行為的發生。

以上僅是對本公開適用的場景進行的舉例說明，其他需要快速進行動作類型識別的室內或場景也屬於本公開的保護範圍。

例如圖1所示，圖1是根據一示例性實施例示出的一種目標跟蹤方法，包括以下步驟：在步驟101中，獲取對應同一場景的多張場景圖像。

本公開實施例中，可以在同一場景下先後採集多張場景圖像，或者可以採集視訊流，將視訊流中的多張圖像作為多張場景圖像。本公開的場景包括但不限於任何需要進行多目標跟蹤的場景，例如教室、佈置監控的地點等。

在步驟102中，對所述多張場景圖像中的每張場景圖像進行特徵提取處理以及目標部位檢測，得到所述每張場景圖像的特徵資訊以及所述每張場景圖像上的多個目標部位的位置。

在本公開實施例中，對每張場景圖像進行特徵提取是指從每張場景圖像中提取特徵資訊，該特徵資訊可以包括但不限於顏色特徵、紋理特徵、形狀特徵等。顏色特徵是一種全域特徵，描述了圖像所對應的對象的表面顏色屬性；紋理特徵也是一種全域特徵，它描述了圖像所對應對象的表面紋理屬性；形狀特徵有兩類表示方法，一類是輪廓特徵，另一類是區域特徵，圖像的輪廓特徵主要針對對象的外邊界，而圖像的區域特徵則關係到圖像區域的形狀。

在本公開實施例中，一個目標部位對應一個目標，但是不具有限制性，也可以多個目標部位對應一個目標。目標部位可以包括但不限於人臉部位和/或人體部位，人體部位可以包括人物的整個人體或人體的某個指定部位，例如手部、腿部等。目標部位的位置至少可以通過該目標部位的標識框的中心位置來表示，例如目標部位包括人臉部位，則目標部位的位置可以通過人臉標識框的中心位置表示。該目標部位的標識框例如可以實現為該目標部位的外接矩形框，等等。

在步驟103中，獲取所述每張場景圖像的特徵資訊中與所述多個目標部位的位置分別對應的目標特徵資訊。

在本公開實施例中，每張場景圖像上包括多個目標部位，根據獲取到的每張場景圖像的特徵資訊，對包括目標部位的區域的圖元進行特徵提取，確定與多個目標部位的位置分別對應的目標特徵資訊。示例性的，可以通過卷積處理等，獲取每張場景圖像的特徵資訊中與每個目標部位的區域所包括的多個圖元分別對應的目標特徵資訊。

在步驟104中，根據獲取的所述多個目標部位的位置分別對應的目標特徵資訊，確定出現在所述多張場景圖像上的多個相同的目標，其中每張場景圖像包括所述多個相同的目標的部分目標或全部目標。

上述實施例中，在每張場景圖像上獲得了多個目標部位的位置對應的目標特徵資訊，通過將所述多張場景圖像的這些目標特徵資訊進行匹配，可以確定出現在所述多張場景圖像上的多個相同的目標。

上述實施例中，不需要在相鄰每兩張場景圖像中分別確定多個目標後，針對前一張場景圖像上的每個目標在後一張場景圖像所包括的多個目標中分別進行單目標跟蹤推理；而是針對單張場景圖像進行單幀推斷，得到多個目標部位的位置對應的目標特徵資訊，通過將獲得的每相鄰兩張場景圖像的單幀推斷結果進行匹配，得到每相鄰兩張場景圖像中的多個相同的目標，實現了多目標跟蹤的目的。即使當前場景中包括多個目標，由於針對整張場景圖像進行推斷，使得整個多目標跟蹤過程的時長與場景圖像中所包括的目標的數目無關，不會因為目標的數目的增長去逐個進行單目標跟蹤推理導致跟蹤時長的增加，極大節省了計算資源，縮短了多目標跟蹤的時長，有效提高了多目標跟蹤的檢測效率。

在一些可選實施例中，例如圖2所示，步驟102可以包括：在步驟102-1中，提取所述多張場景圖像中的每張場景圖像的第一特徵圖。

在本公開實施例中，可以通過預先訓練好的神經網路模型，來提取每張場景圖像的圖像特徵，得到第一特徵圖。該神經網路模型可以採用但不限於視覺幾何群網路（Visual Geometry Group Network，VGG Net）等模型。

在步驟102-2中，在所述每張場景圖像的第一特徵圖上進行目標部位檢測，得到所述每張場景圖像上的多個目標部位的位置；以及，對所述每張場景圖像的第一特徵圖進行特徵提取處理，得到多維度的第二特徵圖。

在本公開實施例中，目標部位可以包括人臉部位和/或人體部位。通過區域預測網路（Region Proposal Network，RPN），可以在每張場景圖像的第一特徵圖上，進行人臉部位和/或人體部位檢測，確定對應人臉部位的人臉區域和/或對應人體部位的人體區域。其中，人臉區域可以通過人臉識別框進行標識，人體區域可以通過人體識別框進行標識。示例性的，可以將人臉識別框的中心位置作為人臉部位的位置。同樣地，可以將人體識別框的中心位置作為人體部位的位置。

進一步地，還可以對每張場景圖像的第一特徵圖進行特徵提取處理，將第一特徵圖所包括的多類特徵資訊通過不同的通道提取出來，從而得到多維度的第二特徵圖。示例性的，第二特徵圖的尺寸與第一特徵圖的尺寸可以相同，且第二特徵圖的維度值為每張場景圖像對應的預設通道數目。

相應地，步驟103可以包括：在所述多維度的第二特徵圖上獲取與所述多個目標部位的位置分別對應的目標特徵向量。

在本公開實施例中，目標特徵資訊用於表示任一個維度的第二特徵圖所包括的多個目標部位的區域的各個區域中的多個圖元分別對應的特徵資訊。其中，目標部位可以包括人臉部位和/或人體部位。

在任一個維度的第二特徵圖所包括的多個目標部位的區域中，任意一個圖元對應的特徵資訊均可以構成一個一維的特徵向量，為了後續便於進行相似度計算，可以從這些特徵向量中選取出一個或多個特徵向量來表示該目標部位的區域的特徵資訊，即目標特徵資訊。在本公開實施例中，可以選取目標部位的位置的圖元所對應的特徵向量，將該特徵向量作為該維度的第二特徵圖上目標部位的位置對應的目標特徵向量。其中，目標部位的位置可以包括人臉識別框的中心位置/或人體識別框的中心位置。

進一步地，為了提高後續目標部位匹配的準確度，可以針對多維度的第二特徵圖中至少一個維度的第二特徵圖，獲取多個目標部位的位置的圖元對應的特徵資訊，得到與所述多個目標部位的位置分別對應的目標特徵向量。示例性的，針對每個維度的第二特徵圖均可以獲取多個目標部位的位置分別對應的目標特徵向量，使得目標特徵向量的維度值與第二特徵圖的維度值相同。例如，第二特徵圖的維度值為C，則目標特徵向量的維度值也為C。

上述實施例中，針對整張場景圖像依次進行特徵提取、目標部位檢測、以及確定與多個目標部位的位置分別對應的目標特徵向量，整個過程是對單張場景圖像進行的單幀推斷，因此與其中包括的目標的數目的多少無關；後續會針對每相鄰兩張場景圖像上與多個目標位置分別對應的目標特徵向量進行匹配，從而不需要分別進行單目標跟蹤推理，即使場景圖像上包括的目標數目較多，也可以一次性完成匹配過程。本公開的目標跟蹤方法與場景圖像中的目標數目無關，不會因為目標的數目的增長導致跟蹤時長的增加，極大節省了計算資源，縮短了多目標跟蹤的時長，有效提高了多目標跟蹤的檢測效率。

在一些可選實施例中，例如圖3所示，步驟104可以包括：在步驟104-1中，利用所述多張場景圖像上每相鄰兩張場景圖像分別對應的所述多個目標特徵資訊，得到所述每相鄰兩張場景圖像上各個目標部位之間的相似度。

在本公開實施例中，已經確定了每張場景圖像的特徵資訊中與所述多個目標部位對應的多個目標特徵資訊，可以利用每相鄰兩張場景圖像分別對應的多個目標特徵資訊進行相似度計算，得到每相鄰兩張場景圖像上各個目標部位之間的相似度。

在步驟104-2中，基於所述每相鄰兩張場景圖像上各個目標部位之間的相似度，確定出現在所述不同場景圖像上的多個相同的目標。

在本公開實施例中，可以將每相鄰兩張場景圖像上，相似度最大的目標部位所屬的目標作為出現在不同場景圖像上的相同的目標。

上述實施例中，可以根據每相鄰兩張場景圖像上各個目標部位之間的相似度來確定出現在不同場景圖像上的多個相同的目標，實現了多目標跟蹤的目的，且跟蹤過程與目標數目無關，可用性高。

在一些可選實施例中，每相鄰兩張場景圖像為第一場景圖像T₀ 和第二場景圖像T₁ 。

例如圖4所示，上述步驟104-1可以包括：在步驟104-11中，確定第一場景圖像上的N個目標特徵向量分別與第二場景圖像上的M個目標特徵向量之間的相似度。

根據目標特徵資訊，在任一個維度的第二特徵圖所包括的多個目標部位的區域中，任意一個圖元對應的特徵資訊均可以構成一個一維的特徵向量，為了後續便於進行相似度計算，可以從這些特徵向量中選取出一個或多個特徵向量來表示該目標部位的區域的特徵資訊。在本公開實施例中，可以選取目標部位的位置的圖元所對應的特徵向量，將該特徵向量作為該維度的第二特徵圖上目標部位的位置對應的目標特徵向量。其中，目標部位的位置可以包括人臉識別框的中心位置/或人體識別框的中心位置。

在確定相似度的過程中，可以確定每相鄰兩張場景圖像中第一場景圖像上的N個目標特徵向量分別與第二場景圖像上的M個目標特徵向量之間的相似度，其中，N和M為大於等於2的正整數。即確定第一場景圖像上的多個目標特徵向量分別與第二場景圖像上的多個目標特徵向量之間的相似度。

在一種可能地實現方式中，確定相似度時，可以確定目標特徵向量之間的余弦相似度值。通過計算第一場景圖像上的任一個目標特徵向量與第二場景圖像上的任一個目標特徵向量的夾角余弦值，來評估它們的相似度。

在步驟104-12中，根據所述第一場景圖像上的N個目標特徵向量分別與所述第二場景圖像上的M個目標特徵向量之間的所述相似度，得到N×M維度的相似度矩陣。

在本公開實施例中，相似度矩陣中任一維度的值表示所述第一場景圖像的任一第一目標部位與所述第二場景圖像中的任一第二目標部位的相似度。其中，N和M可以相等或不相等。

上述實施例中，可以通過確定第一場景圖像上的N個目標特徵向量分別與第二場景圖像上的M個目標特徵向量之間的相似度，得到N×M維度的相似度矩陣，通過相似度矩陣表示所述第一場景圖像的任一第一目標部位與所述第二場景圖像中的任一第二目標部位的相似度，實現簡便，可用性高。

在一些可選實施例中，針對步驟104-2可以採用二部圖演算法，在滿足空間距離約束的條件下，基於所述每相鄰兩張場景圖像上各個目標部位之間的相似度，確定出現在所述不同場景圖像上的多個相同的目標。

其中，二部圖演算法是指在一個二部圖內，假設左頂點為X，右頂點為Y，現對於每組左右連接X_i Y_j 有權值w_ij ，求一種匹配使得所有w_ij 的和最大。在本公開實施例中，X_i 相當於第一場景圖像上的N個目標特徵向量中的一個，Y_j 相當於第二場景圖像上的M個目標特徵向量中的一個，權值w_ij 就對應相似度。本公開需要在相似度最大的情況下，將N個目標特徵向量與第二目標特徵向量匹配起來，最終可以確定出現在相鄰每兩張場景圖像中的多個相同的目標。

在本公開實施例中，滿足空間距離約束的條件包括：N個目標特徵向量與M個目標特徵向量之間的相似度的維度，不超過N×M。

在一種可能地實現方式中，相似度最大的同時還需要確保這個相似度最大值超過預設閾值，以便進一步提高多目標跟蹤的準確性。

例如圖5所示，步驟104-2可以包括：在步驟104-21中，根據所述相似度矩陣，在所述N個目標特徵向量中的第一目標特徵向量分別與所述M個目標特徵向量之間的相似度中，確定相似度最大值。

在本公開實施例中，第一目標特徵向量是第一場景圖像上確定的N個目標特徵向量中的任一個。根據相似度矩陣可以得到該第一目標特徵向量與第二場景圖像上的每個目標特徵向量之間的相似度，在這些相似度中可以確定出一個相似度最大值。

假設相似度矩陣為

：

，第一目標特徵向量與M個第二目標特徵向量之間的相似度分別為

、

和

，可以確定其中的最大值，假設為

。

在步驟104-22中，若所述相似度最大值大於預設閾值，則在所述M個目標特徵向量中確定所述相似度最大值對應的第二目標特徵向量。

在本公開實施例中，第二目標特徵向量是第二場景圖像所包括的M個目標特徵向量中該相似度最大值對應的目標特徵向量。

為了進一步確保多目標跟蹤的準確性，需要確保相似度最大值大於預設閾值。

在步驟104-23中，將所述第一場景圖像上所述第一目標特徵向量對應的第一目標部位所屬目標和所述第二場景圖像上第二目標特徵向量對應的第二目標部位所屬目標，作為相同的目標。

在本公開實施例中，在上述的相似度最大值大於預設閾值時，才將所述第一場景圖像的第一目標特徵向量對應的第一目標部位所屬目標和所述第二場景圖像上第二目標特徵向量對應的第二目標部位所屬目標，作為相同的目標。

相似度最大值如果小於或等於預設閾值，可以認為第一場景圖像上的第一目標特徵向量對應的第一目標部位所屬目標在第二場景圖像上不存在相同的目標。

重複上述步驟104-21至104-23，重複次數為第一場景圖像所包括的目標特徵向量的數目N，最終可以確定出現在第一場景圖像和第二場景圖像上的所有相同的目標。

上述實施例中，可以根據相似度矩陣，將相鄰每兩張場景圖像上目標部位之間的相似度最接近的兩個目標作為相同的目標，實現了多目標跟蹤的目的，可用性高。

在一些可選實施例中，在獲取了多張場景圖像之後，可以將所述多張場景圖像中的至少兩張輸入預先訓練好的特徵檢測模型，由所述特徵檢測模型對所述多張場景圖像中的每張場景圖像進行特徵提取處理以及目標部位檢測，得到所述每張場景圖像的特徵資訊以及所述每張場景圖像上的多個目標部位的位置，以及基於所述每張場景圖像上多個目標部位的位置，獲取所述每張場景圖像的特徵資訊中與所述多個目標部位對應的多個目標特徵資訊。

特徵檢測模型的結構例如圖6所示，將多張場景圖像輸入特徵檢測模型，特徵檢測模型先通過骨幹網路（backbone）對多張場景圖像中的每張場景圖像進行特徵提取，獲得每張場景圖像的第一特徵圖。

進一步地，通過特徵檢測模型的部位檢測分支，在所述每張場景圖像的第一特徵圖上進行目標部位檢測，得到所述每張場景圖像上的多個目標部位的位置；以及，通過所述特徵檢測模型的特徵提取分支，對所述每張場景圖像的第一特徵圖進行特徵提取處理，得到多維度的第二特徵圖。其中，目標可以包括人物，目標部位可以包括人臉部位和/或人體部位。特徵提取分支可以由至少一個卷積層串聯而成。第二特徵圖的尺寸與第一特徵圖相同，這樣在每個維度的第二特徵圖上多個目標部位的位置都是相同的。第二特徵圖的維度值與每張場景圖像對應的預設通道數目相同。

進一步地在所述多維度的第二特徵圖上，可以獲取與所述多個目標部位的位置對應的多個目標特徵向量。目標部位的位置可以通過人臉識別框的中心位置和/或人體識別框的中心位置表示。目標特徵向量的維度值與第二特徵圖的維度值相同。假設某個人臉識別框的中心位置座標為（x，y），特徵提取分支得到的第二特徵圖的尺寸與第一特徵圖尺寸一致，均為H×W，其中，H和W分別為圖像的長度和寬度，第二特徵圖的維度值為C，C是每張場景圖像對應的預設通道數目。在每個通道上，均可以得到與人臉識別框中心位置（x，y）對應的目標特徵向量，因此，目標特徵向量的維度值為C。

在本公開實施例中，在所述多維度的第二特徵圖上提取與所述多個目標部位的位置對應的多個目標特徵向量之後，可以確定第一場景圖像上的N個目標特徵向量分別與第二場景圖像上的M個目標特徵向量之間的相似度，從而得到相似度矩陣，根據該相似度矩陣，確定出現在所述不同場景圖像上的多個相同的目標。確定方式與上述步驟104-2的方式相同，在此不再贅述。

例如圖7所示，針對第一場景圖像T₀ 和第二場景圖像T₁ ，分別輸入上述特徵檢測模型，可以得到分別得到N個目標特徵向量和M個目標特徵向量。進一步地，可以採用二部圖演算法，在滿足空間距離約束的條件下對提取的所述目標部位的特徵進行匹配，從而在確定出現在T₀ 和T₁ 中的相同的目標。

上述實施例中，針對每張場景圖像進行單幀推斷，無論每張場景圖像中包括多少目標，都可以快速實現多目標跟蹤，有效提高了多目標跟蹤的檢測效率。

在一些可選實施例中，例如圖8所示，該方法還可以包括：在步驟100-1中，將對應同一場景的多張樣本場景圖像輸入初始神經網路模型，獲得所述初始神經網路模型輸出的每張樣本場景圖像上多個目標部位的位置分別對應的樣本特徵向量。

在本公開實施例中，採用已有的對應同一場景的多張樣本圖像作為初始神經網路模型的輸入值，多張樣本圖像中預先通過每個標識框和/或對應的目標標識，標識出了多個相同的目標和不同的目標。

在本公開實施例中，初始神經網路模型的結構同樣可以如圖6所示，包括骨幹網路、部位檢測分支和特徵提取分支。在輸入值包括多張樣本場景圖像的情況下，可以得到每張樣本場景圖像上多個目標部位的位置分別對應的樣本特徵向量。

在步驟100-2中，根據所述每張樣本場景圖像上已標注的多個目標部位分別對應的目標標識，在每相鄰兩張樣本場景圖像上，確定相同的所述目標標識的所述目標部位的位置對應的所述樣本特徵向量之間的第一相似度，和/或確定不同的所述目標標識的所述目標部位的位置對應的所述樣本特徵向量之間的第二相似度。

本公開實施例中，基於初始神經網路模型輸出的每張樣本場景圖像上多個目標部位的位置分別對應的樣本特徵向量，可以確定出每相鄰兩張樣本場景圖像上的相同的所述目標標識的所述目標部位的位置對應的所述樣本特徵向量之間的第一相似度，和/或，所述每相鄰兩張樣本場景圖像上不同的所述目標標識的所述目標部位的位置對應的所述樣本特徵向量之間的第二相似度。

其中，可以根據樣本特徵向量之間的余弦相似度值來得到上述第一相似度值和第二相似度值。

在步驟100-3中，基於所述每張樣本場景圖像上已標注的多個目標部位分別所對應的目標標識，根據所述第一相似度和所述第二相似度中的至少一項，對所述初始神經網路模型進行監督訓練，得到所述特徵檢測模型。

在本公開實施例中，可以通過提高第一相似度值，降低第二相似度值的方式，例如圖9所示，確定損失函數。基於所述每相鄰兩張樣本場景圖像上多個目標部位分別所對應的目標標識，根據確定出的損失函數，調整預設模型的網路參數，監督訓練完成後，得到特徵檢測模型。

上述實施例中，通過基於所述每張樣本場景圖像上已標注的多個目標部位分別所對應的目標標識，對初始神經網路模型進行監督訓練，得到所述特徵檢測模型，提高了特徵檢測模型的檢測性能和泛化性能。

在一些可選實施例中，針對步驟100-3，可以將第一相似度參考值與所述第一相似度之間的差作為第一損失函數。其中，第一相似度參考值是所述每兩張樣本場景圖像上已標注的相同的目標標識的目標部位所對應的樣本特徵向量之間的相似度參考值。示例性的，第一相似度參考值是樣本特徵向量之間的余弦相似度值，取值可以為1。

通過調整初始神經網路模型的網路參數，讓第一損失函數最小或達到預設訓練次數，得到特徵檢測模型。

或者，可以將第二相似度參考值與所述第二相似度之間的差作為第二損失函數。其中，第二相似度參考值是所述每兩張樣本場景圖像上已標注的不同的目標標識的目標部位所對應的樣本特徵向量之間的相似度參考值。示例性的，第二相似度參考值是樣本特徵向量之間的余弦相似度值，取值可以為0。

同樣通過調整初始神經網路模型的網路參數，讓第二損失函數最小或達到預設訓練次數，得到特徵檢測模型。

或者，還可以同時將第一損失函數和第二損失函數作為初始神經網路模型的損失函數，調整初始神經網路模型的網路參數，讓兩個損失函數最小或達到預設訓練次數，得到特徵檢測模型。

在一些可選實施例中，例如圖10所示，該方法還可以包括：

在步驟105中，確定出現在所述多個場景圖像上的多個相同的目標中的至少一個目標在預設時間段內的運動軌跡是否符合目標運動軌跡。

在本公開實施例中，多張場景圖像對應教室場景，所述目標包括教學對象，所述目標運動軌跡包括教學任務中對所述教學對象指定的至少一種運動軌跡。其中，教學任務中對所述教學對象指定的至少一種運動軌跡包括但不限於從當前所在位置走到老師指定的其他位置，其他位置可以是講臺、黑板或其他同學所在位置，或者目標運動軌跡還可以包括在當前位置未發生移動。

例如在教室中，可以採用部署在教室內的帶攝像頭的教學多媒體設備，包括但不限於教學投影機、教室內的監控設備等來在教室中先後採集多張場景圖像。確定教室場景圖像包括的至少一個教學對象的運動軌跡，該教學對象可以是學生。

進一步地，可以在設定時間段內，例如老師教學的一堂課的時間段內，確定每個教學對象，例如每個學生的運動軌跡是否符合教學任務中對所述教學對象指定的至少一種運動軌跡。例如，是否根據老師的指示從當前位置移動到黑板前、或者其他同學所在位置，或者始終位於同一位置未發生運動軌跡的移動，例如始終坐在自己的位置上聽講等。可以通過教學多媒體設備顯示上述結果，以便老師更好地進行教學任務。

與前述方法實施例相對應，本公開還提供了裝置的實施例。

如圖11所示，圖11是本公開根據一示例性實施例示出的一種目標跟蹤裝置框圖，裝置包括：獲取模組210，用於獲取對應同一場景的多張場景圖像；處理模組220，用於對所述多張場景圖像中的每張場景圖像進行特徵提取處理以及目標部位檢測，得到所述每張場景圖像的特徵資訊以及所述每張場景圖像上的多個目標部位的位置；特徵資訊確定模組230，用於獲取所述每張場景圖像的特徵資訊中與所述多個目標部位的位置分別對應的目標特徵資訊；目標確定模組240，用於根據獲取的所述多個目標部位的位置分別對應的目標特徵資訊，確定出現在所述多張場景圖像上的多個相同的目標，其中，每張場景圖像中包括所述多個相同的目標的部分或全部目標。

在一些可選實施例中，所述處理模組包括：第一處理子模組，用於提取所述多張場景圖像中的每張場景圖像的第一特徵圖；第二處理子模組，用於在所述每張場景圖像的第一特徵圖上進行目標部位檢測，得到所述每張場景圖像上的多個目標部位的位置；以及，對所述每張場景圖像的第一特徵圖進行特徵提取處理，得到多維度的第二特徵圖；所述特徵資訊確定模組包括：特徵向量確定子模組，用於在所述多維度的第二特徵圖上獲取與所述多個目標部位的位置對應的多個目標特徵向量。

在一些可選實施例中，所述目標確定模組包括：相似度確定子模組，用於利用所述多張場景圖像中每相鄰兩張場景圖像分別對應的多個目標特徵資訊，得到所述每相鄰兩張場景圖像上各個目標部位之間的相似度；目標確定子模組，用於基於所述每相鄰兩張場景圖像上各個目標部位之間的相似度，確定出現在所述不同場景圖像上的多個相同的目標。

在一些可選實施例中，所述每相鄰兩張場景圖像為第一場景圖像和第二場景圖像；所述相似度確定子模組包括：確定第一場景圖像上的N個目標特徵向量分別與第二場景圖像上的M個目標特徵向量之間的相似度；其中，N和M為大於等於2的正整數；根據所述第一場景圖像上的N個目標特徵向量分別與所述第二場景圖像上的M個目標特徵向量之間的所述相似度，得到N×M維度的相似度矩陣，所述相似度矩陣中任一維度的值表示所述第一場景圖像的任一第一目標部位與所述第二場景圖像中的任一第二目標部位的相似度。

在一些可選實施例中，所述目標確定子模組包括：根據所述相似度矩陣，在所述N個目標特徵向量中的第一目標特徵向量分別與所述M個目標特徵向量之間的相似度中，確定相似度最大值；若所述相似度最大值大於預設閾值，則在所述M個目標特徵向量中確定所述相似度最大值對應的第二目標特徵向量；將所述第一場景圖像上所述第一目標特徵向量對應的第一目標部位所屬目標和所述第二場景圖像上第二目標特徵向量對應的第二目標部位所屬目標，作為相同的目標。

在一些可選實施例中，所述處理模組包括：第三處理子模組，用於通過特徵檢測模型的骨幹網路提取所述多張場景圖像中的每張場景圖像的第一特徵圖；第四處理子模組，用於通過所述特徵檢測模型的部位檢測分支，在所述每張場景圖像的第一特徵圖上進行目標部位檢測，得到所述每張場景圖像上的多個目標部位的位置；以及，通過所述特徵檢測模型的特徵提取分支，對所述每張場景圖像的第一特徵圖進行特徵提取處理，得到多維度的第二特徵圖。

在一些可選實施例中，所述裝置還包括：特徵向量確定模組，用於將對應同一場景的多張樣本場景圖像輸入預設模型，獲得所述預設模型輸出的每張樣本場景圖像上多個目標部位的位置對應的多個特徵向量；相似度確定模組，用於根據每相鄰兩張樣本場景圖像上已標注的多個目標部位分別對應的目標標識，確定所述每相鄰兩張樣本場景圖像上相同的所述目標標識的所述目標部位的位置對應的樣本特徵向量之間的第一相似度；和/或確定所述每相鄰兩張樣本場景圖像上不相同的目標標識的目標部位的位置所對應的樣本特徵向量之間的第二相似度；訓練模組，用於基於所述每相鄰兩張樣本場景圖像上已標注的多個目標部位分別對應的目標標識，根據所述第二相似度與所述第一相似度中的至少一項，對所述預設模型進行監督訓練，得到所述特徵檢測模型。

在一些實施例中，將第一相似度參考值與所述第一相似度之間的差作為第一損失函數；其中，所述第一相似度參考值是所述每相鄰兩張樣本場景圖像上已標注的相同的目標標識的目標部位所對應的樣本特徵向量之間的相似度參考值；將第二相似度參考值與所述第二相似度之間的差作為第二損失函數；其中，所述第二相似度參考值是所述每相鄰兩張樣本場景圖像上已標注的不同的目標標識的目標部位所對應的樣本特徵向量之間的相似度參考值；根據所述第一損失函數和所述第二損失函數中的至少一項，對所述初始神經網路模型進行訓練，得到所述特徵檢測模型。

在一些可選實施例中，所述裝置還包括：運動軌跡確定模組，用於確定出現在所述多個場景圖像上的多個相同的目標中的至少一個目標在預設時間段內的運動軌跡是否符合目標運動軌跡。

對於裝置實施例而言，由於其基本對應於方法實施例，所以相關之處參見方法實施例的部分說明即可。以上所描述的裝置實施例僅僅是示意性的，其中作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位於一個地方，或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部模組來實現本公開方案的目的。本領域普通技術人員在不付出創造性勞動的情況下，即可以理解並實施。

本公開實施例還提供了一種電腦可讀存儲介質，存儲介質存儲有電腦程式，電腦程式用於執行上述任一所述的目標跟蹤方法。

在一些可選實施例中，本公開實施例提供了一種電腦程式產品，包括電腦可讀代碼，當電腦可讀代碼在設備上運行時，設備中的處理器執行用於實現如上任一實施例提供的目標跟蹤方法的指令。

在一些可選實施例中，本公開實施例還提供了另一種電腦程式產品，用於存儲電腦可讀指令，指令被執行時使得電腦執行上述任一實施例提供的目標跟蹤方法的操作。

該電腦程式產品可以具體通過硬體、軟體或其結合的方式實現。在一個可選實施例中，所述電腦程式產品具體體現為電腦存儲介質，在另一個可選實施例中，電腦程式產品具體體現為軟體產品，例如軟體開發包(Software Development Kit，SDK)等等。

在一些可選實施例中，本公開實施例提供了一種電腦程式，其中所述電腦程式被執行時使得電腦執行上述任一實施例提供的目標跟蹤方法的操作。

本公開實施例還提供了一種目標跟蹤裝置，包括：處理器；用於存儲處理器可執行指令的記憶體；其中，處理器被配置為調用所述記憶體中存儲的可執行指令，實現上述任一項所述的目標跟蹤方法。

圖12為本公開實施例提供的一種目標跟蹤裝置的硬體結構示意圖。該目標跟蹤裝置310包括處理器311，還可以包括輸入裝置312、輸出裝置313和記憶體314。該輸入裝置312、輸出裝置313、記憶體314和處理器311之間通過匯流排相互連接。

記憶體包括但不限於是隨機存儲記憶體（random access memory，RAM）、唯讀記憶體（read-only memory，ROM）、可擦除可程式設計唯讀記憶體（erasable programmable read only memory，EPROM）、或可擕式唯讀記憶體（compact disc read-only memory，CD-ROM），該記憶體用於相關指令及資料。

輸入裝置用於輸入資料和/或信號，以及輸出裝置用於輸出資料和/或信號。輸出裝置和輸入裝置可以是獨立的器件，也可以是一個整體的器件。

處理器可以包括是一個或多個處理器，例如包括一個或多個中央處理器（central processing unit，CPU），在處理器是一個CPU的情況下，該CPU可以是單核CPU，也可以是多核CPU。

記憶體用於存儲網路設備的程式碼和資料。

處理器用於調用該記憶體中的程式碼和資料，執行上述方法實施例中的步驟。具體可參見方法實施例中的描述，在此不再贅述。

可以理解的是，圖12僅僅示出了一種目標跟蹤裝置的簡化設計。在實際應用中，目標跟蹤裝置還可以分別包含必要的其他元件，包含但不限於任意數量的輸入/輸出裝置、處理器、控制器、記憶體等，而所有可以實現本公開實施例的目標跟蹤裝置都在本公開的保護範圍之內。

本領域技術人員在考慮說明書及實踐這裡公開的發明後，將容易想到本公開的其它實施方案。本公開旨在涵蓋本公開的任何變型、用途或者適應性變化，這些變型、用途或者適應性變化遵循本公開的一般性原理並包括本公開未公開的本技術領域中的公知常識或者慣用技術手段。說明書和實施例僅被視為示例性的，本公開的真正範圍和精神由下面的權利要求指出。

以上所述僅為本公開的較佳實施例而已，並不用以限制本公開，凡在本公開的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本公開保護的範圍之內。

210:獲取模組 220:處理模組 230:特徵資訊確定模組 240:目標確定模組 310:多目標跟蹤裝置 311:處理器 312:輸入裝置 313:輸出裝置 314:記憶體 101:獲取對應同一場景的多張場景圖像的步驟 102:對所述多張場景圖像中的每張場景圖像進行特徵提取處理以及目標部位檢測，得到所述每張場景圖像的特徵資訊以及所述每張場景圖像上的多個目標部位的位置的步驟 103:獲取所述每張場景圖像的特徵資訊中與所述多個目標部位的位置分別對應的目標特徵資訊的步驟 104:根據獲取的所述多個目標部位的位置分別對應的目標特徵資訊，確定出現在所述多張場景圖像上的多個相同的目標的步驟 105:確定出現在所述多個場景圖像上的多個相同的目標中的至少一個目標在預設時間段內的運動軌跡是否符合目標運動軌跡的步驟 102-1:提取所述多張場景圖像中的每張場景圖像的第一特徵圖的步驟 102-2:在所述每張場景圖像的第一特徵圖上進行目標部位檢測，得到所述每張場景圖像上的多個目標部位的位置；以及，對所述每張場景圖像的第一特徵圖進行特徵提取處理，得到多維度的第二特徵圖的步驟 104-1:利用所述多張場景圖像上每相鄰兩張場景圖像分別對應的所述多個目標特徵資訊，得到所述每相鄰兩張場景圖像上各個目標部位之間的相似度的步驟 104-2:基於所述每相鄰兩張場景圖像上各個目標部位之間的相似度，確定出現在所述不同場景圖像上的多個相同的目標的步驟 104-11:中，確定第一場景圖像上的N個目標特徵向量分別與第二場景圖像上的M個目標特徵向量之間的相似度的步驟 104-12:根據所述第一場景圖像上的N個目標特徵向量分別與所述第二場景圖像上的M個目標特徵向量之間的所述相似度，得到N×M維度的相似度矩陣的步驟 104-21:根據所述相似度矩陣，在所述N個目標特徵向量中的第一目標特徵向量分別與所述M個目標特徵向量之間的相似度中，確定相似度最大值的步驟 104-22:若所述相似度最大值大於預設閾值，則在所述M個目標特徵向量中確定所述相似度最大值對應的第二目標特徵向量的步驟 104-23:將所述第一場景圖像上所述第一目標特徵向量對應的第一目標部位所屬目標和所述第二場景圖像上第二目標特徵向量對應的第二目標部位所屬目標，作為相同的目標的步驟 100-1:將對應同一場景的多張樣本場景圖像輸入初始神經網路模型，獲得所述初始神經網路模型輸出的每張樣本場景圖像上多個目標部位的位置分別對應的樣本特徵向量的步驟 100-2:根據所述每張樣本場景圖像上已標注的多個目標部位分別對應的目標標識，在每相鄰兩張樣本場景圖像上，確定相同的所述目標標識的所述目標部位的位置對應的所述樣本特徵向量之間的第一相似度，和/或確定不同的所述目標標識的所述目標部位的位置對應的所述樣本特徵向量之間的第二相似度的步驟 100-3:基於所述每張樣本場景圖像上已標注的多個目標部位分別所對應的目標標識，根據所述第一相似度和所述第二相似度中的至少一項，對所述初始神經網路模型進行監督訓練，得到所述特徵檢測模型的步驟

此處的附圖被併入說明書中並構成本說明書的一部分，示出了符合本公開的實施例，並與說明書一起用於解釋本公開的原理。圖1是本公開根據一示例性實施例示出的一種目標跟蹤方法流程圖；圖2是本公開根據一示例性實施例示出的另一種目標跟蹤方法流程圖；圖3是本公開根據一示例性實施例示出的另一種目標跟蹤方法流程圖；圖4是本公開根據一示例性實施例示出的另一種目標跟蹤方法流程圖；圖5是本公開根據一示例性實施例示出的另一種目標跟蹤方法流程圖；圖6是本公開根據一示例性實施例示出的一種特徵檢測模型的結構示意圖；圖7是本公開根據一示例性實施例示出的一種多目標跟蹤的推斷過程示意圖；圖8是本公開根據一示例性實施例示出的另一種目標跟蹤方法流程圖；圖9是本公開根據一示例性實施例示出的一種特徵檢測模型訓練場景示意圖；圖10是本公開根據一示例性實施例示出的另一種目標跟蹤方法流程圖；圖11是本公開根據一示例性實施例示出的一種目標跟蹤裝置框圖；圖12是本公開根據一示例性實施例示出的一種用於目標跟蹤裝置的一結構示意圖。

101:獲取對應同一場景的多張場景圖像的步驟

102:對所述多張場景圖像中的每張場景圖像進行特徵提取處理以及目標部位檢測，得到所述每張場景圖像的特徵資訊以及所述每張場景圖像上的多個目標部位的位置的步驟

103:獲取所述每張場景圖像的特徵資訊中與所述多個目標部位的位置分別對應的目標特徵資訊的步驟

104:根據獲取的所述多個目標部位的位置分別對應的目標特徵資訊，確定出現在所述多張場景圖像上的多個相同的目標的步驟

Claims

一種目標跟蹤方法，其中，包括：獲取對應同一場景的多張場景圖像；對所述多張場景圖像中的每張場景圖像進行特徵提取處理以及目標部位檢測，得到所述每張場景圖像的特徵資訊以及所述每張場景圖像上的多個目標部位的位置；獲取所述每張場景圖像的特徵資訊中與所述多個目標部位的位置分別對應的目標特徵資訊；根據獲取的所述多個目標部位的位置分別對應的目標特徵資訊，確定出現在所述多張場景圖像上的多個相同的目標，其中，每張場景圖像中包括所述多個相同的目標的部分或全部目標。
如請求項1所述的方法，其中，所述對所述多張場景圖像中的每張場景圖像進行特徵提取處理以及目標部位檢測，得到所述每張場景圖像的特徵資訊以及所述每張場景圖像上的多個目標部位的位置，包括：提取所述多張場景圖像中的每張場景圖像的第一特徵圖；在所述每張場景圖像的第一特徵圖上進行目標部位檢測，得到所述每張場景圖像上的多個目標部位的位置；以及，對所述每張場景圖像的第一特徵圖進行特徵提取處理，得到多維度的第二特徵圖；所述獲取所述每張場景圖像的特徵資訊中與所述多個目標部位的位置分別對應的目標特徵資訊，包括：在所述多維度的第二特徵圖上獲取與所述多個目標部位的位置分別對應的目標特徵向量。
如請求項1或2所述的方法，其中，所述根據獲取的所述多個目標部位的位置分別對應的目標特徵資訊，確定出現在所述多張場景圖像上的多個相同的目標，包括：利用所述多張場景圖像中每相鄰兩張場景圖像分別對應的多個目標特徵資訊，得到所述每相鄰兩張場景圖像上各個目標部位之間的相似度；基於所述每相鄰兩張場景圖像上各個目標部位之間的相似度，確定出現在不同場景圖像上的多個相同的目標。
如請求項3所述的方法，其中，所述每相鄰兩張場景圖像為第一場景圖像和第二場景圖像；所述利用所述多張場景圖像中每相鄰兩張場景圖像分別對應的多個目標特徵資訊，得到所述每相鄰兩張場景圖像上各個目標部位之間的相似度，包括：確定第一場景圖像上的N個目標特徵向量分別與第二場景圖像上的M個目標特徵向量之間的相似度；其中，N和M為大於等於2的正整數；根據所述第一場景圖像上的N個目標特徵向量分別與所述第二場景圖像上的M個目標特徵向量之間的所述相似度，得到N×M維度的相似度矩陣，所述相似度矩陣中任一維度的值表示所述第一場景圖像的任一第一目標部位與所述第二場景圖像中的任一第二目標部位的相似度。
如請求項4所述的方法，其中，所述基於所述每相鄰兩張場景圖像上各個目標部位之間的相似度，確定出現在所述不同場景圖像上的多個相同的目標，包括：根據所述相似度矩陣，在所述N個目標特徵向量中的第一目標特徵向量分別與所述M個目標特徵向量之間的相似度中，確定相似度最大值；若所述相似度最大值大於預設閾值，則在所述M個目標特徵向量中確定所述相似度最大值對應的第二目標特徵向量；將所述第一場景圖像上所述第一目標特徵向量對應的第一目標部位所屬目標和所述第二場景圖像上第二目標特徵向量對應的第二目標部位所屬目標，作為相同的目標。
如請求項1或2所述的方法，其中，所述對所述多張場景圖像中的每張場景圖像進行特徵提取處理以及目標部位檢測，得到所述每張場景圖像的特徵資訊以及所述每張場景圖像上的多個目標部位的位置，包括：通過特徵檢測模型的骨幹網路提取所述多張場景圖像中的每張場景圖像的第一特徵圖；通過所述特徵檢測模型的部位檢測分支，在所述每張場景圖像的第一特徵圖上進行目標部位檢測，得到所述每張場景圖像上的多個目標部位的位置；以及，通過所述特徵檢測模型的特徵提取分支，對所述每張場景圖像的第一特徵圖進行特徵提取處理，得到多維度的第二特徵圖。
如請求項6所述的方法，其中，所述方法還包括：將對應同一場景的多張樣本場景圖像輸入初始神經網路模型，獲得所述初始神經網路模型輸出的每張樣本場景圖像上多個目標部位的位置分別對應的樣本特徵向量；根據所述每張樣本場景圖像上已標注的多個目標部位分別對應的目標標識，確定在每相鄰兩張樣本場景圖像上，相同的所述目標標識的所述目標部位的位置對應的所述樣本特徵向量之間的第一相似度，和/或確定不同的所述目標標識的所述目標部位的位置對應的所述樣本特徵向量之間的第二相似度；基於所述每張樣本場景圖像上已標注的多個目標部位分別對應的目標標識，根據所述第一相似度和所述第二相似度中的至少一項，對所述初始神經網路模型進行監督訓練，得到所述特徵檢測模型。
如請求項7所述的方法，其中，所述基於所述每張樣本場景圖像上已標注的多個目標部位分別對應的目標標識，根據所述第一相似度和所述第二相似度中的至少一項，對所述初始神經網路模型進行監督訓練，得到所述特徵檢測模型，包括：將第一相似度參考值與所述第一相似度之間的差作為第一損失函數；其中，所述第一相似度參考值是所述每相鄰兩張樣本場景圖像上已標注的相同的目標標識的目標部位所對應的樣本特徵向量之間的相似度參考值；將第二相似度參考值與所述第二相似度之間的差作為第二損失函數；其中，所述第二相似度參考值是所述每相鄰兩張樣本場景圖像上已標注的不同的目標標識的目標部位所對應的樣本特徵向量之間的相似度參考值；根據所述第一損失函數和所述第二損失函數中的至少一項，對所述初始神經網路模型進行訓練，得到所述特徵檢測模型。
如請求項1或2所述的方法，其中，所述方法還包括：確定出現在所述多個場景圖像上的多個相同的目標中的至少一個目標在預設時間段內的運動軌跡是否符合目標運動軌跡。
如請求項9所述的方法，其中，所述多張場景圖像對應教室場景，所述目標包括教學對象，所述目標運動軌跡包括教學任務中對所述教學對象指定的至少一種運動軌跡。
一種目標跟蹤裝置，其中，所述裝置包括：獲取模組，用於獲取對應同一場景的多張場景圖像；處理模組，用於對所述多張場景圖像中的每張場景圖像進行特徵提取處理以及目標部位檢測，得到所述每張場景圖像的特徵資訊以及所述每張場景圖像上的多個目標部位的位置；特徵資訊確定模組，用於獲取所述每張場景圖像的特徵資訊中與所述多個目標部位的位置分別對應的目標特徵資訊；目標確定模組，用於根據獲取的所述多個目標部位的位置分別對應的目標特徵資訊，確定出現在所述多張場景圖像上的多個相同的目標，其中，每張場景圖像中包括所述多個相同的目標的部分或全部目標。
一種電腦可讀存儲介質，其中，所述存儲介質存儲有電腦程式，所述電腦程式用於執行上述請求項1-10任一項所述的目標跟蹤方法。
一種目標跟蹤裝置，其中，包括：處理器；用於存儲所述處理器可執行指令的記憶體；其中，所述處理器被配置為調用所述記憶體中存儲的可執行指令，實現請求項1-10中任一項所述的目標跟蹤方法。