TWI803472B

TWI803472B - 用於訓練神經網路之方法、電腦程式產品及裝置

Info

Publication number: TWI803472B
Application number: TW106139605A
Authority: TW
Inventors: 馬可斯史坎斯; 尼可拉斯丹尼歐森
Original assignee: 瑞典商安訊士有限公司
Priority date: 2016-12-13
Filing date: 2017-11-16
Publication date: 2023-06-01
Also published as: TW201822076A; KR102605599B1; EP3336774B1; CN108229539B; US10956781B2; JP7072374B2; KR20180068292A; US20180165546A1; JP2018139103A; CN108229539A; EP3336774A1

Abstract

本發明大體上係關於一種用於訓練神經網路之方法、裝置及電腦程式產品，該等神經網路經調適以處理影像資料且輸出形成該經處理影像資料之一特徵向量之值之一向量。使用來自一參考神經網路之特徵向量作為地面實況而執行該訓練。本發明進一步係關於一種裝置系統，其用於使用由在該等裝置上運行之神經網路輸出之特徵向量來追蹤一物件。

Description

用於訓練神經網路之方法、電腦程式產品及裝置

本發明大體上係關於一種用於訓練神經網路之方法、裝置及電腦程式產品，該等神經網路經調適以處理影像資料且輸出形成經處理影像資料之一特徵向量之值之一向量。本發明進一步係關於一種裝置系統，其用於使用由在裝置上運行之神經網路輸出之特徵向量來追蹤一物件。

當訓練一神經網路時，圍繞訓練及神經網路之許多不同細節(例如，神經網路之架構等)影響網路如何形成一多維空間。一輸入資料在此多維空間上之映射將形成該特定輸入資料之一特徵向量。神經網路之目標係設立多維空間(超空間)，使得類似輸入資料(即，取決於神經網路經訓練以識別之輸入資料當中的相似性，屬於相同身份或相同類別之輸入資料)在此空間中將映射為緊靠在一起，而不同輸入資料(即，屬於不同身份/類別之輸入資料)將映射為彼此遠離。然而，如何形成此多維空間取決於例如： - 所使用之訓練輸入資料，及將其等輸入至網路之順序， - 所使用之神經網路之類型、所實施之成本函數(亦稱為損失函數或誤差函數)、節點之層之數目等， - 在訓練神經網路時運行神經網路之裝置之硬體架構，例如，在該硬體中浮點數如何捨入、相乘等， - 輸入資料之壓縮或計算速度之其他最佳化， - 網路權重之隨機初始化， - 等。此外，一神經網路之訓練成本函數(或最佳化成本函數)通常包括某種隨機函數，此使兩個神經網路之訓練本質上不同。此意謂即使以完全相同的方式使用相同訓練輸入資料以相同順序完成兩個不同網路之獨立訓練，仍無法保證由一個神經網路針對一特定輸入資料產生之一特徵向量可與由另一神經網路針對相同輸入資料產生之一特徵向量相比較。因此，需要此內容背景內之改良。

鑑於上文，本發明之一目的係解決或至少減少上文論述之一個或若干缺點。一般而言，藉由隨附獨立專利技術方案達成上述目的。根據一第一態樣，本發明係由一種用於訓練一第一神經網路之方法實現，該第一神經網路經調適以處理影像資料且輸出形成該經處理影像資料之一特徵向量之值之一向量，該方法包括以下步驟：擷取一參考特徵向量，藉由用一參考神經網路處理一第一訓練影像而計算該參考特徵向量，該參考神經網路經調適以處理影像資料且輸出形成該經處理影像資料之一特徵向量之值之一向量，訓練該第一神經網路以最佳化一成本函數，該成本函數至少包括該參考特徵向量與由該第一神經網路在處理該第一訓練影像時輸出之一特徵向量之間的一第一距離量測，其中該成本函數經調適以最小化該第一距離量測。在本說明書之內容背景中，術語「神經網路」應理解為受一大腦中之龐大的神經元網路啟發之互連節點群組。神經網路亦可稱為「人工神經網路」(ANN)。亦通常使用術語「深度學習」。可在此內容背景中使用之神經網路之一特定類型係一迴旋神經網路(CNN)，但可使用任何其他類型之前饋神經網路(FNN)。亦可使用其他類型，諸如遞迴神經網路(RNN)或深度信心網路(DBN)。在本說明書之內容背景中，術語「特徵向量」應理解為在已由神經網路設計以在神經網路之訓練期間執行分析之一多維空間中之一向量。空間之維度最常見為人類無法理解的，此係因為其等描述神經網路已體驗為在識別或分類訓練期間最有用之視覺特徵。因此，在此內容背景中，特徵向量(亦稱為外觀向量)描述例如神經網路已處理之影像資料中之一物件之視覺外觀。多維空間已經設計以叢集一類似種類之輸入資料，且分離一不同種類之輸入資料。取決於神經網路已經設計用於之目的，「類似種類」及「不同種類」意謂不同事物。經設計用於監控目的之神經網路之最常見情況係執行對由神經網路處理之影像中的物件(例如，人)之識別。在此內容背景中，類似種類之輸入資料意謂包括具有相同身份之人之輸入資料，而不同種類之輸入資料意謂包括具有不同身份之人之輸入資料。在此情況中，神經網路經設計以識別人，且叢集顯示具有相同身份之人之輸入資料，即使例如已自不同角度取得影像等。在其他實施例中，神經網路已經訓練以叢集相同類別之輸入資料(根據一些常見關係或屬性分為群組，如類別、等級、群族等) (例如，相同品種之狗)，或分離例如汽車與自行車。在此內容背景中，類似種類之輸入資料意謂包括相同類別之物件之輸入資料，而不同種類之輸入資料意謂包括不同類別之物件之輸入資料。換言之，目的係使特徵向量特性化與網絡經訓練用於之分析任務(例如，人員再識別)相關之視覺外觀之態樣。特徵向量含有個體之間的不變態樣使得可告知兩個影像是否描繪同一人，但特徵向量中儘可能多地抑制對歸因於例如姿勢/角度、照明差異、影像清晰度等的外觀差異之相依性。在神經網路之內容背景中，使用一成本函數來訓練此等網路，學習過程嘗試最佳化該成本函數(通常最小化，但成本函數亦可設計為經最大化)。一般而言，需要訓練神經網路以根據使用者之需求處理資料，如上文描述。應訓練神經網路以最佳化關於成本函數之效能。在訓練神經網路期間，學習演算法取決於成本函數之梯度來發現成本函數之一最小值(或最大值)。在一些情況中，所發現之最小值可為一局部最小值。因此，在本實施例之內容背景中，假使參考特徵向量與由第一神經網路輸出之一特徵向量之間的距離量測係大的，則成本將為大的，且第一神經網路之權重經更新以使成本更小(根據成本函數之梯度)。如上文描述，當訓練一神經網路時，圍繞神經網路之訓練及設計/架構之許多不同細節影響網路如何形成多維空間。各輸入影像資料之輸出特徵向量之值取決於空間如何形成。發明者已意識到，運用本實施例，可比較來自由在不同裝置上實施之神經網路處理之影像資料之特徵向量，即使例如裝置之硬體架構或神經網路之架構不同。此因在訓練神經網路時已將來自一參考神經網路之輸出用作一地面實況而可行。藉由使用自參考神經網路(亦可稱為共同神經網路、第二神經網路等)輸出之特徵向量(即，參考特徵向量)訓練第一神經網路，第一神經網路之多維空間將朝向參考神經網路之多維空間收斂。因此，參考神經網路將對所訓練之任何神經網路具有一正規化效應，如本文中描述。本實施例之另一優點係可在不考量或不知道參考神經網路之細節之情況下完成對第一神經網路之實施，例如對神經網路之架構、節點數目、類型之選取等。此外，可在無彼此之任何細節或甚至不知道彼此之存在之情況下訓練複數個第一網路，且仍產生可比較的輸出特徵向量，此係因為各神經網路之多維空間將類似。本實施例之另一優點係可例如使用大量訓練影像訓練參考神經網路至一所要準確度，或於經調適以產生極準確結果之一裝置(「最佳」架構)上實施參考神經網路。另一優點可為訓練參考神經網路不存在時間約束或硬體約束，此係因為此可在一專用裝置上離線完成或在訓練第一神經網路之前良好完成。參考神經網路可被保持為一專屬秘密且無需被暴露，僅參考特徵向量可需要由第一神經網路存取。根據一些實施例，已使用一基於三元組(triplet-based)之成本函數訓練參考神經網路，其中該基於三元組之成本函數目的在於將具有一相同分類或識別之一對輸入影像與具有另一分類或識別之一第三輸入影像分離，使得具有該相同分類或識別之該對輸入影像之間的一第一距離與具有該相同分類或識別之該對輸入影像之一者與該第三輸入影像之間的一第二距離之間之一差異至少為一距離邊限阿爾法(alpha)，其中訓練該第一神經網路以最佳化該成本函數之該步驟包括：將該第一距離量測減小為至少阿爾法除以4。在本說明書之內容背景中，術語「基於三元組之成本函數」應理解為用於最小化或減小包括具有一第一分類或識別之一物件之一第一輸入影像(亦稱為一錨點(anchor)影像)與包括具有相同分類或識別之一物件之一第二輸入影像(亦稱為一正向(positive)影像)之間的一距離之一函數。基於三元組之成本函數進一步應實現第一輸入影像與包括具有另一分類或識別之一物件之一第三影像(亦稱為一負向(negative)影像)之間的一距離比錨點-正向輸入影像對之間的距離大至少阿爾法。此意謂使用阿爾法值來產生錨點-正向對與錨點-負向對之間的分離之一差異，使得對於一特定三元組之影像，錨點-負向對之間的距離比錨點-正向對之間的距離大至少阿爾法。應注意，阿爾法始終為一正數。假使一三元組之錨點-正向對之間的距離與錨點-負向對之間的距離之間之差異小於阿爾法，則成本函數將改變神經網路之權重以使差異朝向阿爾法增大。亦應注意，達到阿爾法距離邊限可為一反覆過程。基於三元組之成本函數將改變權重使得差異朝向阿爾法增大，但可能無法在一次反覆中達到阿爾法距離邊限。滿足訓練資料庫中之全部影像之全部阿爾法條件係一反覆過程且未針對一特定三元組達到阿爾法距離邊限，基於成本函數計算之梯度使權重改變使得特定三元組將一點點地更接近滿足阿爾法邊限。然而，若差異已大於阿爾法，則成本函數將不針對該特定三元組影響神經網路之權重。因此，達成具有不同分類或識別之影像資料在神經網路超空間中之分離。在已發表文章中揭示此阿爾法值之細節，例如，Schroff等人(Google公司)之文章「FaceNet: A Unified Embedding for Face Recognition and Clustering」。在訓練第一網路時使用阿爾法值，且將第一神經網路之特徵向量與自參考神經網路擷取之參考特徵向量之間的距離減小為至少阿爾法/4可在第一神經網路「足夠好」且訓練可停止時提供一良好值，此係因為阿爾法/4之一誤差仍意謂一特定分類之一物件將被分類為正確的類別，儘管其與參考向量相比具有一誤差。下文將結合圖6至圖7進一步說明此。此實施例可增加訓練之速度。根據一些實施例，擷取一參考特徵向量之步驟包括：將第一訓練影像傳輸至參考神經網路，藉由該參考神經網路處理該第一訓練影像，及自該參考神經網路擷取該經輸出特徵向量。以此方式，參考神經網路之前無需已「看見」第一訓練影像或已關於第一訓練影像訓練。第一訓練影像可為專門用於第一神經網路之影像處理任務(例如，處理在一地鐵站處或一辦公樓之一入口捕捉之影像等)之一影像。接著，可藉由參考神經網路處理第一訓練影像，接著，參考神經網路傳回特徵向量以供第一神經網路擷取。根據一些實施例，擷取一參考特徵向量之步驟包括：使用關於第一訓練影像之資料作為包括特徵向量之一資料庫中之一關鍵字(key)，及自該資料庫擷取對應於該關鍵字之值。在此實施例中，已藉由參考神經網路處理一特定影像集且已使用關於對應影像之資料(例如，影像之一指紋，諸如一雜湊值)作為關鍵字將所得特徵向量儲存於一資料庫中。因此，訓練第一神經網路可包括：將關於訓練影像(或視情況整個訓練影像)之該資料發送至資料庫，該資料庫視情況自從第一神經網路接收之資料提取待用作資料庫中之關鍵字(例如，雜湊值)之資料；及自資料庫擷取先前已由參考神經網路產生之特徵向量(即，作為用於訓練第一神經網路之地面實況)。此實施例可節省訓練第一神經網路時之時間及亦頻寬，此係因為根據一些實施例，不需要傳輸整個訓練影像。根據一些實施例，第一距離量測係參考特徵向量與由第一神經網路輸出之特徵向量之間的歐氏距離(Euclidian distance)。此係一種計算上便宜的距離量測。或者，可使用其他距離量測，諸如任何p範數度量或量測。根據一些實施例，第一神經網路及參考神經網路係不同類型之神經網路。例如，可能已使用不同類型之軟體程式庫(例如，開放原始碼)或網路架構。此等網路架構之實例包含GoogLeNet、AlexNet等。軟體程式庫之實例係TensorFlow、Caffe等。根據其他實施例，第一神經網路及參考神經網路包括不同數量之層、各層中之不同數量之節點等。術語「不同類型之神經網路」進一步涵蓋第一神經網路及參考神經網路之內部數字表示之不同位元寬度，另外其可具有相同網路架構。該術語進一步涵蓋一經修剪(將一些小權重設定為零以加速計算)但在其他方面類似之網路，或針對其之一些操作使用最佳化函數(例如，具有藉由使用可產生較小準確度誤差之一些技巧而進行最佳化迴旋之特定功能)之一網路等。根據一些實施例，第一神經網路係由具有一第一硬體架構之一裝置實施，且參考神經網路係由具有不同於該第一硬體架構之一第二硬體架構之一裝置實施。作為一實例，第一神經網路可為在一嵌入式裝置上運行之一極小整數神經網路，而參考神經網路係在雲端中或一專用運算盒(computing box)上運行之大浮點網路。根據一些實施例，針對複數個訓練影像反覆先前實施例之任一者之步驟。根據一些實施例，該方法進一步包括：使第一神經網路與一版本號碼相關聯，該版本號碼反映在用來自參考神經網路之參考特徵向量訓練該第一神經網路之時該參考神經網路之一版本號碼。如在此實施例中般使用版本號碼可有利於知曉何時需要升級或再訓練第一神經網路。在一第二態樣中，本發明提供一種具有指令之電腦可讀儲存媒體，該等指令經調適以在由具有處理能力之一裝置執行時實行第一態樣之任一實施例之方法。在一第三態樣中，本發明提供一種裝置，其包括經調適以處理影像資料且輸出形成該經處理影像資料之一特徵向量之值之一向量之一第一神經網路，該裝置包括一處理器，該處理器經組態以：擷取一參考特徵向量，藉由用一參考神經網路處理一第一訓練影像而計算該參考特徵向量，該參考神經網路經調適以處理影像資料且輸出形成該經處理影像資料之一特徵向量之值之一向量，訓練該第一神經網路以最佳化一成本函數，該成本函數至少包括該參考特徵向量與由該第一神經網路在處理該第一訓練影像時輸出之特徵向量之間的一第一距離量測，其中該成本函數經調適以最小化該第一距離量測。在一第四態樣中，本發明提供一種系統，其包括複數個裝置，各裝置包括根據第一態樣訓練之一第一神經網路，其中各裝置進一步經調適以使用該第一神經網路自一影像提取一物件，以處理該經提取物件之影像資料且傳輸自該第一神經網路輸出之一特徵向量，其中該系統進一步包括一物件追蹤單元，該物件追蹤單元經調適以自該等裝置接收特徵向量，且透過該裝置系統基於該等經接收特徵向量追蹤一物件。如上文描述，使用一共同參考神經網路來提供一訓練影像之參考特徵向量，且使用此來訓練其他神經網路，經訓練神經網路經操縱以產生一類似多維空間，使得可以一有意義的方式比較來自各神經網路針對一特定影像之輸出特徵向量(此係因為全部特徵向量存在於相同或極其類似的向量空間中)。因此，可比較來自不同神經網路(實施於不同裝置上)之特徵向量且因此將其等用於追蹤一物件。根據一些實施例，複數個裝置之各者之第一神經網路進一步與一版本號碼相關聯，該版本號碼反映在訓練該第一神經網路之時參考神經網路之一版本號碼，其中將該複數個裝置之一裝置之該版本號碼與自該第一神經網路輸出之特徵向量一起傳輸，且其中物件追蹤單元經調適以透過裝置系統基於該等經接收特徵向量及版本號碼追蹤一物件。根據一些實施例，複數個裝置之至少一者係一網路攝影機，其中自由該網路攝影機捕捉之一影像提取物件。根據一些實施例，物件追蹤單元實施於複數個裝置之至少一者中，其中一特徵向量自一裝置之傳輸係使用多播或廣播傳輸而實施。根據一些實施例，物件追蹤單元實施於與複數個裝置分離且連接至複數個裝置之各者之另一裝置中。第二態樣、第三態樣及第四態樣可大體上具有與第一態樣相同之特徵及優點。

圖1藉由實例展示一神經網路104之功能性。使用一神經網路可為解決電腦視覺問題(像其中一基於規則之方法可能不適用之物件辨識)之一良好方式。使用一基於規則之方法，尤其當事先未知需要辨識且可彼此區分之物件類型時，可難以定義一(複雜)物件相較於另一類型(即，類別)之其他物件之鑑別特徵。此係一神經網路之優勢之一。當用一神經網路識別物件或對物件分類時，輸出可為一特徵向量。此在圖1中展示，其中藉由神經網路104處理一輸入影像102 (或輸入影像資料102)。來自神經網路之輸出係一特徵向量106。在圖1之實例中，特徵向量106之維數係4，但此僅作為實例。特徵向量106描述輸入影像102中之物件之視覺外觀。特徵向量106係已由神經網路104設計以執行分析之一多維空間中之一向量。空間之維度(在此實例中數目為4，其等各自由特徵向量106中之一值106a至106d表示)最常見為人類無法理解的，此係因為其等描述神經網路104已體驗為在神經網路104之訓練期間對於物件之識別或分類及不同身份/類別之物件之間的分離最有用之視覺特徵。然而，如上文描述，不同神經網路可針對相同物件找出不同類型之特徵向量(在不同的不可比較的特徵空間中)。圖2藉由實例展示由兩個不同神經網路在一二維空間中進行之兩個物件(在圖2中展示為四角星及菱形)之映射。在此簡化實例中，兩個神經網路已輸出具有相同維數之向量。通常為此情況，但兩個不同神經網路可輸出維度不同之向量。通常，為使用一神經網路達成對複雜物件之一良好分類，需要100個至1000個維度。在圖2中，為簡單起見使用兩個維度。在圖2之二維空間中，一個神經網路已將星202分類至左側(較低x值)且將菱形208分類至右側(較高x值)，而另一神經網路已將星204分類至右側(較高x值)且將菱形206分類至左側(較低x值)。若將直接使用來自兩個神經網路針對兩個不同物件之特徵向量來比較物件，則第一神經網路之菱形將與第二網路之星相匹配，且反之亦然。此在其中使用不同監控攝影機、視訊編碼器及視訊伺服器(其等各自具有用於物件分類之各別神經網路)來追蹤監控系統上方之物件(其等具有相同身份，或在一些較不典型實施例中具有相同類別)之一監控系統中可成為問題。本發明提供此問題之一解決方案。概括而言，藉由針對一參考神經網路訓練(若干)神經網路而解決該問題。現將結合圖3且在圖5中例示此。一第一神經網路104 (即，待訓練之神經網路)經調適以處理影像資料310且輸出形成經處理影像資料310之一特徵向量106之值106a至106d之一向量。為將針對一特定輸入影像資料310輸出之一特徵向量106 「強制」為對於具有不同架構或使用不同訓練影像訓練或在具有不同規範之硬體上運行之神經網路可比較，使用一參考神經網路(第二神經網路) 302來進行訓練。假定參考神經網路302經訓練至一所要準確度。在訓練第一神經網路104期間，未執行對例如參考神經網路302之權重之改變。第一神經網路104針對一訓練影像310計算一特徵向量106。此外，第一神經網路104擷取S508一參考特徵向量306，該參考特徵向量306用作此特定訓練影像310之地面實況(即，正確特徵向量)。此可藉由向例如提供此等參考特徵向量之一服務312請求S502訓練影像310之參考特徵向量而完成。根據一些實施例，擷取一參考特徵向量306包括將第一訓練影像310傳輸至參考神經網路302。接著，參考神經網路302可處理S504第一訓練影像310。接著，第一神經網路104可自參考神經網路302擷取S508經輸出特徵向量306 (地面實況)。例如，提供參考特徵向量之服務312可在參考特徵向量306已由參考神經網路302輸出時將參考特徵向量306傳輸至請求神經網路104。此實施例可例如有利於用參考神經網路302之前尚未處理之訓練影像來訓練第一神經網路104。在其他實施例中，擷取參考特徵向量306包括使用關於第一訓練影像310之資料310’且將此資料310’傳輸至提供參考特徵向量之服務312。資料310’可為訓練影像310之任何類型之獨有識別符，例如整個訓練影像310、訓練影像310之一雜湊值或訓練影像310之一預定識別符。接著，可將資料310’用作一資料庫304中之一關鍵字(視情況，在服務312處將資料310’預處理為用於資料庫之正確格式，其中經預處理資料仍將為關於第一訓練影像310之資料)以在資料庫304中發現訓練影像310之參考特徵向量306。資料庫304先前已具有參考特徵向量及各參考特徵向量之識別符，其中參考特徵向量已由參考神經網路302計算。在此實施例中，在可(使用來自用於訓練之一預定義影像集之影像)執行第一神經網路之訓練之前，已藉由參考神經網路302判定且處理該預定義影像集。當已擷取參考特徵向量306時，可訓練第一神經網路104使得其將輸出可與由參考神經網路302輸出之特徵向量比較的特徵向量106。此藉由降低一成本函數308 (在圖3中藉由S形符號示意性地表示)而完成，其中成本函數308至少包括參考特徵向量306與由第一神經網路104在處理第一訓練影像310時輸出之特徵向量106之間的一第一距離量測。因此，例如藉由改變神經網路中之神經元(節點)之間的權重而調適成本函數以最小化第一距離量測，使得輸出特徵向量106將更接近參考特徵向量(更具可比性)。此一成本函數之細節留給熟習此項技術者來實施，但一般而言，成本函數經最佳化以達到其中第一距離量測至少局部經最小化之一最小值或最大值。因此，第一神經網路經訓練以最佳化成本函數，使得成本函數經調適以最小化輸出特徵向量106與參考特徵向量306之間的距離。來自第一神經網路之特徵向量與參考特徵向量可變得接近之程度可存在效能限制，然而，藉由使用用於訓練神經網路之上述方法，針對相同參考神經網路訓練之全部神經網路可產生在某一可信度內可比較的特徵向量。根據一些實施例，可使用關於參考神經網路之訓練之資料來將第一神經網路訓練至一合理的可信度。明確言之，假使已使用所謂的三元組訓練(其包括使用具有一相同識別或分類之一對輸入影像及具有另一識別/分類之一第三輸入影像之訓練)對參考神經網路進行訓練，則在訓練第一神經網路時可使用此訓練之所謂的距離邊限。在此類型之訓練中，神經網路之成本函數目的在於以至少距離邊限(亦稱為阿爾法)分離具有相同識別/分類之該對輸入影像與具有該另一識別/分類之第三輸入影像。圖6至圖7示意性地描述距離邊限阿爾法α ，其部分判定在多維空間中映射之具有相同識別/分類之影像叢集之間的最小距離。如圖6中可見，三個叢集602至606之任一者之間的距離係阿爾法α + r1/r2/r3。值r1對應於max( 叢集 604 中最分離的特徵向量之間的距離，叢集 606 中最分離的特徵向量之間的距離 ) 。以相同方式，值r2/r3分別取決於叢集602、604及602、606之散佈。藉由使用三元組訓練對參考神經網路進行訓練之上述方式，在其中全部三元組組合皆已被視為滿足阿爾法要求之一完美案例中，最終結果將變為如圖6中所描述，其中r1/r2/r3距離表示最小距離，使得選自影像叢集之全部三元組組合給出自損失函數之零誤差。應注意，此完美訓練(即，其中選自影像叢集之全部三元組組合給出自損失函數之零誤差之情況)幾乎從不發生。此係因為例如對全部三元組組合進行訓練不可行(因其等簡直太多)，且在任何事件中，無法保證神經網路將能夠收斂至能夠良好地執行此之一狀態。然而，圖6係針對對於當前關於第一網路之訓練之準確度對阿爾法值之論述可能未一足夠好的近似之一良好訓練的網路。因此，叢集602至606之分離將不同，但全部將由阿爾法值部分判定。在此實施例中，訓練S510第一神經網路以最佳化成本函數之步驟包括將第一距離量測減小為至少阿爾法除以4。此係其中一特定輸入影像資料之輸出特徵將導致一正確分類/識別(即，如使用參考神經網路般分類/識別)仍可能合理之最小距離。圖7以一簡化方式展示訓練第一神經網路以將第一距離量測最小化為至少阿爾法除以4之值背後之基本原理。為便於描述，在圖7中，各影像資料已經處理且映射至一單維空間，即，經輸出特徵向量包括一個值。展示各叢集602、606之兩個特徵向量，其等表示彼此最遠離但仍具有相同身份/類別之特徵向量，即，各叢集602、606中最分離的特徵向量。因此，左側叢集602中之特徵向量之間的距離係d1，且因此，右側叢集606中之特徵向量之間的距離係d2。如上文描述，在多維空間中，具有不同身份/類別之兩個最接近特徵向量之間的距離係α +max(d1, d2) 。如圖7中展示，此分離容許訓練第一神經網路時之某一邊限，且仍產生所涉及之經處理影像資料之一正確識別/分類。在此情況中，邊限係阿爾法/4。假使全部特徵向量以「錯誤的方式」移開阿爾法/4，即，使得相同叢集602、604中之樣本(例如，圖7中之星，其表示各樣本之特徵向量)之間的距離增大，且相鄰叢集中之「外部」樣本之間的距離增大，則具有不同身份/類別之最接近特徵向量仍將比一相同叢集602、604內彼此最遠離之特徵向量彼此更遠離。如上文描述，使用用於訓練第一神經網路104之方法可導致自第一神經網路104及第二神經網路302輸出可比較的特徵向量，即使其等例如係不同類型之神經網路。例如，參考神經網路可使用一第一網路架構實施，且第一神經網路可使用一不同網路架構實施。此外，使用用於訓練第一神經網路104之方法可導致自第一神經網路104及第二神經網路302輸出可比較的特徵向量，即使第一神經網路104係由具有一第一硬體架構之一裝置實施且參考神經網路302係由具有不同於第一硬體架構之一第二硬體架構之一裝置實施。因此，例如針對捨入浮點值之不同方式，訓練方法係穩健的。在已使用第一訓練影像訓練第一神經網路之後，可針對複數個訓練影像反覆(圖5中之L1)上述方法(根據任何實施例)。根據一些實施例，第一神經網路104可與一版本號碼相關聯，該版本號碼反映在訓練第一神經網路之時參考神經網路302之一版本號碼。此實施例可用以確保在神經網路之間比較特徵向量時已使用參考神經網路(即，參考神經網路302)之相同版本進行訓練。否則，無法完成特徵向量之比較。圖4藉由實例展示一系統400，其包括複數個裝置404至408，其中各裝置404至408包括根據本發明訓練之一神經網路。因此，系統400可用於在裝置之間追蹤一物件，此係因為可比較來自神經網路之輸出特徵向量。例如，各裝置可經調適以使用第一神經網路自一影像提取一物件，以處理經提取物件之影像資料且傳輸自第一神經網路輸出之一特徵向量106。根據一些實施例，複數個裝置之至少一者係一網路攝影機，其中自由網路攝影機捕捉之一影像提取物件。在系統400中，一物件追蹤單元402經調適以自裝置接收特徵向量，該等裝置可用於透過裝置系統基於經接收特徵向量106追蹤一物件。物件追蹤單元402可在複數個裝置之至少一者中實施，此意謂物件追蹤單元本身係類似於複數個裝置404至408之一裝置且亦包括如本文中描述般訓練之一神經網路。因此，系統400可為一同級間網路或任何其他適合網路架構。在此情況中，可使用單播、多播或廣播傳輸來實施一特徵向量106自複數個裝置404至408之一裝置之傳輸。在其他實施例中，物件追蹤單元402實施於與複數個裝置404至408分離且連接至複數個裝置404至408之各者之另一裝置中。在此實施例中，物件追蹤單元402可實施於一伺服器或類似者中以有利於對物件追蹤之一中央處置。因此，特徵向量在複數個裝置404至408與分離物件追蹤單元402之間的傳輸可為專用傳輸(即，至特徵向量106之一專用接收器)。根據一些實施例，複數個裝置之各者之第一神經網路進一步與一版本號碼410相關聯。如上文描述，版本號碼反映在訓練第一神經網路之時參考神經網路之一版本號碼。在此情況中，將複數個裝置404至408之一裝置之版本號碼410與自第一神經網路輸出之特徵向量106一起傳輸。因此，物件追蹤單元可經調適以透過裝置系統基於經接收特徵向量及版本號碼追蹤一物件，且確保僅比較自具有具相同版本號碼之一神經網路之裝置接收之特徵向量。假使一經接收特徵向量106之版本號碼410不同，則物件追蹤單元402可忽略該特徵向量。根據其他實施例，物件追蹤單元可請求具有相關聯於其神經網路之正確版本號碼之另一裝置404至406，或例如已實施與正確版本號碼相關聯之一神經網路之一伺服器重新處理作為具有錯誤版本號碼之特徵向量的原因之影像資料，且將一新特徵向量傳輸至物件追蹤單元402。物件追蹤單元402亦可觸發具有錯誤(舊)版本號碼之神經網路之一更新(再訓練)及/或相應地旗標裝置。

102‧‧‧輸入影像/輸入影像資料104‧‧‧第一神經網路106‧‧‧特徵向量106a‧‧‧值106b‧‧‧值106c‧‧‧值106d‧‧‧值202‧‧‧星204‧‧‧星206‧‧‧菱形208‧‧‧菱形302‧‧‧參考神經網路/第二神經網路304‧‧‧資料庫306‧‧‧參考特徵向量308‧‧‧成本函數310‧‧‧影像資料/第一訓練影像310’‧‧‧資料312‧‧‧服務400‧‧‧系統402‧‧‧物件追蹤單元404‧‧‧裝置406‧‧‧裝置408‧‧‧裝置410‧‧‧版本號碼602‧‧‧叢集604‧‧‧叢集606‧‧‧叢集S502‧‧‧請求參考特徵向量S504‧‧‧處理第一訓練影像S506‧‧‧擷取特徵向量S508‧‧‧擷取參考特徵向量S510‧‧‧訓練第一神經網路以最佳化一成本函數

參考隨附圖式透過本發明之實施例之以下闡釋性及非限制性詳細描述將更佳理解本發明之上述以及額外目的、特徵及優點，在隨附圖式中，相同元件符號將用於類似元件，其中：圖1展示一神經網路處理一輸入影像且輸出描述輸入影像之一特徵向量，圖2展示在一二維特徵空間中由兩個不同神經網路處理之兩個物件之特徵向量，圖3展示根據實施例訓練一神經網路，圖4展示用於追蹤由影像捕捉之一物件之一裝置系統，圖5展示根據實施例之用於訓練一神經網路之一方法，圖6展示一距離邊限，其係在參考神經網路之多維空間中映射之具有相同分類之影像叢集之間的最小距離，圖7展示在訓練第一神經網路時使用參考神經網路之阿爾法值。

104‧‧‧第一神經網路

106‧‧‧特徵向量

106a‧‧‧值

106b‧‧‧值

106c‧‧‧值

106d‧‧‧值

302‧‧‧參考神經網路/第二神經網路

304‧‧‧資料庫

306‧‧‧參考特徵向量

308‧‧‧成本函數

310‧‧‧影像資料/第一訓練影像

310’‧‧‧資料

312‧‧‧服務

Claims

一種追蹤一物件之系統，其包括：複數個裝置，其每一者包含：一第一處理器，其經組態以：操作一第一神經網路，其經組態以處理影像資料且輸出形成該經處理影像資料之一特徵向量之值之一向量；及一第二處理器，其經組態以：擷取一參考特徵向量，藉由用一參考神經網路處理一第一訓練影像而計算該參考特徵向量，該參考神經網路經組態以處理影像資料且輸出形成該經處理影像資料之一特徵向量之值之一向量；訓練該裝置之該第一神經網路以最佳化一成本函數，該成本函數至少包括該參考特徵向量與由該第一神經網路在處理該第一訓練影像時輸出之該特徵向量之間的一第一距離量測，其中該成本函數經組態以最小化該第一距離量測，其中該第一神經網路及該參考神經網路係不同神經網路；及自一影像提取該物件，其中該裝置之該第一神經網路處理該經提取物件之影像資料且傳輸自該第一神經網路輸出之一特徵向量，及一物件追蹤伺服器，其經組態以：自該複數個裝置接收一或多個特徵向量，且透過該複數個裝置至少部分基於該等經接收特徵向量追蹤該物件，其中該複數個裝置之各者之該第一神經網路與一版本號碼相關聯，該版本號碼反映在訓練該第一神經網路之時該參考神經網路之一版本號碼，相關聯於該複數個裝置之一裝置之該第一神經網路之該版本號碼伴隨自該第一神經網路輸出之該特徵向量被傳輸。
如請求項1之系統，其中已使用一基於三元組(triplet-based)之成本函數訓練該參考神經網路，其中該基於三元組之成本函數將具有一相同分類或識別之一對輸入影像與具有另一分類或識別之一第三輸入影像分離，使得具有該相同分類或識別之該對輸入影像之間的一第一距離與具有該相同分類或識別之該對輸入影像之一者與該第三輸入影像之間的一第二距離之間之一差異至少為一距離邊限阿爾法，其中訓練該第一神經網路以最佳化該成本函數包括：將該第一距離量測減小為至少阿爾法除以4。
如請求項1之系統，其中藉由該裝置之該第二處理器擷取一參考特徵向量之該步驟包括：將該第一訓練影像傳輸至該參考神經網路，藉由該參考神經網路處理該第一訓練影像，及自該參考神經網路擷取該經輸出特徵向量。
如請求項1之系統，其中藉由該裝置之該第二處理器擷取一參考特徵向量之該步驟包括：使用關於該第一訓練影像之資料作為包括特徵向量及各參考向量之識別符之一資料庫中之一識別符；及自該資料庫擷取對應於該識別符之該特徵向量。
如請求項1之系統，其包括針對複數個訓練影像反覆擷取該參考特徵向量及訓練該第一神經網路以最佳化該成本函數。
如請求項1之系統，其進一步包括：使該第一神經網路與一版本號碼相關聯，該版本號碼反映在用來自該參考神經網路之參考特徵向量訓練該第一神經網路之時該參考神經網路之一版本號碼。
如請求項1之系統，其中每一個裝置具有一第一硬體架構，且其中該參考神經網路係由具有不同於該第一硬體架構之一第二硬體架構之一裝置實施。
如請求項1之系統，其中該物件追蹤伺服器進一步經組態以透過該裝置系統基於該等經接收特徵向量及版本號碼追蹤該物件。
如請求項8之系統，其中該物件追蹤伺服器進一步經組態以透過該裝置系統藉由僅比較自具有伴隨一相同版本號碼的一第一神經網路之裝置接收之特徵向量而追蹤該物件。