TWI677825B

TWI677825B - 視頻目標跟蹤方法和裝置以及非易失性電腦可讀儲存介質

Info

Publication number: TWI677825B
Application number: TW107101732A
Authority: TW
Inventors: 余三思; San Si Yu
Original assignee: 大陸商騰訊科技（深圳）有限公司; Tencent Technology (Shenzhen) Company Limited
Priority date: 2017-01-17
Filing date: 2018-01-17
Publication date: 2019-11-21
Also published as: CN106845385A; TW201828158A; WO2018133666A1

Abstract

本申請提供一種視頻目標跟蹤的方法和裝置，包括：獲取視頻流，根據人臉檢測演算法識別人臉區域，得到第一視頻幀對應的第一待跟蹤目標；對第一待跟蹤目標通過人臉特徵提取得到第一人臉特徵，並將第一人臉特徵存入第一待跟蹤目標對應的特徵庫；在當前視頻幀識別人臉區域，得到當前視頻幀對應的當前待跟蹤目標，對當前待跟蹤目標通過人臉特徵提取得到第二人臉特徵，根據第二人臉特徵和特徵庫將當前待跟蹤目標與第一待跟蹤目標進行特徵匹配，以從第一視頻幀開始跟蹤第一待跟蹤目標，在跟蹤過程中根據提取的更新的人臉特徵更新特徵庫。

Description

視頻目標跟蹤方法和裝置以及非易失性電腦可讀儲存介質

本申請涉及電腦技術領域，特別是涉及一種視頻目標跟蹤方法和裝置。本申請要求於2017年1月17日提交中國專利局、申請號為201710032132.6，發明名稱為“視頻目標跟蹤的方法和裝置”的中國專利申請的優先權，其全部內容通過引用結合在本申請中。

目標跟蹤技術一直以來都是電腦視覺和影像處理領域的重點之一，被廣泛應用在智慧監控、智慧交通、視覺導航、人機交互、國防偵察等領域。

目標跟蹤演算法通常使用一種或數種簡單的傳統特徵匹配演算法來區分目標，如利用圖像本身的顏色、形狀等特徵。

本申請實施例提供一種視頻目標跟蹤方法和裝置，能夠提高跟蹤的連續性和穩健(robust)性。

本申請實施例提供一種視頻目標跟蹤的方法，應用於終端或伺服器，所述方法包括：獲取視頻流，根據人臉檢測演算法識別人臉區域，得到第一視頻幀對應的第一待跟蹤目標；對所述第一待跟蹤目標通過基於深度神經網路的人臉特徵提取得到第一人臉特徵，並將所述第一人臉特徵存入所述第一待跟蹤目標對應的特徵庫；在當前視頻幀根據人臉檢測演算法識別人臉區域，得到當前視頻幀對應的當前待跟蹤目標，對所述當前待跟蹤目標通過基於深度神經網路的人臉特徵提取得到第二人臉特徵，根據所述第二人臉特徵和所述特徵庫將所述當前待跟蹤目標與第一待跟蹤目標進行特徵匹配，以從所述第一視頻幀開始跟蹤所述第一待跟蹤目標，在跟蹤過程中根據提取的更新的人臉特徵更新所述特徵庫。

本申請實施例還提供一種視頻目標跟蹤裝置，所述裝置包括：處理器以及與所述處理器相連接的記憶體，所述記憶體中儲存有可由所述處理器執行的機器可讀指令模組；所述機器可讀指令模組包括：檢測模組，用於獲取視頻流，根據人臉檢測演算法識別人臉區域，得到第一視頻幀對應的第一待跟蹤目標；人臉特徵提取模組，用於對所述第一待跟蹤目標通過基於深度神經網路的人臉特徵提取得到第一人臉特徵，並將所述第一人臉特徵存入所述第一待跟蹤目標對應的特徵庫；所述檢測模組還用於在當前視頻幀根據人臉檢測演算法識別人臉區域，得到當前視頻幀對應的當前待跟蹤目標；所述人臉特徵提取模組還用於對所述當前待跟蹤目標通過基於深度神經網路的人臉特徵提取得到第二人臉特徵；跟蹤模組，用於根據所述第二人臉特徵和所述特徵庫將所述當前待跟蹤目標與第一待跟蹤目標進行特徵匹配，以從所述第一視頻幀開始跟蹤所述第一待跟蹤目標；學習模組，用於在跟蹤過程中根據提取的更新的人臉特徵更新所述特徵庫。

本申請實施例還提供一種非易失性電腦可讀儲存介質，所述儲存介質中儲存有機器可讀指令，所述機器可讀指令可以由處理器執行以完成以下操作：獲取視頻流，根據人臉檢測演算法識別人臉區域，得到第一視頻幀對應的第一待跟蹤目標；對所述第一待跟蹤目標通過基於深度神經網路的人臉特徵提取得到第一人臉特徵，並將所述第一人臉特徵存入所述第一待跟蹤目標對應的特徵庫；在當前視頻幀根據人臉檢測演算法識別人臉區域，得到當前視頻幀對應的當前待跟蹤目標，對所述當前待跟蹤目標通過基於深度神經網路的人臉特徵提取得到第二人臉特徵，根據所述第二人臉特徵和所述特徵庫將所述當前待跟蹤目標與第一待跟蹤目標進行特徵匹配，以從所述第一視頻幀開始跟蹤所述第一待跟蹤目標，在跟蹤過程中根據提取的更新的人臉特徵更新所述特徵庫。

110‧‧‧終端

120‧‧‧伺服器

130‧‧‧視頻採集裝置

140‧‧‧網路

1101‧‧‧系統匯流排

1102‧‧‧處理器

1103‧‧‧圖形處理單元

1104‧‧‧儲存介質

1105‧‧‧記憶體

1106‧‧‧網路介面

1107‧‧‧顯示螢幕

1108‧‧‧輸入裝置

11041‧‧‧作業系統

11042‧‧‧第一視頻目標跟蹤裝置

1201‧‧‧系統匯流排

1202‧‧‧處理器

1203‧‧‧儲存介質

1204‧‧‧記憶體

1205‧‧‧網路介面

12031‧‧‧作業系統

12032‧‧‧資料庫

12033‧‧‧第二視頻目標跟蹤裝置

310‧‧‧跟蹤模組

320‧‧‧檢測模組

330‧‧‧學習模組

410‧‧‧檢測模組

411‧‧‧圖像特徵提取單元

412‧‧‧身份匹配單元

413‧‧‧第一跟蹤目標確定單元

414‧‧‧第一推薦單元

415‧‧‧第二推薦單元

416‧‧‧第二跟蹤目標確定單元

420‧‧‧人臉特徵提取模組

430‧‧‧跟蹤模組

440‧‧‧學習模組

450‧‧‧特徵身份處理模組

510‧‧‧處理器

520‧‧‧記憶體

521‧‧‧檢測模組

522‧‧‧人臉特徵提取模組

523‧‧‧跟蹤模組

524‧‧‧學習模組

525‧‧‧特徵身份處理模組

530‧‧‧介面

AdaBoost‧‧‧疊代演算法

conv‧‧‧卷積層

FC‧‧‧表示完全連接層

I(x,y,t)‧‧‧圖元

(dx,dy)‧‧‧距離

dt‧‧‧時間

LRN‧‧‧區域響應歸一化層

max pool‧‧‧最大池化層

NPD‧‧‧歸一化的圖元差異特徵

ROM‧‧‧唯讀儲存記憶體

RAM‧‧‧隨機儲存記憶體

S210、S220、S230‧‧‧步驟

S231、S232、S233、S234、S235、S236、S237‧‧‧步驟

TLD‧‧‧單目標長時間跟蹤

VGG‧‧‧視覺化幾何群

VGG-S‧‧‧人臉特徵提取演算法

為了更清楚地說明本發明實施例中的技術方案，下面將對實施例描述中所需要使用的附圖作簡單地介紹：圖1為本申請一個實施例中視頻目標跟蹤方法的應用環境圖；圖2為本申請一個實施例中圖1中終端的內部結構圖；圖3為本申請一個實施例中圖1中伺服器的內部結構圖；圖4為本申請一個實施例中視頻目標跟蹤方法的流程圖；圖5為本申請一個實施例中得到當前待跟蹤目標的流程圖；圖6為本申請一個實施例中更新特徵庫的流程圖；圖7為本申請一個實施例中視頻目標跟蹤演算法與範本匹配演算法匹配對比示意圖；圖8為本申請一個實施例中得到當前待跟蹤目標的另一流程圖；圖9為本申請一個實施例中視頻目標跟蹤方法對應的目標跟蹤系統示意圖；圖10為本申請一個實施例中視頻目標跟蹤演算法得到的視頻跟蹤結果示意圖；圖11為本申請一個實施例中TLD跟蹤演算法得到的視頻跟蹤結果示意圖；圖12為本申請一個實施例中視頻目標跟蹤裝置的結構示意圖；圖13為本申請一個實施例中視頻目標跟蹤裝置的另一結構示意圖；圖14為本申請一個實施例中視頻目標跟蹤裝置的另一結構示意圖；圖15為本申請一個實施例中視頻目標跟蹤裝置的另一結構示意圖；圖16為本申請一個實施例中視頻目標跟蹤裝置的另一結構示意圖。

請參照圖式，其中相同的元件符號代表相同的元件或是相似的元件，本發明的原理是以實施在適當的運算環境中來舉例說明。以下的說明是基於所例示的本發明具體實施例，其不應被視為限制本發明未在此詳述的其它具體實施例。

圖1為本申請一個實施例中視頻目標跟蹤方法運行的應用環境圖。如圖1所示，該應用環境包括終端110、伺服器120、以及視頻採集裝置130，其中，終端110、伺服器120、視頻採集裝置130通過網路140進行通信。

在本申請一些實施例中，終端110可為智慧手機、平板電腦、筆記型電腦、臺式電腦等，但並不局限於此。視頻採集裝置130可為攝像頭，佈置在建築物入口處等位置。網路140可以是有線網路也可以是無線網路。在本申請一些實施例中，視頻採集裝置130可將採集的視頻流發送至終端110或伺服器120，終端110或伺服器120可對視頻流進行目標跟蹤。在本申請另一些實施例中，視頻採集裝置130也可直接對視頻流進行目標跟蹤，並將跟蹤結果發送至終端110進行顯示。

在本申請一個實施例中，圖1中的終端110的內部結構如圖2所示，該終端110包括通過系統匯流排1101連接的處理器1102、圖形處理單元1103、儲存介質1104、記憶體1105、網路介面1106、顯示螢幕1107和輸入裝置1108。其中，終端110的儲存介質1104儲存有作業系統11041以及第一視頻目標跟蹤裝置11042，該裝置11042用於實現一種適用於終端110的視頻目標跟蹤方法。處理器1102用於提供計算和控制能力，支撐整個終端110的運行。終端110中的圖形處理單元1103用於至少提供顯示介面的繪製能力。記憶體1105為儲存介質1104中的第一視頻目標跟蹤裝置11042的運行提供環境。網路介面1106用於與視頻採集裝置130進行網路通信，如接收視頻採集裝置130採集的視頻流等。顯示螢幕1107用於顯示跟蹤結果等。輸入裝置1108用於接收使用者輸入的命令或資料等。對於帶觸控式的終端110，顯示螢幕1107和輸入裝置1108可為觸控式。圖2中示出的結構，僅僅是與本申請方案相關的部分結構的框圖，並不構成對本申請方案所應用於其上的終端110的限定，具體的終端110可以包括比圖2中所示更多或更少的部件，或者組合某些部件，或者具有不同的部件佈置。

在本申請一個實施例中，圖1中伺服器120的內部結構如圖3 所示，該伺服器120包括通過系統匯流排1201連接的處理器1202、儲存介質1203、記憶體1204和網路介面1205。其中，該伺服器120的儲存介質1203儲存有作業系統12031、資料庫12032、第二視頻目標跟蹤裝置12033。資料庫12032用於儲存資料。第二視頻目標跟蹤裝置12033用於實現一種適用於伺服器120的視頻目標跟蹤方法。該伺服器120的處理器1202用於提供計算和控制能力，支撐整個伺服器120的運行。該伺服器120的記憶體1204為儲存介質1203中的第二視頻目標跟蹤裝置12033的運行提供環境。該伺服器120的網路介面1205用於與外部的視頻採集裝置130通過網路連接通信，比如接收視頻採集裝置130發送的視頻流等。

如圖4所示，在本申請一個實施例中，提供了一種視頻目標跟蹤方法，其應用于上述應用環境中的終端110、伺服器120或視頻採集裝置130，該方法可由本申請任一實施例提供的視頻目標跟蹤裝置執行，包括如下步驟：

步驟S210，獲取視頻流，根據人臉檢測演算法識別人臉區域，得到第一視頻幀對應的第一待跟蹤目標。

具體的，視頻流可由分佈在建築物入口處的視頻採集裝置採集得到。如果視頻目標跟蹤方法應用於視頻採集裝置，則可直接從視頻採集裝置的記憶體中獲得到視頻流。如果視頻目標跟蹤方法應用於終端或伺服器，則視頻採集裝置可即時將採集到的視頻流發送至終端或伺服器。

人臉檢測是指對於任意一幅給定的圖像，採用一定的策略對其進行搜索以確定其中是否含有人臉，如果是，則返回人臉的位置、大小和姿態。在本申請一些實施例中，可通過推薦框的方式顯示人臉區域(如圖10中所示的矩形框)，得到第一視頻幀對應的第一待跟蹤目標。通過不斷地對視頻流進行人臉檢測，直到檢測到有人臉出現，將人臉區域確定為第一待跟蹤目標。由於一幀中可能檢測到多個人臉，故第一待跟蹤目標可能為多個。如果有多個第一待跟蹤目標，則可通過不同的標識資訊標識不同的人臉區域，如通過不同顏色的推薦框標識不同的人臉區域。人臉檢測演算法可根據需要自訂，如採用NPD(Normalized Pixel Difference，歸一化的圖元差異特徵)人臉檢測演算法，或將NPD人臉檢測演算法與其它演算法結合以提高確定待跟蹤目標的準確性。

步驟S220，對第一待跟蹤目標通過基於深度神經網路的人臉特徵提取得到第一人臉特徵，並將所述第一人臉特徵存入第一待跟蹤目標對應的特徵庫。

具體的，深度神經網路是一種深度學習下的機器學習模型。深度學習是機器學習的分支，是使用包含複雜結構或由多重非線性變換構成的多個處理層對資料進行高層抽象的演算法。深度神經網路可採用視覺化幾何群(VGG,Visual Geometry Group)網路結構，通過VGG網路結構比通過特徵匹配演算法進行區分目標的召回率和準確率高。

為第一待跟蹤目標分配一個目標標識並建立特徵庫，為所述目標標識和特徵庫建立關聯關係並保存所述關聯關係。當第一待跟蹤目標為多個時，可為每個第一待跟蹤目標分配目標標識並建立特徵庫，為每個第一待跟蹤目標和其對應的第一人臉特徵建立關聯關係，將所述關聯關係以及第一人臉特徵儲存至該第一待跟蹤目標對應的特徵庫。通過引用人臉特徵進行特徵匹配，可解決目標跟蹤演算法由於沒有較好地利用人臉特徵，故而頻繁出現跟錯、跟偏和跟丟後無法重新正確找回跟蹤目標的問題。

步驟S230，在當前視頻幀根據人臉檢測演算法識別人臉區域，得到當前視頻幀對應的當前待跟蹤目標，對當前待跟蹤目標通過基於深度神經網路的人臉特徵提取得到第二人臉特徵，根據第二人臉特徵和特徵庫將當前待跟蹤目標與第一待跟蹤目標進行特徵匹配，以從第一視頻幀開始跟蹤第一待跟蹤目標，在跟蹤過程中根據提取的更新的人臉特徵更新特徵庫。

具體的，將第二人臉特徵與特徵庫中第一待跟蹤目標對應的各個第一人臉特徵進行特徵匹配。特徵匹配的具體演算法可自訂，如可直接計算人臉特徵對應的向量的歐式距離，根據歐式距離判斷是否能匹配成功。如果第二人臉特徵與第一人臉特徵匹配成功，則確定當前待跟蹤目標為第一待跟蹤目標的連續運動目標。如果當前待跟蹤目標有多個，則每個當前待跟蹤目標群組成當前待跟蹤目標集合，將當前待跟蹤目標集合中的各個當前待跟蹤目標對應的第二人臉特徵分別與特徵庫中各個歷史待跟蹤目標對應的人臉特徵進行匹配，如果匹配成功，則將歷史待跟蹤目標的目標標識作為當前待跟蹤目標的目標標識，當前待跟蹤目標的位置為歷史待跟蹤目標運動後的位置。

在本申請一些實施例中，可在跟蹤過程中根據提取的更新的人臉特徵更新特徵庫，如在光照連續變化或側臉時，會得到第一待跟蹤目標在其它幀的更新的人臉特徵，如果該更新的人臉特徵與第一人臉特徵存在差異，可將存在差異的更新的人臉特徵加入第一待跟蹤目標對應的特徵庫，並為該更新的人臉特徵與第一待跟蹤目標的目標標識建立關聯關係，並將所述關聯關係儲存在特徵庫中，從而在第一待跟蹤目標在其它幀中存在更大角度的側臉或更大光強的光線變化時，可將當前待跟蹤目標對應的第二人臉特徵與第一待跟蹤目標的更新的人臉特徵進行特徵匹配，比直接與第一人臉特徵進行特徵匹配時的差異小，從而加大特徵匹配成功的概率，減小目標跟蹤過程對跟蹤目標的變化、傾斜、遮蓋、光照變化的敏感度，提高跟蹤的連續性和穩健(robust)性。且通過特徵庫可保存大量第一待跟蹤目標在不同幀對應的人臉特徵，在第一待跟蹤目標消失後又出現的情況下，可利用第一待跟蹤目標對應的特徵庫中之前已保存的第一待跟蹤目標消失前的人臉特徵進行特徵匹配，從而對間斷出現的目標達到良好的跟蹤效果。更新特徵庫是通過跟蹤和檢測來更新一個正負樣本庫，相當於一個半線上的跟蹤演算法，相比于完全離線的跟蹤演算法有更好的召回率，相比于完全線上的跟蹤演算法則能表現出更高的準確率。

在本申請實施例中，通過獲取視頻流，根據人臉檢測演算法識別人臉區域，得到第一視頻幀對應的第一待跟蹤目標，對第一待跟蹤目標通過基於深度神經網路的人臉特徵提取得到第一人臉特徵，將所述第一人臉特徵加入特徵庫，在當前視頻幀根據人臉檢測演算法識別人臉區域，得到當前視頻幀對應的當前待跟蹤目標，對當前待跟蹤目標通過基於深度神經網路的人臉特徵提取得到第二人臉特徵，根據第二人臉特徵和所述特徵庫將當前待跟蹤目標與第一待跟蹤目標進行特徵匹配，以從第一視頻幀開始跟蹤第一待跟蹤目標，在跟蹤過程中根據提取的更新的人臉特徵更新特徵庫，通過引用基於深度神經網路的人臉特徵進行特徵匹配，可解決目標跟蹤演算法由於沒有較好地利用人臉特徵，頻繁出現跟錯、跟偏和跟丟後無法重新正確找回跟蹤目標的問題，從而節省了終端或伺服器設備的資源，提升了終端或伺服器的處理器的處理速度。同時，特徵庫在跟蹤過程中不斷更新，可保存待跟蹤目標在不同狀態下對應的不同人臉特徵，從而提高人臉特徵匹配的成功率，減小目標跟蹤過程對跟蹤目標的變化、傾斜、遮蓋、光照變化的敏感度，提高跟蹤的連續性和穩健(robust)性，進而提升了終端或伺服器的處理器的處理速度。

在本申請一個實施例中，上述方法還包括：根據每個待跟蹤目標的人臉狀態通過人臉識別演算法識別得到每個待跟蹤目標對應的人臉身份資訊，通過圖像特徵提取演算法得到人臉身份資訊對應的目標特徵。

在本申請一些實施例中，人臉狀態是指人臉的偏轉角度狀態。當檢測到人臉為正臉時，可通過人臉識別演算法識別得到對應的人臉身份資訊。人臉身份資訊用於描述人臉對應的身份。人臉識別是指將提取的人臉圖像的特徵資料與資料庫中儲存的特徵範本比如人臉特徵範本進行搜索匹配，根據相似程度確定人臉身份資訊。如在對進入企業的員工進行人臉識別時，在資料庫中提前儲存了企業中各個員工的特徵範本，例如人臉特徵範本，從而通過將當前提取的人臉圖像的特徵資料與資料庫中儲存的人臉特徵範本比對得到員工的人臉身份資訊。人臉身份資訊的具體內容可根據需要自訂，如員工名字、工號、所屬部門等。

圖像特徵提取演算法是根據圖像本身的特徵，如顏色特徵、紋理特徵、形狀特徵、空間關係特徵等提取特徵資料，得到目標特徵，其中，所述目標特徵是提取得到的所有特徵資料的集合。為目標特徵與人臉身份資訊建立關聯關係，如衣服顏色、衣服紋理、人體形狀，身高比例等特徵，並將關聯關係儲存在資料庫中。這樣，當人臉存在偏轉、遮蓋時，可通過其它的目標特徵進行身份的識別和確定人臉區域。在本申請一個實施例中，如圖5所示，步驟S230中在當前視頻幀根據人臉檢測演算法識別人臉區域，得到當前視頻幀對應的當前待跟蹤目標的步驟包括：

步驟S231，判斷當前視頻幀根據人臉檢測演算法是否識別到人臉區域，如果沒有識別到人臉區域，則根據圖像特徵提取演算法獲取當前視頻幀對應的當前圖像特徵。

具體的，如果根據人臉檢測演算法在當前視頻幀中沒有識別到人臉區域，也有可能是由於人臉偏側導致檢測失敗，此時需要根據圖像特徵提取演算法獲取當前視頻幀對應的當前圖像特徵。

步驟S232，將當前圖像特徵與目標特徵對比得到匹配的目標人臉身份資訊，根據目標人臉身份資訊得到當前視頻幀對應的當前待跟蹤目標。

具體的，由於之前已經將目標特徵與人臉身份資訊關聯，此時可將當前圖像特徵與目標特徵對比，計算相似度，如果相似度超過閾值，則匹配成功，可獲取匹配的目標特徵對應的目標人臉身份資訊，從而根據目標人臉身份資訊得到當前視頻幀對應的當前待跟蹤目標。然後，通過人臉身份資訊將當前待跟蹤目標與第一待跟蹤目標進行匹配，從而實現對第一待跟蹤目標的跟蹤。

本申請實施例中，將人臉身份資訊引入目標跟蹤，在人臉識別的同時結合圖像特徵，在人臉檢測演算法無法識別人臉區域時也能達到對目標的跟蹤，進一步提高跟蹤的連續性和穩健(robust)性。

在本申請一個實施例中，步驟S220可包括：獲取第一待跟蹤目標對應的第一人臉身份資訊，建立第一人臉身份資訊對應的第一人臉特徵集合，將第一人臉特徵加入所述第一人臉特徵集合並將所述第一人臉特徵集合儲存至第一待跟蹤目標對應的特徵庫。

具體的，可對第一待跟蹤目標進行人臉識別得到第一待跟蹤目標對應的第一人臉身份資訊。第一人臉特徵集合用於儲存第一待跟蹤目標在運動過程中不同狀態下的第一人臉特徵，不同狀態包括不同角度、不同光照、不同遮蓋範圍等。將人臉特徵提取後得到的第一人臉特徵加入第一人臉特徵集合，並為所述第一人臉特徵集合與第一人臉身份資訊建立關聯關係，將所述關聯關係以及第一人臉特徵集合儲存至第一待跟蹤目標對應的特徵庫。

在本申請一個實施例中，如圖6所示，步驟S230中在跟蹤過程中根據提取的更新的人臉特徵更新特徵庫的步驟可包括：

步驟S233，獲取當前待跟蹤目標對應的當前人臉身份資訊，從特徵庫獲取當前人臉身份資訊對應的第一人臉特徵集合。

具體的，在一個實施例中，可通過對當前待跟蹤目標進行人臉識別得到當前待跟蹤目標對應的當前人臉身份資訊。在另外一個實施例中，也可通過對當前待跟蹤目標應用圖像特徵提取演算法得到當前待跟蹤目標對應的當前圖像特徵，再將當前圖像特徵與目標特徵進行匹配，將匹配的目標特徵對應的人臉身份資訊作為當前人臉身份資訊，從而在當前待跟蹤目標無法識別到人臉區域時也能得到當前人臉身份資訊。根據人臉身份資訊與人臉特徵集合的關聯對應關係，得到當前人臉身份資訊對應的第一人臉特徵集合，表明當前待跟蹤目標與第一待跟蹤目標是同一目標。

步驟S234，計算第一人臉特徵集合中的第一人臉特徵與第二人臉特徵的差異量，如果差異量超過預設閾值，則在第一人臉特徵集合中增加第二人臉特徵。

具體的，可自訂演算法計算第二人臉特徵與第一人臉特徵集合中的第一人臉特徵的差異量。如果第一人臉特徵集合中的第一人臉特徵為多個，則分別計算第二人臉特徵與每個第一人臉特徵的差異量，得到多個差異量。差異量表明了第二人臉特徵與特徵庫中已經保存的同一跟蹤目標的人臉特徵之間的差異，差異越大表明跟蹤目標的人臉狀態變化越大。如果差異量超過預設閾值，則在第一人臉特徵集合中增加第二人臉特徵，增加的第二人臉特徵可用於後續進行的特徵匹配。在人臉特徵集合中儲存的人臉特徵越多，就越能表徵同一跟蹤目標在不同狀態下的特徵，只要其中任何一個特徵能在特徵匹配時匹配成功，就認為當前待跟蹤目標與第一待跟蹤目標的匹配成功，從而加大了匹配成功的概率，減小目標跟蹤過程對跟蹤目標的變化、傾斜、遮蓋、光照變化的敏感度，提高跟蹤的連續性和穩健(robust)性。

在本申請一個實施例中，步驟S220可包括：對第一待跟蹤目標通過深度神經網路進行人臉特徵提取得到第一特徵向量。

具體的，對深度神經網路進行訓練後得到人臉特徵提取模型，輸入第一待跟蹤目標對應的圖元值，則得到第一特徵向量，第一特徵向量的維度由人臉特徵提取模型決定。

步驟S230包括：對當前待跟蹤目標通過深度神經網路進行人臉特徵提取得到第二特徵向量，計算第一特徵向量與第二特徵向量的歐氏距離，如果歐氏距離小於預設閾值，則確定第一待跟蹤目標與當前待跟蹤目標特徵匹配成功。

具體的，輸入當前待跟蹤目標對應的圖元值至上述人臉特徵提取模型，則可得到第二特徵向量。第一特徵向量與第二特徵向量的歐氏距離代表了當前待跟蹤目標與第一待跟蹤目標的相似度。如果歐氏距離小於預設閾值，則確定當前待跟蹤目標與第一待跟蹤目標特徵匹配成功，表明當前待跟蹤目標與第一待跟蹤目標是同一目標，達到跟蹤目的。

在本申請一個實施例中，深度神經網路的網路結構可以為11層網路層，包括堆疊式的卷積神積網路和完全連接層，堆疊式的卷積神積網路由多個卷積層和maxpool層組成，具體網路結構為：conv3-64*2+LRN+max pool

conv3-128+max pool

conv3-256*2+max pool

conv3-512*2+max pool

FC2048

FC1024,其中conv3表示半徑為3的卷積層，LRN表示LRN層，”maxpool”表示最大池化層(max pool)，FC表示完全連接層。在本申請一個實施例中，LRN(Local Response Normalization)層定義為一區域響應歸一化層，其用於進行歸一化的處理。在本申請一個實施例中，最大池化層定義為圖案被不重疊的分割成若干個同樣大小的小塊(pooling size)，每個小塊內只取最大的數字，再捨棄其他節點後，保持原有的平面結構。

具體的，此網路結構為簡化的深度神經網路VGG網路結構，其中64*2表示2個64組，LRN層是一種幫助訓練的無參數層，FC2048表示輸出為2048維度向量的完全連接層，最後一個完全連接層FC1024的輸出為特徵提取得到的人臉特徵，是1024維向量。通過簡化的VGG網路結構得到的優化後的人臉特徵在測試集的隨機塊匹配上的表現遠優於TLD(Tracking-Learning-Detection，單目標長時間跟蹤)中的匹配模組的匹配表現，且大大提高了人臉特徵提取的效率，達到跟蹤演算法所要求的即時性。在本申請一個實施例中，可控制待跟蹤目標的解析度為112*112圖元，以減少計算複雜度。圖7為此VGG網路結構對應的人臉特徵提取演算法VGG-S與範本匹配演算法(match template)的匹配比對示意圖。如圖7所示，橫坐標代表召回率，縱坐標代表準確率，可見此VGG網路結構對應的人臉特徵提取演算法在進行特徵匹配時有更好的準確率，提高了目標跟蹤的正確率。

在本申請一個實施例中，步驟S230中在當前視頻幀根據人臉檢測演算法識別人臉區域，得到當前視頻幀對應的當前待跟蹤目標的步驟可包括：基於歸一化的圖元差異特徵和人體半身識別演算法在當前視頻幀中識別人臉區域，得到當前視頻幀對應的當前待跟蹤目標。

具體的，基於歸一化的圖元差異特徵(Normalized Pixel Difference，NPD)進行人臉檢測，將得到的返回值作為人臉區域推薦框，如可基於NPD特徵使用AdaBoost(疊代演算法)構造強分類器用以識別和區分人臉。人體半身識別演算法可根據需要定義，可進行上半身檢測，根據上半身檢測篩選人臉區域推薦框，可過濾掉部分識別錯誤的人臉區域推薦框，極大地提高了人臉區域檢測的召回率和準確率，提升了目標跟蹤的整體表現。

在本申請一個實施例中，如圖8所示，步驟S230中在當前視頻幀根據人臉檢測演算法識別人臉區域，得到當前視頻幀對應的當前待跟蹤目標的步驟可包括：

步驟S235，基於歸一化的圖元差異特徵識別人臉區域，在當前視頻幀得到第一推薦區域。

步驟S236，根據光流分析演算法計算得到所述第一待跟蹤目標在當前視頻幀對應的第二推薦區域。

具體的，光流分析演算法假設一個圖元I(x,y,t)在第一幀的光強度，它移動了(dx,dy)的距離到下一幀，用了dt時間。因為圖元點是一樣的，光強度也沒有發生變化。根據歷史第一待跟蹤目標的運動軌跡採用光流分析原理計算得到第一待跟蹤目標對應的向量速度模型，向向量速度模型輸入當前視頻幀和當前視頻幀的前一幀以及第一待跟蹤目標在前一幀的位置，可得到第一待跟蹤目標在當前視頻幀對應的第二推薦區域，即第一待跟蹤目標在當前視頻幀可能出現的位置。

步驟S237，根據第一推薦區域和第二推薦區域得到當前待跟蹤目標。

具體的，根據光流分析演算法得出的第二推薦區域為第一待跟蹤目標基於歷史運動速度可能運動至的區域，可根據第二推薦區域的位置排除與第二推薦區域位置距離超過預設範圍的第一推薦區域，從而得到當前待跟蹤目標。也可將第一推薦區域和第二推薦區域全部作為當前待跟蹤目標。如果第一待跟蹤目標為多個，則每個第一待跟蹤目標分別有對應的第二推薦區域。

本實施例中，將歸一化的圖元差異特徵與光流分析演算法結合得到當前待跟蹤目標，因為先驗資訊的加入使得後續進行特徵匹配時準確率提高。

在一個實施例中，步驟S237可包括：根據幀間相關性進行運動預測得到預期運動範圍，根據預期運動範圍篩選第一推薦區域和第二推薦區域得到當前待跟蹤目標。

具體的，幀間相關性利用歷史位置資訊和運動軌跡來預測目標在下一幀或數幀內的位置，相當於利用先驗資訊來調整NPD演算法的可信度。將預期運動範圍外的第一推薦區域和第二推薦區域過濾掉，得到當前待跟蹤目標，減少了後續計算特徵匹配的匹配數量，提高了匹配效率和準確率。

在本申請一個實施例中，視頻目標跟蹤方法可通過如圖9所示的三個模組完成視頻目標跟蹤，包括跟蹤模組310、檢測模組320、以及學習模組330。具體地，獲取視頻流，根據人臉檢測演算法識別人臉區域，得到第一視頻幀對應的第一待跟蹤目標，從第一待跟蹤目標所在的視頻幀開始跟蹤，跟蹤模組310對第一待跟蹤目標通過基於深度神經網路的人臉特徵提取得到第一人臉特徵，並將所述第一人臉特徵加入特徵庫，學習模組330根據跟蹤情況更新特徵庫，檢測模組320不斷從當前視頻幀中查找更好的當前待跟蹤目標，以防跟錯和跟丟，跟蹤模組310根據更新的特徵庫將當前待跟蹤目標和第一待跟蹤目標進行匹配，以跟蹤第一待跟蹤目標。

在本申請一個實施例中，採用上述視頻目標跟蹤方法得到的跟蹤區域示意圖可如圖10所示，採用TLD跟蹤演算法得到的跟蹤區域示意圖可如圖11所示。通過對比可以發現，在人臉偏側時，本申請實施例提出的視頻目標跟蹤方法的跟蹤區域比TLD跟蹤演算法的跟蹤區域更為精確，且TLD跟蹤演算法在人臉完全偏轉時會出現跟蹤失敗的現象，而本申請實施例提出的視頻目標跟蹤方法在人臉完全偏轉時仍然能夠跟蹤成功。正確率和召回率相比於TLD跟蹤演算法均有提升，具體資料如下：無人頭檢測版本：準確率提升5個百分點左右，錯誤率降低100%，目標跟蹤丟失率下降25%。

有人頭檢測版本：準確率提升1個百分點左右，錯誤率降低100%，目標跟蹤丟失率下降15%。

在性能方面，例如在640*480的解析度下，3.5G主頻的CPU和NvidiaGeforceGtx 775m顯示卡型號的機器，單幀處理時間在40ms左右，幀率在25FPS(幀/每秒)以上。

上述視頻目標跟蹤方法比傳統方法更精準，給後續的人員人流統計、身份識別和行為分析等需求提供了可能和便利，性能上的良好表現也滿足了線上處理的需求，提高了監控分析系統的準確性、拓展性和適用性，進而提高了硬體處理器的處理速度，提高了處理器的處理性能。

在本申請一個實施例中，如圖12所示，提供了一種視頻目標跟蹤裝置，該裝置可包括：檢測模組410，用於獲取視頻流，根據人臉檢測演算法識別人臉區域，得到第一視頻幀對應的第一待跟蹤目標。

人臉特徵提取模組420，用於對所述第一待跟蹤目標通過基於深度神經網路的人臉特徵提取得到第一人臉特徵，並將所述第一人臉特徵存入所述第一待跟蹤目標對應的特徵庫。

檢測模組410還用於在當前視頻幀根據人臉檢測演算法識別人臉區域，得到當前視頻幀對應的當前待跟蹤目標。

人臉特徵提取模組420還用於對當前待跟蹤目標通過基於深度神經網路的人臉特徵提取得到第二人臉特徵。

跟蹤模組430，用於根據第二人臉特徵和所述特徵庫將當前待跟蹤目標與第一待跟蹤目標進行特徵匹配，以從第一視頻幀開始跟蹤第一待跟蹤目標。

學習模組440，用於在跟蹤過程中根據提取的更新的人臉特徵更新所述特徵庫。

在本申請一個實施例中，如圖13所示，該裝置還包括：特徵身份處理模組450，用於根據待跟蹤目標的人臉狀態通過人臉識別演算法識別得到對應的人臉身份資訊，根據圖像特徵提取演算法得到人臉身份資訊對應的目標特徵，並為所述目標特徵和人臉身份資訊建立關聯關係。

檢測模組410可包括：圖像特徵提取單元411，用於判斷在當前視頻幀根據人臉檢測演算法是否識別到人臉區域，如果沒有識別到人臉區域，則根據圖像特徵提取演算法獲取當前視頻幀對應的當前圖像特徵。

身份匹配單元412，用於基於所述關聯關係，將當前圖像特徵與目標特徵對比得到匹配的目標人臉身份資訊。

第一跟蹤目標確定單元413，用於根據目標人臉身份資訊得到當前視頻幀對應的當前待跟蹤目標。

在本申請一個實施例中，人臉特徵提取模組420還用於獲取第一待跟蹤目標對應的第一人臉身份資訊，建立第一人臉身份資訊對應的第一人臉特徵集合，將第一人臉特徵加入第一人臉特徵集合並將所述第一人臉特徵集合儲存至所述特徵庫。

學習模組440還用於獲取當前待跟蹤目標對應的當前人臉身份資訊，從特徵庫獲取當前人臉身份資訊對應的第一人臉特徵集合，計算第一人臉特徵集合中的第一人臉特徵與第二人臉特徵的差異量，如果差異量超過預設閾值，則在第一人臉特徵集合中增加第二人臉特徵。

在本申請一個實施例中，檢測模組410還用於基於歸一化的圖元差異特徵和人體半身識別演算法在當前視頻幀中識別人臉區域，得到當前視頻幀對應的當前待跟蹤目標。

在本申請一個實施例中，如圖14所示，檢測模組410可包括：第一推薦單元414，用於基於歸一化的圖元差異特徵識別人臉區域，在當前視頻幀得到第一推薦區域。

第二推薦單元415，根據光流分析演算法計算得到第一待跟蹤目標在當前視頻幀對應的第二推薦區域。

第二跟蹤目標確定單元416，用於根據第一推薦區域和第二推薦區域得到當前待跟蹤目標。

在本申請一個實施例中，第二跟蹤目標確定單元416還用於根據幀間相關性進行運動預測得到預期運動範圍，根據預期運動範圍篩選第一推薦區域和第二推薦區域得到當前待跟蹤目標。

在本申請一個實施例中，深度神經網路的網路結構為11層網路層，包括堆疊式的卷積神積網路和完全連接層，堆疊式的卷積神積網路由多個卷積層和maxpool層組成，具體網路結構為：conv3-64*2+LRN+max pool

conv3-128+max pool

conv3-256*2+max pool

conv3-512*2+max pool

FC2048

FC1024,其中conv3表示半徑為3的卷積層，LRN表示LRN層，maxpool表示最大池化層，FC表示完全連接層。

在本申請一個實施例中，人臉特徵提取模組420還用於對第一待跟蹤目標通過深度神經網路進行人臉特徵提取得到第一特徵向量，對當前待跟蹤目標通過深度神經網路進行人臉特徵提取得到第二特徵向量。

跟蹤模組430還用於計算第一特徵向量與第二特徵向量的歐氏距離，如果所述歐氏距離小於預設閾值，則確定所述第一待跟蹤目標與當前待跟蹤目標特徵匹配成功。

圖15是本申請實施例提供的視頻目標跟蹤裝置的另一結構示意圖。如圖15所示，該視頻目標跟蹤裝置包括：處理器510，與所述處理器510相連接的記憶體520，以及用於發送和接收資料的介面530。所述記憶體520中儲存有可由所述處理器510執行的機器可讀指令模組，所述所述機器可讀指令模組包括：檢測模組521，用於獲取視頻流，根據人臉檢測演算法識別人臉區域，得到第一視頻幀對應的第一待跟蹤目標。

人臉特徵提取模組522，用於對所述第一待跟蹤目標通過基於深度神經網路的人臉特徵提取得到第一人臉特徵，並將所述第一人臉特徵存入所述第一待跟蹤目標對應的特徵庫。

檢測模組521還用於在當前視頻幀根據人臉檢測演算法識別人臉區域，得到當前視頻幀對應的當前待跟蹤目標。

人臉特徵提取模組522還用於對當前待跟蹤目標通過基於深度神經網路的人臉特徵提取得到第二人臉特徵。

跟蹤模組523，用於根據第二人臉特徵和所述特徵庫將當前待跟蹤目標與第一待跟蹤目標進行特徵匹配，以從第一視頻幀開始跟蹤第一待跟蹤目標。

學習模組524，用於在跟蹤過程中根據提取的更新的人臉特徵更新所述特徵庫。

在本申請一個實施例中，如圖16所示，所述機器可讀指令模組還可包括：特徵身份處理模組525，用於根據待跟蹤目標的人臉狀態通過人臉識別演算法識別得到對應的人臉身份資訊，根據圖像特徵提取演算法得到人臉身份資訊對應的目標特徵，並為所述目標特徵和人臉身份資訊建立關聯關係。

在本申請實施例中，上述檢測模組521、人臉特徵提取模組522、跟蹤模組523、學習模組524以及特徵身份處理模組525的具體功能和實現方式可參照前述的模組410至450的相關描述，在此不再贅述。

本領域普通技術人員可以理解實現上述實施例方法中的全部或部分流程，是可以通過電腦程式來指令相關的硬體來完成，所述程式可儲存于一非易失性電腦可讀取儲存介質中，如本申請實施例中，該程式可儲存於電腦系統的儲存介質中，並被該電腦系統中的至少一個處理器執行，以實現包括如上述各方法的實施例的流程。其中，所述儲存介質可為磁碟、光碟、唯讀儲存記憶體(Read-Only Memory，ROM)或隨機儲存記憶體(Random Access Memory，RAM)等。

通過以上的實施例的描述，本領域的技術人員可以清楚地瞭解到本申請實施例可借助軟體加必需的通用硬體平臺的方式來實現，即通過機器可讀指令來指令相關的硬體來實現，當然也可以通過硬體，但很多情況下前者是更佳的實施方式。基於這樣的理解，本申請實施例的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來，該電腦軟體產品儲存在一個儲存介質中，包括若干指令用以使得一台終端設備(例如是手機，個人電腦，伺服器，或者網路設備等)執行本申請各個實施例所述的方法。

以上所述實施例的各技術特徵可以進行任意的組合，為使描述簡潔，未對上述實施例中的各個技術特徵所有可能的組合都進行描述，然而，只要這些技術特徵的組合不存在矛盾，都應當認為是本說明書記載的範圍。

雖然本申請已用較佳實施例揭露如上，然其並非用以限定本申請，本申請所屬技術領域中具有通常知識者，在不脫離本申請之精神和範圍內，當可作各種之更動與潤飾，因此本申請之保護範圍當視後附之申請專利範圍所界定者為準。

Claims

一種視頻目標跟蹤方法，應用於終端或伺服器，所述方法包括：獲取視頻流，根據人臉檢測演算法識別人臉區域，得到第一視頻幀對應的第一待跟蹤目標；對所述第一待跟蹤目標通過基於深度神經網路的人臉特徵提取得到第一人臉特徵，並將所述第一人臉特徵存入所述第一待跟蹤目標對應的特徵庫；在當前視頻幀根據人臉檢測演算法識別人臉區域，得到當前視頻幀對應的當前待跟蹤目標，對所述當前待跟蹤目標通過基於深度神經網路的人臉特徵提取得到第二人臉特徵，根據所述第二人臉特徵和所述特徵庫將所述當前待跟蹤目標與第一待跟蹤目標進行特徵匹配，以從所述第一視頻幀開始跟蹤所述第一待跟蹤目標，在跟蹤過程中根據提取的更新的人臉特徵更新所述特徵庫，其中所述對所述第一待跟蹤目標通過基於深度神經網路的人臉特徵提取得到第一人臉特徵，並將所述第一人臉特徵存入所述第一待跟蹤目標對應的特徵庫的步驟包括：獲取第一待跟蹤目標對應的第一人臉身份資訊；建立所述第一人臉身份資訊對應的第一人臉特徵集合，將所述第一人臉特徵加入所述第一人臉特徵集合並將所述第一人臉特徵集合儲存至所述特徵庫；所述在跟蹤過程中根據提取的更新的人臉特徵更新所述特徵庫的步驟包括：獲取當前待跟蹤目標對應的當前人臉身份資訊；從所述特徵庫獲取所述當前人臉身份資訊對應的第一人臉特徵集合；計算所述第一人臉特徵集合中的第一人臉特徵與所述第二人臉特徵的差異量，如果所述差異量超過預設閾值，則在所述第一人臉特徵集合中增加所述第二人臉特徵。
如申請專利範圍第1項所述之方法，所述方法還包括：根據待跟蹤目標的人臉狀態通過人臉識別演算法識別得到對應的人臉身份資訊，根據圖像特徵提取演算法得到所述人臉身份資訊對應的目標特徵，並為所述目標特徵和人臉身份資訊建立關聯關係；所述在當前視頻幀根據人臉檢測演算法識別人臉區域，得到當前視頻幀對應的當前待跟蹤目標的步驟包括：判斷在當前視頻幀根據人臉檢測演算法是否識別到人臉區域，如果沒有識別到人臉區域，則根據圖像特徵提取演算法獲取當前視頻幀對應的當前圖像特徵；基於所述關聯關係，將所述當前圖像特徵與所述目標特徵對比得到匹配的目標人臉身份資訊；根據所述目標人臉身份資訊得到當前視頻幀對應的當前待跟蹤目標。
如申請專利範圍第1項所述之方法，所述在當前視頻幀根據人臉檢測演算法識別人臉區域，得到當前視頻幀對應的當前待跟蹤目標的步驟包括：基於歸一化的圖元差異特徵和人體半身識別演算法在當前視頻幀中識別人臉區域，得到當前視頻幀對應的當前待跟蹤目標。
如申請專利範圍第1項所述之方法，所述在當前視頻幀根據人臉檢測演算法識別人臉區域，得到當前視頻幀對應的當前待跟蹤目標的步驟包括：基於歸一化的圖元差異特徵識別人臉區域，在當前視頻幀得到第一推薦區域；根據光流分析演算法計算得到所述第一待跟蹤目標在當前視頻幀對應的第二推薦區域；根據所述第一推薦區域和所述第二推薦區域得到所述當前待跟蹤目標。
如申請專利範圍第4項所述之方法，所述根據所述第一推薦區域和所述第二推薦區域得到所述當前待跟蹤目標的步驟包括：根據幀間相關性進行運動預測得到預期運動範圍，根據所述預期運動範圍篩選所述第一推薦區域和所述第二推薦區域得到所述當前待跟蹤目標。
如申請專利範圍第1至5任一項所述之方法，所述深度神經網路的網路結構為11層網路層，包括堆疊式的卷積神積網路和完全連接層，所述堆疊式的卷積神積網路由多個卷積層和maxpool層組成，具體網路結構為：conv3-64*2+LRN+max pool conv3-128+max pool conv3-256*2+max pool conv3-512*2+max pool conv3-512*2+max pool FC2048 FC1024，其中conv3表示半徑為3的卷積層，LRN表示LRN層，max pool表示maxpool層，FC表示完全連接層。
如申請專利範圍第1至5任一項所述之方法，所述對所述第一待跟蹤目標通過基於深度神經網路的人臉特徵提取得到第一人臉特徵，並將所述第一人臉特徵存入所述第一待跟蹤目標對應的特徵庫的步驟包括：對所述第一待跟蹤目標通過深度神經網路進行人臉特徵提取得到第一特徵向量；所述對所述當前待跟蹤目標通過基於深度神經網路的人臉特徵提取得到第二人臉特徵，根據所述第二人臉特徵和所述特徵庫將所述當前待跟蹤目標與第一待跟蹤目標進行特徵匹配，以從所述第一視頻幀開始跟蹤所述第一待跟蹤目標的步驟包括：對所述當前待跟蹤目標通過深度神經網路進行人臉特徵提取得到第二特徵向量；計算所述第一特徵向量與第二特徵向量的歐氏距離，如果所述歐氏距離小於預設閾值，則確定所述第一待跟蹤目標與當前待跟蹤目標特徵匹配成功。
一種視頻目標跟蹤裝置，所述裝置包括：處理器以及與所述處理器相連接的記憶體，所述記憶體中儲存有可由所述處理器執行的機器可讀指令模組；所述機器可讀指令模組包括：檢測模組，用於獲取視頻流，根據人臉檢測演算法識別人臉區域，得到第一視頻幀對應的第一待跟蹤目標；人臉特徵提取模組，用於對所述第一待跟蹤目標通過基於深度神經網路的人臉特徵提取得到第一人臉特徵，並將所述第一人臉特徵存入所述第一待跟蹤目標對應的特徵庫；所述檢測模組還用於在當前視頻幀根據人臉檢測演算法識別人臉區域，得到當前視頻幀對應的當前待跟蹤目標；所述人臉特徵提取模組還用於對所述當前待跟蹤目標通過基於深度神經網路的人臉特徵提取得到第二人臉特徵；跟蹤模組，用於根據所述第二人臉特徵和所述特徵庫將所述當前待跟蹤目標與第一待跟蹤目標進行特徵匹配，以從所述第一視頻幀開始跟蹤所述第一待跟蹤目標；學習模組，用於在跟蹤過程中根據提取的更新的人臉特徵更新所述特徵庫，其中所述人臉特徵提取模組還用於獲取第一待跟蹤目標對應的第一人臉身份資訊，建立所述第一人臉身份資訊對應的第一人臉特徵集合，將所述第一人臉特徵加入所述第一人臉特徵集合並將所述第一人臉特徵集合儲存至所述特徵庫；所述學習模組還用於獲取當前待跟蹤目標對應的當前人臉身份資訊，從所述特徵庫獲取所述當前人臉身份資訊對應的第一人臉特徵集合，計算所述第一人臉特徵集合中的第一人臉特徵與所述第二人臉特徵的差異量，如果所述差異量超過預設閾值，則在所述第一人臉特徵集合中增加所述第二人臉特徵。
如申請專利範圍第8項所述之裝置，所述裝置還包括：特徵身份處理模組，用於根據待跟蹤目標的人臉狀態通過人臉識別演算法識別得到對應的人臉身份資訊，根據圖像特徵提取演算法得到所述人臉身份資訊對應的目標特徵，並為所述目標特徵和人臉身份資訊建立關聯關係；所述檢測模組包括：圖像特徵提取單元，用於判斷在當前視頻幀根據人臉檢測演算法是否識別到人臉區域，如果沒有識別到人臉區域，則根據圖像特徵提取演算法獲取當前視頻幀對應的當前圖像特徵；身份匹配單元，用於基於所述關聯關係，將所述當前圖像特徵與所述目標特徵對比得到匹配的目標人臉身份資訊；第一跟蹤目標確定單元，用於根據所述目標人臉身份資訊得到當前視頻幀對應的當前待跟蹤目標。
如申請專利範圍第8項所述之裝置，所述檢測模組還用於基於歸一化的圖元差異特徵和人體半身識別演算法在當前視頻幀中識別人臉區域，得到當前視頻幀對應的當前待跟蹤目標。
如申請專利範圍第8項所述之裝置，所述檢測模組包括：第一推薦單元，用於基於歸一化的圖元差異特徵識別人臉區域，在當前視頻幀得到第一推薦區域；第二推薦單元，根據光流分析演算法計算得到所述第一待跟蹤目標在當前視頻幀對應的第二推薦區域；第二跟蹤目標確定單元，用於根據所述第一推薦區域和所述第二推薦區域得到所述當前待跟蹤目標。
如申請專利範圍第11項所述之裝置，所述第二跟蹤目標確定單元還用於根據幀間相關性進行運動預測得到預期運動範圍，根據所述預期運動範圍篩選所述第一推薦區域和所述第二推薦區域得到所述當前待跟蹤目標。
如申請專利範圍第8至12任一項所述之裝置，所述人臉特徵提取模組還用於對所述第一待跟蹤目標通過深度神經網路進行人臉特徵提取得到第一特徵向量，對所述當前待跟蹤目標通過深度神經網路進行人臉特徵提取得到第二特徵向量；所述跟蹤模組還用於計算所述第一特徵向量與第二特徵向量的歐氏距離，如果所述歐氏距離小於預設閾值，則確定所述第一待跟蹤目標與當前待跟蹤目標特徵匹配成功。
一種非易失性電腦可讀儲存介質，所述儲存介質中儲存有機器可讀指令，所述機器可讀指令可以由處理器執行以完成以下操作：獲取視頻流，根據人臉檢測演算法識別人臉區域，得到第一視頻幀對應的第一待跟蹤目標；對所述第一待跟蹤目標通過基於深度神經網路的人臉特徵提取得到第一人臉特徵，並將所述第一人臉特徵存入所述第一待跟蹤目標對應的特徵庫；在當前視頻幀根據人臉檢測演算法識別人臉區域，得到當前視頻幀對應的當前待跟蹤目標，對所述當前待跟蹤目標通過基於深度神經網路的人臉特徵提取得到第二人臉特徵，根據所述第二人臉特徵和所述特徵庫將所述當前待跟蹤目標與第一待跟蹤目標進行特徵匹配，以從所述第一視頻幀開始跟蹤所述第一待跟蹤目標，在跟蹤過程中根據提取的更新的人臉特徵更新所述特徵庫，其中所述對所述第一待跟蹤目標通過基於深度神經網路的人臉特徵提取得到第一人臉特徵，並將所述第一人臉特徵存入所述第一待跟蹤目標對應的特徵庫的步驟包括：獲取第一待跟蹤目標對應的第一人臉身份資訊；建立所述第一人臉身份資訊對應的第一人臉特徵集合，將所述第一人臉特徵加入所述第一人臉特徵集合並將所述第一人臉特徵集合儲存至所述特徵庫；所述在跟蹤過程中根據提取的更新的人臉特徵更新所述特徵庫的步驟包括：獲取當前待跟蹤目標對應的當前人臉身份資訊；從所述特徵庫獲取所述當前人臉身份資訊對應的第一人臉特徵集合；計算所述第一人臉特徵集合中的第一人臉特徵與所述第二人臉特徵的差異量，如果所述差異量超過預設閾值，則在所述第一人臉特徵集合中增加所述第二人臉特徵。
如申請專利範圍第14項所述之非易失性電腦可讀儲存介質，所述機器可讀指令可以由所述處理器執行以完成以下操作：根據待跟蹤目標的人臉狀態通過人臉識別演算法識別得到對應的人臉身份資訊，根據圖像特徵提取演算法得到所述人臉身份資訊對應的目標特徵，並為所述目標特徵和人臉身份資訊建立關聯關係；所述在當前視頻幀根據人臉檢測演算法識別人臉區域，得到當前視頻幀對應的當前待跟蹤目標的步驟包括：判斷在當前視頻幀根據人臉檢測演算法是否識別到人臉區域，如果沒有識別到人臉區域，則根據圖像特徵提取演算法獲取當前視頻幀對應的當前圖像特徵；基於所述關聯關係，將所述當前圖像特徵與所述目標特徵對比得到匹配的目標人臉身份資訊；根據所述目標人臉身份資訊得到當前視頻幀對應的當前待跟蹤目標。
如申請專利範圍第14項所述之非易失性電腦可讀儲存介質，所述在當前視頻幀根據人臉檢測演算法識別人臉區域，得到當前視頻幀對應的當前待跟蹤目標的步驟包括：基於歸一化的圖元差異特徵和人體半身識別演算法在當前視頻幀中識別人臉區域，得到當前視頻幀對應的當前待跟蹤目標。
如申請專利範圍第14項所述之非易失性電腦可讀儲存介質，所述在當前視頻幀根據人臉檢測演算法識別人臉區域，得到當前視頻幀對應的當前待跟蹤目標的步驟包括：基於歸一化的圖元差異特徵識別人臉區域，在當前視頻幀得到第一推薦區域；根據光流分析演算法計算得到所述第一待跟蹤目標在當前視頻幀對應的第二推薦區域；根據所述第一推薦區域和所述第二推薦區域得到所述當前待跟蹤目標。
如申請專利範圍第17項所述之非易失性電腦可讀儲存介質，所述根據所述第一推薦區域和所述第二推薦區域得到所述當前待跟蹤目標的步驟包括：根據幀間相關性進行運動預測得到預期運動範圍，根據所述預期運動範圍篩選所述第一推薦區域和所述第二推薦區域得到所述當前待跟蹤目標。
如申請專利範圍第14至18任一項所述之非易失性電腦可讀儲存介質，所述對所述第一待跟蹤目標通過基於深度神經網路的人臉特徵提取得到第一人臉特徵，並將所述第一人臉特徵存入所述第一待跟蹤目標對應的特徵庫的步驟包括：對所述第一待跟蹤目標通過深度神經網路進行人臉特徵提取得到第一特徵向量；所述對所述當前待跟蹤目標通過基於深度神經網路的人臉特徵提取得到第二人臉特徵，根據所述第二人臉特徵和所述特徵庫將所述當前待跟蹤目標與第一待跟蹤目標進行特徵匹配，以從所述第一視頻幀開始跟蹤所述第一待跟蹤目標的步驟包括：對所述當前待跟蹤目標通過深度神經網路進行人臉特徵提取得到第二特徵向量；計算所述第一特徵向量與第二特徵向量的歐氏距離，如果所述歐氏距離小於預設閾值，則確定所述第一待跟蹤目標與當前待跟蹤目標特徵匹配成功。