TW202240471A

TW202240471A - 目標檢測方法、裝置、設備及儲存媒體

Info

Publication number: TW202240471A
Application number: TW111110818A
Authority: TW
Inventors: 韓志偉; 劉詩男; 楊昆霖; 侯軍; 伊帥
Original assignee: 大陸商北京市商湯科技開發有限公司
Priority date: 2021-03-31
Filing date: 2022-03-23
Publication date: 2022-10-16
Also published as: CN113011371A; WO2022205632A1

Abstract

本公開涉及一種目標檢測方法、裝置、設備及儲存媒體，所述目標檢測方法包括：獲取第一影像中的至少一個像素點相對前一幀影像中的對應像素點的位置變化資訊，其中，所述第一影像為待檢測視頻中的一幀影像；獲取所述第一影像的影像特徵作為第一特徵；基於所述位置變化資訊獲取第二特徵；基於所述第二特徵對所述第一特徵進行增強處理，生成融合特徵；根據所述融合特徵確定所述第一影像中目標對象的檢測結果。

Description

目標檢測方法、裝置、設備及儲存媒體

本公開涉及影像處理技術領域，尤其涉及一種目標檢測方法、裝置、設備及儲存媒體。

隨著人工智慧技術的發展，影像中的目標可以自動檢測，降低了人工成本，提高了效率和準確率。

本公開提供一種目標檢測方法和裝置、設備及儲存媒體，以解決相關技術中的不足。

根據本公開實施例的第一方面，提供一種目標檢測方法，包括：獲取第一影像中的至少一個像素點相對前一幀影像中的對應像素點的位置變化資訊，所述第一影像為待檢測視頻中的一幀影像；獲取所述第一影像的影像特徵作為第一特徵；基於所述位置變化資訊獲取第二特徵；基於所述第二特徵對所述第一特徵進行增強處理，生成融合特徵；根據所述融合特徵確定所述第一影像中目標對象的檢測結果。

根據本公開實施例的第二方面，提供一種目標檢測裝置，包括：第一獲取模組，用於獲取第一影像中的至少一個像素點相對前一幀影像中的對應像素點的位置變化資訊，所述第一影像為待檢測視頻中的一幀影像；第二獲取模組，用於獲取所述第一影像的影像特徵作為第一特徵以及基於所述位置變化資訊獲取第二特徵；融合模組，用於基於所述第二特徵對所述第一特徵進行增強處理，生成融合特徵；檢測模組，用於根據所述融合特徵確定所述第一影像中目標對象的檢測結果。

根據本公開實施例的第三方面，提供一種電子設備，所述設備包括儲存器、處理器，所述儲存器用於儲存可在處理器上運行的計算機指令，所述處理器用於在執行所述計算機指令時實現第一方面所述的方法。

根據本公開實施例的第四方面，提供一種計算機可讀儲存媒體，其上儲存有計算機程式，所述程式被處理器執行時實現第一方面所述的方法。

應當理解的是，以上的一般描述和後文的細節描述僅是示範性和解釋性的，並不能限制本公開。

本申請主張申請號為202110352206.0、申請日為2021年3月31日的中國專利申請提出，並要求該中國專利申請的優先權，該中國專利申請的全部內容在此引入本申請作為參考。

這裡將詳細地對示範性實施例進行說明，其範例表示在附圖中。下面的描述涉及附圖時，除非另有表示，不同附圖中的相同數字表示相同或相似的要素。以下示範性實施例中所描述的實施方式並不代表與本公開相一致的所有實施方式。相反，它們僅是與如所附申請專利範圍中所詳述的、本公開的一些方面相一致的裝置和方法的例子。

在本公開使用的術語是僅僅出於描述特定實施例的目的，而非旨在限制本公開。在本公開和所附申請專利範圍中所使用的單數形式的“一種”、“所述”和“該”也旨在包括多數形式，除非上下文清楚地表示其他含義。還應當理解，本文中使用的術語“和/或”是指並包含一個或多個相關聯的列出項目的任何或所有可能組合。

應當理解，儘管在本公開可能採用術語第一、第二、第三等來描述各種資訊，但這些資訊不應限於這些術語。這些術語僅用來將同一類型的資訊彼此區分開。例如，在不脫離本公開範圍的情況下，第一資訊也可以被稱為第二資訊，類似地，第二資訊也可以被稱為第一資訊。取決於語境，如在此所使用的詞語“如果”可以被解釋成為“在……時”或“當……時”或“響應於確定”。

隨著人工智慧技術的發展，影像中的目標可以自動檢測，降低了人工成本，提高了效率和準確率。相關技術中，針對視頻的影像幀進行檢測時，與普通影像的目標檢測完全一致，然而其未對視頻的特徵進行充分利用，導致檢測結果不準確。

基於此，本公開實施例的第一方面提供了一種目標檢測方法，請參照附圖1，其示出了該方法的流程，包括步驟S101至步驟S104。

其中，該目標檢測方法所針對的待檢測對象可以是影像，也可以是視頻。當待檢測對象是視頻時，可以批量處理視頻的每幀影像，或依次處理視頻的每幀影像。為方便描述，本實施例以視頻的某一幀影像作為待檢測對象進行描述。目標檢測的目的是對待檢測對象中的目標對象進行檢測，以獲得檢測結果，檢測結果可以表示目標對象一方面或多方面的資訊（例如，目標對象的位置、數量、密度等資訊）。

在步驟S101中，獲取第一影像中的至少一個像素點相對前一幀影像中的對應像素點的位置變化資訊，所述第一影像為待檢測視頻中的一幀影像。其中，所述第一影像中的至少一個像素點與所述前一幀影像中的對應像素點對應於同一對象。

其中，待檢測視頻可以為針對特定的空間錄製的視頻，該空間內包含目標對象，同時還可以包含其他對象。第一影像和其前一幀影像可如圖2所示，第一影像可以為待檢測視頻中的第二幀影像之後（包括第二幀影像）的任意一幀影像，因為第一幀影像可能會沒有前一幀影像。

在一個範例中，待檢測視頻可以為監控視頻或無人機視頻，也就是說，待檢測視頻可以為固定的監控攝像頭拍攝的視頻，或是通過飛行的無人機拍攝的視頻。例如，圖2中所示出的第一影像和其前一幀影像所屬的待檢測視頻就是通過無人機拍攝的街景視頻。監控視頻中的包含人群等目標對象的圖塊往往尺寸較大，對於人群等目標對象的檢測任務（例如計數人物）較為簡單；無人機視頻中的包含人群等目標對象的圖塊往往尺寸很小，依靠人工觀察進行檢測容易發生錯誤，使用本實施例提供的檢測方法能夠避免上述錯誤。

在一個範例中，目標對象可以為下述至少一種：人物、車輛和動物。

其中，兩幀影像對應於同一對象的對應像素點之間的位置變化，可能由於待檢測視頻對應的空間中的對象的客觀移動造成的，也可能由於無人機等視頻採集設備的運動造成的，還可能是上述兩方面原因共同造成的。由於位置變化資訊可以表示兩幀影像中的對應像素點的位置變化，而兩幀影像中的各個相對應的對象均是由若干連續像素點構成的，因此同一對象的所有像素點的位置變化資訊可以是相同的。例如，圖2所示出的第一影像中的像素點相對前一幀影像中的對應像素點的位置變化資訊如圖3所示。本領域技術人員應當理解，以上位置變化資訊的具體釋義僅為示意，本公開實施例對此不進行限制。

本步驟中，可以採用預先訓練的神經網路獲取位置變化資訊。訓練神經網路時，可以採集大量的視頻幀作為樣本，將這些視頻幀中的對應像素點的位置變化資訊作為標簽，然後通過將樣本輸入待訓練的神經網路，比較輸出的位置變化資訊（預測值）與作為標簽的位置變化資訊（真值）間的差異，得出網路損失值，並進一步通過網路損失值調整待訓練神經網路的網路參數，然後通過反復疊代，不斷優化，最終得到符合精度要求的訓練完成的神經網路。本領域技術人員應當理解，以上獲取位置變化資訊的具體方式僅為示意，本公開實施例對此不進行限制。

在步驟S102中，獲取所述第一影像的影像特徵作為第一特徵；基於所述位置變化資訊獲取第二特徵。

其中，獲取第一特徵和獲取第二特徵的順序並無限制，也就是說，可以先獲取第一特徵，再獲取第二特徵，也可以先獲取第二特徵，再獲取第一特徵，還可以同時獲取第一特徵和第二特徵。

本步驟中，可以採用預先訓練的神經網路獲取所述第一影像的影像特徵作為第一特徵，例如採用VGG16_bn模型提取第一特徵。本領域技術人員應當理解，以上獲取第一影像的影像特徵的具體方式僅為示意，本公開實施例對此不進行限制。

本步驟中，可以採用預先訓練的神經網路基於所述位置變化資訊獲取第二特徵，例如採用backbone模型提取第二特徵。本領域技術人員應當理解，以上獲取第二特徵的具體方式僅為示意，本公開實施例對此不進行限制。

另外，第一特徵和第二特徵可以對應相同尺寸的特徵圖。

在步驟S103中，基於所述第二特徵對所述第一特徵進行增強處理，生成融合特徵。

其中，第一影像內的各個對象在一個方面或多個方面存在差異（例如，第一影像內的人群、建築物、車輛在外形尺寸等上存在差異），這些差異會體現在第一影像的第一特徵中，而位置變化資訊可以表示各個對象在運動方面的差異（例如，某個人在第一影像中的位置為A點，該人在前一幀影像中的位置為B點，該人在第一影像中的位置變化資訊可以通過A點相對B點的位置變化資訊確定；再例如，某個建築物在第一影像中的位置為C點，該建築物在前一幀影像中的位置也為C點，該建築物在第一影像中的位置變化資訊可以通過C點相對C點的位置變化資訊確定，即該建築物的運動是靜止的），上述運動方面的差異會體現在位置變化資訊的第二特徵中。因此利用第二特徵對第一特徵進行增強處理，生成融合特徵能夠進一步強化各個對象體現在第一特徵中的差異，也就是說，體現在融合特徵中的各個對象的差異會更加明顯和細化。

特徵融合的常用方法是對兩個特徵拼接從而增加通道數，或者對兩個特徵做加法維持融合後的通道數不變。在一個範例中，可以將第二特徵作為遮罩（mask）與第一特徵相乘，得到融合特徵。

在步驟S104中，根據所述融合特徵確定所述第一影像中目標對象的檢測結果。

其中，目標對象可以是第一影像中的一種對象（例如，人群），目標對象還可以是第一影像中的多種對象（例如，人群和車流，或者牛、馬、羊）；目標對象可以根據用戶的選擇進行確定，也可以根據預設規則自動確定。檢測結果可以表示目標對象在一個方面或多個方面的資訊（例如，目標對象的位置、數量、密度等資訊），檢測結果的涵蓋範圍可以根據用戶的選擇進行確定，也可以根據預設規則自動確定。本領域技術人員應當理解，以上目標對象、檢測結果的具體釋義僅為示意，本公開實施例對此不進行限制。

本公開的實施例中，通過獲取第一影像中的至少一個像素點相對於前一幀影像中的對應像素點的位置變化資訊，並分別獲取第一影像的第一特徵和上述位置變化資訊的第二特徵，以基於第二特徵對第一特徵進行增強處理，生成融合特徵，最後根據融合特徵確定第一影像中目標對象的檢測結果。由於利用了相鄰兩幀影像的對應像素點間的位置變化資訊，因此利用了視頻的時域資訊，可以增加檢測結果的準確性。

而且，無人機視頻等待檢測視頻中，目標對象的尺寸較小，即使人工觀察，都難以避免發生錯誤，但是本實施例中的檢測方法，由於利用了位置變化資訊，而且生成融合特徵時對第一特徵進行了增強處理，因此增加了檢測結果的準確性，即能夠獲取較為準確的檢測結果。

本公開的一些實施例中，所述位置變化資訊包括光流資訊。其中，光流資訊表示空間運動物體在觀察成像平面上的像素運動的瞬時速度。因此在獲取第一影像的光流資訊時，可以採用LK算法（Lucas Kanade算法）獲取，LK算法對視頻有較大約束，例如亮度恒定、需要相鄰幀時間很短以及需要相鄰像素有相似的運動等約束，因此LK算法精度和效率都較低。為了更加高效且高精度地獲取光流資訊，也可以利用深度學習的方法獲取，例如，採用FlowNet模型或FlowNet2模型獲取光流資訊。

基於此，可以按照下述方式獲取所述第一影像的第一特徵以及所述位置變化資訊的第二特徵：獲取所述第一影像中的影像特徵作為所述第一特徵，以及基於從所述光流資訊中獲取的光流特徵作為所述第二特徵。

影像特徵能夠表徵第一影像的像素點的至少一個維度的特徵，光流特徵能夠表徵第一影像的像素點的位置變化率。

本公開的一些實施例中，可以按照下述方式基於所述第二特徵對所述第一特徵進行增強處理，生成融合特徵：首先，根據所述第二特徵確定所述第一影像的至少一個像素點的位置變化率；接下來，針對所述至少一個像素點中的每個像素點，根據所述像素點的位置變化率確定目標特徵元素的增強參數，其中，所述目標特徵元素為所述第一特徵中與所述像素點對應的特徵元素；最後，基於每個所述增強參數，對所述第一特徵中對應的所述目標特徵元素進行差別化增強處理，生成融合特徵。

其中，位置變化資訊可以表示第一影像中各個對象在運動速度上的差異，且運動速度的差異會體現在位置變化資訊的第二特徵中，因此目標對象與其他對象在運動速度上的差異會體現在第二特徵中，例如，目標對象為行人，則目標對象的運動速度大於其他對象，例如建築物。

在一個範例中，第一影像中的像素點被劃分為不同的區域集合，每個區域集合構成一個對象，不同對象的運動速度不同，也就是不同對象包含的像素點的位置變化率不同。因此，通過第二特徵能夠確定出不同的像素點的位置變化率，且位置變化率不同的像素點代表的對象不同，因此可以根據像素點的位置變化率確定目標特徵元素的增強參數，並進一步對目標特徵元素進行增強，以得到融合特徵的融合子特徵，換言之，得到針對目標特徵元素的融合子特徵。由於不同對象所包含的像素點對應的特徵元素的增強參數不同，因此對不同特徵元素的增強程度不同，即從整體上呈現出對第一特徵中特徵元素進行差別化增強處理的現象，差別化增強處理後的第一特徵形成融合特徵，或者說全部的融合子特徵則可構成融合特徵。

其中，增強參數可以表示增強與否或增強程度，也就是說，針對目標對象的像素點和其他對象的像素點，可以通過增強與否或增強程度進行區分，以強化目標對象與其他對象體現在第一特徵中的區別。例如，可以只增強目標對象的像素點對應的特徵元素，或者還可以較高程度的增強目標對象的像素點對應的特徵元素，較低程度的增強其他像素點對應的特徵元素。進一步來說，目標對象的運動速度較之其他對象更大，相應的，目標對象中像素點的位置變化率較之其他對象中像素點的位置變化率也更大。因此可以只增強位置變化率較大的像素點對應的特徵元素，或較大程度增強位置變化率較大的像素點對應的特徵元素，較低程度增強其他像素點對應的特徵元素。

在一個範例中，可以根據所述像素點的位置變化率和預設的標準變化率，確定所述目標特徵元素的增強參數。例如，標準變化率為一閾值，增強位置變化率大於該閾值的像素點對應的特徵元素，不增強位置變化率小於或等於該閾值的像素點對應的特徵元素。再例如，標準變化率可以作為一個參考值，根據像素點的位置變化率與該參考值的大小關係確定特徵元素的增強程度：響應於所述像素點的位置變化率與所述標準變化率相等，確定所述目標特徵元素的增強參數為預設的標準增強參數；或響應於所述像素點的位置變化率大於所述標準變化率，確定所述目標特徵元素的增強參數大於所述標準增強參數；或響應於所述像素點的位置變化率小於所述標準變化率，確定所述目標特徵元素的增強參數小於所述標準增強參數。

本公開的實施例中，通過位置變化資訊的第二特徵確定像素點的位置變化率，並根據像素點的位置變化率的不同，確定不同的像素點對應的特徵元素的增強參數，進而對部分特徵元素進行增強，或對全部特徵元素進行不同程度的增強，從而進一步強化了目標對象與其他對象體現在第一特徵中的差異，進而增加了目標對象檢測結果的準確性和效率。

本公開的一些實施例中，可以按照下述方式根據融合特徵確定所述第一影像中目標對象的檢測結果：首先，根據所述融合特徵生成目標對象的密度圖；接下來，基於所述密度圖中指代目標對象的密度點的數量（例如對密度點進行求和），確定所述第一影像中的目標對象的數量。

其中，所述密度圖用於指示所述第一影像中的目標對象的位置、數量、密度等資訊，密度圖中具有指代目標對象的密度點，密度圖的尺寸可以和第一特徵以及第二特徵對應的特徵圖的尺寸相等。因此可以根據密度圖中指代目標對象的密度點的數量確定目標對象的數量，即通過對密度點進行求和便可確定目標對象的數量。

其中，可以採用預先訓練的神經網路確定密度圖，例如採用諸如隨機前沿方法（Stochastic Frontier Approach，SFA）的decoder模型確定密度圖，這種模型可以使用多個特徵圖作為輸入，從而提取不同尺度的特徵，因此確定的密度圖較為準確。本領域技術人員應當理解，以上生成密度圖的具體方式僅為示意，本公開實施例對此不進行限制。

在一個範例中，待檢測視頻為圖2所示出的第一影像所屬的街景視頻，目標對象為街景中的人物，可以基於上述目標檢測方法確定出第一影像中的行人數量，也就是能夠確定出第一影像對應的時間的行人數量。具體應用時，可以根據行人數量做出相應動作，例如當行人數量過多，超過預設的數量閾值時，可以發出警報資訊進行報警，以提示行人和管理人員目前街道過於擁擠。

由於經濟的發展，目前人群聚集越來越頻繁，因此將人群計數作為檢測結果，進而進行報警等操作，能夠防止由於人群密集發生踩踏等危險事件。

本公開的實施例中，通過生成密度圖，進而確定目標對象的數量，也就是以目標對象的數量作為檢測結果，能夠進一步提高檢測結果的準確性和效率。

本公開的一些實施例中，還可以按照下述方式生成待檢測視頻中的目標對象的數量變化資訊：首先，獲取第一影像中的目標對象的第一數量資訊，獲取第二影像中的目標對象的第二數量資訊，其中，所述第一影像和所述第二影像分別為所述待檢測視頻中的一幀影像；接下來，獲取第一影像的第一時間資訊和第二影像的第二時間資訊，其中，所述第一時間資訊為所述第一影像在所述待檢測視頻中的時間，所述第二時間資訊為所述第二影像在所述待檢測視頻中的時間（例如，第一時間資訊可以早於或晚於第二時間資訊）；最後，根據所述第一數量資訊、第一時間資訊、第二數量資訊和第二時間資訊，確定數量變化資訊，其中，所述數量變化資訊用於表示待檢測視頻中的目標對象在不同時刻的數量變化。

其中，第二影像的數量不做限制，可以是一個，也可以是多個，也就是說，可以獲取一幀影像的目標對象的數量，也可以獲取多幀影像的目標對象的數量。相對應的，後續獲取的第二時間資訊也可以是一個或多個，進而後續生成的數量變化資訊可以是針對兩個影像（第一影像和一個第二影像），也可以是針對多個影像（第一影像和至少兩個第二影像）。

其中，獲取第二影像中目標對象的數量（即，第二數量資訊）的方式可以與上述獲取第一影像中目標對象的數量（即，第一數量資訊）的方式相同，也可以與上述獲取第一影像中目標對象的數量的方式不同，本實施例對此無意進行具體限制。

其中，待檢測視頻的時間，可以是相對時間，也就是相對於視頻開始的時刻的時間，例如，視頻的總時長為25min，則視頻的起始時刻的時間為0:00，視頻的結束時刻的時間為00:25；待檢測視頻的時間，還可以是絕對時間，也就是視頻錄製時的絕對時間，例如，視頻的總時長仍為25min，視頻從2020.11.13.8:00開始錄製，則視頻的起始時刻的時間為2020.11.13.8:00，視頻的結束時刻的時間為2020.11.13.8:25。

在一個範例中，待檢測視頻為圖2所示出的第一影像所屬的街景視頻，目標對象為街景中的人物，因此可以確定出第一影像和至少一個第二影像中的行人數量，也就是能夠確定出街景視頻中的行人數量的變化。

本公開的實施例中，通過獲取待檢測視頻中的其他幀的影像中目標對象的數量，進一步結合每幀影像的時間資訊生成待檢測視頻的數量變化資訊，因此可以在待檢測視頻對應的時間段內，獲得目標對象的數量變化及趨勢，從而進一步增加檢測結果的全面性。

例如，針對一個商業街區，可以獲取一年中12個月的人流數量變化趨勢，從而可以分析人們的消費習慣，進而得出消費的高峰月份、季度（即消費旺季），和消費的低谷月份、季度（即消費淡季）；同理，針對該商業街區，還可以獲取每天營業的時間內的人流數量變化趨勢，從而得出每天消費的高峰時間和低谷時間。上述得出的這些資訊可以作為商業經營或物業管理的指導數據，從而能夠達到科學管理的目的。

再例如，針對高速公路，可以獲取節假日前後的車流量變化趨勢，從而可以統計出行數據，進而作為高速管理的指導數據。

本公開的一些實施例中，還可以按照下述方式根據融合特徵確定所述第一影像中目標對象的檢測結果，包括：首先，根據所述融合特徵生成目標對象的密度圖；接下來，根據所述密度圖中指示的每個目標對象的位置以及所述第一影像中的預設區域，確定所述第一影像中的預設區域內的目標對象的數量。

其中，所述密度圖用於指示所述第一影像中的目標對象的位置、數量、密度等資訊，密度圖的尺寸可以和第一特徵以及第二特徵對應的特徵圖的尺寸相等。例如，密度圖中可以具有第一影像中的目標對象，且為每個目標對象標註位置和/或計數標誌等標註資訊。因此可以根據密度圖中目標對象的位置確定目標對象的數量，即通過對密度圖中的目標對象進行求和便可確定目標對象的數量。

其中，預設區域可以是控制人流量的區域，例如某些限流場所，只允許一定數量的人進入，再例如，施工區域等某些危險區域，禁止行人進入，即人流量需要控制為0。

在確定預設區域內的目標對象的數量後，可以響應於所述預設區域內的目標對象的數量大於預設的數量閾值，生成提示資訊。例如，限流場所的人流量超過了要求的最高人流量，進行報警，以禁止行人繼續進入；再例如，施工區域進入行人後，進行報警，並提示行人及時離開；再例如，在一些戶外的真人遊戲中，可以對遊戲人員的活動區域進行監視，若進入犯規區域，則進行報警；再例如，在足球、籃球等運動項目中，可以對運動員的活動區域進行監視，若進入犯規區域，則進行報警。

本公開的實施例中，將預設區域的目標對象的數量作為檢測結果，能夠實現對特定區域的人流檢測和人流控制，增加了檢測的針對性和準確性，從而使該檢測方法的應用範圍更加廣泛。

請參照附圖4，其示出了根據本公開一個實施例的目標檢測的過程。其中，位置變化資訊為光流資訊，目標檢測結果為密度圖。該過程為：首先進行光流預測，接下來分別進行光流特徵提取和影像特徵提取，然後將光流特徵與影像特徵進行特徵融合以獲得融合特徵，最後利用融合特徵進行密度圖預測。在一個實施例中，首先進行光流預測，即利用光流提取網路從第一影像和第一影像的前一幀影像中提取光流資訊；接下來從提取的光流資訊中，利用神經網路提取光流特徵，以及從第一影像中利用神經網路（例如VGG16_bn）提取影像特徵，然後，將光流特徵作為遮罩與影像特徵相乘，以獲得融合特徵；最後把融合特徵送入到decoder（例如，SFA）來預測密度圖。

根據本公開實施例的第二方面，提供一種目標檢測裝置，請參照附圖5，其示出了該裝置的結構示意圖，包括：第一獲取模組501，用於獲取第一影像中的至少一個像素點相對前一幀影像中的對應像素點的位置變化資訊；第二獲取模組502，用於獲取所述第一影像的影像特徵作為第一特徵以及基於所述位置變化資訊獲取第二特徵；融合模組503，用於基於所述第二特徵對所述第一特徵進行增強處理，生成融合特徵；檢測模組504，用於根據所述融合特徵確定所述第一影像中目標對象的檢測結果。

在一個實施例中，所述位置變化資訊包括光流資訊，所述第二獲取模組用於：將從所述光流資訊中獲取的光流特徵作為所述第二特徵。

在一個實施例中，所述融合模組用於：根據所述第二特徵確定所述第一影像的至少一個像素點的位置變化率；針對所述至少一個像素點中的每個像素點，根據所述像素點的位置變化率確定目標特徵元素的增強參數，其中，所述目標特徵元素為所述第一特徵中與所述像素點對應的特徵元素；基於每個所述增強參數，對所述第一特徵中對應的所述目標特徵元素進行差別化增強處理，生成所述融合特徵。

在一個實施例中，所述融合模組還用於：根據所述像素點的位置變化率和預設的標準變化率，確定所述目標特徵元素的增強參數。

在一個實施例中，所述融合模組還用於：響應於所述像素點的位置變化率與所述標準變化率相等，確定所述目標特徵元素的增強參數為預設的標準增強參數；或響應於所述像素點的位置變化率大於所述標準變化率，確定所述目標特徵元素的增強參數大於所述標準增強參數；或響應於所述像素點的位置變化率小於所述標準變化率，確定所述目標特徵元素的增強參數小於所述標準增強參數。

在一個實施例中，所述檢測模組用於：根據所述融合特徵生成所述目標對象的密度圖；基於所述密度圖中指代所述目標對象的密度點的數量，確定所述第一影像中的所述目標對象的第一數量資訊。

在一個實施例中，所述檢測模組還用於：獲取第二影像中的所述目標對象的第二數量資訊，其中，所述第二影像為所述待檢測視頻中的一幀影像；獲取第一時間資訊和第二時間資訊，其中，所述第一時間資訊為所述第一影像在所述待檢測視頻中的時間，所述第二時間資訊為所述第二影像在所述待檢測視頻中的時間；根據所述第一數量資訊、所述第一時間資訊、所述第二數量資訊和所述第二時間資訊，生成數量變化資訊，其中，所述數量變化資訊用於表示待檢測視頻中的目標對象在不同時刻的數量變化。

在一個實施例中，所述檢測模組用於：根據所述融合特徵生成所述目標對象的密度圖；根據所述密度圖中指示的每個所述目標對象的位置，確定所述第一影像中的預設區域內的所述目標對象的數量。

在一個實施例中，所述檢測模組還用於：響應於所述預設區域內的目標對象的數量大於預設的數量閾值，生成提示資訊。

關於上述實施例中的裝置，其中各個模組執行操作的具體方式已經在第一方面有關該方法的實施例中進行了詳細描述，此處將不做詳細闡述說明。

本公開實施例的第三方面提供了一種電子設備，請參照附圖6，其示出了該設備的結構，所述設備包括儲存器、處理器，所述儲存器用於儲存可在處理器上運行的計算機指令，所述處理器用於在執行所述計算機指令時基於第一方面所述的方法對目標進行檢測。

本公開實施例的第四方面提供了一種計算機可讀儲存媒體，其上儲存有計算機程式，所述程式被處理器執行時實現第一方面所述的方法。

在本公開中，術語“第一”、“第二”僅用於描述目的，而不能理解為指示或暗示相對重要性。術語“多個”指兩個或兩個以上，除非另有明確的限定。

本領域技術人員在考慮說明書及實踐這裡公開的公開後，將容易想到本公開的其它實施方案。本公開旨在涵蓋本公開的任何變型、用途或者適應性變化，這些變型、用途或者適應性變化遵循本公開的一般性原理並包括本公開未公開的本技術領域中的公知常識或慣用技術手段。說明書和實施例僅被視為示範性的，本公開的真正範圍和精神由下面的申請專利範圍指出。

應當理解的是，本公開並不局限於上面已經描述並在附圖中示出的精確結構，並且可以在不脫離其範圍進行各種修改和改變。本公開的範圍僅由所附的申請專利範圍來限制。

S101:獲取第一影像中的至少一個像素點相對前一幀影像中的對應像素點的位置變化資訊，其中，所述第一影像為待檢測視頻中的一幀影像 S102:獲取所述第一影像的影像特徵作為第一特徵；基於所述位置變化資訊獲取第二特徵 S103:基於所述第二特徵對所述第一特徵進行增強處理，生成融合特徵 S104:根據所述融合特徵確定所述第一影像中目標對象的檢測結果 501:第一獲取模組 502:第二獲取模組 503:融合模組 504:檢測模組

圖1是本公開實施例示出的目標檢測方法的流程圖。圖2是本公開實施例示出的第一影像及其前一幀影像的示意圖。圖3是本公開實施例示出的第一影像的位置變化資訊的示意圖。圖4是本公開實施例示出的目標檢測的過程示意圖。圖5是本公開實施例示出的目標檢測裝置的結構示意圖。圖6是本公開實施例示出的電子設備的結構示意圖。

S101:獲取第一影像中的至少一個像素點相對前一幀影像中的對應像素點的位置變化資訊，其中，所述第一影像為待檢測視頻中的一幀影像

S102:獲取所述第一影像的影像特徵作為第一特徵；基於所述位置變化資訊獲取第二特徵

S103:基於所述第二特徵對所述第一特徵進行增強處理，生成融合特徵

S104:根據所述融合特徵確定所述第一影像中目標對象的檢測結果

Claims

一種目標檢測方法，包括：獲取第一影像中的至少一個像素點相對前一幀影像中的對應像素點的位置變化資訊，其中，所述第一影像為待檢測視頻中的一幀影像；獲取所述第一影像的影像特徵作為第一特徵；基於所述位置變化資訊獲取第二特徵；基於所述第二特徵對所述第一特徵進行增強處理，生成融合特徵；以及根據所述融合特徵確定所述第一影像中目標對象的檢測結果。
如請求項1所述的目標檢測方法，其中，所述位置變化資訊包括光流資訊，基於所述位置變化資訊獲取第二特徵，包括：將從所述光流資訊中獲取的光流特徵作為所述第二特徵。
如請求項1或2所述的目標檢測方法，其中，基於所述第二特徵對所述第一特徵進行增強處理，生成所述融合特徵，包括：根據所述第二特徵確定所述第一影像的至少一個像素點的位置變化率；針對所述至少一個像素點中的每個像素點，根據所述像素點的位置變化率確定目標特徵元素的增強參數，其中，所述目標特徵元素為所述第一特徵中與所述像素點對應的特徵元素；基於每個所述增強參數，對所述第一特徵中對應的所述目標特徵元素進行差別化增強處理，生成所述融合特徵。
如請求項3所述的目標檢測方法，其中，根據所述像素點的位置變化率確定目標特徵元素的增強參數，包括：根據所述像素點的位置變化率和預設的標準變化率，確定所述目標特徵元素的增強參數。
如請求項4所述的目標檢測方法，其中，根據所述像素點的位置變化率和預設的標準變化率，確定所述目標特徵元素的增強參數，包括：響應於所述像素點的位置變化率與所述標準變化率相等，確定所述目標特徵元素的增強參數為預設的標準增強參數；或響應於所述像素點的位置變化率大於所述標準變化率，確定所述目標特徵元素的增強參數大於所述標準增強參數；或響應於所述像素點的位置變化率小於所述標準變化率，確定所述目標特徵元素的增強參數小於所述標準增強參數。
如請求項1或2所述的目標檢測方法，其中，根據所述融合特徵確定所述第一影像中目標對象的檢測結果，包括：根據所述融合特徵生成所述目標對象的密度圖；基於所述密度圖中指代所述目標對象的密度點的數量，確定所述第一影像中的所述目標對象的第一數量資訊。
如請求項6所述的目標檢測方法，還包括：獲取第二影像中的所述目標對象的第二數量資訊，其中，所述第二影像為所述待檢測視頻中的一幀影像；獲取第一時間資訊和第二時間資訊，其中，所述第一時間資訊為所述第一影像在所述待檢測視頻中的時間，所述第二時間資訊為所述第二影像在所述待檢測視頻中的時間；根據所述第一數量資訊、所述第一時間資訊、所述第二數量資訊和所述第二時間資訊，生成數量變化資訊，其中，所述數量變化資訊用於表示所述待檢測視頻中的所述目標對象在不同時刻的數量變化。
如請求項1或2所述的目標檢測方法，其中，根據所述融合特徵確定所述第一影像中目標對象的檢測結果，包括：根據所述融合特徵生成所述目標對象的密度圖；根據所述密度圖中指示的每個所述目標對象的位置，確定所述第一影像中的預設區域內的所述目標對象的數量。
如請求項8所述的目標檢測方法，還包括：響應於所述預設區域內的所述目標對象的數量大於預設的數量閾值，生成提示資訊。
一種目標檢測裝置，包括：第一獲取模組，用於獲取第一影像中的至少一個像素點相對前一幀影像中的對應像素點的位置變化資訊，所述第一影像為待檢測視頻中的一幀影像；第二獲取模組，用於獲取所述第一影像的影像特徵作為第一特徵以及基於所述位置變化資訊獲取第二特徵；融合模組，用於基於所述第二特徵對所述第一特徵進行增強處理，生成融合特徵；檢測模組，用於根據所述融合特徵確定所述第一影像中目標對象的檢測結果。
一種電子設備，所述設備包括儲存器、處理器，所述儲存器用於儲存可在處理器上運行的計算機指令，所述處理器用於在執行所述計算機指令時實現請求項1至9中任一項所述的方法。
一種計算機可讀儲存媒體，其上儲存有計算機程式，所述程式被處理器執行時實現請求項1至9中任一項所述的方法。
一種計算機程式，所述計算機程式儲存在計算機可讀媒體上，其中當所述計算機程式被處理器執行時實現請求項1至9中任一項所述的方法。