TWI762860B - 目標檢測及目標檢測網路的訓練方法、裝置、設備及儲存媒體 - Google Patents
目標檢測及目標檢測網路的訓練方法、裝置、設備及儲存媒體 Download PDFInfo
- Publication number
- TWI762860B TWI762860B TW109101702A TW109101702A TWI762860B TW I762860 B TWI762860 B TW I762860B TW 109101702 A TW109101702 A TW 109101702A TW 109101702 A TW109101702 A TW 109101702A TW I762860 B TWI762860 B TW I762860B
- Authority
- TW
- Taiwan
- Prior art keywords
- bounding box
- network
- target
- foreground
- candidate
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 135
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000012549 training Methods 0.000 title claims abstract description 59
- 230000011218 segmentation Effects 0.000 claims abstract description 121
- 238000000605 extraction Methods 0.000 claims description 51
- 238000012545 processing Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 13
- 238000011176 pooling Methods 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005670 electromagnetic radiation Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/12—Bounding box
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Remote Sensing (AREA)
- Astronomy & Astrophysics (AREA)
- Image Analysis (AREA)
Abstract
公開了一種目標檢測及目標檢測網路的訓練方法、裝置及設備。該目標檢測方法包括:獲得輸入圖像的特徵數據;根據所述特徵數據,確定所述輸入圖像的多個候選邊界框;根據所述特徵數據,獲得所述輸入圖像的前景分割結果,其中,前景分割結果包含指示所述輸入圖像的多個畫素中每個畫素是否屬於前景的指示訊息;根據所述多個候選邊界框與所述前景分割結果,得到所述輸入圖像的目標檢測結果。
Description
本公開涉及圖像處理技術領域,尤其涉及一種目標檢測及目標檢測網路的訓練方法、裝置及設備。
目標檢測是電腦視覺領域的重要問題,尤其對於飛機、艦船等軍事目標的檢測,由於其具有影像尺寸大、目標尺寸小的特點,導致檢測難度較大。而且,對於具有密集排列狀態的艦船等目標,檢測精度較低。
本公開實施例提供了一種目標檢測及目標檢測網路的訓練方法、裝置及設備。
第一方面,提供一種目標檢測方法,包括:
獲得輸入圖像的特徵數據;根據所述特徵數據,確定所述輸入圖像的多個候選邊界框;根據所述特徵數據,獲得所述輸入圖像的前景分割結果,其中,前景分割結果包含指示所述輸入圖像的多個畫素中每個畫素是否屬於前景的指示訊息;根據所述多個候選邊界框與所述前景分割結果,得到所述輸入圖像的目標檢測結果。
結合本公開提供的任一實施方式,所述根據所述多個候選邊界框與所述前景分割結果,得到所述輸入圖像的目標檢測結果,包括:根據所述多個候選邊界框中每個候選邊界框與所述前景分割結果對應的前景圖像區域之間的重疊區域,從多個候選邊界框中選取至少一個目標邊界框;基於所述至少一個目標邊界框,得到所述輸入圖像的目標檢測結果。
結合本公開提供的任一實施方式,所述根據所述多個候選邊界框中每個候選邊界框與所述前景分割結果對應的前景圖像區域之間的重疊區域,從多個候選邊界框中選取至少一個目標邊界框,包括:對於所述多個候選邊界框中每個候選邊界框,若該候選邊界框與對應的前景圖像區域之間的重疊區域在該候選邊界框中所占的比例大於第一閾值,則將該候選邊界框作為所述目標邊界框。
結合本公開提供的任一實施方式,所述至少一個目標邊界框包括第一邊界框和第二邊界框,所述基於所述至少一個目標邊界框,得到所述輸入圖像的目標檢測結果,包括:基於所述第一邊界框和所述第二邊界框之間的夾角,確定所述第一邊界框和所述第二邊界框的重疊參數;基於所述第一邊界框和所述第二邊界框的重疊參數,確定所述第一邊界框和所述第二邊界框所對應的目標對象位置。
結合本公開提供的任一實施方式,所述基於所述第一邊界框和所述第二邊界框之間的夾角,確定所述第一邊界框和所述第二邊界框的重疊參數,包括:根據所述第一邊界框和所述第二邊界框之間的夾角,獲得角度因子;根據所述第一邊界框和所述第二邊界框之間的交並比(Intersection over Union,IoU)和所述角度因子,獲得所述重疊參數。
結合本公開提供的任一實施方式,所述第一邊界框和所述第二邊界框的重疊參數為所述交並比與所述角度因子的乘積,其中,所述角度因子隨著所述第一邊界框和所述第二邊界框之間的角度的增大而增大。
結合本公開提供的任一實施方式,在所述交並比保持一定的條件下,所述第一邊界框和所述第二邊界框的重疊參數隨著所述第一邊界框和所述第二邊界框之間的角度的增大而增大。
結合本公開提供的任一實施方式,所述基於所述第一邊界框和所述第二邊界框的重疊參數,確定所述第一邊界框和所述第二邊界框所對應的目標對象位置,包括:在所述第一邊界框和所述第二邊界框的重疊參數大於第二閾值的情況下,將所述第一邊界框和所述第二邊界框中的其中一個邊界框作為所述目標對象位置。
結合本公開提供的任一實施方式,所述將所述第一邊界框和所述第二邊界框中的其中一個邊界框作為所述目標對象位置,包括:確定所述第一邊界框與所述前景分割結果對應的前景圖像區域之間的重疊參數和所述第二邊界框與所述前景圖像區域之間的重疊參數;將所述第一邊界框和所述第二邊界框中與所述前景圖像區域之間的重疊參數較大的邊界框作為所述目標對象位置。
結合本公開提供的任一實施方式,所述基於所述第一邊界框和所述第二邊界框的重疊參數,確定所述第一邊界框和所述第二邊界框所對應的目標對象位置,包括:在所述第一邊界框和所述第二邊界框的重疊參數小於或等於第二閾值的情況下,將所述第一邊界框和所述第二邊界框均作為所述目標對象位置。
結合本公開提供的任一實施方式,所述輸入圖像中待檢測的目標對象的長寬比大於特定數值。
第二方面,提供一種目標檢測網路的訓練方法,所述目標檢測網路包括特徵提取網路、目標預測網路和前景分割網路,所述方法包括:
通過所述特徵提取網路對樣本圖像進行特徵提取處理,獲得所述樣本圖像的特徵數據;根據所述特徵數據,通過所述目標預測網路獲得多個樣本候選邊界框;根據所述特徵數據,通過所述前景分割網路獲得所述樣本圖像的樣本前景分割結果,其中,所述樣本前景分割結果包含指示所述樣本圖像的多個畫素點中每個畫素點是否屬於前景的指示訊息;根據所述多個樣本候選邊界框和所述樣本前景分割結果以及所述樣本圖像的標注訊息,確定網路損失值;基於所述網路損失值,對所述目標檢測網路的網路參數進行調整。
結合本公開提供的任一實施方式,所述標注訊息包括所述樣本圖像包含的至少一個目標對象的真實邊界框,所述根據所述多個樣本候選邊界框和所述樣本前景圖像區域以及所述樣本圖像的標注訊息,確定網路損失值,包括:對於所述多個候選邊界框中的每個候選邊界框,確定該候選邊界框與所述樣本圖像標注的至少一個真實目標邊界框中的每個真實目標邊界框之間的交並比;根據確定的所述多個候選邊界框中每個候選邊界框的所述交並比,確定第一網路損失值。
結合本公開提供的任一實施方式,所述候選邊界框和所述真實目標邊界框之間的交並比是基於包含所述候選邊界框與所述真實目標邊界框的外接圓得到的。
結合本公開提供的任一實施方式,在確定所述網路損失值的過程中,所述候選邊界框的寬度所對應的權重高於所述候選邊界框的長度所對應的權重。
結合本公開提供的任一實施方式,所述根據所述特徵數據,通過所述前景分割網路獲得所述樣本圖像的樣本前景分割結果,包括:對所述特徵數據進行上採樣處理,以使得處理後的所述特徵數據的大小與樣本圖像的大小相同;基於所述處理後的所述特徵數據進行畫素分割,獲得所述樣本圖像的樣本前景分割結果。
結合本公開提供的任一實施方式,所述樣本圖像包含的目標對象的長寬比高於設定值。
第三方面,提供一種目標檢測裝置,包括:
特徵提取單元,用於獲得輸入圖像的特徵數據;目標預測單元,用於根據所述特徵數據,確定所述輸入圖像的多個候選邊界框;前景分割單元,用於根據所述特徵數據,獲得所述輸入圖像的前景分割結果,其中,前景分割結果包含指示所述輸入圖像的多個畫素中每個畫素是否屬於前景的指示訊息;目標確定單元,用於根據所述多個候選邊界框與所述前景分割結果,得到所述輸入圖像的目標檢測結果。
第四方面,提供一種目標檢測網路的訓練裝置,所述目標檢測網路包括特徵提取網路、目標預測網路和前景分割網路,所述裝置包括:
特徵提取單元,用於通過所述特徵提取網路對樣本圖像進行特徵提取處理,獲得所述樣本圖像的特徵數據;目標預測單元,用於根據所述特徵數據,通過所述目標預測網路獲得多個樣本候選邊界框;前景分割單元,用於根據所述特徵數據,通過所述前景分割網路獲得所述樣本圖像的樣本前景分割結果,其中,所述樣本前景分割結果包含指示所述樣本圖像的多個畫素點中每個畫素點是否屬於前景的指示訊息;損失值確定單元,用於根據所述多個樣本候選邊界框和所述樣本前景分割結果以及所述樣本圖像的標注訊息,確定網路損失值;參數調整單元,用於基於所述網路損失值,對所述目標檢測網路的網路參數進行調整。
第五方面,提供一種目標測檢設備,所述設備包括記憶體、處理器,所述記憶體用於儲存可在所述處理器上運行的電腦指令,所述處理器用於在執行所述電腦指令時實現以上所述的目標檢測方法。
第六方面,提供一種目標檢測網路的訓練設備,所述設備包括記憶體、處理器,所述記憶體用於儲存可在所述處理器上運行的電腦指令,所述處理器用於在執行所述電腦指令時實現以上所述的目標檢測網路的訓練方法。
第七方面,提供一種非暫時性電腦可讀儲存媒體,其上儲存有電腦程序,所述程序被處理器執行時,促使所述處理器實現以上所述的目標檢測方法,和/或,實現以上所述的目標檢測網路的訓練方法。
本公開一個或多個實施例的目標檢測及目標檢測網路的訓練方法、裝置及設備,根據輸入圖像的特徵數據確定多個候選邊界框,並根據所述特徵數據得到前景分割結果,通過結合所述多個候選邊界框和前景分割結果,能夠更準確地確定所檢測的目標對象。
應當理解的是,以上的一般描述和後文的細節描述僅是示例性和解釋性的,並不能限制本公開。
這裡將詳細地對示例性實施例進行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數字表示相同或相似的要素。以下示例性實施例中所描述的實施方式並不代表與本公開相一致的所有實施方式。相反,它們僅是與如所附申請專利範圍中所詳述的、本公開的一些方面相一致的裝置和方法的例子。
應理解,本公開實施例提供的技術方案主要應用於圖像中細長小目標的檢測,但本公開實施例對此不做限定。
圖1示出了一種目標檢測方法,該方法可以包括以下步驟。
在步驟101中,獲得輸入圖像的特徵數據(例如特徵圖feature map)。
在一些實施例中,輸入圖像可以是遙感圖像。遙感圖像可以是通過搭載在例如人造衛星、航拍飛機上的傳感器探測的地物電磁輻射特徵信號等所獲得的圖像。本領域技術人員應當理解,輸入圖像也可以是其他類型的圖像,並不限於遙感圖像。
在一個示例中,可以通過特徵提取網路提取樣本圖像的特徵數據,例如卷積神經網路,本公開實施例不限制特徵提取網路的具體結構。所提取的特徵數據是多通道的特徵數據,特徵數據的大小和通道數目由特徵提取網路的具體結構確定。
在另一個示例中,可以從其他設備處獲取輸入圖像的特徵數據,例如,接收終端發送的特徵數據,本公開實施例對此不作限制。
在步驟102中,根據所述特徵數據,確定所述輸入圖像的多個候選邊界框。
在本步驟中,利用例如感興趣區域(Region Of Interest,ROI)等技術預測得到候選邊界框,包括了獲得候選邊界框的參數訊息,參數可以包括候選邊界框的長度、寬度、中心點座標、角度等一種或任意組合。
在步驟103中,根據所述特徵數據,獲得所述輸入圖像的前景分割結果,其中,前景分割結果包含指示所述輸入圖像的多個畫素中每個畫素是否屬於前景的指示訊息。
基於特徵數據所獲得的前景分割結果,包含了所述輸入圖像的多個畫素中,每個畫素屬於前景和/或背景的概率,前景分割結果給出畫素級的預測結果。
在步驟104,根據所述多個候選邊界框與所述前景分割結果,得到所述輸入圖像的目標檢測結果。
在一些實施例中,根據輸入圖像的特徵數據所確定的多個候選邊界框,和通過所述特徵數據得到的前景分割結果,具有對應關係。將多個候選邊界框映射到前景分割結果,與目標對象的輪廓擬合越好的候選邊界框,與前景分割結果對應的前景圖像區域越接近重疊。因此,可以結合所確定的多個候選邊界框和所得到前景分割結果,可以更準確地確定所檢測的目標對象。在一些實施例中,目標檢測結果可以包括輸入圖像包括的目標對象的位置、數量等訊息。
在一個示例中,可以根據所述多個候選邊界框中每個候選邊界框與所述前景分割結果對應的前景圖像區域之間的重疊區域,從多個候選邊界框中選取至少一個目標邊界框;並基於所述至少一個目標邊界框,得到所述輸入圖像的目標檢測結果。
在所述多個候選邊界框中,與前景圖像區域之間的重疊區域越大,也即候選邊界框與前景圖像區域越接近重疊,說明該候選邊界框與目標對象的輪廓擬合的越好,也說明該候選邊界框的預測結果越準確。因此,根據候選邊界框與前景圖像之間的重疊區域,可以從所述多個候選邊界框中選取出至少一個候選邊界框作為目標邊界框,將所選取的目標邊界框中作為檢測到的目標對象,獲得所述輸入圖像的目標檢測結果。
例如,可以將所述多個候選邊界框中與所述前景圖像區域之間的重疊區域在整個候選邊界框中所占的比例大於第一閾值的候選邊界框作為所述目標邊界框。重疊區域在整個候選邊界框中所占的比例越高,說明該候選邊界框與前景圖像區域的重疊程度越高。本領域技術人員應當理解,本公開不限定第一閾值的具體數值,其可以根據實際需求來確定。
本公開實施例的目標檢測方法可以應用於長寬比懸殊的待檢測目標對象,例如飛機、船艦、車輛等軍事目標。在一個示例中,長寬比懸殊指長寬比大於特定數值,例如大於5。本領域技術人員應當理解,該特定數值可以依據檢測目標而具體確定。在一個示例中,目標對象可以是船艦。
下面以輸入圖像為遙感圖像且檢測目標為船艦為例,說明目標檢測的過程。本領域技術人員應當理解,對於其他的目標對象,也可以應用該目標檢測方法。參見圖2所示的目標檢測方法示意圖。
首先,獲得該遙感圖像(也即圖2中的輸入圖像210)的多通道特徵數據(也即圖2中的特徵圖220)。
將上述特徵數據分別輸入到第一分支(圖2中上部分支230)和第二分支(圖2中下部分支240),分別進行如下處理。
對於第一分支
對每個錨點(anchor)框生成一個置信度得分。該置信度得分與錨點框內為前景或背景的概率相關,例如,錨點框為前景的概率越高,置信度得分就越高。
在一些實施例中,錨點框是基於先驗知識的矩形框。錨點框的具體實現方法可以參見後續訓練目標檢測網路中的描述,在此暫不詳述。可以將錨點框作為一個整體進行預測,以計算錨點框內屬於前景或背景的概率,即預測該錨點框內是否含有物體或特定目標,其中,若錨點框含有物體或特定目標,則將該錨點框判斷為前景。
在一些實施例中,按照置信度得分,可以選出得分最高或超過一定閾值的若干錨點框作為前景錨點框,通過預測前景錨點框到候選邊界框的偏移量,對前景錨點框進行偏移可以得到候選邊界框,並且基於該偏移量可以獲得候選邊界框的參數。
在一個示例中,錨點框可以包括方向訊息,並且可以設置多種長寬比,以覆蓋待檢測的目標對象。具體的方向個數以及長寬比的數值可以根據實際需求進行設置。如圖11所示,所構造的錨點框對應6個方向,其中,w表示錨點框的寬度,l表示錨點框的長度,θ表示錨點框的角度(錨點框相對于水平的旋轉角度),(x,y)表示錨點框中心點的座標。對應於方向上均勻分佈的6個錨點框,θ分別為0°、30°、60°、90°、-30°、-60°。
在一個示例中,在生成候選邊界框之後,可以進一步通過非極大值抑制方法(Non-Maximum Suppression,NMS)去除重疊的檢測框。例如可以首先遍歷所有候選邊界框,選擇置信度得分最高的候選邊界框,遍歷其餘的候選邊界框,如果和當前最高分邊界框的交並比(Intersection over Union,IoU)大於一定閾值,則將該邊界框刪除。之後,從未處理的候選邊界框中繼續選取得分最高的,重複上述過程。多次迭代後,得最終未被抑制的保留下來,作為所確定的候選邊界框。以圖2為例,經NMS處理後,得到候選邊界框圖231中的標號為1、2、3的三個候選邊界框。
對於第二分支
根據所述特徵數據,對於輸入圖像中的每個畫素,預測其為前景、背景的概率,通過將為前景概率高於設定值的畫素作為前景畫素,生成畫素級的前景分割結果241。
由於第一分支和第二分支輸出的結果尺寸是一致的,因此可以將候選邊界框映射到畫素分割結果中,據候選邊界框與前景分割結果對應的前景圖像區域之間的重疊區域,來確定目標邊界框。例如,可以將重疊區域在整個候選邊界框中所占的比例大於第一閾值的候選邊界框作為所述目標邊界框。
以圖2為例,將標號為1、2、3的三個候選邊界框映射至前景分割結果中,可以計算得出每個候選邊界框與前景圖像區域重疊區域在整個候選邊界框中所占的比例,例如,針對候選邊界框1,該比例為92%,針對候選邊界框2,該比例為86%,針對候選邊界框3,該比例為65%。在第一閾值為70%的情況下,則排除了候選邊界框3為目標邊界框的可能性,在最終檢測輸出結果圖250中,目標邊界框為候選邊界框1和候選邊界框2。
通過以上方法進行檢測,輸出的目標邊界框仍有重疊的可能性。例如,在進行NMS處理時,如果閾值設置的過高,則有可能沒有抑制掉重疊的候選邊界框。在候選邊界框與前景圖像區域重疊區域在整個候選邊界框中所占的比例都超過第一閾值的情況下,最終輸出的目標邊界框還有可能包括重疊的邊界框。
在所選取的至少一個目標邊界框包括第一邊界框和第二邊界框的情況下,本公開實施例可以通過以下方法確定最終目標對象。本領域技術人員應當理解,該方法不限於處理兩個重疊邊界框,也可以通過先處理兩個,再處理保留的一個與其他邊界框的方法,處理多個重疊邊界框。
在一些實施例中,基於所述第一邊界框和所述第二邊界框之間的夾角,確定所述第一邊界框和所述第二邊界框的重疊參數;基於所述第一邊界框和所述第二邊界框的重疊參數,確定所述第一邊界框和所述第二邊界框所對應的目標對象位置。
在兩個待檢測目標對象緊密排列的情況下,二者的目標邊界框(第一邊界框和第二邊界框)有可能是重複的。但這種情況,第一邊界框和第二邊界框的交並比通常是比較小的。因此,本公開通過設置第一邊界框和第二邊界框的重疊參數,來確定兩個邊界框中的檢測物體是否均為目標對象。
在一些實施例中,在所述重疊參數大於第二閾值的情況下,則表示第一邊界框和第二邊界框中有可能只有一個目標對象,因此將其中的一個邊界框作為目標對象位置。由於前景分割結果包括了畫素級的前景圖像區域,因此可以利用該前景圖像區域來確定保留哪一個邊界框,作為目標對象的邊界框。例如,可以分別計算第一邊界框與對應的前景圖像區域的第一重疊參數以及第二邊界框與對應的前景圖像區域的第二重疊參數,將第一重疊參數和第二重疊參數中的較大值對應的目標邊界框內確定為目標對象,並移除較小值對應的目標邊界框。通過以上方法,則移除了在一個目標對象上重疊的兩個或多個邊界框。
在一些實施例中,在所述重疊參數小於或等於第二閾值的情況下,將所述第一邊界框和所述第二邊界框均作為目標對象位置。
以下示例性地說明確定最終目標對象的過程。
在一個實施例中,如圖3A所示,邊界框A、B為船艦檢測結果,其中,邊界框A和邊界框B是重疊的,計算得出二者的重疊參數為0.1。在第二閾值為0.3的情況下,確定邊界框A和邊界框B是兩個不同船艦的檢測。將邊界框映射到畫素分割結果中可見,邊界框A和邊界框B分別對應著不同的船艦。在判斷出兩個邊界框的重疊參數小於第二閾值的情況下,並不需要額外的將邊界框映射到畫素分割結果的過程,以上僅出於驗證的目的。
在另一個實施例中,如圖3B所示,邊界框C、D為另一種船艦檢測結果,其中,邊界框C和邊界框D是重疊的,計算得出二者的重疊參數為0.8,也即大於第二閾值0.3。基於該重疊參數計算結果,可以確定邊界框C和邊界框D實際上是同一船艦的邊界框。在這種情況下,可以通過將邊界框C和邊界框D映射到畫素分割結果中,利用對應的前景圖像區域來進一步確定最終目標對象。計算邊界框C與前景圖像區域的第一重疊參數,以及計算邊界框D與前景圖像區域的第二重疊參數。例如,第一重疊參數為0.9,第二重疊參數為0.8,則確定數值較大的第一重疊參數所對應的邊界框C包含船艦,並同時移除第二重疊參數所對應的邊界框D,最終輸出邊界框C作為船艦的目標邊界框。
在一些實施例中,利用畫素分割結果對應的前景圖像區域輔助確定重疊邊界框的目標對象,由於畫素分割結果對應的是畫素級的前景圖像區域,空間精度較高,因此通過重疊的邊界框與前景圖像區域的重疊參數進一步確定包含目標對象的目標邊界框,提升了目標檢測的精度。
相關技術中,由於採用的錨點框通常是不含角度參數的矩形框,對於長寬比懸殊的目標對象,例如船艦,當目標對象處於傾斜的狀態,利用這種錨點框所確定的目標邊界框是目標對象的外接矩形框,其面積與目標對象的真實面積相差是非常大的。對於兩個緊密排列的目標對象,如圖4所示,其中目標對象401對應的目標邊界框403是其外接矩形框,目標對象402對應的目標邊界框404也是其外接矩形框,這兩個目標對象的目標邊界框之間的重疊參數即是兩個外接矩形框之間的交並比IoU。由於目標邊界框與目標對象之間面積的差異,使得計算得到的交並比的誤差是非常大的,因此導致了目標測檢的召回率(recall)降低。
為此,如前所述,在一些實施例中,本公開的錨點框可以引入錨點框的角度參數,以增加交並比的計算準確性。由錨點框經過計算得到的不同的目標邊界框的角度也可能互不相同。
基於此,本公開提出了如下計算重疊參數的方法:根據所述第一邊界框和所述第二邊界框之間的夾角,獲得角度因子;根據所述第一邊界框和所述第二邊界框之間的交並比和所述角度因子,獲得所述重疊參數。
在一個示例中,所述重疊參數為所述交並比與所述角度因子的乘積,其中,所述角度因子可以根據第一邊界框和第二邊界框之間的夾角得到,其值小於1,並且隨著第一邊界框和第二邊界框之間的角度的增大而增大。
在另一個示例中,在所述交並比保持一定的條件下,所述重疊參數隨著所述第一邊界框和所述第二邊界框之間的角度的增大而增大。
以下以圖5A和圖5B為例,說明以上重疊參數計算方法對目標檢測的影響。
對於圖5A中的邊界框501和邊界框502,二者面積的交並比為AIoU1,二者之間的角度為θ1
。對於圖5B中的邊界框503和邊界框504,二者面積的交並比為AIoU2,二者之間的角度為θ2
。其中,AIoU1> AIoU2。
在加入了角度因子後,圖5A和圖5B的重疊參數計算結果相較於面積交並比的計算結果,在大小關係上是相反的。這是由於在圖5A中,兩個邊界框之間的角度較大,使得角度因子的值也較大,因此得到的重疊參數變大。相應地,在圖5B中,兩個邊界框之間的角度較小,使得角度因子的值也較小,因此得到的重疊參數變小。
對於兩個緊密排列的目標對象來說,二者之間的角度可能是很小的。但是由於其排列緊密,檢測得到的二者的邊界框之間,面積重疊部分可能較大,如果僅以面積計算交並比的話,很可能交並比結果較大,使得容易被誤判為兩個邊界框包含的是同一個目標對象。通過本公開實施例所提出的重疊參數計算方法,通過引入角度因子,使得排列緊密的目標對象之間的重疊參數計算結果變小,有利於準確地檢測出目標對象,提升對緊密排列目標的召回率。
本領域技術人員應當理解,以上重疊參數計算方法不限於對目標邊界框之間的重疊參數進行計算,也可用於候選邊界框、前景錨點框、真實邊界框、錨點框等帶有角度參數的框之間的重疊參數計算。此外,也可以採用其他方式計算重疊參數,本公開實施例對此不做限定。
在一些例子中,上述目標檢測方法可以由已訓練好的目標檢測網路實現,該目標檢測網路可以為神經網路。在使用目標檢測網路之前,需要先對其進行訓練,以得到優化的參數值。
下面仍以船艦檢測目標為例,說明目標檢測網路的訓練過程。所述目標檢測網路可以包括特徵提取網路、目標預測網路和前景分割網路。參見圖6所示的訓練方法實施例流程圖,可以包括如下步驟。
在步驟601中,通過所述特徵提取網路對樣本圖像進行特徵提取處理,獲得所述樣本圖像的特徵數據。
在本步驟中,所述的樣本圖像可以是遙感圖像。遙感圖像是通過搭載在例如人造衛星、航拍飛機上的傳感器探測的地物電磁輻射特徵信號,所獲得的圖像。樣本圖像也可以是其他類型的圖像,並不限於遙感圖像。此外,所述樣本圖像包括預先標注的目標對象的標注訊息。該標注訊息可以包括標定的目標對象的真實邊界框(ground truth),在一個示例中,該標注訊息可以是標定的真實邊界框的四個頂點的座標。特徵提取網路可以是卷積神經網路,本公開實施例不限制特徵提取網路的具體結構。
在步驟602中,根據所述特徵數據,通過所述目標預測網路獲得多個樣本候選邊界框。
在本步驟中,根據所述樣本圖像的特徵數據,預測生成目標對象的多個候選邊界框。所述候選邊界框所包含的訊息可以包括以下中的至少一種:該邊界框內是前景、背景的概率,該邊界框的參數,例如,該邊界框的尺寸、角度、位置等。
在步驟603中,根據所述特徵數據獲得所述樣本圖像中的前景分割結果。
在本步驟中,根據所述特徵數據,通過所述前景分割網路獲得所述樣本圖像的樣本前景分割結果。其中,所述樣本前景分割結果包含指示所述樣本圖像的多個畫素點中每個畫素點是否屬於前景的指示訊息。也即,通過前景分割結果可以獲得對應的前景圖像區域,該前景圖像區域包括所有被預測為前景的畫素。
在步驟604,根據所述多個樣本候選邊界框和所述樣本前景分割結果以及所述樣本圖像的標注訊息,確定網路損失值。
所述網路損失值可以包括所述目標預測網路對應的第一網路損失值,和所述前景分割網路對應的第二網路損失值。
在一些例子中,所述第一網路損失值根據樣本圖像中的標注訊息與所述樣本候選邊界框的訊息得到。在一個示例中,目標對象的標注訊息可以是目標對象的真實邊界框的四個頂點的座標,而預測得到的樣本候選邊界框的預測參數可以是候選邊界框的長度、寬度、相對于水平的旋轉角度、中心點的座標。基於真實邊界框的四個頂點的座標,可以相應地計算出真實邊界框的長度、寬度、相對于水平的旋轉角度、中心點的座標。因此,基於樣本候選邊界框的預測參數和真實邊界框的真實參數,可以得到體現標注訊息與預測訊息之間的差異的第一網路損失值。
在一些例子中,所述第二網路損失值根據樣本前景分割結果與真實的前景圖像區域得到。基於預先標注的目標對象的真實邊界框,可以獲得在原始的樣本圖像中所標注的包含目標對象的區域,該區域中所包含的畫素為真實的前景畫素,為真實的前景圖像區域。因此,基於樣本前景分割結果與標注訊息,也即通過預測的前景圖像區域與真實的前景圖像區域之間的比較,可以得到第二網路損失值。
在步驟605中,基於所述網路損失值,對所述目標檢測網路的網路參數進行調整。
在一個示例中,可以通過梯度反向傳播方法調整上述網路參數。
由於候選邊界框的預測和前景圖像區域的預測共享特徵提取網路所提取的特徵數據,通過兩個分支的預測結果與標注的真實目標對象之間的差異來共同調整各個網路的參數,能夠同時提供對象級的監督訊息和畫素級的監督訊息,使特徵提取網路所提取特徵的質量得到提高。並且,本公開實施例用於預測候選邊界框和前景圖像的網路皆為one-stage檢測器,能夠實現較高的檢測效率。
在一個示例中,可以基於所述多個樣本候選邊界框與所述樣本圖像標注的至少一個真實目標邊界框之間的交並比,確定第一網路損失值。
在一個示例中,可以利用交並比的計算結果,從多個錨點框中選擇正樣本和/或負樣本。例如,可以將與真實邊界框的交並比大於一定數值,例如0.5,的錨點框,視為包含前景的候選邊界框,將其作為正樣本來訓練目標檢測網路;並且可以將與真實邊界框的交並比小於一定數值,例如0.1,的錨點框,作為負樣本來訓練網路。基於所選擇的正樣本和/或負樣本,確定第一網路損失值。
在計算第一網路損失值的過程中,由於目標對象長寬比懸殊,相關技術中計算得到的錨點框與真實邊界框的交並比值可能較小,容易導致所選擇的進行損失值計算的正樣本變少,從而影響了訓練精度。此外,本公開實施例採用的是帶方向參數的錨點框,為了適應於該錨點框並提高交並比計算的準確性本公開提出了一種交並比計算方法,該方法可用於錨點框與真實邊界框的交並比計算,也可用於候選邊界框與真實邊界框之間的交並比計算。
在該方法中,可以根據錨點框與真實邊界框的外接圓面積的交集與並集的比值作為交並比。以下以圖7為例進行說明。
邊界框701和邊界框702是長寬比懸殊、具有角度參數的矩形框,二者的長寬比例如為5。邊界框701的外接圓為703,邊界框702的外接圓為704,可以利用外接圓703和外接圓704面積的交集(圖中陰影部分)與並集的比值,作為交並比。
對於錨點框與真實邊界框的交並比計算,也可以採用其他方式,本公開實施例對此不做限定。
以上實施例中提出的計算交並比的方法,通過方向訊息的約束,保留了更多在形狀上類似但是方向上有差異的樣本,提升了所選取的正樣本的數量和比例,因此加強了對方向訊息的監督與學習,進而提升了方向預測精度。
如下的描述中,將對目標檢測網路的訓練方法進行更詳細的描述。其中,下文以檢測的目標對象是船艦為例描述該訓練方法。應當理解的是,本公開檢測的目標對象不局限於船艦,也可以是其他長寬比較為懸殊的對象。
準備樣本
在訓練神經網路之前,首先可以先準備樣本集,該樣本集可以包括:用於訓練目標檢測網路的多個訓練樣本。
例如,可以按照下述方式獲得訓練樣本。
在作為樣本圖像的遙感圖像上,標注出船艦的真實邊界框。在該遙感圖像上,可能包括多個船艦,則需要標注出每一個船艦的真實邊界框。同時,需要標注出每一個真實邊界框的參數訊息,例如該邊界框的四個頂點的座標。
在標注出船艦的真實邊界框的同時,可以將該真實邊界框內的畫素確定為真實的前景畫素,也即,標注船艦的真實邊界框的同時也獲得了船艦的真實前景圖像。本領域技術人員應當理解,真實邊界框內的畫素也包括真實邊界框本身所包括的畫素。
確定目標檢測網路結構
本公開一個實施例中,目標檢測網路可以包括特徵提取網路、以及分別與該特徵提取網路級聯的目標預測網路和前景分割網路。
其中,特徵提取網路用於提取樣本圖像的特徵,其可以是卷積神經網路,例如可以採用已有的VGG(Visual Geometry Group)網路、ResNet、DenseNet等等,也可以採用其他的卷積神經網路結構。本申請對特徵提取網路的具體結構不做限定,在一種可選的實現方式中,特徵提取網路可以包括卷積層、激勵層、池化層等網路單元,由上述網路單元按照一定方式堆疊而成。
目標預測網路用於預測目標對象的邊界框,也即預測生成候選邊界框的預測訊息。本申請對目標預測網路的具體結構不做限定,一種可選的實現方式中,目標預測網路可以包括卷積層、分類層、回歸層等網路單元,由上述網路單元按照一定方式堆疊而成。
前景分割網路用於預測樣本圖像中的前景圖像,也即預測包含目標對象的畫素區域。本申請對前景分割網路的具體結構不做限定,一種可選的實現方式中,前景分割網路可以包括上採樣層、掩膜(mask)層,由上述網路單元按照一定方式堆疊而成。
圖8示出了本公開實施例可以應用的一種目標檢測網路的網路結構,需要說明的是,圖8僅是示例性示出了一種目標檢測網路,實際實施中不局限於此。
如圖8所示,目標提取網路包括特徵提取網路810和分別與特徵提取網路810級聯的目標預測網路820和前景分割網路830。
其中,特徵提取網路810包括依次連接的第一卷積層(C1)811、第一池化層(P1)812、第二卷積層(C2)813、第二池化層(P2)814和第三卷積層(C3)815,也即,在特徵提取網路810中,卷積層和池化層交替連接在一起。卷積層可以通過多個卷積核分別提取圖像中的不同特徵,得到多幅特徵圖,池化層位於卷積層之後,可以對特徵圖的數據進行局部平均和降採樣的操作,降低特徵數據的分辨率。隨著卷積層和池化層數量的增加,特徵圖的數目逐漸增多,並且特徵圖的分辨率逐漸降低。
特徵提取網路810輸出的多通道的特徵數據分別輸入至目標預測網路820和前景分割網路830。
目標預測網路820包括第四卷積層(C4)821、分類層822和回歸層823。其中,分類層822和回歸層823分別與第四卷積層821級聯。
第四卷積層821利用滑動窗口(例如,3*3)對輸入的特徵數據進行卷積,每個窗口對應多個錨點框,每個窗口產生一個用於與分類層823和回歸層824全連接的向量。此處還可以使用二個或多個卷積層,對輸入的特徵數據進行卷積。
分類層822用於判斷錨點框所生成的邊界框內是前景還是背景,回歸層823用於得出候選邊界框的大致位置,基於分類層822和回歸層823的輸出結果,可以預測出包含目標對象的候選邊界框,並且輸出該候選邊界框內為前景、背景的概率以及該候選邊界框的參數。
前景分割網路830包括上採樣層831和掩膜層832。上採樣層831用於將輸入的特徵數據轉換為原始的樣本圖像大小;掩膜層832用於生成前景的二進制掩膜,即對於前景畫素輸出1,對於背景畫素輸出0。
此外,在計算候選邊界框與前景圖像區域重疊區域時,可以由第四卷積層821和掩膜層832進行圖像尺寸的轉換,使特徵位置得到對應,即目標預測網路820和前景分割網路830的輸出可以預測圖像上同一位置的訊息,進而計算重疊區域。
在訓練該目標檢測網路之前,可以設定一些網路參數,例如,可以設定特徵提取網路810中每一個卷積層以及目標預測網路中卷積層使用的卷積核的數量,還可以設定卷積核的尺寸大小,等。而對於卷積核的取值、其他層的權重等參數值,可以通過迭代訓練進行自學習。
在準備了訓練樣本和初始化目標檢測網路結構的基礎上,可以開始進行目標檢測網路的訓練。以下將列舉目標檢測網路的具體訓練方法。
訓練目標檢測網路一
在一些實施例中,目標檢測網路的結構可以參見圖8所示。
參見圖9的示例,輸入目標檢測網路的樣本圖像可以是包含船艦圖像的遙感圖像。並且在該樣本圖像上,標注出了所包含的船艦的真實邊界框,標注訊息可以是真實邊界框的參數訊息,例如該邊界框的四個頂點的座標。
輸入的樣本圖像首先通過特徵提取網路,提取樣本圖像的特徵,輸出該樣本圖像的多通道特徵數據。輸出特徵數據的大小和通道數目由特徵提取網路的卷積層結構和池化層結構確定。
該多通道特徵數據一方面進入目標預測網路,目標預測網路基於當前的網路參數設置,基於輸入的特徵數據預測包含船艦的候選邊界框,並生成該候選邊界框的預測訊息。該預測訊息可以包括該邊界框為前景、背景的概率,以及該邊界框的參數訊息,例如,該邊界框的尺寸、位置、角度等。基於預先標注的目標對象的標注訊息和預測得到的候選邊界框的預測訊息,可以得到第一網路損失函數的數值LOSS1,也即第一網路損失值。該第一網路損失函數的數值體現標注訊息與預測訊息之間的差異。
另一方面,該多通道特徵數據進入前景分割網路,前景分割網路基於當前的網路參數設置,預測樣本圖像中包含船艦的前景圖像區域。例如可以通過特徵數據中每個畫素為前景、背景的概率,通過將為前景概率大於設定值的畫素都作為前景畫素,進行畫素分割,則可以得出預測的前景圖像區域。
由於在樣本圖像中已經預先標注了船艦的真實邊界框,通過該真實邊界框的參數,例如四個頂點的座標,可以得出樣本圖像中為前景的畫素,即得知樣本圖像中的真實前景圖像。基於預測的前景圖像與通過標注訊息得到的真實前景圖像,可以得到第二網路損失函數的數值LOSS2,也即第二網路損失值。該第二網路損失函數的數值體現了預測的前景圖像與標注訊息之間的差異。
可以基於第一網路損失函數的數值和第二網路損失函數的數值共同確定的總損失值反向回傳目標檢測網路,以調整網路參數的取值,例如調整卷積核的取值、其他層的權重。在一個示例中,可以將第一網路損失函數和第二網路損失函數之和確定為總損失函數,利用總損失函數進行參數調整。
在訓練目標檢測網路時,可以將訓練樣本集分成多個圖像子集(batch),每個圖像子集包括一個或多個訓練樣本。每次迭代訓練時,向網路依次輸入一個圖像子集,結合該圖像子集包括的訓練樣本中各個樣本預測結果的損失值進行網路參數的調整。本次迭代訓練完成後,向網路輸入下一個圖像子集,以進行下一次迭代訓練。不同圖像子集包括的訓練樣本至少部分不同。當達到預定結束條件時,則可以完成目標檢測網路的訓練。所述預定訓練結束條件,例如可以是總損失值(LOSS值)降低到了一定閾值,或者達到了預定的目標檢測網路迭代次數。
本實施的目標檢測網路訓練方法,由目標預測網路提供對象級的監督訊息,通過畫素分割網路提供畫素級的監督訊息,通過兩種不同層次的監督訊息,使特徵提取網路所提取特徵的質量得到提高,並且,利用one-stage的目標預測網路和畫素分割網路進行檢測,使檢測效率得到了提高。
訓練目標檢測網路二
在一些實施例中,目標預測網路可以通過以下方式預測得到目標對象的候選邊界框。目標預測網路的結構可以參見圖8所示。
圖10是預測候選邊界框的方法的流程圖,如圖10所示,該流程可以包括以下步驟。
在步驟1001中,將所述特徵數據的每一點作為錨點,以每一個錨點為中心構造多個錨點框。
例如,對於大小為[H×W]的特徵層,共構造H×W×k個錨點框,其中,k是在每一個錨點生成的錨點框的個數。其中,對在一個錨點構造的多個錨點框設置不同的長寬比,以能夠覆蓋待檢測的目標對象。首先,可以基於先驗知識,例如統計大部分目標的尺寸分佈,通過超參數設置直接生成先驗錨點框,然後通過特徵預測出錨點框。
在步驟1002中,將所述錨點映射回所述樣本圖像,得到每個錨點框在所述樣本圖像上包含的區域。
在本步驟中,將所有錨點映射回樣本圖像,也即將特徵數據映射回樣本圖像,則可以得到以錨點為中心所生成的錨點框在樣本圖像中所框的區域。可以通過先驗錨點框、預測值並結合當前的特徵分辨率共同進行計算,將錨點框映射回樣本圖像的位置和大小,得到每個錨點框在樣本圖像上包含的區域。
以上過程相當於用一個卷積核(滑動窗口)在輸入的特徵數據上進行滑動操作,當卷積核滑動到特徵數據的某一個位置時,以當前滑動窗口中心為中心映射回樣本圖像的一個區域,以樣本圖像上這個區域的中心即是對應的錨點,再以錨點為中心框出錨點框。也就是說,雖然錨點是基於特徵數據定義的,但最終其是相對於原始的樣本圖像的。
對於圖8所示的目標預測網路結構,可以通過第四卷積層821來實現提取特徵的過程,第四卷積層821的卷積核例如可以是3×3大小。
在步驟1003中,基於映射回樣本圖像的錨點框與真實邊界框的交並比確定前景錨點框,並獲得所述前景錨點框內為前景、背景的概率。
在本步驟中,通過比較錨點框在所述樣本圖像上包含的區域與真實邊界框的重疊情況來確定哪些錨點框內是前景,那些錨點框內是背景,也即給每一個錨點框都打上前景或背景的標簽(label),具有前景標簽的錨點框即為前景錨點框,具有背景標簽的錨點框即為背景錨點框。
在一個示例中,可以將與真實邊界框的交並比大於第一設定值,例如0.5,的錨點框,視為包含前景的候選邊界框。並且,還可以通過對錨點框進行二分類,確定錨點框內為前景、背景的概率。
可以利用前景錨點框來訓練目標檢測網路,例如將其作為正樣本來訓練網路,使這些前景錨點框參與損失函數的計算,而這一部分的損失通常被稱為分類損失,其是基於前景錨點框的二分類概率與前景錨點框的標簽進行比較得到的。
對於一個圖像子集,可以使其包含從一張樣本圖像中隨機提取的多個標簽為前景的錨點框,例如256個,作為正樣本用於訓練。
在一個示例中,在正樣本數量不足的情況下,還可以利用負樣本來訓練目標檢測網路。負樣本例如可以是與真實邊界框的交並比小於第二設定值,例如0.1,的錨點框。
在該示例中,可以使一個圖像子集包含從一張樣本圖像中隨機提取的256個錨點框,其中128個標簽為前景的錨點框,作為正樣本,另外128個是與真實邊界框的交並比小於第二設定值,例如0.1,的錨點框,作為負樣本,使正負樣本的比例達到1:1。如果一個圖像中的正樣本數小於128,則可以多用一些負樣本以滿足256個錨點框用於訓練。
在步驟1004中,對所述前景錨點框進行邊界框回歸,得到候選邊界框,並獲得所述候選邊界框的參數。
在本步驟中,前景錨點框、候選邊界框的參數類型與錨點框的參數類型是一致的,也即,所構造的錨點框包含哪些參數,所生成的候選邊界框也包含哪些參數。
在步驟1003中所獲得的前景錨點框,由於長寬比可能與樣本圖像中的船艦的長寬比有差距,並且前景錨點框的位置、角度也可能與樣本船艦有差距,因此,需要利用前景錨點框和與其對應的真實邊界框之間的偏移量進行回歸訓練,使得目標預測網路具備通過前景點框預測其到候選邊界框的偏移量的能力,從而獲得候選邊界框的參數。
通過步驟1003和步驟1004,可以獲得候選邊界框的訊息:候選邊界框內為前景、背景的概率,以及候選邊界框的參數。基於上述候選邊界框的訊息,以及樣本圖像中的標注訊息(目標對象對應的真實邊界框),可以得到第一網路損失。
在本公開實施例中,目標預測網路為one stage網路,在第一次預測得到候選邊界框後,即輸出候選邊界框的預測結果,提高了網路的檢測效率。
訓練目標檢測網路三
相關技術中,每一個錨點所對應的錨點框的參數通常包括長度、寬度和中心點的座標。在本實例中,提出了一種旋轉錨點框設置方法。
在一個示例中,以每一個錨點為中心構造多個方向的錨點框,並且可以設置多種長寬比,以覆蓋待檢測的目標對象。具體的方向個數以及長寬比的數值可以根據實際需求進行設置。如圖11所示,所構造的錨點框對應6個方向,其中,w表示錨點框的寬度,l表示錨點框的長度,θ表示錨點框的角度(錨點框相對于水平的旋轉角度),(x,y)表示錨點框中心點的座標。對應於方向上均勻分佈的6個錨點框,θ分別為0°、30°、60°、90°、-30°、-60°。相應地,在該示例中,錨點框的參數可以表示為(x,y,w,l,θ)。其中,長寬比例可以設置為1、3、5,也可以針對檢測的目標對象設置為其他數值。
在一些實施例中,候選邊界框的參數也同樣可以表示為(x,y,w,l,θ),該參數可以利用圖8中的回歸層823進行回歸計算。回歸計算的方法如下。
首先,計算得到前景錨點框到真實邊界框的偏移量。
例如,前景錨點框的參數值為[Ax
, Ay
, Aw
, Al
, Aθ
],其中,Ax
, Ay
, Aw
, Al
, Aθ
分別表示前景錨點框的中心點x座標、中心點y座標、寬度、長度、角度;對應真實邊界框的五個值為[Gx
, Gy
, Gw
, Gl
, Gθ
],其中,Gx
, Gy
, Gw
, Gl
, Gθ
分別表示真實邊界框的中心點x座標、中心點y座標、寬度、長度、角度。
基於前景錨點框的參數值和真實邊界框的值可以確定前景錨點框與真實邊界框之間的偏移量[dx
(A), dy
(A), dw
(A), dl
(A), dθ
(A)],其中,dx
(A), dy
(A), dw
(A), dl
(A), dθ
(A)分別表示中心點x座標、中心點y座標、寬度、長度、角度的偏移量。各個偏移量例如可以分別通過公式(4)-(8)進行計算:(4)(5)(6)(7)(8)
其中,公式(6)和公式(7)採用對數來表示長和寬的偏移,是為了在差別大時能快速收斂。
在一個示例中,在輸入的多通道特徵數據中有多個真實邊界框的情況下,每個前景錨點框選擇與它重疊度最高的真實邊界框來計算偏移量。
接下來,得到前景錨點框到候選邊界框的偏移量。
此處為尋找表達式建立錨點框與真實邊界框的關係的過程,可以使用回歸來實現。以圖8中的網路結構為例,可以利用上述偏移量訓練回歸層823。在完成訓練後,目標預測網路具備了識別每一個錨點框到與之對應的最優候選邊界框的偏移量[dx
’(A), dy
’(A), dw
’(A), dl
’(A),dθ
’(A)]的能力,也就是說,基於錨點框的參數值即可以確定候選邊界框的參數值,包括中心點x座標、中心點y座標、寬度、長度、角度。在訓練時,可以利用回歸層先算出前景錨點框到候選邊界框的偏移量。由於訓練時網路參數的優化還沒有完成,所以該偏移量可能和實際的偏移量[dx
(A), dy
(A), dw
(A), dl
(A), dθ
(A)]的差距較大。
最後,基於所述偏移量對所述前景錨點框進行偏移,得到所述候選邊界框,並獲得所述候選邊界框的參數。
在計算第一網路損失函數的數值時,可以利用前景錨點框到候選邊界框的偏移量[dx
’(A), dy
’(A), dw
’(A), dl
’(A), dθ
’(A)]與訓練時前景錨點框與真實邊界框的偏移量[dx
(A), dy
(A), dw
(A), dl
(A), dθ
(A)]來計算回歸損失。
前述預測的前景錨點框內為前景、背景的概率,在對該前景錨點框進行回歸得到候選邊界框後,該概率即為候選邊界框內為前景、背景的概率,基於該概率則可以確定預測候選邊界框內為前景、背景的分類損失。該分類損失與預測候選邊界框的參數的回歸損失之和,組成了第一網路損失函數的數值。對於一個圖像子集,可以基於所有候選邊界框的第一網路損失函數的數值,進行網路參數的調整。
通過設置具有方向的錨點框,可以生成更符合目標對象位姿的外接矩形邊界框,使邊界框之間的重疊部分的計算更加嚴格與精確。
訓練目標檢測網路四
在基於標準訊息與候選邊界框的訊息得到第一網路損失函數的數值時,可以設置錨點框的各個參數的權重比例,使寬度的權重比例高於其他參數的權重比例,並根據設置的權重比例,計算第一網路損失函數的數值。
權重比例越高的參數,對於最終計算得到的損失函數值貢獻越大,在進行網路參數調整時,會更注重調整的結果對該參數值的影響,從而使得該參數的計算精度高於其他參數。對於長寬比懸殊的目標對象,例如船艦,其寬度相較于長度來說非常小,因此將寬度的權重設置為高於其他參數的權重,可以提高寬度的預測精度。
訓練目標檢測網路五
在一些實施例中,可以通過以下方式預測得到樣本圖像中的前景圖像區域。前景分割網路的結構可以參見圖8所示。
圖12是預測前景圖像區域方法的實施例流程圖,如圖12所示,該流程可以包括如下步驟。
在步驟1201中,對所述特徵數據進行上採樣處理,以使處理後的特徵數據的大小與樣本圖像的大小相同。
例如,可以通過反卷積層,或者雙線性差值對特徵數據進行上採樣處理,將特徵數據放大回樣本圖像大小。由於輸入畫素分割網路的是多通道特徵數據,在經過上採樣處理後,得到的是相應通道數目的、與樣本圖像大小一致的特徵數據。特徵數據上的每個位置都與原始圖像位置一一對應。
在步驟1202中,基於所述處理後的所述特徵數據進行畫素分割,獲得所述樣本圖像的樣本前景分割結果。
對於特徵數據的每個畫素,可以判斷出其屬於前景、背景的概率。可以通過設定閾值,將屬於前景的概率大於設定閾值的畫素確定為前景畫素,則對於每個畫素都能夠生成掩膜訊息,通常可以用0、1表示,其中可以用0表示背景,1表示前景。基於該掩膜訊息,可以確定為前景的畫素,從而得到了畫素級的前景分割結果。由於特徵數據上的每個畫素都與樣本圖像上的區域相對應,而樣本圖像中已經標注出了目標對象的真實邊界框,因此根據標注訊息,確定每個畫素的分類結果與真實邊界框的差異,得到分類損失。
由於該畫素分割網路不涉及邊界框的位置確定,因此其所對應的第二網路損失函數的數值,可以通過每個畫素的分類損失之和確定。通過不斷地調整網路參數,使得第二網路損失值達到最小,可以使得每個畫素的分類更加準確,從而更準確地確定目標對象的前景圖像。
在一些實施例中,通過對特徵數據進行上採樣處理,以及對於每個畫素生成掩膜訊息,可以得到畫素級的前景圖像區域,使目標檢測的精確度得到了提高。
圖13提供了一種目標檢測裝置,如圖13所示,該裝置可以包括:特徵提取單元1301、目標預測單元1302、前景分割單元1303和目標確定單元1304。
特徵提取單元1301,用於獲得輸入圖像的特徵數據。
目標預測單元1302,用於根據所述特徵數據,確定所述輸入圖像的多個候選邊界框。
前景分割單元1303,用於根據所述特徵數據,獲得所述輸入圖像的前景分割結果,其中,前景分割結果包含指示所述輸入圖像的多個畫素中每個畫素是否屬於前景的指示訊息。
目標確定單元1304,用於根據所述多個候選邊界框與所述前景分割結果,得到所述輸入圖像的目標檢測結果。
在另一個實施例中,所述目標確定單元1304具體用於:根據所述多個候選邊界框中每個候選邊界框與所述前景分割結果對應的前景圖像區域之間的重疊區域,從多個候選邊界框中選取至少一個目標邊界框;基於所述至少一個目標邊界框,得到所述輸入圖像的目標檢測結果。
在另一個實施例中,所述目標確定單元1304在用於所述根據所述多個候選邊界框中每個候選邊界框與所述前景分割結果對應的前景圖像區域之間的重疊區域,從多個候選邊界框中選取至少一個目標邊界框時,具體用於:對於所述多個候選邊界框中每個候選邊界框,若該候選邊界框與對應的前景圖像區域之間的重疊區域在該候選邊界框中所占的比例大於第一閾值,則將該候選邊界框作為所述目標邊界框。
在另一個實施例中,所述至少一個目標邊界框包括第一邊界框和第二邊界框,所述目標確定單元1304在用於基於所述至少一個目標邊界框,得到所述輸入圖像的目標檢測結果時,具體用於:基於所述第一邊界框和所述第二邊界框之間的夾角,確定所述第一邊界框和所述第二邊界框的重疊參數;基於所述第一邊界框和所述第二邊界框的重疊參數,確定所述第一邊界框和所述第二邊界框所對應的目標對象位置。
在另一個實施例中,所述目標確定單元1304在用於基於所述第一邊界框和所述第二邊界框之間的夾角,確定所述第一邊界框和所述第二邊界框的重疊參數時,具體用於:根據所述第一邊界框和所述第二邊界框之間的夾角,獲得角度因子;根據所述第一邊界框和所述第二邊界框之間的交並比和所述角度因子,獲得所述重疊參數。
在另一個實施例中,所述第一邊界框和所述第二邊界框的重疊參數為所述交並比與所述角度因子的乘積,其中,所述角度因子隨著所述第一邊界框和所述第二邊界框之間的角度的增大而增大。
在另一個實施例中,在所述交並比保持一定的條件下,所述第一邊界框和所述第二邊界框的重疊參數隨著所述第一邊界框和所述第二邊界框之間的角度的增大而增大。
在另一個實施例中,所述基於所述第一邊界框和所述第二邊界框的重疊參數,確定所述第一邊界框和所述第二邊界框所對應的目標對象位置,包括:在所述第一邊界框和所述第二邊界框的重疊參數大於第二閾值的情況下,將所述第一邊界框和所述第二邊界框中的其中一個邊界框作為目標對象位置。
在另一個實施例中,將所述第一邊界框和所述第二邊界框中的其中一個邊界框作為目標對象位置,包括:確定所述第一邊界框與所述前景分割結果對應的前景圖像區域之間的重疊參數和所述第二邊界框與所述前景圖像區域之間的重疊參數;將所述第一邊界框和所述第二邊界框中與所述前景圖像區域之間的重疊參數較大的邊界框作為目標對象位置。
在另一個實施例中,所述基於所述第一邊界框和所述第二邊界框的重疊參數,確定所述第一邊界框和所述第二邊界框所對應的目標對象位置,包括:在所述第一邊界框和所述第二邊界框的重疊參數小於或等於第二閾值的情況下,將所述第一邊界框和第二邊界框均作為目標對象位置。
在另一個實施例中,所述輸入圖像中待檢測的目標對象的長寬比大於特定數值。
圖14提供了一種目標檢測網路的訓練裝置,所述目標檢測網路包括特徵提取網路、目標預測網路和前景分割網路。如圖14所示,該裝置可以包括:特徵提取單元1401、目標預測單元1402、前景分割單元1403、損失值確定單元1404和參數調整單元1405。
特徵提取單元1401,用於通過所述特徵提取網路對樣本圖像進行特徵提取處理,獲得所述樣本圖像的特徵數據。
目標預測單元1402,用於根據所述特徵數據,通過所述目標預測網路獲得多個樣本候選邊界框。
前景分割單元1403,用於根據所述特徵數據,通過所述前景分割網路獲得所述樣本圖像的樣本前景分割結果,其中,所述樣本前景分割結果包含指示所述樣本圖像的多個畫素點中每個畫素點是否屬於前景的指示訊息。
損失值確定單元1404,用於根據所述多個樣本候選邊界框和所述樣本前景分割結果以及所述樣本圖像的標注訊息,確定網路損失值。
參數調整單元1405,用於基於所述網路損失值,對所述目標檢測網路的網路參數進行調整。
在另一個實施例中,所述標注訊息包括所述樣本圖像包含的至少一個目標對象的真實邊界框,所述損失值確定單元1404具體用於:對於所述多個候選邊界框中的每個候選邊界框,確定該候選邊界框與所述樣本圖像標注的至少一個真實目標邊界框中的每個真實目標邊界框之間的交並比;根據確定的所述多個候選邊界框中每個候選邊界框的所述交並比,確定第一網路損失值。
在另一個實施例中,所述候選邊界框和所述真實目標邊界框之間的交並比是基於包含所述候選邊界框與所述真實目標邊界框的外接圓得到的。
在另一個實施例中,在確定所述網路損失值的過程中,所述候選邊界框的寬度所對應的權重高於所述候選邊界框的長度所對應的權重。
在另一個實施例中,所述前景分割單元1403具體用於:對所述特徵數據進行上採樣處理,以使得處理後的所述特徵數據的大小與樣本圖像的大小相同;基於所述處理後的所述特徵數據進行畫素分割,獲得所述樣本圖像的樣本前景分割結果。
在另一個實施例中,所述樣本圖像包含的目標對象的長寬比高於設定值。
圖15為本公開至少一個實施例提供的目標檢測設備,所述設備包括記憶體1501、處理器1502,所述記憶體用於儲存可在處理器上運行的電腦指令,所述處理器用於在執行所述電腦指令時實現本說明書任一實施例所述的目標檢測方法。所述設備還可能包括網路介面1503及內部總線1504。記憶體1501、處理器1502和網路介面1503通過內部總線1504進行相互之間的通信。
圖16為本公開至少一個實施例提供的目標檢測網路的訓練設備,所述設備包括記憶體1601、處理器1602,所述記憶體用於儲存可在處理器上運行的電腦指令,所述處理器用於在執行所述電腦指令時實現本說明書任一實施例所述的目標檢測網路的訓練方法。所述設備還可能包括網路介面1603及內部總線1604。記憶體1601、處理器1602和網路介面1603通過內部總線1604進行相互之間的通信。
本說明書至少一個實施例還提供了一種非暫時性電腦可讀儲存媒體,其上儲存有電腦程序,所述程序被處理器執行時實現本說明書任一實施例所述的目標檢測方法,和/或,實現本說明書任一實施例所述的目標檢測網路的訓練方法。
在本申請實施例中,電腦可讀儲存媒體可以是多種形式,比如,在不同的例子中,所述電腦可讀儲存介質可以是:非暫時性記憶體、快閃記憶體、儲存驅動器(如硬碟驅動器)、固態硬碟、任何類型的儲存器(如CD、DVD等),或者類似的儲存媒體,或者它們的組合。特殊的,所述的電腦可讀媒體還可以是紙張或者其他合適的能夠列印程序的媒體。使用這些媒體,這些程序可以被通過電學的方式獲取到(例如,光學掃描)、可以被以合適的方式編譯、解釋和處理,然後可以被儲存到電腦媒體中。
以上所述僅為本申請的較佳實施例而已,並不用以限制本申請,凡在本申請的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本申請保護的範圍之內。
1、2、3:標號
101~104、601~605、1001~1004、1201~1202:步驟
210:輸入圖像
220:特徵圖
230、240:分支
231:邊界框圖
241:前景分割結果
250:最終檢測輸出結果圖
A、B、C、D、501、502、503、504、701、702、703、704:邊界框
401、402:目標對象
403、404:目標邊界框
IoU、AIoU1、AIoU2:交並比
θ、θ1、θ2:角度
810:特徵提取網路
811:第一卷積層(C1)
812:第一池化層(P1)
813:第二卷積層(C2)
814:第二池化層(P2)
815:第三卷積層(C3)
820:目標預測網路
821:第四卷積層(C4)
822:分類層
823:回歸層
830:前景分割網路
831:上採樣層
832:掩膜層
LOSS、LOSS1、LOSS2:數值
w:寬度
l:長度
(x,y):座標
1301、1401:特徵提取單元
1302、1402:目標預測單元
1303、1403:前景分割單元
1304:目標確定單元
1404:損失值確定單元
1405:參數調整單元
1501、1601:記憶體
1502、1602:處理器
1503、1603:網路介面
1504、1604:內部總線
此處的附圖被併入說明書中並構成本說明書的一部分,示出了符合本說明書的實施例,並與說明書一起用於解釋本說明書的原理。
圖1是本申請實施例示出的一種目標檢測方法的流程圖。
圖2是本申請實施例示出的一種目標檢測方法的示意圖。
圖3A和圖3B分別是本申請示例性實施例示出的船艦檢測結果圖。
圖4是相關技術中的一種目標邊界框的示意圖。
圖5A和圖5B分別是本申請示例性實施例示出的重疊參數計算方法示意圖。
圖6是本申請實施例示出的一種目標檢測網路的訓練方法的流程圖。
圖7是本申請實施例示出的一種交並比計算方法示意圖。
圖8是本申請實施例示出的一種目標檢測網路的網路結構圖。
圖9是本申請實施例示出的一種目標檢測網路的訓練方法的示意圖。
圖10是本申請實施例示出的一種預測候選邊界框方法的流程圖。
圖11是本申請實施例示出的一種錨點框的示意圖。
圖12是本申請一示例性實施例示出的一種預測前景圖像區域方法的流程圖。
圖13是本申請一示例性實施例示出的一種目標檢測裝置的結構示意圖。
圖14是本申請一示例性實施例示出的一種目標檢測網路的訓練裝置的結構示意圖。
圖15是本申請一示例性實施例示出的一種目標檢測設備的結構圖。
圖16是本申請一示例性實施例示出的一種目標檢測網路的訓練設備的結構圖。
101~104:步驟
Claims (10)
- 一種目標檢測方法,包括:獲得輸入圖像的特徵數據;根據所述特徵數據,確定所述輸入圖像的多個候選邊界框;根據所述特徵數據,獲得所述輸入圖像的前景分割結果,其中,前景分割結果包含指示所述輸入圖像的多個畫素中每個畫素是否屬於前景的指示訊息;以及根據所述多個候選邊界框與所述前景分割結果,得到所述輸入圖像的目標檢測結果;其中所述根據所述多個候選邊界框與所述前景分割結果,得到所述輸入圖像的目標檢測結果包括:根據所述多個候選邊界框中每個候選邊界框與所述前景分割結果對應的前景圖像區域之間的重疊區域,從多個候選邊界框中選取至少一個目標邊界框;以及基於所述至少一個目標邊界框,得到所述輸入圖像的目標檢測結果,其中所述至少一個目標邊界框包括第一邊界框和第二邊界框,所述基於所述至少一個目標邊界框,得到所述輸入圖像的目標檢測結果包括:基於所述第一邊界框和所述第二邊界框之間的夾角,確定所述第一邊界框和所述第二邊界框的重疊參數;以及基於所述第一邊界框和所述第二邊界框的重疊參數, 確定所述第一邊界框和所述第二邊界框所對應的目標對象位置。
- 如請求項1所述的方法,所述基於所述第一邊界框和所述第二邊界框之間的夾角,確定所述第一邊界框和所述第二邊界框的重疊參數包括:根據所述第一邊界框和所述第二邊界框之間的夾角,獲得角度因子;以及根據所述第一邊界框和所述第二邊界框之間的交並比和所述角度因子,獲得所述重疊參數。
- 如請求項1或2所述的方法,所述基於所述第一邊界框和所述第二邊界框的重疊參數,確定所述第一邊界框和所述第二邊界框所對應的目標對象位置包括:在所述第一邊界框和所述第二邊界框的重疊參數大於第二閾值的情況下,將所述第一邊界框和所述第二邊界框中的其中一個邊界框作為所述目標對象位置;和/或在所述第一邊界框和所述第二邊界框的重疊參數小於或等於第二閾值的情況下,將所述第一邊界框和所述第二邊界框均作為所述目標對象位置。
- 一種目標檢測網路的訓練方法,所述目標檢測網路包括特徵提取網路、目標預測網路和前景分割網路,所述方法包括:通過所述特徵提取網路對樣本圖像進行特徵提取處理,獲得 所述樣本圖像的特徵數據;根據所述特徵數據,通過所述目標預測網路獲得多個樣本候選邊界框;根據所述特徵數據,通過所述前景分割網路獲得所述樣本圖像的樣本前景分割結果,其中,所述樣本前景分割結果包含指示所述樣本圖像的多個畫素點中每個畫素點是否屬於前景的指示訊息;根據所述多個樣本候選邊界框和所述樣本前景分割結果以及所述樣本圖像的標注訊息,確定網路損失值;以及基於所述網路損失值,對所述目標檢測網路的網路參數進行調整;其中所述標注訊息包括所述樣本圖像包含的至少一個目標對象的真實邊界框,所述根據所述多個樣本候選邊界框和所述樣本前景圖像區域以及所述樣本圖像的標注訊息,確定網路損失值包括;對於所述多個候選邊界框中的每個候選邊界框,確定該候選邊界框與所述樣本圖像標注的至少一個真實目標邊界框中的每個真實目標邊界框之間的交並比(Intersection over Union,IoU),其中所述候選邊界框和所述真實目標邊界框之間的交並比是基於包含所述候選邊界框與所述真實目標邊界框的外接圓得到的;以及根據確定的所述多個候選邊界框中每個候選邊界框的 所述交並比,確定第一網路損失值。
- 如請求項4所述的方法,在確定所述網路損失值的過程中,所述候選邊界框的寬度所對應的權重高於所述候選邊界框的長度所對應的權重。
- 一種目標檢測裝置,包括:特徵提取單元,用於獲得輸入圖像的特徵數據;目標預測單元,用於根據所述特徵數據,確定所述輸入圖像的多個候選邊界框;前景分割單元,用於根據所述特徵數據,獲得所述輸入圖像的前景分割結果,其中,前景分割結果包含指示所述輸入圖像的多個畫素中每個畫素是否屬於前景的指示訊息;以及目標確定單元,用於根據所述多個候選邊界框與所述前景分割結果,得到所述輸入圖像的目標檢測結果;其中所述目標確定單元具體用於:根據所述多個候選邊界框中每個候選邊界框與所述前景分割結果對應的前景圖像區域之間的重疊區域,從多個候選邊界框中選取至少一個目標邊界框;以及基於所述至少一個目標邊界框,得到所述輸入圖像的目標檢測結果;其中所述至少一個目標邊界框包括第一邊界框和第二邊界框,所述目標確定單元在用於基於所述至少一個目標邊界框,得到所述輸入圖像的所述目標檢測結果時,具體用於: 基於所述第一邊界框和所述第二邊界框之間的夾角,確定所述第一邊界框和所述第二邊界框的重疊參數;以及基於所述第一邊界框和所述第二邊界框的重疊參數,確定所述第一邊界框和所述第二邊界框所對應的目標對象位置。
- 一種目標檢測網路的訓練裝置,所述目標檢測網路包括特徵提取網路、目標預測網路和前景分割網路,所述裝置包括:特徵提取單元,用於通過所述特徵提取網路對樣本圖像進行特徵提取處理,獲得所述樣本圖像的特徵數據;目標預測單元,用於根據所述特徵數據,通過所述目標預測網路獲得多個樣本候選邊界框;前景分割單元,用於根據所述特徵數據,通過所述前景分割網路獲得所述樣本圖像的樣本前景分割結果,其中,所述樣本前景分割結果包含指示所述樣本圖像的多個畫素點中每個畫素點是否屬於前景的指示訊息;損失值確定單元,用於根據所述多個樣本候選邊界框和所述樣本前景分割結果以及所述樣本圖像的標注訊息,確定網路損失值;以及參數調整單元,用於基於所述網路損失值,對所述目標檢測網路的網路參數進行調整;其中所述標注訊息包括所述樣本圖像包含的至少一個目標對 象的真實邊界框,所述損失值確定單元具體用於:對於所述多個候選邊界框中的每個候選邊界框,確定該候選邊界框與所述樣本圖像標注的至少一個真實目標邊界框中的每個真實目標邊界框之間的交並比(Intersection over Union,IoU),其中所述候選邊界框和所述真實目標邊界框之間的交並比是基於包含所述候選邊界框與所述真實目標邊界框的外接圓得到的;以及根據確定的所述多個候選邊界框中每個候選邊界框的所述交並比,確定第一網路損失值。
- 一種目標檢測設備,所述設備包括記憶體、處理器,所述記憶體用於儲存可在所述處理器上運行的電腦指令,所述處理器用於在執行所述電腦指令時實現請求項1至3任一所述的方法。
- 一種目標檢測網路的訓練設備,所述設備包括記憶體、處理器,所述記憶體用於儲存可在所述處理器上運行的電腦指令,所述處理器用於在執行所述電腦指令時實現請求項4或5所述的方法。
- 一種非暫時性電腦可讀儲存媒體,其上儲存有電腦程序,所述程序被處理器執行時,促使所述處理器實現請求項1至3任一所述的方法,或實現請求項4或5所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910563005.8 | 2019-06-26 | ||
CN201910563005.8A CN110298298B (zh) | 2019-06-26 | 2019-06-26 | 目标检测及目标检测网络的训练方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202101377A TW202101377A (zh) | 2021-01-01 |
TWI762860B true TWI762860B (zh) | 2022-05-01 |
Family
ID=68028948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109101702A TWI762860B (zh) | 2019-06-26 | 2020-01-17 | 目標檢測及目標檢測網路的訓練方法、裝置、設備及儲存媒體 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20210056708A1 (zh) |
JP (1) | JP7096365B2 (zh) |
KR (1) | KR102414452B1 (zh) |
CN (1) | CN110298298B (zh) |
SG (1) | SG11202010475SA (zh) |
TW (1) | TWI762860B (zh) |
WO (1) | WO2020258793A1 (zh) |
Families Citing this family (73)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298298B (zh) * | 2019-06-26 | 2022-03-08 | 北京市商汤科技开发有限公司 | 目标检测及目标检测网络的训练方法、装置及设备 |
CN110781819A (zh) * | 2019-10-25 | 2020-02-11 | 浪潮电子信息产业股份有限公司 | 一种图像目标检测方法、系统、电子设备及存储介质 |
CN110866928B (zh) * | 2019-10-28 | 2021-07-16 | 中科智云科技有限公司 | 基于神经网络的目标边界分割及背景噪声抑制方法及设备 |
CN112784638B (zh) * | 2019-11-07 | 2023-12-08 | 北京京东乾石科技有限公司 | 训练样本获取方法和装置、行人检测方法和装置 |
CN110930420B (zh) * | 2019-11-11 | 2022-09-30 | 中科智云科技有限公司 | 基于神经网络的稠密目标背景噪声抑制方法及设备 |
CN110880182B (zh) * | 2019-11-18 | 2022-08-26 | 东声(苏州)智能科技有限公司 | 图像分割模型训练方法、图像分割方法、装置及电子设备 |
US11200455B2 (en) * | 2019-11-22 | 2021-12-14 | International Business Machines Corporation | Generating training data for object detection |
CN111027602B (zh) * | 2019-11-25 | 2023-04-07 | 清华大学深圳国际研究生院 | 一种多级结构目标检测方法及系统 |
CN112886996B (zh) * | 2019-11-29 | 2024-08-20 | 北京三星通信技术研究有限公司 | 信号接收方法、用户设备、电子设备及计算机存储介质 |
WO2021111622A1 (ja) * | 2019-12-06 | 2021-06-10 | 日本電気株式会社 | パラメータ決定装置、パラメータ決定方法、及び、非一時的なコンピュータ可読媒体 |
CN111079638A (zh) * | 2019-12-13 | 2020-04-28 | 河北爱尔工业互联网科技有限公司 | 基于卷积神经网络的目标检测模型训练方法、设备和介质 |
CN111179300A (zh) * | 2019-12-16 | 2020-05-19 | 新奇点企业管理集团有限公司 | 障碍物检测的方法、装置、系统、设备以及存储介质 |
CN113051969A (zh) * | 2019-12-26 | 2021-06-29 | 深圳市超捷通讯有限公司 | 物件识别模型训练方法及车载装置 |
SG10201913754XA (en) * | 2019-12-30 | 2020-12-30 | Sensetime Int Pte Ltd | Image processing method and apparatus, electronic device, and storage medium |
CN111105411B (zh) * | 2019-12-30 | 2023-06-23 | 创新奇智(青岛)科技有限公司 | 一种磁瓦表面缺陷检测方法 |
CN111079707B (zh) * | 2019-12-31 | 2023-06-13 | 深圳云天励飞技术有限公司 | 人脸检测方法及相关装置 |
CN111241947B (zh) * | 2019-12-31 | 2023-07-18 | 深圳奇迹智慧网络有限公司 | 目标检测模型的训练方法、装置、存储介质和计算机设备 |
CN111260666B (zh) * | 2020-01-19 | 2022-05-24 | 上海商汤临港智能科技有限公司 | 图像处理方法及装置、电子设备、计算机可读存储介质 |
CN111508019A (zh) * | 2020-03-11 | 2020-08-07 | 上海商汤智能科技有限公司 | 目标检测方法及其模型的训练方法及相关装置、设备 |
CN111353464B (zh) * | 2020-03-12 | 2023-07-21 | 北京迈格威科技有限公司 | 一种物体检测模型训练、物体检测方法及装置 |
CN113496513A (zh) * | 2020-03-20 | 2021-10-12 | 阿里巴巴集团控股有限公司 | 一种目标对象检测方法及装置 |
US11847771B2 (en) * | 2020-05-01 | 2023-12-19 | Samsung Electronics Co., Ltd. | Systems and methods for quantitative evaluation of optical map quality and for data augmentation automation |
CN111582265A (zh) * | 2020-05-14 | 2020-08-25 | 上海商汤智能科技有限公司 | 一种文本检测方法及装置、电子设备和存储介质 |
CN111738112B (zh) * | 2020-06-10 | 2023-07-07 | 杭州电子科技大学 | 基于深度神经网络和自注意力机制的遥感船舶图像目标检测方法 |
CN111797704B (zh) * | 2020-06-11 | 2023-05-02 | 同济大学 | 一种基于相关物体感知的动作识别方法 |
CN111797993B (zh) * | 2020-06-16 | 2024-02-27 | 东软睿驰汽车技术(沈阳)有限公司 | 深度学习模型的评价方法、装置、电子设备及存储介质 |
CN112001247B (zh) * | 2020-07-17 | 2024-08-06 | 浙江大华技术股份有限公司 | 多目标检测方法、设备及存储装置 |
CN111967595B (zh) * | 2020-08-17 | 2023-06-06 | 成都数之联科技股份有限公司 | 候选框标注方法及系统及模型训练方法及目标检测方法 |
US11657373B2 (en) * | 2020-08-21 | 2023-05-23 | Accenture Global Solutions Limited | System and method for identifying structural asset features and damage |
CN112508848B (zh) * | 2020-11-06 | 2024-03-26 | 上海亨临光电科技有限公司 | 一种基于深度学习多任务端到端的遥感图像船舶旋转目标检测方法 |
KR20220068357A (ko) * | 2020-11-19 | 2022-05-26 | 한국전자기술연구원 | 딥러닝 객체 검출 처리 장치 |
CN112597837B (zh) * | 2020-12-11 | 2024-05-28 | 北京百度网讯科技有限公司 | 图像检测方法、装置、设备、存储介质和计算机程序产品 |
CN112906732B (zh) * | 2020-12-31 | 2023-12-15 | 杭州旷云金智科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN112862761B (zh) * | 2021-01-20 | 2023-01-17 | 清华大学深圳国际研究生院 | 一种基于深度神经网络的脑瘤mri图像分割方法及系统 |
KR102378887B1 (ko) * | 2021-02-15 | 2022-03-25 | 인하대학교 산학협력단 | 객체 탐지에서의 둘레기반 IoU 손실함수를 통한 효율적인 바운딩 박스 회귀 학습 방법 및 장치 |
CN112966587B (zh) * | 2021-03-02 | 2022-12-20 | 北京百度网讯科技有限公司 | 目标检测模型的训练方法、目标检测方法及相关设备 |
CN113780270B (zh) * | 2021-03-23 | 2024-06-21 | 京东鲲鹏(江苏)科技有限公司 | 目标检测方法和装置 |
CN112967322B (zh) * | 2021-04-07 | 2023-04-18 | 深圳创维-Rgb电子有限公司 | 运动目标检测模型建立方法和运动目标检测方法 |
CN113095257A (zh) * | 2021-04-20 | 2021-07-09 | 上海商汤智能科技有限公司 | 异常行为检测方法、装置、设备及存储介质 |
CN113160201B (zh) * | 2021-04-30 | 2024-04-12 | 聚时科技(上海)有限公司 | 基于极坐标的环状边界框的目标检测方法 |
CN112990204B (zh) * | 2021-05-11 | 2021-08-24 | 北京世纪好未来教育科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN113706450A (zh) * | 2021-05-18 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 图像配准方法、装置、设备及可读存储介质 |
CN113313697B (zh) * | 2021-06-08 | 2023-04-07 | 青岛商汤科技有限公司 | 图像分割和分类方法及其模型训练方法、相关装置及介质 |
CN113284185B (zh) * | 2021-06-16 | 2022-03-15 | 河北工业大学 | 用于遥感目标检测的旋转目标检测方法 |
CN113536986B (zh) * | 2021-06-29 | 2024-06-14 | 南京逸智网络空间技术创新研究院有限公司 | 一种基于代表特征的遥感图像中的密集目标检测方法 |
CN113627421B (zh) * | 2021-06-30 | 2024-09-06 | 华为技术有限公司 | 一种图像处理方法、模型的训练方法以及相关设备 |
CN113505256B (zh) * | 2021-07-02 | 2022-09-02 | 北京达佳互联信息技术有限公司 | 特征提取网络训练方法、图像处理方法及装置 |
CN113610764A (zh) * | 2021-07-12 | 2021-11-05 | 深圳市银星智能科技股份有限公司 | 地毯识别方法、装置、智能设备及存储介质 |
CN113537342B (zh) * | 2021-07-14 | 2024-09-20 | 浙江智慧视频安防创新中心有限公司 | 一种图像中物体检测方法、装置、存储介质及终端 |
CN113361662B (zh) * | 2021-07-22 | 2023-08-29 | 全图通位置网络有限公司 | 一种城市轨道交通遥感图像数据的处理系统及方法 |
CN113657482A (zh) * | 2021-08-14 | 2021-11-16 | 北京百度网讯科技有限公司 | 模型训练方法、目标检测方法、装置、设备以及存储介质 |
CN113658199B (zh) * | 2021-09-02 | 2023-11-03 | 中国矿业大学 | 基于回归修正的染色体实例分割网络 |
CN113469302A (zh) * | 2021-09-06 | 2021-10-01 | 南昌工学院 | 一种视频图像的多圆形目标识别方法和系统 |
US11900643B2 (en) * | 2021-09-17 | 2024-02-13 | Himax Technologies Limited | Object detection method and object detection system |
CN113850783B (zh) * | 2021-09-27 | 2022-08-30 | 清华大学深圳国际研究生院 | 一种海面船舶检测方法及系统 |
CN114037865B (zh) * | 2021-11-02 | 2023-08-22 | 北京百度网讯科技有限公司 | 图像处理方法、装置、设备、存储介质和程序产品 |
CN114118408A (zh) * | 2021-11-11 | 2022-03-01 | 北京达佳互联信息技术有限公司 | 图像处理模型的训练方法、图像处理方法、装置及设备 |
CN114387492B (zh) * | 2021-11-19 | 2024-10-15 | 西北工业大学 | 一种基于深度学习的近岸水面区域舰船检测方法及装置 |
CN114399697A (zh) * | 2021-11-25 | 2022-04-26 | 北京航空航天大学杭州创新研究院 | 一种基于运动前景的场景自适应目标检测方法 |
WO2023128323A1 (ko) * | 2021-12-28 | 2023-07-06 | 삼성전자 주식회사 | 목표 객체를 검출하는 전자 장치 및 방법 |
CN114359561A (zh) * | 2022-01-10 | 2022-04-15 | 北京百度网讯科技有限公司 | 一种目标检测方法及目标检测模型的训练方法、装置 |
WO2023178542A1 (en) * | 2022-03-23 | 2023-09-28 | Robert Bosch Gmbh | Image processing apparatus and method |
CN114492210B (zh) * | 2022-04-13 | 2022-07-19 | 潍坊绘圆地理信息有限公司 | 一种高光谱卫星星载数据智能解译系统及其实现方法 |
CN114463603B (zh) * | 2022-04-14 | 2022-08-23 | 浙江啄云智能科技有限公司 | 图像检测模型的训练方法、装置、电子设备及存储介质 |
CN114842510A (zh) * | 2022-05-27 | 2022-08-02 | 澜途集思生态科技集团有限公司 | 基于ScratchDet算法的生态生物识别方法 |
CN115131552A (zh) * | 2022-07-20 | 2022-09-30 | 上海联影智能医疗科技有限公司 | 目标检测方法、计算机设备和存储介质 |
CN117036670B (zh) * | 2022-10-20 | 2024-06-07 | 腾讯科技(深圳)有限公司 | 质量检测模型的训练方法、装置、设备、介质及程序产品 |
CN115496917B (zh) * | 2022-11-01 | 2023-09-26 | 中南大学 | 一种GPR B-Scan图像中的多目标检测方法及装置 |
CN116152487A (zh) * | 2023-04-17 | 2023-05-23 | 广东广物互联网科技有限公司 | 一种基于深度IoU网络的目标检测方法、装置、设备及介质 |
CN116721093B (zh) * | 2023-08-03 | 2023-10-31 | 克伦斯(天津)轨道交通技术有限公司 | 基于神经网络的地铁轨道障碍物检测方法和系统 |
CN117876384B (zh) * | 2023-12-21 | 2024-08-20 | 珠海横琴圣澳云智科技有限公司 | 目标对象实例分割、模型训练方法及相关产品 |
CN117854211B (zh) * | 2024-03-07 | 2024-05-28 | 南京奥看信息科技有限公司 | 一种基于智能视觉的目标对象识别方法及装置 |
CN118397256B (zh) * | 2024-06-28 | 2024-08-30 | 武汉卓目科技股份有限公司 | Sar图像舰船目标检测方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107369158A (zh) * | 2017-06-13 | 2017-11-21 | 南京邮电大学 | 基于rgb‑d图像的室内场景布局估计及目标区域提取方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9665767B2 (en) * | 2011-02-28 | 2017-05-30 | Aic Innovations Group, Inc. | Method and apparatus for pattern tracking |
KR20140134505A (ko) * | 2013-05-14 | 2014-11-24 | 경성대학교 산학협력단 | 영상 객체 추적 방법 |
CN103530613B (zh) * | 2013-10-15 | 2017-02-01 | 易视腾科技股份有限公司 | 一种基于单目视频序列的目标人手势交互方法 |
CN105046721B (zh) * | 2015-08-03 | 2018-08-17 | 南昌大学 | 基于Grabcut及LBP跟踪质心矫正模型的Camshift算法 |
CN107872644B (zh) * | 2016-09-23 | 2020-10-09 | 亿阳信通股份有限公司 | 视频监控方法及装置 |
US10657364B2 (en) * | 2016-09-23 | 2020-05-19 | Samsung Electronics Co., Ltd | System and method for deep network fusion for fast and robust object detection |
CN106898005B (zh) * | 2017-01-04 | 2020-07-17 | 努比亚技术有限公司 | 一种实现交互式图像分割的方法、装置及终端 |
KR20180107988A (ko) * | 2017-03-23 | 2018-10-04 | 한국전자통신연구원 | 객체 탐지 장치 및 방법 |
KR101837482B1 (ko) * | 2017-03-28 | 2018-03-13 | (주)이더블유비엠 | 영상처리방법 및 장치, 그리고 이를 이용한 제스처 인식 인터페이스 방법 및 장치 |
JP2019061505A (ja) | 2017-09-27 | 2019-04-18 | 株式会社デンソー | 情報処理システム、制御システム、及び学習方法 |
US10037610B1 (en) | 2017-10-03 | 2018-07-31 | StradVision, Inc. | Method for tracking and segmenting a target object in an image using Markov Chain, and device using the same |
CN107862262A (zh) * | 2017-10-27 | 2018-03-30 | 中国航空无线电电子研究所 | 一种适用于高空侦察的快速可见光图像舰船检测方法 |
CN108513131B (zh) * | 2018-03-28 | 2020-10-20 | 浙江工业大学 | 一种自由视点视频深度图感兴趣区域编码方法 |
CN108717693A (zh) * | 2018-04-24 | 2018-10-30 | 浙江工业大学 | 一种基于rpn的视盘定位方法 |
CN109214353B (zh) * | 2018-09-27 | 2021-11-23 | 云南大学 | 一种基于剪枝模型的人脸图像快速检测训练方法和装置 |
CN110298298B (zh) * | 2019-06-26 | 2022-03-08 | 北京市商汤科技开发有限公司 | 目标检测及目标检测网络的训练方法、装置及设备 |
-
2019
- 2019-06-26 CN CN201910563005.8A patent/CN110298298B/zh active Active
- 2019-12-25 JP JP2020561707A patent/JP7096365B2/ja active Active
- 2019-12-25 SG SG11202010475SA patent/SG11202010475SA/en unknown
- 2019-12-25 WO PCT/CN2019/128383 patent/WO2020258793A1/zh active Application Filing
- 2019-12-25 KR KR1020207030752A patent/KR102414452B1/ko active IP Right Grant
-
2020
- 2020-01-17 TW TW109101702A patent/TWI762860B/zh active
- 2020-10-21 US US17/076,136 patent/US20210056708A1/en not_active Abandoned
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107369158A (zh) * | 2017-06-13 | 2017-11-21 | 南京邮电大学 | 基于rgb‑d图像的室内场景布局估计及目标区域提取方法 |
Also Published As
Publication number | Publication date |
---|---|
US20210056708A1 (en) | 2021-02-25 |
KR20210002104A (ko) | 2021-01-06 |
SG11202010475SA (en) | 2021-01-28 |
TW202101377A (zh) | 2021-01-01 |
CN110298298A (zh) | 2019-10-01 |
WO2020258793A1 (zh) | 2020-12-30 |
CN110298298B (zh) | 2022-03-08 |
KR102414452B1 (ko) | 2022-06-29 |
JP7096365B2 (ja) | 2022-07-05 |
JP2021532435A (ja) | 2021-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI762860B (zh) | 目標檢測及目標檢測網路的訓練方法、裝置、設備及儲存媒體 | |
CN109859190B (zh) | 一种基于深度学习的目标区域检测方法 | |
CN113591795B (zh) | 一种基于混合注意力特征金字塔结构的轻量化人脸检测方法和系统 | |
WO2023116631A1 (zh) | 旋转船只目标检测模型的训练方法、训练装置和存储介质 | |
CN111222396A (zh) | 一种全天候多光谱行人检测方法 | |
CN109858547A (zh) | 一种基于bssd的目标检测方法与装置 | |
CN113409325B (zh) | 基于精细分割的大幅面sar影像舰船目标检测识别方法 | |
US20220180476A1 (en) | Systems and methods for image feature extraction | |
CN112800955A (zh) | 基于加权双向特征金字塔的遥感影像旋转目标检测方法及系统 | |
CN109426773A (zh) | 一种道路识别方法和装置 | |
CN111815665A (zh) | 基于深度信息与尺度感知信息的单张图像人群计数方法 | |
CN114627173A (zh) | 通过差分神经渲染进行对象检测的数据增强 | |
CN116681894A (zh) | 一种结合大核卷积的相邻层特征融合Unet多器官分割方法、系统、设备及介质 | |
CN114821356B (zh) | 一种精确定位的光学遥感目标检测方法 | |
CN114445615A (zh) | 基于尺度不变特征金字塔结构的旋转绝缘子目标检测方法 | |
CN113850761A (zh) | 一种基于多角度检测框的遥感图像目标检测方法 | |
CN116958962A (zh) | 一种基于改进YOLOv8s的疏果前石榴果实检测方法 | |
CN114565824B (zh) | 基于全卷积网络的单阶段旋转舰船检测方法 | |
CN116091823A (zh) | 一种基于快速分组残差模块的单特征无锚框目标检测方法 | |
CN115393635A (zh) | 一种基于超像素分割以及数据增强的红外小目标检测方法 | |
CN115100616A (zh) | 点云目标检测方法、装置、电子设备及存储介质 | |
CN113610178A (zh) | 一种基于视频监控图像的内河船舶目标检测方法和装置 | |
CN114359286A (zh) | 一种基于人工智能的绝缘子缺陷识别方法、设备及介质 | |
CN116719031B (zh) | 一种合成孔径雷达sar图像的海洋涡旋检测方法及系统 | |
JP7485200B2 (ja) | 画像拡張装置、制御方法、及びプログラム |