TWI747325B - 目標對象匹配方法及目標對象匹配裝置、電子設備和電腦可讀儲存媒介 - Google Patents
目標對象匹配方法及目標對象匹配裝置、電子設備和電腦可讀儲存媒介 Download PDFInfo
- Publication number
- TWI747325B TWI747325B TW109119834A TW109119834A TWI747325B TW I747325 B TWI747325 B TW I747325B TW 109119834 A TW109119834 A TW 109119834A TW 109119834 A TW109119834 A TW 109119834A TW I747325 B TWI747325 B TW I747325B
- Authority
- TW
- Taiwan
- Prior art keywords
- target object
- image
- matching
- feature
- target
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 90
- 238000003860 storage Methods 0.000 title claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 108
- 238000012549 training Methods 0.000 claims description 98
- 238000013528 artificial neural network Methods 0.000 claims description 53
- 238000000605 extraction Methods 0.000 claims description 52
- 230000008569 process Effects 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 238000007499 fusion processing Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 210000000746 body region Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本公開涉及一種目標對象匹配方法及目標對象匹配裝置、電子設備和電腦可讀儲存媒介,其中所述目標對象匹配方法包括獲取輸入圖像中待匹配的第一目標對象和第二目標對象;對所述輸入圖像中與所述第一目標對象對應的第一圖像和與所述第二目標對象對應的第二圖像分別執行特徵處理,得到所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度;基於所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,建立所述第一目標對象和所述第二目標對象之間的二分圖;基於所述第一目標對象和所述第二目標對象之間的二分圖,確定匹配的第一目標對象和第二目標對象。本公開實施例可提高目標對象的匹配精度。
Description
本公開涉及電腦視覺技術領域,尤其涉及一種目標對象匹配方法及目標對象匹配裝置、電子設備和電腦可讀儲存媒介。本公開要求在2019年09月18日提交中國專利局、申請號為201910882691.5、申請名稱為“目標對象匹配方法及裝置、電子設備和儲存媒介”的中國專利申請的優先權,其全部內容通過引用結合在本公開中。
人臉人體匹配或者人手人體匹配是用於確定一張圖片中的人體與人臉或者人手是否為匹配的,因為在一張圖像中有時會有很多人,其中每個人的動作、大小可能都不一樣,甚至會出現人和人相互重疊的情況,種種原因造成了將人體人臉以及人體人手匹配起來有很大的挑戰性。
本公開提出了一種目標對象匹配的技術方案。
根據本公開的一方面,提供了一種目標對象匹配方法,其包括:獲取輸入圖像中待匹配的第一目標對象和第二目標對象,所述第一目標對象包括人體,所述第二目標對象包括人手和人臉中的至少一種;對所述輸入圖像中與所述第一目標對象對應的第一圖像和與所述第二目標對象對應的第二圖像分別執行特徵處理,得到所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度;基於所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,建立所述第一目標對象和所述第二目標對象之間的二分圖;基於所述第一目標對象和所述第二目標對象之間的二分圖,確定匹配的第一目標對象和第二目標對象。基於上述配置,可以提高目標對象之間的匹配精度,而且適用於多人存在重合區域的場景,具有更好的適用性。
在一些可能的實施方式中,所述對所述輸入圖像中與所述第一目標對象對應的第一圖像和與所述第二目標對象對應的第二圖像分別執行特徵處理,得到所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,包括:對所述第一圖像和所述第二圖像執行特徵提取處理,分別得到所述第一圖像的第一特徵和所述第二圖像的第二特徵;對所述第一特徵和所述第二特徵的連接特徵執行分類處理,得到所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度。基於上述配置,可以方便獲得兩個目標對象之間的匹配度,並且該過程中可以得到高精度的特徵以及得到精確的匹配度。
在一些可能的實施方式中,所述對所述第一特徵和所述第二特徵的連接特徵執行分類處理,得到所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,包括:對所述第一特徵和所述第二特徵的連接特徵執行特徵融合處理,得到融合特徵;將所述融合特徵輸入至全連接層執行所述分類處理,得到所述第一圖像中的第一目標對象和第二圖像中的第二目標對象的匹配度。基於上述配置,通過融合處理可以提高分類效率和分類精度。
在一些可能的實施方式中,所述基於所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,建立所述第一目標對象和所述第二目標對象之間的二分圖,包括:回應於所述第二目標對象僅包括人臉,基於所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,建立人體和人臉之間的二分圖;回應於所述第二目標對象僅包括人手,基於所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,建立人體和人手之間的二分圖;回應於所述第二目標對象包括人臉和人手,基於所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,建立人體和人臉之間的二分圖以及人體和人手之間的二分圖;其中,將人體和人臉之間的匹配度作為所述人體和人臉之間的二分圖中人體和人臉之間的連接權值,以及將人體和人手之間的匹配度作為所述人體和人手之間的二分圖中人體和人手之間的連接權值。基於上述配置,可以通過建立二分圖的方式方便的構建目標對象之間的關係。
在一些可能的實施方式中,所述基於所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,建立所述第一目標對象和所述第二目標對象之間的二分圖,包括:基於匹配度大於第一閾值的第一目標對象和第二目標對象,建立所述第一目標對象和第二目標對象之間的二分圖。基於上述配置,可以簡化二分圖結構,提高匹配效率。
在一些可能的實施方式中,所述基於所述第一目標對象和所述第二目標對象之間的二分圖,確定匹配的第一目標對象和第二目標對象,包括:基於所述第一目標對象和所述第二目標對象之間的二分圖,利用貪心演算法(greedy algorithm),按照所述第一目標對象和所述第二目標對象的匹配度從高到低的順序,將與所述第一目標對象最匹配的預設數量個所述第二目標對象作為與所述第一目標對象匹配的第二目標對象。基於上述配置,可以方便且精確的確定匹配的目標對象。
在一些可能的實施方式中,所述基於所述第一目標對象和所述第二目標對象之間的二分圖,確定匹配的第一目標對象和第二目標對象,還包括;回應於所述第一目標對象和所述第二目標對象之間的二分圖包括人體和人手之間的二分圖,利用貪心演算法,選擇出與所述第一目標對象最匹配的至多兩個類型為人手的第二目標對象;回應於所述第一目標對象和所述第二目標對象之間的二分圖包括人體和人臉之間的二分圖,利用貪心演算法,選擇出與所述第一目標對象最匹配的類型為人臉的第二目標對象。基於上述配置,可以適應性的為不同類型的第二目標對象設定不同的匹配數量詞,適應性更好。
在一些可能的實施方式中,所述基於所述第一目標對象和所述第二目標對象之間的二分圖,確定匹配的第一目標對象和第二目標對象,還包括:回應于任一第一目標對象確定出匹配的預設數量個第二目標對象,不再為所述第一目標對象匹配其餘第二目標對象,以及回應于任一第二目標對象確定出匹配的第一目標對象,不再為所述第二目標對象匹配其餘第一目標對象。基於上述配置,可以降低同一目標對象匹配給多個目標對象的概率,提高匹配精度。
在一些可能的實施方式中,所述獲取輸入圖像中待匹配的第一目標對象和第二目標對象,包括以下方式中的至少一種:基於檢測到的針對輸入圖像中所述第一目標對象和所述第二目標對象的框選操作,確定所述輸入圖像中的所述第一目標對象和所述第二目標對象;利用目標檢測神經網路檢測所述輸入圖像中的所述第一目標對象和所述第二目標對象;接收輸入圖像中所述第一目標對象和第二目標對象所在的位置資訊,基於所述位置資訊確定所述輸入圖像中的所述第一目標對象和第二目標對象。基於上述配置可以通過不同的方式確定待匹配的目標對象,具有更好的用戶體驗。
在一些可能的實施方式中,在對所述輸入圖像中與所述第一目標對象對應的第一圖像和與所述第二目標對象對應的第二圖像分別執行特徵處理之前,所述目標對象匹配方法還包括:將所述第一圖像和所述第二圖像分別調整為預設規格,並且,所述對所述輸入圖像中與所述第一目標對象對應的第一圖像和與所述第二目標對象對應的第二圖像分別執行特徵處理,得到所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,包括:對所述調整為預設規格的所述第一圖像和所述第二圖像執行特徵處理,得到所述第一圖像中的所述第一目標對象和所述第二圖像中的第二目標對象的匹配度。基於上述配置,可以適應於不同規格的圖像。
在一些可能的實施方式中,所述目標對象匹配方法還包括:在所述輸入圖像中顯示匹配的所述第一目標對象和所述第二目標對象。基於上述配置,可以直觀的顯示出匹配結果,使用者體驗更好。
在一些可能的實施方式中,所述目標對象匹配方法還包括,通過孿生神經網路執行所述對所述第一目標對象對應的第一圖像和所述第二目標對象對應的第二圖像分別執行特徵處理,得到所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度。基於上述配置,可以提高特徵處理的精度,進一步提高匹配度。
在一些可能的實施方式中,所述目標對象匹配方法還包括訓練所述孿生神經網路的步驟,其包括:獲得訓練樣本,所述訓練樣本包括多個第一訓練圖像和多個第二訓練圖像,所述第一訓練圖像為人體圖像,所述第二訓練圖像為人臉圖像或者人手圖像;將所述第一訓練圖像和所述第二訓練圖像輸入至所述孿生神經網路,得到所述第一訓練圖像和所述第二訓練圖像的預測匹配結果;基於所述第一訓練圖像和所述第二訓練圖像之間的預測匹配結果,確定網路損失,並根據所述網路損失調整所述孿生神經網路的網路參數,直至滿足訓練要求。基於上述配置,可以優化孿生神經網路,提高匹配精度。
根據本公開的第二方面,提供了一種目標對象匹配裝置,包括:
獲取模組,用於獲取輸入圖像中待匹配的第一目標對象和第二目標對象,所述第一目標對象包括人體,所述第二目標對象包括人手和人臉中的至少一種;
特徵處理模組,用於對所述輸入圖像中與所述第一目標對象對應的第一圖像和與所述第二目標對象對應的第二圖像分別執行特徵處理,得到所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度;
二分模組,用於基於所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,建立所述第一目標對象和所述第二目標對象之間的二分圖;
匹配模組,用於基於所述第一目標對象和所述第二目標對象之間的二分圖,確定匹配的第一目標對象和第二目標對象。
在一些可能的實施方式中,所述特徵處理模組還用於對所述第一圖像和所述第二圖像執行特徵提取處理,分別得到所述第一圖像的第一特徵和所述第二圖像的第二特徵;
對所述第一特徵和所述第二特徵的連接特徵執行分類處理,得到所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度。
在一些可能的實施方式中,所述特徵處理模組還用於對所述第一特徵和所述第二特徵的連接特徵執行特徵融合處理,得到融合特徵;
將所述融合特徵輸入至全連接層執行所述分類處理,得到所述第一圖像中的第一目標對象和第二圖像中的第二目標對象的匹配度。
在一些可能的實施方式中,所述二分模組還用於在所述第二目標對象僅包括人臉的情況下,基於所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,建立人體和人臉之間的二分圖;
載所述第二目標對象僅包括人手的情況下,基於所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,建立人體和人手之間的二分圖;
在所述第二目標對象包括人臉和人手的情況下,基於所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,建立人體和人臉之間的二分圖以及人體和人手之間的二分圖;
其中,將人體和人臉之間的匹配度作為所述人體和人臉之間的二分圖中人體和人臉之間的連接權值,以及將人體和人手之間的匹配度作為所述人體和人手之間的二分圖中人體和人手之間的連接權值。
在一些可能的實施方式中,所述二分模組還用於基於匹配度大於第一閾值的第一目標對象和第二目標對象,建立所述第一目標對象和第二目標對象之間的二分圖。
在一些可能的實施方式中,所述匹配模組還用於基於所述第一目標對象和所述第二目標對象之間的二分圖,利用貪心演算法,按照所述第一目標對象和所述第二目標對象的匹配度從高到低的順序,將與所述第一目標對象最匹配的預設數量個所述第二目標對象作為與所述第一目標對象匹配的第二目標對象。
在一些可能的實施方式中,所述匹配模組還用於在所述第一目標對象和所述第二目標對象之間的二分圖包括人體和人臉之間的二分圖的情況下,利用貪心演算法,選擇出與所述第一目標對象最匹配的類型為人臉的第二目標對象。
在一些可能的實施方式中,所述匹配模組還用於在任一第一目標對象確定出匹配的預設數量個第二目標對象的情況下,不再為所述第一目標對象匹配其餘第二目標對象,以及
在任一第二目標對象確定出匹配的第一目標對象的情況下,不再為所述第二目標對象匹配其餘第一目標對象。
在一些可能的實施方式中,所述獲取模組獲取輸入圖像中待匹配的第一目標對象和第二目標對象,包括以下方式中的至少一種:
基於檢測到的針對輸入圖像中所述第一目標對象和所述第二目標對象的框選操作,確定所述輸入圖像中的所述第一目標對象和所述第二目標對象;
利用目標檢測神經網路檢測所述輸入圖像中的所述第一目標對象和所述第二目標對象;
接收輸入圖像中所述第一目標對象和第二目標對象所在的位置資訊,基於所述位置資訊確定所述輸入圖像中的所述第一目標對象和第二目標對象。
在一些可能的實施方式中,所述特徵處理模組還用於在對所述輸入圖像中與所述第一目標對象對應的第一圖像和與所述第二目標對象對應的第二圖像分別執行特徵處理之前,將所述第一圖像和所述第二圖像分別調整為預設規格,並且,
所述對所述輸入圖像中與所述第一目標對象對應的第一圖像和與所述第二目標對象對應的第二圖像分別執行特徵處理,得到所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,包括:
對所述調整為預設規格的所述第一圖像和所述第二圖像執行特徵處理,得到所述第一圖像中的所述第一目標對象和所述第二圖像中的第二目標對象的匹配度。
在一些可能的實施方式中,所述裝置還包括顯示模組,用於在所述輸入圖像中顯示匹配的所述第一目標對象和所述第二目標對象。
在一些可能的實施方式中,所述特徵處理模組還用於通過孿生神經網路執行所述對所述第一目標對象對應的第一圖像和所述第二目標對象對應的第二圖像分別執行特徵處理,得到所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度。
在一些可能的實施方式中,所述裝置還包括訓練模組,用於訓練所述孿生神經網路,其中訓練所述孿生神經網路的步驟包括:獲得訓練樣本,所述訓練樣本包括多個第一訓練圖像和多個第二訓練圖像,所述第一訓練圖像為人體圖像,所述第二訓練圖像為人臉圖像或者人手圖像;
將所述第一訓練圖像和所述第二訓練圖像輸入至所述孿生神經網路,得到所述第一訓練圖像和所述第二訓練圖像的預測匹配結果;
基於所述第一訓練圖像和所述第二訓練圖像之間的預測匹配結果,確定網路損失,並根據所述網路損失調整所述孿生神經網路的網路參數,直至滿足訓練要求。
根據本公開的第三方面,提供了一種電子設備,其包括:
處理器;
用於儲存處理器可執行指令的記憶體;
其中,所述處理器被配置為調用所述記憶體儲存的指令,以執行第一方面中任意一項所述的目標對象匹配方法。
根據本公開的第四方面,提供了一種電腦可讀儲存媒介,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現第一方面中任意一項所述的目標對象匹配方法。
根據本公開的第五方面,提供了一種電腦可讀代碼,當所述電腦可讀代碼在電子設備中運行時,所述電子設備中的處理器執行第一方面中任意一項所述的目標對象匹配方法。
在本公開實施例中,可以首先獲取待匹配的第一目標對象的第一圖像和第二目標對象的第二圖像,其中第一目標對象可以為人體,第二目標對象可以為人臉和/或人手,而後通過對第一圖像和第二圖像執行特徵處理,可以得到第一圖像中第一目標對象和第二圖像中第二目標對象的匹配度,進而通過建立二分圖的方式確定第一圖像中的第一目標對象和第二圖像中的第二目標對象的匹配結果。本公開實施例首先檢測各第一目標對象和各第二目標對象之間的匹配度,並通過建立二分圖的方式對上述檢測到的匹配度進行約束,最終確定與第一目標對象匹配的第二目標對象,使得最終關聯匹配的結果精度更高。
應當理解的是,以上的一般描述和後文的細節描述僅是示例性和解釋性的,而非限制本公開。
根據下面參考圖式對示例性實施例的詳細說明,本公開的其它特徵及方面將變得清楚。
以下將參考圖式詳細說明本公開的各種示例性實施例、特徵和方面。圖式中相同的附圖標記表示功能相同或相似的元件。儘管在圖式中示出了實施例的各種方面,但是除非特別指出,不必按比例繪製圖式。
在這裡專用的詞“示例性”意為“用作例子、實施例或說明性”。這裡作為“示例性”所說明的任何實施例不必解釋為優於或好於其它實施例。
本文中術語“和/或”,僅僅是一種描述關聯對象的關聯關係,表示可以存在三種關係,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合,例如,包括A、B、C中的至少一種,可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。
另外,為了更好地說明本公開,在下文的具體實施方式中給出了眾多的具體細節。本領域技術人員應當理解,沒有某些具體細節,本公開同樣可以實施。在一些實例中,對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述,以便於凸顯本公開的主旨。
本公開實施例提供了一種目標對象匹配方法,該方法可以方便的得到兩個圖像中的對象是否匹配,例如可以檢測出人臉對象和人體對象是否匹配,或者檢測人手對象與人體對象是否匹配。其中,該方法可以應用在任意的影像處理設備中,例如可以應用在電子設備、或者伺服器中,其中,電子設備可以包括手機、筆記型電腦、PAD等終端設備,也可以包括在智慧手環、智慧手錶等可佩戴設備,或者也可以為其他的手持設備等。伺服器可以包括雲端伺服器或者本機伺服器等。只要能夠執行影像處理,即可以作為本公開實施例的目標對象匹配方法的執行主體。
圖1示出根據本公開實施例的一種目標對象匹配方法的流程圖,如圖1所示,所述目標對象匹配方法可以包括:
S10:獲取輸入圖像中待匹配的第一目標對象和第二目標對象,所述第一目標對象包括人體,所述第二目標對象包括人手和人臉中的至少一種;
在一些可能的實施方式中,本公開實施例可以實現人臉和人體的匹配以及人手和人體的匹配,即確定輸入圖像中的人臉與人體是否對應於同一人,以及人手和人體是否對應於同一人,從而可以實現針對每個人物對象的人臉、人手以及人體的匹配。其中,可以首先獲得輸入圖像中待匹配的目標對象的圖像。目標對象可以包括人體,以及人手和人臉中的至少一種。例如,可以對輸入圖像執行目標檢測處理,檢測出輸入圖像中的各目標對象,即首獲得輸入圖像中待匹配的第一目標對象和第二目標對象,例如獲得第一目標對象和第二目標對象在輸入圖像中的位置。進而可以確定第一目標對象對應的圖像區域和第二目標對象對應的圖像區域。其中,第一目標對象包括人體,第二目標對象包括人臉和人手中的至少一種。
S20:對所述輸入圖像中與所述第一目標對象對應的第一圖像和與所述第二目標對象對應的第二圖像分別執行特徵處理,得到所述第一圖像中的第一目標對象和第二圖像中的第二目標對象的匹配度;
在一些可能的實施方式中,在獲得輸入圖像中待匹配的第一目標對象和第二目標對象的情況下,即可以獲知待匹配的第一目標對象和第二目標分別在輸入圖像中的位置的情況下,可以確定第一目標對象以及第二目標對象在輸入圖像中所對應的圖像區域,即可以確定輸入圖像中第一目標對象的位置對應的第一圖像,以及輸入圖像中第二目標對象的位置對應的第二圖像,其中第一圖像和第二圖像分別為輸入圖像中的一部分圖像區域。
在得到第一圖像和第二圖像的情況下,可以通過分別對第一圖像和第二圖像執行特徵處理,檢測第一圖像中的第一目標對象和第二圖像中的第二目標對象的匹配情況,得到相應的匹配度。
在一些可能的實施方式中,可以通過神經網路實現上述第一目標對象和第二目標對象的匹配度的獲取,可以分別得到第一圖像和第二圖像的圖像特徵,進一步根據圖像特徵確定第一目標對象和第二目標對象之間的匹配度。在一個示例中,神經網路可以包括特徵提取模組、特徵融合模組以及全連接模組。通過特徵提取模組可以對輸入的第一圖像和第二圖像執行特徵提取處理,特徵融合模組可以實現第一圖像和第二圖像的特徵資訊的特徵融合,以及全連接模組可以得到第一目標對象和第二目標對象的二分類結果,即可以得到第一目標對象和第二目標對象的匹配度,其中該匹配度可以為大於或者等於0且小於或者等於1的數值,匹配度越大,表示第一目標對象和第二目標對象對應於同一人物對象的可能性就越大。
在一個示例中,神經網路可以為孿生神經網路,其中特徵提取模組可以包括兩個特徵提取分支,兩個特徵提取分支上的處理操作以及參數全部相同,通過該兩個特徵提取分支可以分別提取第一圖像和第二圖像的特徵資訊。通過孿生神經網路實現匹配度的檢測,可以提高檢測到的匹配度的精確度。
S30:基於所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,建立所述第一目標對象和所述第二目標對象之間的二分圖。
在一些可能的實施方式中,在得到第一目標對象和第二目標對象的匹配度的情況下,可以建立第一目標對象和第二目標對象之間的二分圖。其中,在輸入圖像中可以包括至少一個人物對象,其中可以包括至少一個第一目標對象,以及至少一個第二目標對象。通過每個第一目標對象和每個第二目標對象之間的匹配度,可以建立各個第一目標對象和各第二目標對象之間的二分圖,其中,第一目標對象和第二目標對象可以分別作為二分圖中的兩個點集,其中第一目標對象和第二目標對象之間的匹配度作為兩個點集之間的各連接權重。
例如,可以根據第二目標對象的類型,建立不同的二分圖。在第二目標對象的類型為人臉時,得到的二分圖即為人體和人臉之間的二分圖,在第二目標對象的類型為人手時,得到的二分圖即為人體和人手之間的二分圖,在第二目標對象包括人臉和人手時,得到的二分圖即為人體和人臉之間的二分圖以及人體和人手之間的二分圖。
S40:基於所述第一目標對象和所述第二目標對象之間的二分圖,確定匹配的第一目標對象和第二目標對象。
在一些可能的實施方式中,在得到第一目標對象和第二目標對象之間的二分圖的情況下,即可以根據該二分圖確定與第一目標對象匹配的第二目標對象,即確定出與第一目標對象對應於相同人物對象的第二目標對象。
其中,如上所述,二分圖中第一目標對象和第二目標對象之間的連接權重為第一目標對象和第二目標對象的匹配度,本公開實施例可以按照匹配度從高到低的順序,確定第一目標對象所匹配的第二目標對象。
在一個示例中,在二分圖為人體和人臉之間的二分圖的情況下,可以基於匹配度從高到低的順序,為每個人體(第一目標對象)確定出一個最為匹配的人臉(第二目標對象)。在二分圖為人體和人體之間的二分圖的情況下,可以基於匹配度從高到低的順序,為每個人體(第一目標對象)確定出至多兩個最為匹配的人手(第二目標對象)。
其中,本公開實施例可以利用貪心演算法得到上述第一目標對象匹配的第二目標對象,其中,在任一第一目標對象匹配出對應的第二目標對象的情況下,則不再為該第一目標對象和第二目標對象執行其他對象的匹配。
基於上述配置,本公開實施例可以首先預測輸入圖像中各第一目標對象和第二目標對象之間的匹配度,並利用建立二分圖的方式確定第一目標對象和第二目標對象的匹配結果,得到精度更高的匹配結果。
下面結合圖式對本公開實施例進行詳細說明。本公開實施例可以首先獲得輸入圖像,其中輸入圖像可以為任意包括人物對象的圖像,其中獲得輸入圖像的方式可以包括以下方式中的至少一種:通過圖像採集設備採集輸入圖像、接收其他設備傳輸的輸入圖像、從儲存裝置中讀取輸入圖像。其中圖像採集設備可以為任意具有圖像採集功能的設備,如可以為照相機、攝像機、手機或者電腦等,但本公開對此不作具體限定。另外儲存裝置可以為本地儲存裝置或者雲儲存裝置。上述僅為示例性說明獲得輸入圖像的方式,在其他實施例中也可以通過其他方式獲得輸入圖像,本公開對此不作具體限定。
在獲得輸入圖像的情況下,即可以進一步獲得輸入圖像中待匹配的第一目標對象和第二目標對象,如獲得第一目標對象和第二目標對象所在的位置區域。本公開實施例可以將輸入圖像輸入至能夠實現目標對象的檢測的神經網路中,該目標對象可以包括人體、人臉和人手。例如可以將輸入圖像輸入至能夠執行目標對象的檢測的神經網路中,經過該神經網路的檢測,可以得到輸入圖像中的第一目標對象所在的位置區域,以及第二目標對象所在的位置區域,其中,可以在輸入圖像中以檢測框的形式表示各第一目標對象和第二目標對象的位置區域。另外,可以包括各檢測框對應的目標對象的類別資訊(人體、人臉或者人手)。通過上述檢測框對應的位置即可以確定第一目標對象和第二目標對象所在的位置區域,通過標識可以確定第一目標對象和第二目標對象的類型。例如,本公開實施例執行目標對象的檢測的神經網路可以為區域候選網路(RPN),或者也可以為目標識別卷積神經網路(RCNN),但本公開對此不作具體限定。通過該種方式可以方便且精確的識別出輸入圖像中所有的第一目標對象和第二目標對象。
在一些可能的實施方式中,也可以根據接收的針對輸入圖像的框選操作確定輸入圖像中的第一目標對象和第二目標對象,即本公開實施例可以接收用戶輸入的框選操作,其中該框選操作是從輸入圖像中框選出待匹配的第一目標對象和第二目標對象,即框選出第一目標對象和第二目標對象對應的位置區域,框選操作確定的位置區域的形狀可以為矩形,或者也可以為其他形狀,本公開對此不作具體限定。其中,在接收框選操作時還可以接收每個框選區域對應的對象的類別,如人體、人臉或者人手。通過該種方式,可以基於使用者的選擇,確定待匹配的第一目標對象和第二目標對象,例如可以將輸入圖像中的至少一個第一目標對象和至少一個第二目標對象作為待匹配的第一目標對象和第二目標對象,具有更好的靈活性和適用性。
在一些可能的實施方式中,也可以直接接收針對第一目標對象和第二目標對象的位置資訊,例如可以接收第一目標對象和第二目標對象的相應位置區域的頂點座標,以及高度值,從而可以確定相應位置區域。或者也可以接收相應位置區域對應的兩個頂角的座標,即可以確定第一目標對象和第二目標對象在輸入圖像中的位置區域,即得到輸入圖像中的第一目標對象和第二目標對象。上述僅為示例性說明,在其他實施例中也可以通過其他方式表示位置區域的位置資訊。通過該種方式,可以基於使用者的發送的位置資訊,確定待匹配的第一目標對象和第二目標對象,例如可以將輸入圖像中的至少一個第一目標對象和至少一個第二目標對象作為待匹配的第一目標對象和第二目標對象,具有更好的靈活性和適用性。
通過上述配置可以確定輸入圖像中目標對象所在的位置區域,可以根據該位置區域得到輸入圖像中各第一目標對象的第一圖像,以及各第二目標對象的第二圖像。圖2示出根據本公開實施例獲得的輸入圖像中各目標對象的位置區域的示意圖。其中,A1和B1分別表示第一目標對象A和B的位置區域,其中第一目標對象為人體。A2和B2分別表示類型為人臉的第二目標對象的位置區域,A3和A4表示類型為人手的第二目標對象的位置區域。圖2中可以將全部人體、人臉以及人手均作為待匹配的第一目標對象和第二目標對象,本公開實施例也可以僅將輸入圖像中的一部分第一目標對象和第二目標對象作為待匹配的第一目標對象和第二目標對象,在此不做舉例說明。
在得到待匹配的第一目標對象和第二目標對象的情況下,即可以通過對第一目標對象和第二目標對象對應的圖像區域進行特徵處理,預測第一目標對象和第二目標對象之間的匹配度。其中,本公開實施例可以通過神經網路執行上述特徵處理,並得到相應的第一目標對象和第二目標對象之間的匹配度。圖3示出根據本公開實施例通過神經網路得到第一目標對象和第二目標對象的匹配度的流程圖。
如圖3所示,本公開實施例中的對所述輸入圖像中與所述第一目標對象對應的第一圖像和與所述第二目標對象對應的第二圖像分別執行特徵處理,得到所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,可以包括:
S21:對所述第一圖像和所述第二圖像執行特徵提取處理,分別得到所述第一圖像的第一特徵和所述第二圖像的第二特徵;
在一些可能的實施方式中,可以對第一目標對象和第二目標對象在輸入圖像中的圖像區域執行特徵提取處理,其中第一目標對象的位置對應的圖像區域即為第一圖像,第二目標對象的位置對應的圖像區域即為第二圖像。在確定第一圖像和第二圖像的情況下,可以執行第一圖像和第二圖像的特徵提取處理。其中,可以通過神經網路的特徵提取模組執行特徵提取處理。其中,特徵提取模組可以包括一個特徵提取分支,利用該特徵提取分支可以分別執行第一圖像和第二圖像的特徵提取處理,在包括多個第一目標對象以及多個第二目標對象的情況下,還可以對多個第一圖像和第二圖像執行特徵提取處理。另外,特徵提取模組也可以包括兩個特徵提取分支,該兩個特徵提取分支可以具有相同的網路結構,也可以為不同的網路結構,只要能夠執行特徵提取,即可以作為本公開實施例。在包括兩個特徵提取分支的情況下,可以分別將第一圖像和第二圖像一一對應的輸入至兩個特徵提取分支中,例如通過一個特徵提取分支對第一圖像執行特徵提取處理,得到第一圖像對應的第一特徵,通過另一個特徵提取分支對第二圖像執行特徵提取處理,得到第二圖像對應的第二特徵。在其他實施例中,也可以包括至少三個特徵提取分支,用於執行第一圖像和第二圖像的特徵提取處理,本公開對此不作具體限定。通過上述方式可以精確的實現特徵處理,以及匹配度的確定。
下面以孿生神經網路為例進行說明,圖4示出根據本公開實施例的孿生神經網路的結構示意圖。本公開實施例的特徵提取模組可以包括兩個特徵提取分支,孿生神經網路的兩個特徵提取分支的結構和參數完全相同。其中,特徵提取分支可以包括殘差網路,即本公開實施例的特徵提取模組可以由殘差網路構成,通過殘差網路對第一圖像和第二圖像執行特徵提取處理,提取圖像中的特徵資訊。其中,殘差網路可以為resnet18,但本公開對此不作具體限定,另外特徵提取模組也可以為其他能夠執行特徵提取的網路模組,本公開對此也不作具體限定。如圖4所示,第一圖像I1可以為對應於人體區域的圖像,第二圖像I2可以為對應於人臉區域的圖像,或者人手區域的第二圖像。在存在多個第一圖像和第二圖像的情況下,可以分別將各第一圖像和第二圖像輸入至兩個特徵提取分支中,執行特徵提取處理。或者,本公開實施例也可以每次僅向特徵提取分支分別輸入一個圖像,執行該兩個圖像的特徵提取,並在得到兩個圖像中目標對象的匹配度的情況下,再輸入下一次需要執行匹配對檢測的第一圖像和第二圖像。
另外,本公開實施還可以為每個圖像分配標識,同時也可以對圖像中包括的目標對象的類型進行標識,即本公開實施例中,每個第一圖像以及第二圖像都可以包括有圖像標識以及類型標識,用以後續處理區分各圖像,以及圖像中的目標對象的類型。
另外,在一些可能的實施方式中,在得到各第一目標對象的第一圖像以及各第二目標對象的第二圖像時,可以將第一圖像和第二圖像調整為預設規格的圖像。例如可以通過縮小處理、放大處理、升採樣、或者降採樣處理等,將第一圖像和第二圖像調整到預設規格的尺寸,比如224*224(但不作為本公開的具體限定),而後將調整為預設規格的第一圖像和第二圖像輸入至神經網路執行特徵提取,得到相應的第一特徵和第二特徵。
S22:對所述第一特徵和所述第二特徵的連接特徵執行分類處理,得到所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度。
在一些可能的實施方式中,本公開實施例可以對第一特徵和第二特徵的連接特徵執行特徵融合處理,得到融合特徵;以及將所述融合特徵輸入至全連接層執行所述分類處理,得到所述第一圖像中的第一目標對象和第二圖像中的第二目標對象的匹配度。
其中,本公開實施例得到的第一特徵和第二特徵可以分別表示為矩陣或者向量的形式,該第一特徵和第二特徵的尺度可以相同。而後可以將得到的第一特徵和第二特徵進行連接,例如在通道方向上連接得到連接特徵,其中連接可以通過連接函數(concat函數)執行。在得到第一特徵和第二特徵的連接特徵的情況下,可以對該連接特徵執行特徵融合處理,如可以執行至少一層的卷積操作實現該特徵融合處理。例如本公開實施例可以通過殘差模組(resnet_block)執行連接特徵的殘差處理,以執行特徵融合處理得到融合特徵。而後基於融合特徵執行匹配度的分類預測,其中可以得到第一目標對象和第二目標對象是否匹配的分類結果,以及可以得到對應的匹配度。
在一個示例中,其中執行匹配的分類預測可以通過全連接層(FC)實現,即可以將融合特徵輸入至全連接層,通過全連接層的處理可以輸出得到上述預測結果,即第一目標對象和第二目標對象的匹配度,以及基於該匹配度確定的是否匹配的匹配結果。其中,可以在匹配度高於第一閾值的情況下,確定第一目標對象和第二目標對象匹配,此時匹配結果可以為第一標識,如“1”,而在匹配度小於第一閾值的情況下,確定第一目標對象和第二目標對象不匹配,此時匹配結果可以為第二標識,如“0”。上述第一標識和第二標識可以為不同的標識,分別用於表示第一目標對象和第二目標對象屬於同一人物對象和不屬於同一人物對象的匹配結果。
在得到輸入圖像中待匹配的各第一目標對象和第二目標對象之間的匹配度的情況下,即可以根據該得到的匹配度對應的建立第一目標對象和第二目標對象之間的二分圖。
其中,G=(V,E)是一個無向圖,其中頂點集可分割為兩個互不相交的子集,並且圖中每條邊依附的兩個頂點都分屬於這兩個互不相交的子集。本公開實施例中,可以將第一目標對象和第二目標對象構造為二分圖中的頂點集V和E,各頂點之間的連接即二分圖中的各邊可以為兩個頂點對應的第一目標對象和第二目標對象之間的匹配度。
在一些可能的實施方式中,可以根據輸入圖像中執行待匹配處理的第二目標對象的類型來建立相應的二分圖。例如,在輸入圖像中待匹配的第二目標對象僅包括人臉時,可以基於第一圖像中的第一目標對象和第二圖像中的第二目標對象的匹配度,建立人體和人臉之間的二分圖。在輸入圖像中待匹配的第二目標對象僅包括人手時,可以基於第一圖像中的第一目標對象和第二圖像中的第二目標對象的匹配度,建立人體和人手之間的二分圖;以及在輸入圖像中待匹配的第二目標對象包括人臉和人手時,可以基於第一圖像中的第一目標對象和第二圖像中的第二目標對象的匹配度,建立人體和人臉之間的二分圖以及人體和人手之間的二分圖,即可以利用各第一目標對象與類型為人手的第二目標對象建立人體和人手之間的二分圖,利用各第一目標對象與類型為人臉的第二目標對象建立人體和人臉之間的二分圖。其中在各二分圖中,可以將人體和人臉之間的匹配度作為人體和人臉之間的二分圖中人體和人臉之間的連接權值,以及將人體和人手之間的匹配度作為所述人體和人手之間的二分圖中人體和人手之間的連接權值。
也就是說,本公開實施例可以將第一目標對象和第二目標對象作為二分圖中的各頂點的點集,該點集分為三類:人體、人臉和人手。進而可以對人體人臉、人體人手分別建立二分圖,兩個頂點之間相應邊的權值為神經網路輸出的相應兩個頂點對應的第一目標對象和第二目標對象之間的匹配度。
在此需要說明的是,本公開實施例在獲得每個第一目標對象與每個第二目標對象之間的匹配度的情況下,可以選擇出匹配度高於第一閾值的各第一目標對象和第二目標對象,並基於匹配度高於第一閾值的第一目標對象和第二目標對象確定第一目標對象和第二目標對象之間的二分圖。
其中,針對每個第一目標對象,如果存在一第二目標對象與所有的第一目標對象之間的匹配度都低於第一閾值,則該第二目標對象不用於形成二分圖。反之,如果存在一第一目標對象與所有的人臉類型的第二目標對象之間的匹配度都低於第一閾值,則該第一目標對象不用於形成人體和人臉之間的二分圖,如果存在一第一目標對象與所有的人體類型的第二目標對象之間的匹配度都低於第一閾值,則該第一目標對象不用於形成人體和人手之間的二分圖。
通過第一閾值的設定,可以簡化二分圖的結構,通時可以加快第一目標對象和第二目標對象的匹配效率。
在得到第一目標對象和第二目標對象的二分圖的情況下,可以基於第一目標對象和第二目標對象之間的二分圖,利用貪心演算法,得到與各人體類型的第一目標對象匹配的至多預設數量個第二目標對象。其中,針對不同類型的第二目標對象,預設數量可以為不同的數值,例如在第二目標對象為人手的情況下,預設數量可以為2,在第二目標對象為人臉的情況下,該預設數量可以為1。具體可以根據不同的目標對象的類型選取不同的預設數量的值,本公開對此不作具體限定。
其中,可以按照匹配度從高到低的順序,確定第一目標對象匹配的至多預設數量個第二目標對象。本公開實施例可以利用貪心演算法,確定第一目標對象和第二目標對象的匹配情況。即按照匹配度從高到低的順序,將第二目標對象匹配給對應的第一目標對象,如果一第一目標對象匹配的第二目標對象的數量達到預設數量,則終止該第一目標對象的第二目標對象的匹配程式,即不再為該第一目標對象匹配任何其餘的第二目標對象。另外,如果第二目標對象被確定為任一第一目標對象匹配的第二目標對象,則終止該第二目標對象的匹配程式,即不再為該第二目標對象匹配任何其餘的第一目標對象。
在一些可能的實施方式中,在按照匹配度從高到低的順序確定第一目標對象匹配的第二目標對象的過程中,如果反覆運算到一第一目標對象和第二目標對象之間的匹配度低於第一閾值,則此時可以終止匹配程式。例如,以人體和人臉之間的二分圖為例,假設匹配度從高到低的順序為X1和Y1的匹配度為90%、X2和Y2的匹配度為80%、X2和Y1的匹配度為50% 以及X1和Y2的匹配度為30%,以及第一閾值可以為60%。其中,X1和X2分別表示兩個第一目標對象,Y1和Y2分別表示兩個第二目標對象,按照匹配度的順序可以將90%的匹配度的第一目標對象X1和第二目標對象Y1確定為匹配的,將80%的匹配度的第一目標對象X2和第二目標對象Y2確定為匹配的,而後由於下一個匹配度為50%,其小於第一閾值,此時可以終止匹配過程。通過上述即可以確定出第一目標對象X1和X2分別匹配的人臉為Y1和Y2。
上述僅為示例性說明,通過第一閾值的設置來終止匹配的過程,但不作為本公開的具體限定,在其他實施例中,也可以只根據各第一目標對象和第二目標對象之間的匹配度從高到低的順序,為各第一目標對象匹配出至多預設數量個第二目標對象。這裡的至多預設數量個第二目標對像是指,在第二目標對象為人手時,由於每個人物對象可以匹配兩隻手,但是由於在匹配的過程中,由於第一閾值的設置,以及輸入圖像中第二目標對象的數量的影響,可能存在第一目標對象只被匹配出一個人手類型的第二目標對象。
下面以第二目標對象為人手舉例說明,圖5示出根據本公開實施例的構建的人體和人手之間的二分圖以及匹配結果的示意圖,其中,圖5表示基於第一目標對象和第二目標對象之間的匹配度構建的人體和人手之間的二分圖。其中,可以將人體和人手分別作為二分圖的兩類頂點的集合。其中P1、P2和P3分別表示三個第一目標對象,即三個人體。H1、H2、H3、H4和H5分別表示五個類型為人手的第二目標對象。任意兩個第一目標對象和第二目標對象之間的連接線,可以表示為第一目標對象和第二目標對象之間的匹配度。
基於該人體和人手之間的二分圖,可以按照匹配度從高到低的順序為各第一目標對象分配匹配的第二目標對象,其中為每個第一目標對象最多匹配兩個第二目標對象,在按照匹配度從高到低的順序,將一第二目標對象確認為與一第一目標對象匹配時,此時可以不再將該第二目標對象匹配給其餘第一目標對象,同時判斷該第一目標對象所匹配的第二目標對象的數量是否達到預設數量,如達到,則不再為該第一目標對象匹配其餘的第二目標對象,如未達到預設數量,可以基於匹配度從高到低的順序,執行下一匹配度的第二目標對象與相應的第一目標對象的匹配時,可以確定第二目標對象是否確定為其餘第一目標對象所匹配的第二目標對象,以及該第一目標對象所匹配的第二目標對象的數量是否達到預設數量,如第二目標對象未匹配給任何第一目標對象,以及第一目標對象匹配的第二目標對象小於預設數量,則確定為該第一目標對象和第二目標對象匹配。依次類推,針對每個匹配度所對應的第一目標對象和第二目標對象可以重複反覆運算執行上述過程,直至滿足終止條件。其中終止條件可以包括以下至少一種:為每個第一目標對象匹配出相應的第二目標對象、基於匹配度最低的第一目標對象和第二目標對象執行完成上述匹配過程,以及匹配度小於第一閾值。
針對人體和人臉之間的二分圖確定第一目標對象匹配的第二目標對象的過程與上述相似,在此不做重複說明。
另外,本公開實施例在得到與各第一目標對象匹配的第二目標對象的情況下,可以顯示該匹配的第一目標對象和第二目標對象的位置區域。例如,本公開實施例可以利用相同顯示狀態顯示所匹配的第一目標對象和第二目標對象所在的位置區域的邊界框,該邊界框可以為步驟S10中得到的各位置區域的檢測框。在一個示例中,可以按照相同顏色顯示匹配的第一目標對象和第二目標對象的位置區域的邊界框,但不作為本公開的具體限定。如圖2所示,針對每個人物對象,可以利用顯示框的線條寬度區分對應於不同人物對象的人體框、人手框以及人臉框,例如,從而方便的區分匹配結果。
基於本公開實施例的上述配置,可以通過建立二分圖的方式,選擇出與各第一目標對象最為匹配的第二目標對象,提高目標對象之間的匹配精度。
如上所述,本公開實施例可以應用在神經網路中,例如可以應用在孿生神經網路中,例如本公開實施例可以通過孿生神經網路執行對所述第一目標對象的位置區域對應的第一圖像和所述第二目標對象的位置區域對應的第二圖像分別執行特徵處理,得到所述第一圖像中的第一目標對象和第二圖像中的第二目標對象的匹配度。
圖6示出根據本公開實施例訓練孿生神經網路的流程圖。其中,訓練孿生神經網路的步驟可以包括:
S51:獲得訓練樣本,所述訓練樣本包括多個第一訓練圖像和多個第二訓練圖像,所述第一訓練圖像為人體圖像,所述第二訓練圖像為人臉圖像或者人手圖像;
在一些可能的實施方式中,其中第一訓練圖像和第二訓練圖像可以為從多個圖像中截取的圖像區域,也可以為通過目標檢測的方式從多個圖像中識別出的相應類型的目標對象的圖像區域,或者也可以為任意的包括人體、人手或者人臉的圖像,本公開對此不作具體限定。
S52:將所述第一訓練圖像和所述第二訓練圖像輸入至所述孿生神經網路,得到所述第一訓練圖像和所述第二訓練圖像的預測匹配結果;
在一些可能的實施方式中,通過孿生神經網路執行第一訓練圖像和第二訓練圖像的特徵提取,以及特徵連接、特徵融合和分類處理,最終預測得到第一訓練圖像和第二訓練圖像之間的匹配度,而後可以根據該匹配度確定第一訓練圖像和第二訓練圖像之間的匹配結果。該匹配結果可以表示成第一標識和第二標識,如第一標識為1,第二標識為0,用於表示第一訓練圖像和第二訓練圖像匹配或者不匹配的匹配結果。具體可以根據匹配度與第一閾值的比較結果確定匹配結果,如匹配度大於第一閾值,則確定相應的第一訓練圖像和第二訓練圖像的匹配結果為匹配,此時可以表示為第一標識,否則表示為第二標識。
S53:基於所述第一訓練圖像和所述第二訓練圖像之間的預測匹配結果,調整所述孿生神經網路的網路參數,直至滿足訓練要求。
本公開實施例中,第一訓練圖像和第二訓練圖像的真實匹配結果可以作為監督,進而可以根據第一訓練圖像和第二訓練圖像之間的預測匹配結果以及真實匹配結果確定網路損失,該網路損失可以根據兩個匹配結果之間的差異確定。
在得到網路損失的情況下,可以根據網路損失調整孿生神經網路的參數,如卷積參數等。在得到的網路損失小於損失閾值的情況下,確定滿足訓練要求,此時可以終止訓練,如果得到的網路損失大於或者等於損失閾值,則根據該網路損失調整網路參數,重新預測各第一訓練圖像和第二訓練圖像之間的匹配結果,直至得到的網路損失小於損失閾值。其中損失閾值可以為預先設定的值,如可以為1%,但不作為本公開的具體限定,也可以為其他的數值。通過上述方式可以實現孿生神經網路的優化,提高特徵處理和匹配精度。
為了更加清楚的體現本公開實施例,下面舉例說明本公開實施例的具體過程。首先可以將從輸入圖像中的取出的人體圖片和人臉圖片/人手圖片都調整到一個固定的大小,比如224*224,而後將各圖片分別輸入到孿生網路的兩個特徵提取分支中。孿生網路的兩個特徵提取分支分別提取人體和人臉或人手的特徵,在兩個分支的最後對提取的人體和人臉或人手的特徵圖進行連接,再進入網路進行二分類打分,分數在0-1之間,如果人體和人臉或人手匹配那麼分數就接近1,否則接近0。以圖4為例,孿生網路的兩個特徵提取分支分別用resnet18作為提取特徵,將得到的特徵圖併在一起,再經過一個resnet_block卷積層,最後通過一個全連接層進行分類,得到匹配度。而後將點集分為三類——人體,人臉,人手。對人體人臉、人體人手分別建立全連接二分圖,相應邊的權值為網路輸出的分數(匹配度)。對二分圖進行規則約束,一個人體最多匹配兩個人手,一個人體最多匹配一個人臉。對分數進行排序,利用貪心演算法,由高到低依次進行匹配,把多餘不合法的邊全部去掉,不斷反覆運算直到匹配結束。本公開實施例使用孿生網路可以學習到更多複雜場景下的關聯關係。另外,本公開實施例在最終關聯的時候使用了二分圖對網路輸出的結果進行了約束,使得最終結果的精度更高。
綜上所述,在本公開實施例中,可以首先獲取待匹配的第一目標對象的第一圖像和第二目標對象的第二圖像,其中第一目標對象可以為人體,第二目標對象可以為人臉和/或人手,而後通過對第一圖像和第二圖像執行特徵處理,可以得到第一圖像中第一目標對象和第二圖像中第二目標對象的匹配度,進而通過建立二分圖的方式確定第一圖像中的第一目標對象和第二圖像中的第二目標對象的匹配結果。本公開實施例首先檢測各第一目標對象和各第二目標對象之間的匹配度,並通過建立二分圖的方式對上述檢測到的匹配度進行約束,最終確定與第一目標對象匹配的第二目標對象,使得最終關聯匹配的結果精度更高。
可以理解,本公開提及的上述各個方法實施例,在不違背原理邏輯的情況下,均可以彼此相互結合形成結合後的實施例,限於篇幅,本公開不再贅述。
此外,本公開還提供了目標對象匹配裝置、電子設備、電腦可讀儲存媒介、程式,上述均可用來實現本公開提供的任一種目標對象匹配方法,相應技術方案和描述和參見方法部分的相應記載,不再贅述。
本領域技術人員可以理解,在具體實施方式的上述方法中,各步驟的撰寫順序並不意味著嚴格的執行順序而對實施過程構成任何限定,各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。
圖7示出根據本公開實施例的一種目標對象匹配裝置的框圖,如圖7所示,所述目標對象匹配裝置包括:
獲取模組10,用於獲取輸入圖像中待匹配的第一目標對象和第二目標對象,所述第一目標對象包括人體,所述第二目標對象包括人手和人臉中的至少一種;
特徵處理模組20,用於對所述輸入圖像中與所述第一目標對象對應的第一圖像和與所述第二目標對象對應的第二圖像分別執行特徵處理,得到所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度;
二分模組30,用於基於所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,建立所述第一目標對象和所述第二目標對象之間的二分圖;
匹配模組40,用於基於所述第一目標對象和所述第二目標對象之間的二分圖,確定匹配的第一目標對象和第二目標對象。
在一些可能的實施方式中,所述特徵處理模組20還用於對所述第一圖像和所述第二圖像執行特徵提取處理,分別得到所述第一圖像的第一特徵和所述第二圖像的第二特徵;
對所述第一特徵和所述第二特徵的連接特徵執行分類處理,得到所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度。
在一些可能的實施方式中,所述特徵處理模組20還用於對所述第一特徵和所述第二特徵的連接特徵執行特徵融合處理,得到融合特徵;
將所述融合特徵輸入至全連接層執行所述分類處理,得到所述第一圖像中的第一目標對象和第二圖像中的第二目標對象的匹配度。
在一些可能的實施方式中,所述二分模組30還用於在所述第二目標對象僅包括人臉的情況下,基於所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,建立人體和人臉之間的二分圖;
在所述第二目標對象僅包括人手的情況下,基於所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,建立人體和人手之間的二分圖;
在所述第二目標對象包括人臉和人手的情況下,基於所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,建立人體和人臉之間的二分圖以及人體和人手之間的二分圖;
其中,將人體和人臉之間的匹配度作為所述人體和人臉之間的二分圖中人體和人臉之間的連接權值,以及將人體和人手之間的匹配度作為所述人體和人手之間的二分圖中人體和人手之間的連接權值。
在一些可能的實施方式中,所述二分模組30還用於基於匹配度大於第一閾值的第一目標對象和第二目標對象,建立所述第一目標對象和第二目標對象之間的二分圖。
在一些可能的實施方式中,所述匹配模組40還用於基於所述第一目標對象和所述第二目標對象之間的二分圖,利用貪心演算法,按照所述第一目標對象和所述第二目標對象的匹配度從高到低的順序,將與所述第一目標對象最匹配的預設數量個所述第二目標對象作為與所述第一目標對象匹配的第二目標對象。
在一些可能的實施方式中,所述匹配模組40還用於在所述第一目標對象和所述第二目標對象之間的二分圖包括人體和人臉之間的二分圖的情況下,利用貪心演算法,選擇出與所述第一目標對象最匹配的類型為人臉的第二目標對象。
在一些可能的實施方式中,所述匹配模組40還用於在任一第一目標對象確定出匹配的預設數量個第二目標對象的情況下,不再為所述第一目標對象匹配其餘第二目標對象,以及
在任一第二目標對象確定出匹配的第一目標對象的情況下,不再為所述第二目標對象匹配其餘第一目標對象。
在一些可能的實施方式中,所述獲取模組10獲取輸入圖像中待匹配的第一目標對象和第二目標對象,包括以下方式中的至少一種:
基於檢測到的針對輸入圖像中所述第一目標對象和所述第二目標對象的框選操作,確定所述輸入圖像中的所述第一目標對象和所述第二目標對象;
利用目標檢測神經網路檢測所述輸入圖像中的所述第一目標對象和所述第二目標對象;
接收輸入圖像中所述第一目標對象和第二目標對象所在的位置資訊,基於所述位置資訊確定所述輸入圖像中的所述第一目標對象和第二目標對象。
在一些可能的實施方式中,所述特徵處理模組20還用於在對所述輸入圖像中與所述第一目標對象對應的第一圖像和與所述第二目標對象對應的第二圖像分別執行特徵處理之前,將所述第一圖像和所述第二圖像分別調整為預設規格,並且,
所述對所述輸入圖像中與所述第一目標對象對應的第一圖像和與所述第二目標對象對應的第二圖像分別執行特徵處理,得到所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,包括:
對所述調整為預設規格的所述第一圖像和所述第二圖像執行特徵處理,得到所述第一圖像中的所述第一目標對象和所述第二圖像中的第二目標對象的匹配度。
在一些可能的實施方式中,所述目標對象匹配裝置還包括顯示模組(圖未示),用於在所述輸入圖像中顯示匹配的所述第一目標對象和所述第二目標對象。
在一些可能的實施方式中,所述特徵處理模組20還用於通過孿生神經網路執行所述對所述第一目標對象對應的第一圖像和所述第二目標對象對應的第二圖像分別執行特徵處理,得到所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度。
在一些可能的實施方式中,所述目標對象匹配裝置還包括訓練模組(圖未示),用於訓練所述孿生神經網路,其中訓練所述孿生神經網路的步驟包括:獲得訓練樣本,所述訓練樣本包括多個第一訓練圖像和多個第二訓練圖像,所述第一訓練圖像為人體圖像,所述第二訓練圖像為人臉圖像或者人手圖像;
將所述第一訓練圖像和所述第二訓練圖像輸入至所述孿生神經網路,得到所述第一訓練圖像和所述第二訓練圖像的預測匹配結果;
基於所述第一訓練圖像和所述第二訓練圖像之間的預測匹配結果,確定網路損失,並根據所述網路損失調整所述孿生神經網路的網路參數,直至滿足訓練要求。
在一些實施例中,本公開實施例提供的目標對象匹配裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法,其具體實現可以參照上文方法實施例的描述,為了簡潔,這裡不再贅述。
本公開實施例還提出一種電腦可讀儲存媒介,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現上述目標對象匹配方法。電腦可讀儲存媒介可以是揮發性儲存媒介或非揮發性電腦可讀儲存媒介。
本公開實施例還提出一種電子設備,包括:處理器;用於儲存處理器可執行指令的儲存器;其中,所述處理器被配置為執行上述目標對象匹配方法。
電子設備可以被提供為終端、伺服器或其它形態的設備。
本公開實施例還提供了一種電腦可讀代碼,當所述電腦可讀代碼在電子設備中運行時,所述電子設備中的處理器執行上述目標對象匹配方法。
圖8示出根據本公開實施例的一種電子設備800的框圖。例如,電子設備800可以是行動電話,電腦,數位廣播終端,消息收發設備,遊戲控制台,平板設備,醫療設備,健身設備,個人數位助理等終端。
參照圖8,電子設備800可以包括以下一個或多個組件:處理組件802,記憶體804,電源組件806,多媒體組件808,音訊組件810,輸入/輸出介面812,感測器組件814,以及通信組件816。
處理組件802通常控制電子設備800的整體操作,諸如與顯示,電話呼叫,資料通信,相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器820來執行指令,以完成上述的方法的全部或部分步驟。此外,處理組件802可以包括一個或多個模組,便於處理組件802和其他組件之間的交互。例如,處理組件802可以包括多媒體模組,以方便多媒體組件808和處理組件802之間的交互。
記憶體804被配置為儲存各種類型的資料以支援在電子設備800的操作。這些資料的示例包括用於在電子設備800上操作的任何應用程式或方法的指令,聯絡人資料,電話簿資料,消息,圖片,影片等。記憶器804可以由任何類型的揮發性或非揮發性儲存設備或者它們的組合實現,如靜態隨機存取儲存器(SRAM),電子抹除式可複寫唯讀記憶體(EEPROM),可擦除可規劃式唯讀記憶體(EPROM),可程式化唯讀記憶體(PROM),唯讀記憶體(ROM),磁記憶體,快閃記憶體,磁片或光碟。
電源組件806為電子設備800的各種組件提供電力。電源組件806可以包括電源管理系統,一個或多個電源,及其他與為電子設備800生成、管理和分配電力相關聯的組件。
多媒體組件808包括在所述電子設備800和使用者之間的提供一個輸出介面的螢幕。在一些實施例中,螢幕可以包括液晶顯示器(LCD)和觸控面板(TP)。如果螢幕包括觸控面板,螢幕可以被實現為觸控式螢幕,以接收來自使用者的輸入信號。觸摸面板包括一個或多個觸控感測器以感測觸摸、滑動和觸控面板上的手勢。所述觸控感測器可以不僅感測觸摸或滑動動作的邊界,而且還檢測與所述觸摸或滑動操作相關的持續時間和壓力。在一些實施例中,多媒體組件808包括一個前置攝像頭和/或後置攝像頭。當電子設備800處於操作模式,如拍攝模式或視訊模式時,前置攝像頭和/或後置攝像頭可以接收外部的多媒體資料。每個前置攝像頭和後置攝像頭可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。
音訊組件810被配置為輸出和/或輸入音訊信號。例如,音訊組件810包括一個麥克風(MIC),當電子設備800處於操作模式,如呼叫模式、記錄模式和語音辨識模式時,麥克風被配置為接收外部音訊信號。所接收的音訊信號可以被進一步儲存在記憶體804或經由通信組件816發送。在一些實施例中,音訊組件810還包括一個揚聲器,用於輸出音訊信號。
輸入/輸出介面812為處理組件802和週邊介面模組之間提供介面,上述週邊介面模組可以是鍵盤,點擊輪,按鈕等。這些按鈕可包括但不限於:主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。
感測器組件814包括一個或多個感測器,用於為電子設備800提供各個方面的狀態評估。例如,感測器組件814可以檢測到電子設備800的打開/關閉狀態,組件的相對定位,例如所述組件為電子設備800的顯示器和小鍵盤,感測器組件814還可以檢測電子設備800或電子設備800一個組件的位置改變,使用者與電子設備800接觸的存在或不存在,電子設備800方位或加速/減速和電子設備800的溫度變化。感測器組件814可以包括近接感測器,被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器,如CMOS或CCD圖像感測器,用於在成像應用中使用。在一些實施例中,該感測器組件814還可以包括加速度感測器,陀螺儀感測器,磁感測器,壓力感測器或溫度感測器。
通信組件816被配置為便於電子設備800和其他設備之間有線或無線方式的通信。電子設備800可以接入基於通信標準的無線網路,如WiFi,2G或3G,或它們的組合。在一個示例性實施例中,通信組件816經由廣播通道接收來自外部廣播管理系統的廣播信號或廣播相關資訊。在一個示例性實施例中,所述通信組件816還包括近場通信(NFC)模組,以促進短程通信。例如,在NFC模組可基於射頻識別(RFID)技術,紅外資料協會(IrDA)技術,超寬頻(UWB)技術,藍牙(BT)技術和其他技術來實現。
在示例性實施例中,電子設備800可以被一個或多個應用專用積體電路(ASIC)、數位訊號處理器(DSP)、數位信號處理設備(DSPD)、可程式設計邏輯裝置(PLD)、現場可程式設計閘陣列(FPGA)、控制器、微控制器、微處理器或其他電子元件實現,用於執行上述目標對象匹配方法。
在示例性實施例中,還提供了一種非揮發性電腦可讀儲存媒介,例如包括電腦程式指令的記憶體804,上述電腦程式指令可由電子設備800的處理器820執行以完成上述目標對象匹配方法。
圖9示出根據本公開實施例的另一種電子設備1900的框圖。例如,電子設備1900可以被提供為一伺服器。參照圖9,電子設備1900包括處理組件1922,其進一步包括一個或多個處理器,以及由記憶體1932所代表的記憶體資源,用於儲存可由處理組件1922的執行的指令,例如應用程式。記憶體1932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外,處理組件1922被配置為執行指令,以執行上述目標對象匹配方法。
電子設備1900還可以包括一個電源組件1926被配置為執行電子設備1900的電源管理,一個有線或無線網路介面1950被配置為將電子設備1900連接到網路,和一個輸入輸出(I/O)介面1958。電子設備1900可以操作基於儲存在記憶體1932的作業系統,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM或類似。
在示例性實施例中,還提供了一種非揮發性電腦可讀儲存媒介,例如包括電腦程式指令的記憶體1932,上述電腦程式指令可由電子設備1900的處理組件1922執行以完成上述目標對象匹配方法。
本公開可以是系統、方法和/或電腦程式產品。電腦程式產品可以包括電腦可讀儲存媒介,其上載有用於使處理器實現本公開的各個方面的電腦可讀程式指令。
電腦可讀儲存媒介可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存媒介例如可以是――但不限於――電儲存設備、磁儲存設備、光儲存設備、電磁儲存設備、半導體儲存設備或者上述的任意合適的組合。電腦可讀儲存媒介的更具體的例子(非窮舉的列表)包括:可擕式電腦盤、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可擦式可規劃式唯讀記憶體(EPROM或快閃記憶體)、靜態隨機存取記憶體(SRAM)、可擕式壓縮磁碟唯讀記憶體(CD-ROM)、數位多功能影音光碟(DVD)、記憶棒、軟碟、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裡所使用的電腦可讀儲存媒介不被解釋為暫態信號本身,諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波(例如,通過光纖電纜的光脈衝)、或者通過電線傳輸的電信號。
這裡所描述的電腦可讀程式指令可以從電腦可讀儲存媒介下載到各個計算/處理設備,或者通過網路、例如網際網路、區域網路、廣域網路和/或無線網路下載到外部電腦或外部儲存設備。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、閘道電腦和/或邊緣伺服器。每個計算/處理設備中的網路介面卡或者網路介面從網路接收電腦可讀程式指令,並轉發該電腦可讀程式指令,以供儲存在各個計算/處理設備中的電腦可讀儲存媒介中。
用於執行本公開操作的電腦程式指令可以是彙編指令、指令集架構(ISA)指令、機器指令、機器相關指令、微代碼、固件指令、狀態設置資料、或者以一種或多種程式設計語言的任意組合編寫的原始程式碼或目標代碼,所述程式設計語言包括面向對象的程式設計語言—諸如Smalltalk、C++等,以及常規的過程式程式設計語言—諸如“C”語言或類似的程式設計語言。電腦可讀程式指令可以完全地在使用者電腦上執行、部分地在使用者電腦上執行、作為一個獨立的套裝軟體執行、部分在使用者電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中,遠端電腦可以通過任意種類的網路—包括區域網路(LAN)或廣域網路(WAN)—連接到使用者電腦,或者,可以連接到外部電腦(例如利用網際網路服務提供者來通過網際網路連接)。在一些實施例中,通過利用電腦可讀程式指令的狀態資訊來個性化定制電子電路,例如可程式設計邏輯電路、現場可程式設計閘陣列(FPGA)或可程式設計邏輯陣列(PLA),該電子電路可以執行電腦可讀程式指令,從而實現本公開的各個方面。
這裡參照根據本公開實施例的方法、裝置(系統)和電腦程式產品的流程圖和/或框圖描述了本公開的各個方面。應當理解,流程圖和/或框圖的每個方框以及流程圖和/或框圖中各方框的組合,都可以由電腦可讀程式指令實現。
這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式設計資料處理裝置的處理器,從而生產出一種機器,使得這些指令在通過電腦或其它可程式設計資料處理裝置的處理器執行時,產生了實現流程圖和/或框圖中的一個或多個方框中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存媒介中,這些指令使得電腦、可程式設計資料處理裝置和/或其他設備以特定方式工作,從而,儲存有指令的電腦可讀介質則包括一個製造品,其包括實現流程圖和/或框圖中的一個或多個方框中規定的功能/動作的各個方面的指令。
也可以把電腦可讀程式指令載入到電腦、其它可程式設計資料處理裝置、或其它設備上,使得在電腦、其它可程式設計資料處理裝置或其它設備上執行一系列操作步驟,以產生電腦實現的過程,從而使得在電腦、其它可程式設計資料處理裝置、或其它設備上執行的指令實現流程圖和/或框圖中的一個或多個方框中規定的功能/動作。
圖式中的流程圖和框圖顯示了根據本公開的多個實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模組、程式段或指令的一部分,所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作為替換的實現中,方框中所標注的功能也可以以不同於圖式中所標注的順序發生。例如,兩個連續的方框實際上可以基本並行地執行,它們有時也可以按相反的循序執行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執行規定的功能或動作的專用的基於硬體的系統來實現,或者可以用專用硬體與電腦指令的組合來實現。
以上已經描述了本公開的各實施例,上述說明是示例性的,並非窮盡性的,並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情況下,對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇,旨在最好地解釋各實施例的原理、實際應用或對市場中的技術改進,或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。
S10~S40:流程步驟
S21~S22:流程步驟
S51~S53:流程步驟
A1、B1:第一目標對象的位置區域
A2~A4、B2:第二目標對象的位置區域
I1:第一圖像
I2:第二圖像
10:獲取模組
20:特徵處理模組
30:二分模組
40:匹配模組
800:電子設備
802:處理組件
804:記憶體
806:電源組件
808:多媒體組件
810:音訊組件
812:輸入/輸出介面
814:感測器組件
816:通信組件
820:處理器
此處的圖式被併入說明書中並構成本說明書的一部分,這些圖式示出了符合本公開的實施例,並與說明書一起用於說明本公開的技術方案。
圖1示出根據本公開實施例的一種目標對象匹配方法的流程圖;
圖2示出根據本公開實施例獲得的輸入圖像中各目標對象的位置區域的示意圖;
圖3示出根據本公開實施例通過神經網路得到第一目標對象和第二目標對象的匹配度的流程圖;
圖4示出根據本公開實施例的孿生神經網路的結構示意圖;
圖5示出根據本公開實施例的構建的人體和人手之間的二分圖以及匹配結果的示意圖;
圖6示出根據本公開實施例訓練孿生神經網路的流程圖;
圖7示出根據本公開實施例的一種目標對象匹配裝置的框圖;
圖8示出根據本公開實施例的一種電子設備的框圖;
圖9示出根據本公開實施例的另一種電子設備的框圖。
S10~S40:流程步驟
Claims (16)
- 一種目標對象匹配方法,所述方法應用於目標對象匹配裝置,所述方法包括:獲取輸入圖像中待匹配的第一目標對象和第二目標對象,所述第一目標對象包括人體,所述第二目標對象包括人手和人臉中的至少一種;對所述輸入圖像中與所述第一目標對象對應的第一圖像和與所述第二目標對象對應的第二圖像分別執行特徵處理,得到所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,其中,所述特徵處理包括特徵提取處理和/或分類處理;基於所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,建立所述第一目標對象和所述第二目標對象之間的二分圖;基於所述第一目標對象和所述第二目標對象之間的二分圖,確定匹配的第一目標對象和第二目標對象。
- 根據請求項1所述的目標對象匹配方法,其中,所述對所述輸入圖像中與所述第一目標對象對應的第一圖像和與所述第二目標對象對應的第二圖像分別執行特徵處理,得到所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,包括:對所述第一圖像和所述第二圖像執行特徵提取處理,分別得到所述第一圖像的第一特徵和所述第二圖像的第二特徵; 對所述第一特徵和所述第二特徵的連接特徵執行分類處理,得到所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度。
- 根據請求項2所述的目標對象匹配方法,其中,所述對所述第一特徵和所述第二特徵的連接特徵執行分類處理,得到所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,包括:對所述第一特徵和所述第二特徵的連接特徵執行特徵融合處理,得到融合特徵;將所述融合特徵輸入至全連接層執行所述分類處理,得到所述第一圖像中的第一目標對象和第二圖像中的第二目標對象的匹配度。
- 根據請求項1-3中任意一項所述的目標對象匹配方法,其中,所述基於所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,建立所述第一目標對象和所述第二目標對象之間的二分圖,包括:回應於所述第二目標對象僅包括人臉,基於所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,建立人體和人臉之間的二分圖;回應於所述第二目標對象僅包括人手,基於所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,建立人體和人手之間的二分圖;回應於所述第二目標對象包括人臉和人手,基於所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的 匹配度,建立人體和人臉之間的二分圖以及人體和人手之間的二分圖;其中,將人體和人臉之間的匹配度作為所述人體和人臉之間的二分圖中人體和人臉之間的連接權值,以及將人體和人手之間的匹配度作為所述人體和人手之間的二分圖中人體和人手之間的連接權值。
- 根據請求項1-3中任意一項所述的目標對象匹配方法,其中,所述基於所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,建立所述第一目標對象和所述第二目標對象之間的二分圖,包括:基於匹配度大於第一閾值的第一目標對象和第二目標對象,建立所述第一目標對象和第二目標對象之間的二分圖。
- 根據請求項1-3中任意一項所述的目標對象匹配方法,其中,所述基於所述第一目標對象和所述第二目標對象之間的二分圖,確定匹配的第一目標對象和第二目標對象,包括:基於所述第一目標對象和所述第二目標對象之間的二分圖,利用貪心演算法,按照所述第一目標對象和所述第二目標對象的匹配度從高到低的順序,將與所述第一目標對象最匹配的預設數量個所述第二目標對象作為與所述第一目標對象匹配的第二目標對象。
- 根據請求項6所述的目標對象匹配方法,其中,所述基於所述第一目標對象和所述第二目標對象之間的二分圖,確定匹配的第一目標對象和第二目標對象,還包括: 回應於所述第一目標對象和所述第二目標對象之間的二分圖包括人體和人手之間的二分圖,利用貪心演算法,選擇出與所述第一目標對象最匹配的至多兩個類型為人手的第二目標對象;回應於所述第一目標對象和所述第二目標對象之間的二分圖包括人體和人臉之間的二分圖,利用貪心演算法,選擇出與所述第一目標對象最匹配的類型為人臉的第二目標對象。
- 根據請求項6所述的目標對象匹配方法,其中,所述基於所述第一目標對象和所述第二目標對象之間的二分圖,確定匹配的第一目標對象和第二目標對象,還包括:回應於任一第一目標對象確定出匹配的預設數量個第二目標對象,不再為所述第一目標對象匹配其餘第二目標對象,以及回應於任一第二目標對象確定出匹配的第一目標對象,不再為所述第二目標對象匹配其餘第一目標對象。
- 根據請求項1-3中任意一項所述的目標對象匹配方法,其中,所述獲取輸入圖像中待匹配的第一目標對象和第二目標對象,包括以下方式中的至少一種:基於檢測到的針對輸入圖像中所述第一目標對象和所述第二目標對象的框選操作,確定所述輸入圖像中的所述第一目標對象和所述第二目標對象;利用目標檢測神經網路檢測所述輸入圖像中的所述第一目標對象和所述第二目標對象;接收輸入圖像中所述第一目標對象和第二目標對象所在的位置資訊,基於所述位置資訊確定所述輸入圖像中的所述第一目標對象和第二目標對象。
- 根據請求項1-3中任意一項所述的目標對象匹配方法,其中,在對所述輸入圖像中與所述第一目標對象對應的第一圖像和與所述第二目標對象對應的第二圖像分別執行特徵處理之前,所述目標對象匹配方法還包括:將所述第一圖像和所述第二圖像分別調整為預設規格,並且,所述對所述輸入圖像中與所述第一目標對象對應的第一圖像和與所述第二目標對象對應的第二圖像分別執行特徵處理,得到所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,包括:對所述調整為預設規格的所述第一圖像和所述第二圖像執行特徵處理,得到所述第一圖像中的所述第一目標對象和所述第二圖像中的第二目標對象的匹配度。
- 根據請求項1-3中任意一項所述的目標對象匹配方法,其中,所述目標對象匹配方法還包括:在所述輸入圖像中顯示匹配的所述第一目標對象和所述第二目標對象。
- 根據請求項1-3中任意一項所述的目標對象匹配方法,其中,所述目標對象匹配方法還包括,通過孿生神經網路執行所述對所述第一目標對象對應的第一圖像和所述第二目標對象對應的第二圖像分別執行特徵處理,得到所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度。
- 根據請求項12所述的目標對象匹配方法,其中,所述目標對象匹配方法還包括訓練所述孿生神經網路的步驟,其包括: 獲得訓練樣本,所述訓練樣本包括多個第一訓練圖像和多個第二訓練圖像,所述第一訓練圖像為人體圖像,所述第二訓練圖像為人臉圖像或者人手圖像;將所述第一訓練圖像和所述第二訓練圖像輸入至所述孿生神經網路,得到所述第一訓練圖像和所述第二訓練圖像的預測匹配結果;基於所述第一訓練圖像和所述第二訓練圖像之間的預測匹配結果,確定網路損失,並根據所述網路損失調整所述孿生神經網路的網路參數,直至滿足訓練要求。
- 一種目標對象匹配裝置,包括:獲取模組,用於獲取輸入圖像中待匹配的第一目標對象和第二目標對象,所述第一目標對象包括人體,所述第二目標對象包括人手和人臉中的至少一種;特徵處理模組,用於對所述輸入圖像中與所述第一目標對象對應的第一圖像和與所述第二目標對象對應的第二圖像分別執行特徵處理,得到所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,其中,所述特徵處理包括特徵提取處理和/或分類處理;二分模組,用於基於所述第一圖像中的所述第一目標對象和所述第二圖像中的所述第二目標對象的匹配度,建立所述第一目標對象和所述第二目標對象之間的二分圖;匹配模組,用於基於所述第一目標對象和所述第二目標對象之間的二分圖,確定匹配的第一目標對象和第二目標對象。
- 一種電子設備,包括: 處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置為調用所述記憶體儲存的指令,以執行請求項1至13中任意一項所述的目標對象匹配方法。
- 一種電腦可讀儲存媒介,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現請求項1至13中任意一項所述的目標對象匹配方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910882691.5A CN110674719B (zh) | 2019-09-18 | 2019-09-18 | 目标对象匹配方法及装置、电子设备和存储介质 |
CN201910882691.5 | 2019-09-18 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202113757A TW202113757A (zh) | 2021-04-01 |
TWI747325B true TWI747325B (zh) | 2021-11-21 |
Family
ID=69076784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109119834A TWI747325B (zh) | 2019-09-18 | 2020-06-12 | 目標對象匹配方法及目標對象匹配裝置、電子設備和電腦可讀儲存媒介 |
Country Status (6)
Country | Link |
---|---|
JP (1) | JP7262659B2 (zh) |
KR (1) | KR20220053670A (zh) |
CN (1) | CN110674719B (zh) |
SG (1) | SG11202110892SA (zh) |
TW (1) | TWI747325B (zh) |
WO (1) | WO2021051857A1 (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674719B (zh) * | 2019-09-18 | 2022-07-26 | 北京市商汤科技开发有限公司 | 目标对象匹配方法及装置、电子设备和存储介质 |
CN111476214A (zh) * | 2020-05-21 | 2020-07-31 | 北京爱笔科技有限公司 | 一种图像区域匹配方法和相关装置 |
CN111680646B (zh) * | 2020-06-11 | 2023-09-22 | 北京市商汤科技开发有限公司 | 动作检测方法及装置、电子设备和存储介质 |
US11544509B2 (en) * | 2020-06-30 | 2023-01-03 | Nielsen Consumer Llc | Methods, systems, articles of manufacture, and apparatus to classify labels based on images using artificial intelligence |
AU2021203818A1 (en) * | 2020-12-29 | 2022-07-14 | Sensetime International Pte. Ltd. | Object detection method and apparatus, and electronic device |
KR20220098312A (ko) * | 2020-12-31 | 2022-07-12 | 센스타임 인터내셔널 피티이. 리미티드. | 이미지 내 관련 대상 검출 방법, 장치, 디바이스 및 기록 매체 |
CN112801141B (zh) * | 2021-01-08 | 2022-12-06 | 吉林大学 | 基于模板匹配和孪生神经网络优化的异源图像匹配方法 |
KR20220130567A (ko) * | 2021-03-17 | 2022-09-27 | 센스타임 인터내셔널 피티이. 리미티드. | 이미지에 포함된 상관된 객체들을 검출하기 위한 방법들, 장치들, 디바이스들, 및 저장 매체 |
WO2022195338A1 (en) * | 2021-03-17 | 2022-09-22 | Sensetime International Pte. Ltd. | Methods, apparatuses, devices and storage media for detecting correlated objects involved in image |
CN113205138B (zh) * | 2021-04-30 | 2024-07-09 | 四川云从天府人工智能科技有限公司 | 人脸人体匹配方法、设备和存储介质 |
JP2023504319A (ja) | 2021-06-22 | 2023-02-03 | センスタイム インターナショナル ピーティーイー.リミテッド | 人体と人手を関連付ける方法、装置、機器及び記憶媒体 |
WO2022096957A1 (en) * | 2021-06-22 | 2022-05-12 | Sensetime International Pte. Ltd. | Body and hand association method and apparatus, device, and storage medium |
CN115731436B (zh) * | 2022-09-21 | 2023-09-26 | 东南大学 | 基于深度学习融合模型的高速公路车辆图像检索方法 |
CN115827925A (zh) * | 2023-02-21 | 2023-03-21 | 中国第一汽车股份有限公司 | 一种目标关联方法、装置、电子设备及存储介质 |
CN116309449B (zh) * | 2023-03-14 | 2024-04-09 | 浙江医准智能科技有限公司 | 图像处理方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201546659A (zh) * | 2009-10-07 | 2015-12-16 | Microsoft Corp | 人體追蹤系統 |
CN108509896A (zh) * | 2018-03-28 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 一种轨迹跟踪方法、装置和存储介质 |
CN109657524A (zh) * | 2017-10-11 | 2019-04-19 | 高德信息技术有限公司 | 一种图像匹配方法及装置 |
US20190213797A1 (en) * | 2018-01-07 | 2019-07-11 | Unchartedvr Inc. | Hybrid hand tracking of participants to create believable digital avatars |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101077379B1 (ko) * | 2009-03-13 | 2011-10-26 | 노틸러스효성 주식회사 | 불법 금융 거래 방지용 금융 자동화 기기 및 그 제어 방법 |
JP2011070629A (ja) * | 2009-08-25 | 2011-04-07 | Dainippon Printing Co Ltd | 広告効果測定システム及び広告効果測定装置 |
US8543598B2 (en) * | 2010-03-01 | 2013-09-24 | Microsoft Corporation | Semantic object characterization and search |
CN104143076B (zh) * | 2013-05-09 | 2016-08-03 | 腾讯科技(深圳)有限公司 | 人脸形状的匹配方法和系统 |
JP7094702B2 (ja) * | 2018-01-12 | 2022-07-04 | キヤノン株式会社 | 画像処理装置及びその方法、プログラム |
CN110110189A (zh) * | 2018-02-01 | 2019-08-09 | 北京京东尚科信息技术有限公司 | 用于生成信息的方法和装置 |
CN108388888B (zh) * | 2018-03-23 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 一种车辆识别方法、装置和存储介质 |
CN109190454A (zh) * | 2018-07-17 | 2019-01-11 | 北京新唐思创教育科技有限公司 | 用于识别视频中的目标人物的方法、装置、设备及介质 |
CN109740516B (zh) * | 2018-12-29 | 2021-05-14 | 深圳市商汤科技有限公司 | 一种用户识别方法、装置、电子设备及存储介质 |
CN110070005A (zh) * | 2019-04-02 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 图像目标识别方法、装置、存储介质及电子设备 |
CN110427908A (zh) * | 2019-08-08 | 2019-11-08 | 北京百度网讯科技有限公司 | 一种人物检测的方法、装置及计算机可读存储介质 |
CN110674719B (zh) * | 2019-09-18 | 2022-07-26 | 北京市商汤科技开发有限公司 | 目标对象匹配方法及装置、电子设备和存储介质 |
CN111275002A (zh) * | 2020-02-18 | 2020-06-12 | 上海商汤临港智能科技有限公司 | 一种图像处理方法、装置及电子设备 |
-
2019
- 2019-09-18 CN CN201910882691.5A patent/CN110674719B/zh active Active
-
2020
- 2020-05-26 SG SG11202110892SA patent/SG11202110892SA/en unknown
- 2020-05-26 KR KR1020227011057A patent/KR20220053670A/ko active Search and Examination
- 2020-05-26 WO PCT/CN2020/092332 patent/WO2021051857A1/zh active Application Filing
- 2020-05-26 JP JP2022504597A patent/JP7262659B2/ja active Active
- 2020-06-12 TW TW109119834A patent/TWI747325B/zh not_active IP Right Cessation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201546659A (zh) * | 2009-10-07 | 2015-12-16 | Microsoft Corp | 人體追蹤系統 |
CN109657524A (zh) * | 2017-10-11 | 2019-04-19 | 高德信息技术有限公司 | 一种图像匹配方法及装置 |
US20190213797A1 (en) * | 2018-01-07 | 2019-07-11 | Unchartedvr Inc. | Hybrid hand tracking of participants to create believable digital avatars |
CN108509896A (zh) * | 2018-03-28 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 一种轨迹跟踪方法、装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP7262659B2 (ja) | 2023-04-21 |
CN110674719B (zh) | 2022-07-26 |
KR20220053670A (ko) | 2022-04-29 |
WO2021051857A1 (zh) | 2021-03-25 |
SG11202110892SA (en) | 2021-10-28 |
CN110674719A (zh) | 2020-01-10 |
JP2022542668A (ja) | 2022-10-06 |
TW202113757A (zh) | 2021-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI747325B (zh) | 目標對象匹配方法及目標對象匹配裝置、電子設備和電腦可讀儲存媒介 | |
TWI781359B (zh) | 人臉和人手關聯檢測方法及裝置、電子設備和電腦可讀儲存媒體 | |
TWI724736B (zh) | 圖像處理方法及裝置、電子設備、儲存媒體和電腦程式 | |
TWI749423B (zh) | 圖像處理方法及裝置、電子設備和電腦可讀儲存介質 | |
TWI766286B (zh) | 圖像處理方法及圖像處理裝置、電子設備和電腦可讀儲存媒介 | |
US11120078B2 (en) | Method and device for video processing, electronic device, and storage medium | |
CN106651955B (zh) | 图片中目标物的定位方法及装置 | |
WO2021031609A1 (zh) | 活体检测方法及装置、电子设备和存储介质 | |
CN107944447B (zh) | 图像分类方法及装置 | |
WO2020133966A1 (zh) | 锚点确定方法及装置、电子设备和存储介质 | |
CN109934275B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
WO2021036382A1 (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN110532956B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN111241887B (zh) | 目标对象关键点识别方法及装置、电子设备和存储介质 | |
CN111242303B (zh) | 网络训练方法及装置、图像处理方法及装置 | |
CN110659690B (zh) | 神经网络的构建方法及装置、电子设备和存储介质 | |
CN109145970B (zh) | 基于图像的问答处理方法和装置、电子设备及存储介质 | |
WO2019205605A1 (zh) | 人脸特征点的定位方法及装置 | |
CN111259967A (zh) | 图像分类及神经网络训练方法、装置、设备及存储介质 | |
WO2022141969A1 (zh) | 图像分割方法及装置、电子设备、存储介质和程序 | |
CN109101542B (zh) | 图像识别结果输出方法及装置、电子设备和存储介质 | |
CN110135349A (zh) | 识别方法、装置、设备及存储介质 | |
CN110633715B (zh) | 图像处理方法、网络训练方法及装置、和电子设备 | |
CN111488964A (zh) | 图像处理方法及装置、神经网络训练方法及装置 | |
CN116543211A (zh) | 图像属性编辑方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |