TWI754515B - 圖像檢測及相關模型訓練方法、設備及電腦可讀儲存介質 - Google Patents
圖像檢測及相關模型訓練方法、設備及電腦可讀儲存介質 Download PDFInfo
- Publication number
- TWI754515B TWI754515B TW110100322A TW110100322A TWI754515B TW I754515 B TWI754515 B TW I754515B TW 110100322 A TW110100322 A TW 110100322A TW 110100322 A TW110100322 A TW 110100322A TW I754515 B TWI754515 B TW I754515B
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- category
- sample
- images
- probability
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 282
- 238000000034 method Methods 0.000 title claims abstract description 109
- 238000012549 training Methods 0.000 title claims abstract description 38
- 230000000875 corresponding effect Effects 0.000 claims description 109
- 238000012545 processing Methods 0.000 claims description 64
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 230000002596 correlated effect Effects 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 description 41
- 230000009286 beneficial effect Effects 0.000 description 13
- 238000009826 distribution Methods 0.000 description 12
- 238000000605 extraction Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 7
- 230000000295 complement effect Effects 0.000 description 5
- 230000003111 delayed effect Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 206010027336 Menstruation delayed Diseases 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000002583 angiography Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000003240 portal vein Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/84—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/178—Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Image Analysis (AREA)
Abstract
本發明實施例提供了一種圖像檢測及相關模型訓練方法、設備及電腦可讀儲存介質,其中,圖像檢測方法包括:多張圖像的圖像特徵以及至少一組圖像對的類別相關度,且多張圖像包括參考圖像和目標圖像,多張圖像中每兩張圖像組成一組圖像對,類別相關度表示圖像對屬於相同圖像類別的可能性;利用類別相關度,更新多張圖像的圖像特徵;利用更新後的圖像特徵,得到目標圖像的圖像類別檢測結果。
Description
本發明關於圖像處理技術領域,特別是涉及一種圖像檢測及相關模型訓練方法、設備及電腦可讀儲存介質。
近年來,隨著資訊技術的發展,圖像類別檢測已在人臉識別、視頻監控等諸多場景得到了廣泛應用。例如,在人臉識別場景中,基於圖像類別檢測,可以對若干人臉圖像進行識別分類,從而有助於在若干人臉圖像中分辨出使用者指定人臉。一般而言,圖像類別檢測的準確性通常是衡量其性能的主要指標之一。故此,如何提高圖像類別檢測的準確性成為極具研究價值的課題。
本發明提供一種圖像檢測及相關模型訓練方法、設備及電腦可讀儲存介質。
第一方面,本發明實施例提供了一種圖像檢測方法,包括:獲取多張圖像的圖像特徵以及至少一組圖像對的類別相關度,且多張圖像包括參考圖像和目標圖像,多張圖像中每兩張圖像組成一組圖像對,類別相關度表示圖像對屬於相同圖像類別的可能性;利用類別相關度,更新多張圖像的圖像特徵;利用更新後的圖像特徵,得到目標圖像的圖像類別檢測結果。
上述方法中,獲取多張圖像的圖像特徵以及至少一組圖像對的類別相關度,且多張圖像包括參考圖像和目標圖像,多張圖像中每兩張圖像組成一組圖像對,類別相關度表示圖像對屬於相同圖像類別的可能性,並利用類別相關度,更新圖像特徵,從而利用更新後的圖像特徵,得到目標圖像的圖像類別檢測結果。故此,通過利用類別相關度,更新圖像特徵,能夠使相同圖像類別的圖像對應的圖像特徵趨於接近,並使不同圖像類別的圖像對應的圖像特徵趨於疏離,從而能夠有利於提高圖像特徵的魯棒性,並有利於捕捉到圖像特徵的分佈情況,進而能夠有利於提高圖像類別檢測的準確性。
在一種可能的實現方式中,所述利用更新後的圖像特徵,確定目標圖像的圖像類別檢測結果,包括:利用更新後的圖像特徵進行預測處理,得到概率資訊,其中,概率資訊包括目標圖像屬於至少一種參考類別的第一概率值,參考類別是參考圖像所屬的圖像類別;基於第一概率值,得到圖像類別檢測結果;其中,圖像類別檢測結果用於指示目標圖像所屬的圖像類別。
上述方法中,通過利用更新後的圖像特徵進行預測處理,得到概率資訊,且概率資訊包括目標圖像屬於至少一種參考類別的第一概率值,從而基於第一概率值,得到圖像類別檢測結果,且圖像類別檢測結果用於指示目標圖像所屬的圖像類別,進而能夠在利用類別相關度更新後的圖像特徵的基礎上進行預測,得到目標圖像屬於至少一種圖像類別的第一概率值,能夠有利於預測準確性。
在一種可能的實現方式中,所述概率資訊還包括參考圖像屬於至少一種參考類別的第二概率值;在基於第一概率值,得到圖像類別檢測結果之前,所述方法還包括:在執行預測處理的次數滿足預設條件的情況下,利用概率資訊,更新類別相關度;並重新執行利用類別相關度,更新多張圖像的圖像特徵的步驟,在執行預測處理的次數不滿足預設條件的情況下,基於第一概率值,得到圖像類別檢測結果。
上述方法中,通過將概率資訊設置為還包括參考圖像屬於至少一種參考類別的第二概率值,並在基於第一概率值,得到圖像類別檢測結果之前,進一步在執行預測處理的次數滿足預設條件的情況下,利用概率資訊,更新類別相關度,且重新執行利用類別相關度,更新圖像特徵的步驟,以及在執行預測處理的次數不滿足預設條件的情況下,基於第一概率值,得到圖像類別檢測結果。故此,能夠在執行預測處理的次數滿足預設條件的情況下,利用目標圖像屬於至少一種參考類別的第一概率值和參考圖像屬於至少一種參考類別的第二概率值,來更新類別相關度,從而提高類別相似度的魯棒性,並繼續利用更新後的類別相似度,來更新圖像特徵,從而又提高圖像特徵的魯棒性,進而能夠使得類別相似度和圖像特徵相互促進,相輔相成,並在執行預測處理的次數不滿足預設條件的情況下,基於第一概率值,得到圖像類別檢測結果,從而能夠有利於進一步提高圖像類別檢測的準確性。
在一種可能的實現方式中,所述類別相關度包括:每組圖像對屬於相同圖像類別的最終概率值;所述利用概率資訊,更新類別相關度,包括:分別以多張圖像中每張圖像作為當前圖像,並將包含當前圖像的圖像對作為當前圖像對;獲取當前圖像的所有當前圖像對的最終概率值之和,作為當前圖像的概率和;以及利用第一概率值和第二概率值,分別獲取每組當前圖像對屬於相同圖像類別的參考概率值;分別利用概率和、參考概率值,調整每組當前圖像對的最終概率值。
上述方法中,將類別相關度設置為包括每組圖像對屬於相同圖像類別的最終概率值,並分別以多張圖像中每張圖像作為當前圖像,將包含當前圖像的圖像對作為當前圖像對,從而獲取當前圖像的所有當前圖像對的最終概率值,作為當前圖像的概率和,以及利用第一概率值和第二概率值,分別獲取每組圖像對屬於相同圖像類別的參考概率值,進而分別利用概率和、參考概率值,調整每組當前圖像對的最終概率值。故此,能夠利用每組當前圖像對屬於相同圖像類別的參考概率值,來更新類別相關度,從而能夠有利於聚合圖像所屬的圖像類別,提升類別相關度的準確性。
在一種可能的實現方式中,所述利用更新後的圖像特徵進行預測處理,得到概率資訊,包括:利用更新後的圖像特徵,預測目標圖像和參考圖像所屬的預測類別,其中,預測類別屬於至少一個參考類別;針對每組圖像對,獲取圖像對的類別比對結果和特徵相似度,並得到圖像對關於類別比對結果和特徵相似度間的第一匹配度,其中,類別比對結果表示圖像對所屬的預測類別是否相同,特徵相似度表示圖像對的圖像特徵間的相似度;以及,基於參考圖像所屬的預測類別和參考類別,得到參考圖像關於預測類別與參考類別的第二匹配度;利用第一匹配度和第二匹配度,得到概率資訊。
上述方法中,利用更新後的圖像特徵,預測目標圖像和參考圖像所屬的預測類別,且預測類別屬於至少一個參考類別,從而針對每組圖像對,獲取圖像對的類別比對結果和特徵相似度,並得到圖像對關於類別比對結果和特徵相似度間的第一匹配度,且類別比對結果表示圖像對所屬的預測類別是否相同,特徵相似度表示圖像對的圖像特徵間的相似度,並基於參考圖像所屬的預測類別和參考類別,得到參考圖像關於預測類別與參考類別的第二匹配度,進而利用第一匹配度和第二匹配度,得到概率資訊。故此,通過獲取圖像對關於類別比對結果和相似度的第一匹配度,能夠在預測類別的類別比對結果以及特徵相似度之間的匹配程度基礎上,從任圖像對的維度,表徵圖像類別檢測的準確度,並通過獲取參考圖像關於預測類別與參考類別的第二匹配度,能夠在預測類別與參考類別之間的匹配程度基礎上,從單個圖像的維度,表徵圖像類別檢測的準確度,並結合任意兩個圖像和單個圖像兩個維度,來得到概率資訊,能夠有利於提高概率資訊預測準確性。
在一種可能的實現方式中,在類別比對結果為預測類別相同的情況下,特徵相似度與第一匹配度正相關,在類別比對結果為預測類別不同的情況下,特徵相似度與第一匹配度負相關,且預測類別與參考類別相同時的第二匹配度大於預測類別與參考類別不同時的第二匹配度。
上述方法中,在類別比對結果為預測類別相同的情況下,將特徵相似度設置為與第一匹配度正相關,在類別比對結果為預測類別不同的情況下,將特徵相似度設置為與第一匹配度負相關,從而在類別比對結果為預測類別相同時,特徵相似度越高,與類別對比結果的第一匹配度也越高,即特徵相似度與類別比對結果越匹配,而在類別比對結果為預測類別不同時,特徵相似度越高,與類別比對結果的第一匹配度越低,即特徵相似度與類別比對結果越不匹配,從而能夠有利於在後續概率資訊的預測過程中,捕捉到任意兩個圖像之間圖像類別相同的可能性,進而有利於提高概率資訊預測的準確性,此外,由於預測類別與參考類別相同時的第二匹配度大於預測類別與參考類別不同時的第二匹配度,有利於在後續概率資訊的預測過程中,捕捉到單個圖像的圖像特徵的準確性,進而有利於提高概率資訊預測的準確性。
在一種可能的實現方式中,所述利用更新後的圖像特徵,預測圖像所屬的預測類別,包括:基於條件隨機場網路,利用更新後的圖像特徵,預測圖像所屬的預測類別。
上述方法中,通過基於條件隨機場網路,利用更新後的圖像特徵,預測目標圖像和參考圖像所屬的預測類別,能夠有利於提高預測的準確性和效率。
在一種可能的實現方式中,所述利用第一匹配度和第二匹配度,得到概率資訊,包括:基於循環信念傳播,利用第一匹配度和第二匹配度,得到概率資訊。
上述方法中,基於循環信念傳播,利用第一匹配度和第二匹配度,得到概率資訊,能夠有利於提高概率資訊的準確性。
在一種可能的實現方式中,所述預設條件包括:執行預測處理的次數未達到預設閾值。
上述方法中,由於將預設條件設置為:執行預測處理的次數未達到預設閾值,能夠有利於在圖像類別檢測過程中,通過預設閾值次數的循環反覆運算,充分捕捉圖像之間類別關係,從而能夠有利於提高圖像類別檢測的準確性。
在一種可能的實現方式中,所述利用類別相關度,更新多張圖像的圖像特徵的步驟是由圖神經網路執行的。
因此,通過利用圖神經網路執行上述利用類別相關度,更新圖像特徵的步驟,能夠有利於提高圖像特徵更新的效率。
在一種可能的實現方式中,所述利用類別相關度,更新多張圖像的圖像特徵,包括:利用類別相關度和圖像特徵,得到類內圖像特徵和類間圖像特徵;利用類內圖像特徵和類間圖像特徵進行特徵轉換,得到更新後的圖像特徵。
上述方法中,通過利用類別相關度和圖像特徵,得到類內圖像特徵和類間圖像特徵,並結合類內圖像特徵和類間圖像特徵兩個維度進行特徵轉換,得到更新後的圖像特徵,能夠提高圖像特徵更新的準確性。
在一種可能的實現方式中,所述圖像檢測方法還包括:在圖像對屬於相同圖像類別的情況下,將圖像對初始的類別相關度確定為預設上限值;在圖像對屬於不同圖像類別的情況下,將圖像對初始的類別相關度確定為預設下限值;在圖像對中至少一個為目標圖像的情況下,將圖像對初始的類別相關度確定為預設下限值和預設上限值之間的預設數值。
上述方法中,通過在圖像對屬於相同圖像類別的情況下,將圖像對初始的類別相關度確定為預設上限值,並在圖像對屬於不同圖像類別的情況在,將圖像對初始的類別相關度確定為預設下限值,在圖像對中至少一個為目標圖像的情況下,將圖像對初始的類別相關度確定為預設下限值和預設上限值之間的預設數值,從而能夠利用上述預設上限值、預設下限值和預設數值,表徵圖像對的圖像類別相同的可能性,以便後續處理,進而能夠提高表徵類別相關度的便利性和準確性。
第二方面,本發明實施例提供了一種圖像類別檢測模型的訓練方法,包括:獲取多張樣本圖像的樣本圖像特徵以及至少一組樣本圖像對的樣本類別相關度,其中,多張樣本圖像包括樣本參考圖像和樣本目標圖像,多張樣本圖像中的每兩張樣本圖像形成一組樣本圖像對,樣本類別相關度表示樣本圖像對屬於相同圖像類別的可能性;基於圖像檢測模型的第一網路,利用樣本類別相關度,更新多張樣本圖像的樣本圖像特徵;基於圖像檢測模型的第二網路,利用更新後的樣本圖像特徵,得到樣本目標圖像的圖像類別檢測結果;利用樣本目標圖像的圖像類別檢測結果和樣本目標圖像標注的圖像類別,調整圖像檢測模型的網路參數。
上述方法中,獲取多張樣本圖像的樣本圖像特徵以及至少一組樣本圖像對的樣本類別相關度,且多張樣本圖像包括樣本參考圖像和樣本目標圖像,多張樣本圖像中的每兩張樣本圖像形成一組樣本圖像對,樣本類別相關度表示樣本圖像對屬於相同圖像類別的可能性,並基於圖像檢測模型的第一網路,利用樣本類別相關度,更新多張樣本圖像的樣本圖像特徵,從而基於圖像檢測模型的第二網路,利用更新後的樣本圖像特徵,得到樣本目標圖像的圖像類別檢測結果,進而利用圖像類別檢測結果和樣本目標圖像標注的圖像類別,調整圖像檢測模型的網路參數。故此,通過利用樣本類別相關度,更新樣本圖像特徵,能夠使相同圖像類別的圖像對應的樣本圖像特徵趨於接近,並使不同圖像類別的圖像對應的樣本圖像特徵趨於疏離,從而能夠有利於提高樣本圖像特徵的魯棒性,並有利於捕捉到樣本圖像特徵的分佈情況,進而能夠有利於提高圖像檢測模型的準確性。
在一種可能的實現方式中,所述基於圖像檢測模型的第二網路,利用更新後的樣本圖像特徵,得到樣本目標圖像的圖像類別檢測結果,包括:基於第二網路,利用更新後的樣本圖像特徵進行預測處理,得到樣本概率資訊,其中,樣本概率資訊包括樣本目標圖像屬於至少一種參考類別的第一樣本概率值和樣本參考圖像屬於至少一種參考類別的第二樣本概率值,參考類別是樣本參考圖像所屬的圖像類別;基於第一樣本概率值,得到樣本目標圖像的圖像類別檢測結果;在利用樣本目標圖像的圖像類別檢測結果和樣本目標圖像標注的圖像類別,調整圖像檢測模型的網路參數之前,方法還包括:利用第一樣本概率值和第二樣本概率值,更新樣本類別相關度;利用樣本目標圖像的圖像類別檢測結果和樣本目標圖像標注的圖像類別,調整圖像檢測模型的網路參數,包括:利用第一樣本概率值和樣本目標圖像標注的圖像類別,得到圖像檢測模型的第一損失值;以及,利用樣本目標圖像和樣本參考圖像之間的實際類別相關度和更新後的樣本類別相關度,得到圖像檢測模型的第二損失值;基於第一損失值和第二損失值,調整圖像檢測模型的網路參數。
上述方法中,基於第二網路,利用更新後的樣本圖像特徵進行預測處理,得到樣本概率資訊,且樣本概率資訊包括樣本目標圖像屬於至少一種參考類別的第一樣本概率值和樣本參考圖像屬於至少一種參考類別的第二樣本概率值,且參考類別是樣本參考圖像所屬的圖像類別,從而基於第一樣本概率值,得到樣本目標圖像的圖像類別檢測結果,並利用第一樣本概率值和第二樣本概率值,更新樣本類別相關度,進而利用第一樣本概率值和樣本目標圖像標注的圖像類別,得到圖像檢測模型的第一損失值,並利用樣本目標圖像和樣本參考圖像之間的實際類別相關度和更新後的樣本類別相關度,得到圖像檢測模型的第二損失值,從而基於第一損失值和第二損失值,調整圖像檢測模型的網路參數,故此能夠從兩個圖像間的類別相關度的維度,以及單個圖像的圖像類別的維度,來調整圖像檢測模型的網路參數,進而能夠有利於提高圖像檢測模型的準確性。
在一種可能的實現方式中,所述圖像檢測模型包括至少一個順序連接的網路層,每個網路層包括一個第一網路和一個第二網路;在基於第一損失值和第二損失值,調整圖像檢測模型的網路參數之前,方法還包括:在當前網路層不是圖像檢測模型的最後一層網路層的情況下,利用當前網路層的下一網路層,重新執行基於圖像檢測模型的第一網路,利用樣本類別相關度,更新樣本圖像特徵的步驟以及後續步驟,直至當前網路層是圖像檢測模型的最後一層網路層為止;基於第一損失值和第二損失值,調整圖像檢測模型的網路參數,包括:利用與各個網路層對應的第一權值分別將與各個網路層對應的第一損失值進行加權處理,得到第一加權損失值;以及,利用與各個網路層對應的第二權值分別將與各個網路層對應的第二損失值進行加權處理,得到第二加權損失值;基於第一加權損失值和第二加權損失值,調整圖像檢測模型的網路參數;其中,網路層在圖像檢測模型中越靠後,網路層對應的第一權值和第二權值均越大。
上述方法中,將圖像檢測模型設置為包括至少一個順序連接的網路層,且每個網路層包括一個第一網路和一個第二網路,並在當前網路層不是圖像檢測模型的最後一層網路層的情況下,利用當前網路層的下一網路層,重新執行基於圖像檢測模型的第一網路,利用樣本類別相關度,更新樣本圖像特徵的步驟以及後續步驟,直至當前網路層是圖像檢測模型的最後一層網路層為止,從而利用與各個網路層對應的第一權值分別將與各個網路層對應的第一損失值進行加權處理,得到第一加權損失值,並利用與各個網路層對應的第二權值分別將與各個網路層對應的第二損失值進行加權處理,得到第二加權損失值,進而基於第一加權損失值和第二加權損失值,調整圖像檢測模型的網路參數,且網路層在圖像檢測模型中越靠後,網路層對應的第一權值和第二權值均越大,能夠獲取到圖像檢測模型各層的網路層對應的損失值,且將越靠後的網路層對應的權值設置地越大,進而能夠充分利用各層網路層處理所得的資料,調整圖像檢測的網路參數,有利於提高圖像檢測模型的準確性。
第三方面,本發明實施例提供了一種圖像檢測裝置,包括圖像獲取模組、特徵更新模組和結果獲取模組,圖像獲取模組被配置為獲取多張圖像的圖像特徵以及至少一組圖像對的類別相關度,且多張圖像包括參考圖像和目標圖像,多張圖像中每兩張圖像組成一組圖像對,類別相關度表示圖像對屬於相同圖像類別的可能性;特徵更新模組被配置為利用類別相關度,更新多張圖像的圖像特徵;結果獲取模組被配置為利用更新後的圖像特徵,得到目標圖像的圖像類別檢測結果。
第四方面,本發明實施例提供了一種圖像檢測模型的訓練裝置,包括樣本獲取模組、特徵更新模組、結果獲取模組和參數調整模組,樣本獲取模組被配置為多張樣本圖像的樣本圖像特徵以及至少一組樣本圖像對的樣本類別相關度,且多張樣本圖像包括樣本參考圖像和樣本目標圖像,多張樣本圖像中的每兩張樣本圖像形成一組樣本圖像對,樣本類別相關度表示樣本圖像對屬於相同圖像類別的可能性;特徵更新模組被配置為基於圖像檢測模型的第一網路,利用樣本類別相關度,更新多張樣本圖像的樣本圖像特徵;結果獲取模組被配置為基於圖像檢測模型的第二網路,利用更新後的樣本圖像特徵,得到樣本目標圖像的圖像類別檢測結果;參數更新模組被配置為利用樣本目標圖像的圖像類別檢測結果和樣本目標圖像標注的圖像類別,調整圖像檢測模型的網路參數。
第五方面,本發明實施例提供了一種電子設備,包括相互耦接的記憶體和處理器,處理器被配置為執行記憶體中儲存的程式指令,以實現上述第一方面中的圖像檢測方法,或實現上述第二方面中的圖像檢測模型的訓練方法。
第六方面,本發明實施例提供了一種電腦可讀儲存介質,其上儲存有程式指令,程式指令被處理器執行時實現上述第一方面中的圖像檢測方法,或實現上述第二方面的圖像檢測模型的訓練方法。
第七方面,本發明實施例還提供了一種電腦程式,包括電腦可讀代碼,當所述電腦可讀代碼在電子設備中運行時,所述電子設備中的處理器執行如上述第一方面中的圖像檢測方法,或實現上述第二方面的圖像檢測模型的訓練方法。
上述方法中,獲取多張圖像的圖像特徵以及至少一組圖像對的類別相關度,且多張圖像包括參考圖像和目標圖像,多張圖像中每兩張圖像組成一組圖像對,類別相關度表示圖像對屬於相同圖像類別的可能性,並利用類別相關度,更新圖像特徵,從而利用更新後的圖像特徵,得到目標圖像的圖像類別檢測結果。故此,通過利用類別相關度,更新圖像特徵,能夠使相同圖像類別的圖像對應的圖像特徵趨於接近,並使不同圖像類別的圖像對應的圖像特徵趨於疏離,從而能夠有利於提高圖像特徵的魯棒性,並有利於捕捉到圖像特徵的分佈情況,進而能夠有利於提高圖像類別檢測的準確性。
下面結合說明書附圖,對本發明實施例的方案進行詳細說明。
以下描述中,為了說明而不是為了限定,提出了諸如特定系統結構、介面、技術之類的細節,以便透徹理解本發明。
本文中術語“系統”和“網路”在本文中常被可互換使用。本文中術語“和/或”,僅僅是一種描述關聯物件的關聯關係,表示可以存在三種關係,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中字元“/”,一般表示前後關聯物件是一種“或”的關係。此外,本文中的“多”表示兩個或者多於兩個。
本發明實施例提供的圖像檢測方法可用於檢測圖像的圖像類別。圖像類別可以根據實際應用情況進行設置。例如,為了區分圖像是屬於“人”,還是“動物”,圖像類別可以設置為包括:人、動物;或者,為了區分圖像是屬於“男性”,還是“女性”,圖像類別可以設置為包括:男性、女性;或者,為了區分圖像是屬於“白人男性”、還是“白人女性”,抑或是“黑人男性”、“黑人女性”,圖像類別可以設置為包括:白人男性、白人女性、黑人男性、黑人女性,在此不做限定。此外,需要說明的是,本發明實施例提供的圖像檢測方法可以用於監控相機(或與監控相機連接的電腦、平板電腦等電子設備),從而在拍攝到圖像之後,可以利用本發明實施例提供的圖像檢測方法檢測圖像所屬的圖像類別;或者,本發明實施例提供的圖像檢測方法也可以用於電腦、平板電腦等電子設備,從而在獲取到圖像之後,可以利用本發明實施例提供的的圖像檢測方法檢測出圖像所屬的圖像類別,請參閱如下公開的實施例。
請參閱圖1,圖1是本發明實施例提供的圖像檢測方法一實施例的流程示意圖。其中,可以包括如下步驟。
步驟S11:獲取多張圖像的圖像特徵以及至少一組圖像對的類別相關度。
本發明實施例中,多張圖像包括目標圖像和參考圖像。其中,目標圖像為圖像類別未知的圖像,而參考圖像為圖像類別已知的圖像。例如,參考圖像可以包括:圖像類別為“白人”的圖像、圖像類別為“黑人”的圖像;目標圖像中包括一個人臉,但未知該人臉是屬於“白人”還是“黑人”,在此基礎上,可以利用本發明實施例中的步驟,檢測出該人臉屬於“白人”還是“黑人”,其他場景可以以此類推,在此不再一一舉例。
在一個實施場景中,為了提高提取圖像特徵的效率,可以預先訓練一圖像檢測模型,且該圖像檢測模型包括一個特徵提取網路,用於提取目標圖像和參考圖像的圖像特徵。該特徵提取網路的訓練過程可以參閱本發明實施例提供的圖像檢測模型的訓練方法實施例中的步驟,在此暫不贅述。
在一個實際的實施場景中,特徵提取網路可以包含順序連接的骨幹網路、池化層和全連接層。骨幹網路可以是卷積網路、殘差網路(如,ResNet12)中的任一者。卷積網路可以包含若干個(如,4個)卷積塊,每個卷積塊包含順序連接的卷積層、批歸一化層(batch normalization)、啟動層(如,ReLu)。此外,卷積網路中最後若干個(如,最後2個)卷積塊中還可以包含丟棄層(dropout layer)。池化層可以是全域平均池化(Global Average Pooling,GAP)層。
在一個實際的實施場景中,目標圖像和參考圖像經上述特徵提取網路處理後,可以得到預設維數(如,128維)的圖像特徵。其中,圖像特徵可以以向量形式進行表示。
本發明實施例中,多張圖像中每兩張圖像組成一組圖像對。例如,多張圖像包含參考圖像A、參考圖像B和目標圖像C,則圖像對可以包括:參考圖像A和目標圖像C、參考圖像B和目標圖像C,其他場景可以以此類推,在此不再一一舉例。
在一個實施場景中,圖像對屬於相同圖像類別可能性的類別相關度可以包括:圖像對屬於相同圖像類別的最終概率值。例如,當最終概率值為0.9時,可以認為圖像對屬於相同圖像類別的可能性較高;或者,當最終概率值為0.1時,可以認為圖像對屬於相同圖像類別的可能性較低;或者,當最終概率值為0.5時,可以認為圖像對屬於相同圖像類別的可能性和屬於不同圖像類別的可能性均等。
在一個實際的實施場景中,在開始執行本發明實施例中的步驟時,可以初始化圖像對屬於相同圖像類別的類別相關度。其中,在圖像對屬於相同圖像類別的情況下,可以將圖像對初始的類別相關度確定為預設上限值,例如,當通過上述最終概率值表示類別相關度時,可以將預設上限值設置為1;此外,在圖像對屬於不同圖像類別的情況下,將圖像對初始的類別相關度確定為預設下限值,例如,當通過上述最終概率值表示類別相關度時,可以將預設下限值設置為0;此外,由於目標圖像為待檢測的圖像,故此,在圖像對中至少一個為目標圖像時,圖像對屬於相同圖像類別的類別相關度無法確定,為了提高初始化類別相關度的魯棒性,可以將類別相關度確定為預設下限值和預設上限值之間的預設數值,例如,當通過上述最終概率值表示類別相關度時,可以將預設數值設置為0.5,當然也可以根據需要設置為0.4、0.6、0.7,在此不做限定。
在另一個實際的實施場景中,為了便於描述,在通過最終概率值表示類別相關度時,可以將目標圖像和參考圖像中第
i個圖像和第
j個圖像之間初始化的最終概率值記為
,此外共有N種圖像類別的參考圖像,且每種圖像類別對應有K個參考圖像,則第1個至第NK個圖像為參考圖像時,第
i個參考圖像和第
j個參考圖像所標注的圖像類別可以分別記為
,則圖像對屬於相同圖像類別的初始化的最終概率值記為
可以表示為公式(1):
公式(1);
故此,當目標圖像有T個時,即第NK+1至第NK+T個圖像為目標圖像時,可以圖像對的類別相關度表示為一個(NK+T)*(NK+T)的矩陣。
在一個實施場景中,圖像類別可以根據實際應用場景進行設置。例如,在人臉識別場景中,圖像類別可以以年齡為維度,可以包括:“兒童”、“青少年”、“老年”等,或者可以以人種和性別為維度,可以包括:“白人女性”、“黑人女性”、“白人男性”、“黑人男性”等;或者,在醫學圖像分類場景中,圖像類別可以以造影時長為維度,可以包括:“動脈期”、“門脈期”、“延遲期”等等。其他場景可以以此類推,在此不在一一舉例。
在一個具體的實施場景中,如前所述,可以共有N種圖像類別的參考圖像,且每種圖像類別對應有K個參考圖像,N為大於或等於1的整數,K為大於或等於1的整數,即本發明圖像檢測方法實施例可以用於標注有圖像類別的參考圖像較為稀少的場景,例如,醫學圖像分類檢測、稀有物種圖像分類檢測等等。
在一個實施場景中,目標圖像的數量可以為1。在其他實施場景中,目標圖像的數量也可以根據實際應用需要設置為多個。例如,在視頻監控的人臉識別場景中,可以將拍攝得到的視頻所包含的各個幀中檢測得到的人臉區域的圖像資料,作為目標圖像,在此情形中,目標圖像也可以是2個、3個、4個等等,其他場景可以以此類推,在此不在一一舉例。
步驟S12:利用類別相關度,更新多張圖像的圖像特徵。
在一個實施場景中,為了提高更新圖像特徵的效率,如前所述,可以預訓練一圖像檢測模型,且該圖像檢測模型還進一步包括圖神經網路(Graph Neural Network,GNN),訓練過程可以參閱本發明實施例提供的圖像檢測模型的訓練方法實施例中的相關步驟,在此暫不贅述。在此基礎上,可以將各個圖像的圖像特徵作為圖神經網路的輸入圖像資料的節點,為了便於描述,可以將初始化得到的圖像特徵記為
,並將任意圖像對的類別相關度作為節點之間的邊,為了便於描述,可以將初始化得到的類別相關度記為
,從而可以利用圖神經網路執行利用類別相關度,更新圖像特徵的步驟,可以表示為公式(2):
公式(2);
上述公式(2)中,
表示圖神經網路,
表示更新後的圖像特徵。
在一個實際的實施場景中,如前所述,在將圖像對的類別相關度表示為一個(NK+T)*(NK+T)的矩陣的情況下,可以將圖神經網路的輸入圖像資料,視為一個有向圖。此外,在任意兩組圖像對所包含的兩個圖像不重複時,也可以將圖神經網路所對應的輸入圖像資料,視為一個無向圖,在此不做限定。
在一個實施場景中,為了提高圖像特徵的準確性,可以利用類別相關度和圖像特徵,得到類內圖像特徵和類間圖像特徵,其中,類內圖像特徵為利用類別相關度將圖像特徵進行類內聚合所得到的圖像特徵,而類間圖像特徵為利用類別相關度將圖像特徵進行類間聚合所得到的圖像特徵。為了統一描述,仍以
表示初始化得到的圖像特徵,
初始化得到的類別相關度,則類內圖像特徵可以表示為
,類間圖像特徵可以表示為
。在得到類內圖像特徵和類間圖像特徵之後,可以利用類內圖像特徵和類間圖像特徵進行特徵轉換,得到更新後的圖像特徵。其中,可以將類內圖像特徵和類間圖像特徵進行拼接,得到融合圖像特徵,並利用非線性轉換函數
將融合圖像特徵進行轉換,以得到更新後的圖像特徵,
可以通過公式(3)實現:
公式(3);
上述公式(3)中,非線性轉換函數
的參數為
,
表示拼接操作。
步驟S13:利用更新後的圖像特徵,得到目標圖像的圖像類別檢測結果。
在一個實施場景中,圖像類別檢測結果可以用於指示目標圖像所屬的圖像類別。
在一個實施場景中,在得到更新後的圖像特徵之後,即可利用更新後的圖像特徵進行預測處理,得到概率資訊,且概率資訊包括目標圖像屬於至少一種參考類別的第一概率值,從而可以基於第一概率值,得到圖像類別檢測結果。其中,參考類別是參考圖像所屬的圖像類別。例如,多張圖像包含參考圖像A、參考圖像B和目標圖像C,參考圖像A所屬的圖像類別為“黑人”、參考圖像B所屬的圖像類別為“白人”,則至少一個參考類別包括:“黑人”和“白人”;或者,多張圖像包含參考圖像A1、參考圖像A2、參考圖像A3、參考圖像A4和目標圖像C,參考圖像A1所屬的圖像類別為“平掃期”、參考圖像A2所屬的圖像類別為“動脈期”、參考圖像A3所屬的圖像類別為“門脈期”、參考圖像A4所屬的圖像類別為“延遲期”,則至少一個參考類別包括:“平掃期”、“動脈期”、“門脈期”和“延遲期”。其他場景可以以此類推,在此不再一一舉例。
在一個實際的實施場景中,為了提高預測效率,如前所述,可以預先訓練一圖像檢測模型,且圖像檢測模型包括條件隨機場(Conditional Random Field,CRF)網路,訓練過程可以參閱本發明實施例提供的圖像檢測模型的訓練方法實施例中的相關描述,在此暫不贅述。在此情形下,可以基於條件隨機場(Conditional Random Field,CRF)網路,利用更新後的圖像特徵,預測得到目標圖像屬於至少一種參考類別的第一概率值。
在另一個實際的實施場景中,可以直接將上述包含第一概率值的概率資訊,作為目標圖像的圖像類別檢測結果,以供用戶參考。例如,在人臉識別場景中,可以將目標圖像分別屬於“白人男性”、“白人女性”、“黑人男性”和“黑人女性”的第一概率值,作為該目標圖像的圖像類別檢測結果;或者,在醫學圖像類別檢測場景中,可以將目標圖像分別屬於“動脈期”、“門脈期”和“延遲期”的第一概率值,作為該目標圖像的圖像類別檢測結果,其他場景可以以此類推,在此不再一一舉例。
在又一個實際的實施場景中,還可以基於目標圖像屬於至少一種參考類別的第一概率值,確定目標圖像的圖像類別,並將確定得到的圖像類別,作為目標圖像的圖像類別檢測結果。其中,可以將最高的第一概率值所對應的參考類別,作為目標圖像的圖像類別。例如,在人臉識別場景中,預測得到目標圖像分別屬於“白人男性”、“白人女性”、“黑人男性”和“黑人女性”的第一概率值為:0.1、0.7、0.1、0.1,則可以將“白人女性”作為該目標圖像的圖像類別;或者,在醫學圖像類別檢測場景中,預測得到目標圖像分別屬於“動脈期”、“門脈期”和“延遲期”的第一概率值為:0.1、0.8、0.1,則可以將“門脈期”作為該目標圖像的圖像類別,其他場景可以以此類推,在此不再一一舉例。
在另一個實施場景中,利用更新後的圖像特徵進行預測處理,可以得到概率資訊,且概率資訊包含目標圖像屬於至少一種參考類別的第一概率值和參考圖像屬於至少一種參考類別的第二概率值,則在執行預測處理的次數滿足預設條件的情況下,可以利用概率資訊,更新多張圖像的類別相關度,並重新執行上述步驟S12以及後續步驟,即利用類別相關度更新圖像特徵,並利用更新後的圖像特徵進行預測處理的步驟,直至執行預測處理的次數不滿足預設條件為止。
上述方式,能夠在執行預測處理的次數滿足預設條件的情況下,利用目標圖像屬於至少一種參考類別的第一概率值和參考圖像屬於至少一種參考類別的第二概率值,來更新表示圖像對的類別相關度,從而提高類別相似度的魯棒性,並繼續利用更新後的類別相似度,來更新圖像特徵,從而又提高圖像特徵的魯棒性,進而能夠使得類別相似度和圖像特徵相互促進,相輔相成,能夠有利於進一步提高圖像類別檢測的準確性。
在一個實際的實施場景中,預設條件可以包括:執行預測處理的次數未達到預設閾值。預設閾值至少為1,例如,1、2、3等等,在此不做限定。
在另一個實際的實施場景中,在執行預測處理的次數不滿足預設條件的情況下,可以基於第一概率值,得到目標圖像的圖像類別檢測結果。可以參閱前述相關描述,在此不再贅述。此外,利用概率資訊更新類別相關度的過程,可以參閱下述公開實施例中的相關步驟,在此暫不贅述。
在一個實施場景中,仍以視頻監控的人臉識別場景為例,通過獲取拍攝得到的視頻所包含的各個幀中檢測得到的人臉區域的圖像資料,作為若干目標圖像,並給定白人男性人臉圖像、白人女性人臉圖像、黑人男性人臉圖像和黑人女性人臉圖像,作為參考圖像,從而可以將上述參考圖像和目標圖像中每兩張圖像組成一組圖像對,並獲取圖像對初始的類別相關度,與此同時,提取每張圖像初始的圖像特徵,進而利用類別相關度更新上述多張圖像的圖像特徵,以利用更新後的圖像特徵,得到上述若干目標圖像的圖像類別檢測結果,例如,上述若干目標圖像分別屬於“白人男性”、“白人女性”、“黑人男性”、“黑人女性”的第一概率值;或者,以醫學圖像分類為例,通過獲取對待檢物件(如病患等)掃描得到的若干醫學圖像,作為若干目標圖像,並給定動脈期醫學圖像、門脈期醫學圖像、延遲期醫學圖像,作為參考圖像,從而可以將上述參考圖像和目標圖像中每兩張圖像組成一組圖像對,並獲取圖像對初始的類別相關度,與此同時,提取每張圖像初始的圖像特徵,進而利用類別相關度更新上述多張圖像的圖像特徵,以利用更新後的圖像特徵,得到上述若干目標圖像的圖像類別檢測結果,例如,上述若干目標圖像分別屬於“動脈期”、“門脈期”、“延遲期”的第一概率值。其他場景可以以此類推,在此不再一一舉例。
上述方案,多張圖像的圖像特徵以及至少一組圖像對的類別相關度,且多張圖像包括參考圖像和目標圖像,多張圖像中每兩張圖像組成一組圖像對,類別相關度表示圖像對屬於相同圖像類別的可能性,並利用類別相關度,更新圖像特徵,從而利用更新後的圖像特徵,得到目標圖像的圖像類別檢測結果。故此,通過利用類別相關度,更新圖像特徵,能夠使相同圖像類別的圖像對應的圖像特徵趨於接近,並使不同圖像類別的圖像對應的圖像特徵趨於疏離,從而能夠有利於提高圖像特徵的魯棒性,並有利於捕捉到圖像特徵的分佈情況,進而能夠有利於提高圖像類別檢測的準確性。
請參閱圖2,圖2是本發明實施例提供的圖像檢測方法另一實施例的流程示意圖。可以包括如下步驟。
步驟S21:獲取多張圖像的圖像特徵以及至少一組圖像對的類別相關度。
本發明實施例中,多張圖像包括參考圖像和目標圖像,多張圖像中每兩張圖像組成一組圖像對,類別相關度表示圖像對屬於相同圖像類別的可能性。可以參閱前述公開實施例中的相關步驟,在此不再贅述。
步驟S22:利用類別相關度,更新多張圖像的圖像特徵。
可以參閱前述公開實施例中的相關步驟,在此不再贅述。
步驟S23:利用更新後的圖像特徵進行預測處理,得到概率資訊。
本發明實施例中,概率資訊包括目標圖像屬於至少一種參考類別的第一概率值和參考圖像屬於至少一種參考類別的第二概率值。參考類別是參考圖像所屬的圖像類別,可以參閱前述公開實施例中的相關描述,在此不再贅述。
其中,可以利用更新後的圖像特徵,預測目標圖像和參考圖像所屬的預測類別,且預測類別屬於至少一個參考類別。以人臉識別場景為例,至少一個參考類別包括:“白人男性”、“白人女性”、“黑人男性”、“黑人女性”時,預測類別為“白人男性”、“白人女性”、“黑人男性”、“黑人女性”中的任一者;或者,以醫學圖像類別檢測為例,至少一個參考類別包括:“動脈期”、“門脈期”、“延遲期”時,預測類別為“動脈期”、“門脈期”、“延遲期”中的任一者,其他場景可以以此類推,在此不再一一舉例。
在得到預測類別之後,針對每組圖像對,可以獲取圖像對的類別比對結果和特徵相似度,並得到圖像對關於類別比對結果和特徵相似度間的第一匹配度,且類別比對結果表示圖像對所屬的預測類別是否相同,特徵相似度表示圖像對的圖像特徵間的相似度,以及基於參考圖像所屬的預測類別和參考類別,得到參考圖像關於預測類別與參考類別的第二匹配度,從而可以利用第一匹配度和第二匹配度,得到概率資訊。
上述方式,通過獲取圖像對關於類別比對結果和相似度的第一匹配度,能夠在預測類別的類別比對結果以及特徵相似度之間的匹配程度基礎上,從任圖像對的維度,表徵圖像類別檢測的準確度,並通過獲取參考圖像關於預測類別與參考類別的第二匹配度,能夠在預測類別與參考類別之間的匹配程度基礎上,從單個圖像的維度,表徵圖像類別檢測的準確度,並結合任意兩個圖像和單個圖像兩個維度,來得到概率資訊,能夠有利於提高概率資訊預測準確性。
在一個實施場景中,為了提高預測效率,可以基於條件隨機場網路,利用更新後的圖像特徵,預測圖像所屬的預測類別。
在一個實施場景中,在類別比對結果為預測類別相同的情況下,特徵相似度與第一匹配度正相關,即特徵相似度越大,第一匹配度越大,類別比對結果與特徵相似度越匹配,反之,特徵相似度越小,第一匹配度越小,類別比對結果與特徵相似度越不匹配;而在類別比對結果為預測類別不同的情況下,特徵相似度與第一匹配度負相關,即特徵相似度越大,第一匹配度越小,類別比對結果與特徵相似度越不匹配,反之,特徵相似度越小,第一匹配度越大,類別比對結果與特徵相似度越匹配。上述方式,能夠有利於在後續概率資訊的預測過程中,捕捉到圖像對之間圖像類別相同的可能性,進而有利於提高概率資訊預測的準確性。
在一個實際的實施場景中,為了便於描述,可以為目標圖像和參考圖像的圖像特徵設置一隨機變數
,進一步地,第
l次預測處理時的隨機變數可以記為
,例如,第1至第NK個參考圖像及第NK+1至第NK+T個目標圖像中的第
i個圖像的圖像特徵所對應的隨機變數,可以記為
,類似地,第
j個圖像的圖像特徵所對應的隨機變數,可以記為
。隨機變數的值為利用對應的圖像特徵所預測得到的預測類別,可以以N個圖像類別的序號表示預測類別。以人臉識別場景為例,N個圖像類別包括:“白人男性”、“白人女性”、“黑人男性”和“黑人女性”,則當隨機變數的值為1時,可以表示對應的預測類別為“白人男性”,當隨機變數的值為2時,可以表示對應的預測類別為“白人女性”,以此類推,在此不再一一舉例。故此,在第
l次預測處理過程中,當圖像對中一者的圖像特徵對應的隨機變數
的值(即對應的預測類別)為m(即第m個圖像類別),而另一者的圖像特徵對應的隨機變數
的值(即對應的預測類別)為n(即第n個圖像類別)時,對應的第一匹配度可以記為
,可以表示為公式(4):
公式(4);
上述公式(4)中,
表示第
l次預測處理時,第
i個圖像的圖像特徵與第
j個圖像的圖像特徵之間的特徵相似度。其中,
可以通過餘弦距離獲取。為了便於描述,可以將第
l次預測處理時,第
i個圖像的圖像特徵記為
,並將第
l次預測處理時,第
j個圖像的圖像特徵記為
,則可以利用餘弦距離獲取兩者之間的特徵相似度,並歸一化至0~1範圍內,具體可以表示為公式(5):
公式(5);
上述公式(5)中,
表示圖像特徵的模。
在另一個實施場景中,預測類別與參考類別相同時,參考圖像之間的第二匹配度,大於預測類別與參考類別不同時,參考圖像之間的第二匹配度。上述方式,有利於在後續概率資訊的預測過程中,捕捉到單個圖像的圖像特徵的準確性,進而有利於提高概率資訊預測的準確性。
在一個實際的實施場景中,如前所述,第
l次預測處理時,圖像的圖像特徵對應的隨機變數可以記為
,如第
i個圖像的圖像特徵對應的隨機變數可以記為
,隨機變數的值為利用對應的圖像特徵所預測得到的預測類別,如前所述,可以以N個圖像類別的序號表示預測類別,此外,第
i個圖像所標注的圖像類別可以記為
。故此,當參考圖像的圖像特徵對應的隨機變數
的值(即對應的預測類別)為m(即第m個圖像類別)時,對應的第二匹配度可以記為
,可以表示為公式(6):
公式(6);
上述公式(6)中,
表示當隨機變數的值(即預測類別)錯誤(即不同於參考類別)時的容忍度概率。其中,可以將
設置為小於一預設數值閾值,例如,可以將
設置為0.14,在此不做限定。
在一個實施場景中,在第
l次預測處理過程中,可以基於第一匹配度和第二匹配度,得到條件分佈,可以表示為公式(7):
公式(7);
上述公式(7)中,
表示一對隨機變數
和
,且
j<k,
表示正相關。由公式(7)可知,當第一匹配度和第二匹配度較高時,相應地,條件分佈也會較大。在此基礎上,針對每一圖像,可以通過對除該圖像之外的所有圖像對應的隨機變數所對應的條件分佈進行求和,得到對應圖像的概率資訊,可以表示為公式(8):
公式(8);
上述公式(8)中,
,其中,
表示隨機變數
的圖像類別為第m個參考類別的概率值。此外,為了便於描述,將第
l次預測處理過程中,所有圖像對應的隨機變數表示為
,其中,
,如前所述,
表示第
l次預測處理過程中,第
i個圖像的圖像特徵對應的隨機變數。
在另一個實施場景中,為了提高概率資訊的準確性,可以基於循環信念傳播(Loopy Belief Propagation,LBP),利用第一匹配度和第二匹配度,得到概率資訊。其中,對於在第
l次預測處理過程中,第
i個圖像的圖像特徵對應的隨機變數
,記其概率資訊為
。特別地,可以將概率資訊為
視為一列向量,且該列向量第
j個元素表示隨機變數
取值為
j的概率值。故此,可以給定一初始值
,並通過下述規則反覆運算t次更新
,直至收斂為止:
公式(9);
公式(10);
上述公式(9)(10)中,
表示包含隨機變數
至
信息的1*N矩陣,
表示第一匹配度,
表示第二匹配度,
表示隨機變數
之外的其他隨機變數,
表示矩陣對應元素相乘。
表示歸一化函數,即表示
符號內矩陣個元素除以所有元素之和。此外,當
j>NK時,表示目標圖像對應的隨機變數,由於未知目標圖像的圖像類別,故其第二匹配度未知。當最終反覆運算
次後收斂時,對應的概率資訊
。
步驟S24:判斷執行預測處理的次數是否滿足預設條件,若滿足預設條件,執行步驟S25;若不滿足預設條件,則執行步驟S27。
其中,預設條件可以包括:執行預測處理的次數未達到預設閾值。預設閾值至少為1,例如,1、2、3等等,在此不做限定。
步驟S25:利用概率資訊,更新類別相關度。
本發明實施例中,如前所述,類別相關度可以包括:每組圖像對屬於相同圖像類別的最終概率值。為了便於描述,可以將第
l次預測處理之後,更新得到的類別相關度記為
。特別地,如前所述,在首次預測處理之前,經初始化得到的類別相關度可以記為
。此外,進一步地,類別相關度
所包含的第
i個圖像與第
j個圖像屬於相同圖像類別的最終概率值可以記為
;特別地,類別相關度
所包含的第
i個圖像與第
j個圖像屬於相同圖像類別的最終概率值可以記為
。
在此基礎上,可以分別以多張圖像中每張圖像作為當前圖像,並將包含當前圖像的圖像對作為當前圖像對,在第
l次預測處理過程中,可以利用第一概率值和第二概率值,分別獲取每組當前圖像對屬於相同圖像類別的參考概率值。以當前圖像對包含第
i個圖像和第
j個圖像為例,參考概率值
可以通過公式(11)確定:
公式(11);
上述公式(11)中,N表示至少一種圖像類別的數量,上述公式(11)表示,對於第
i個圖像和第
j個圖像而言,通過獲取兩者對應的隨機變數取相同數值的概率之積的和。仍以人臉識別場景為例,N個圖像類別包括:“白人男性”、“白人女性”、“黑人男性”、“黑人女性”時,可以將第
i個圖像和第
j個圖像預測為“白人男性”的概率值之積、預測為“白人女性”的概率值之積、預測為“黑人男性”的概率值之積,預測為“黑人女性”概率值之積進行求和,作為第
i個圖像與第
j個圖像屬於相同圖像類別的參考概率值。其他場景可以以此類推,在此不再一一舉例。
與此同時,可以獲取當前圖像的所有當前圖像對的最終概率值之和,作為當前圖像的概率和。其中,對於第
l次預測處理而言,其更新後的類別相關度可以表示為
,更新前的類別相關度可以表示為
,即更新前的類別相關度
所包含的第
i個圖像與第
j個圖像屬於相同圖像類別的最終概率值可以記為
,故對於當前圖像為第
i個圖像而言,在包含第
i個圖像的圖像對中另一圖像記為k的情況下,當前圖像的所有當前圖像對的最終概率值之和可以表示為
。
在得到參考概率值、概率和之後,可以針對每組當前圖像對,分別利用概率和、參考概率值,調整每組圖像對的最終概率值。其中,可以將圖像對的最終概率值,作為權值,並利用該權值對上次預測處理所得到的圖像對的參考概率值進行加權處理(如,加權平均),並利用加權處理結果和參考概率值,對最終概率值
進行更新,得到第
l次預測處理過程中更新後的最終概率值
。可以通過公式(12)確定:
公式(12);
上述公式(12)中,第
i個圖像表示當前圖像,第
i個圖像和第
j個圖像組成一組當前圖像對,
表示第
l-1次預測處理所得到的包含第
i個圖像的圖像對的參考概率值,
表示第
l次預測處理所得到的第
i個圖像與第
j個圖像屬於相同圖像類別的參考概率值,
表示第
l次預測處理過程中,第
i個圖像與第
j個圖像屬於相同圖像類別更新前的最終概率值,
表示
l次預測處理過程中,第
i個圖像與第
j個圖像屬於相同圖像類別更新後的最終概率值,
表示當前圖像(即第
i個圖像)所有當前圖像對的最終概率值之和。
步驟S26:重新執行步驟S22。
在得到更新後的類別相關度之後,可以重新執行上述步驟S22以及後續步驟,即利用更新後的類別相關度,更新多張圖像的圖像特徵。其中,以更新後的類別相關度記為
,且第
l次預測處理所使用的圖像特徵
為例,上述步驟S22“利用類別相關度,更新多張圖像的圖像特徵”可以表示為公式(13):
公式(13);
上述公式(13)中,
表示第
次預測處理所使用的圖像特徵,其他可以參閱前述公開實施例中的相關描述,在此不再贅述。
如此循環,可以使得圖像特徵以及類別相關度相互促進,相輔相成,共同提高各自的魯棒性,從而在多次循環之後,可以捕捉到更加準確的特徵分佈情況,有利於提高圖像類別檢測的準確性。
步驟S27:基於第一概率值,得到圖像類別檢測結果。
在一個實施場景中,在圖像類別檢測結果包含目標圖像的圖像類別的情況下,可以最大的第一概率值所對應的參考類別,作為目標圖像的圖像類別。可以表示為公式(14):
公式(14);
上述公式(14)中,
表示第
i個圖像的圖像類別,
表示經
L次預測處理之後,第
i個圖像屬於至少一種參考類別的第一概率值,
表示至少一種參考類別。仍以人臉識別場景為例,
可以是“白人男性”、“白人女性”、“黑人男性”、“黑人女性”的集合。其他場景可以以此類推,在此不再一一舉例。
區別於前述實施例,通過將概率資訊設置為還包括參考圖像屬於至少一種參考類別的第二概率值,並在基於第一概率值,得到圖像類別檢測結果之前,進一步在執行預測處理的次數滿足預設條件的情況下,利用概率資訊,更新類別相關度,且重新執行利用類別相關度,更新圖像特徵的步驟,以及在執行預測處理的次數不滿足預設條件的情況下,基於第一概率值,得到圖像類別檢測結果。故此,能夠在執行預測處理的次數滿足預設條件的情況下,利用目標圖像屬於至少一種參考類別的第一概率值和參考圖像屬於至少一種參考類別的第二概率值,來更新類別相關度,從而提高類別相似度的魯棒性,並繼續利用更新後的類別相似度,來更新圖像特徵,從而又提高圖像特徵的魯棒性,進而能夠使得類別相似度和圖像特徵相互促進,相輔相成,並在執行預測處理的次數不滿足預設條件的情況下,基於第一概率值,得到圖像類別檢測結果,從而能夠有利於進一步提高圖像類別檢測的準確性。
請參閱圖3,圖3是本發明實施例提供的圖像檢測方法又一實施例的流程示意圖。本發明實施例中,圖像檢測是由圖像檢測模型執行的,且圖像檢測模型包括至少一個(如,
L個)順序連接的網路層,每個網路層包括一個第一網路(如,GNN)和一個第二網路(如,CRF),則本發明實施例可以包括如下步驟。
步驟S31:獲取多張圖像的圖像特徵以及至少一組圖像對的類別相關度。
本發明實施例中,多張圖像包括參考圖像和目標圖像,多張圖像中每兩張圖像組成一組圖像對,類別相關度表示圖像對屬於相同圖像類別的可能性。可以參閱前述公開實施例中的相關描述,在此不再贅述。
請結合參閱圖4,圖4是本發明實施例提供的圖像檢測方法一實施例的狀態示意圖。如圖4所示,第一網路中圓形表示圖像的圖像特徵,第二網路中實線方形表示參考圖像標注的圖像類別,虛線方形所表示的目標圖像的圖像類別表示未知。方形和圓形中不同填充對應於不同的圖像類別。此外,第二網路中五邊形表示圖像特徵對應的隨機變數。
在一個實施場景中,特徵提取網路可以視為與圖像檢測模型獨立的網路,在另一個實施場景中,特徵提取網路也可以視為圖像檢測模型的一部分。此外,特徵提取網路的網路結構可以參閱前述公開實施例中的相關描述,在此不再贅述。
步驟S32:基於第
l個網路層的第一網路,利用類別相關度,更新多張圖像的圖像特徵。
其中,以
l是1為例,可以利用上述步驟S31初始化得到的類別相關度,更新上述步驟S31初始化得到的圖像特徵,以得到如圖4中第1層網路層中圓形所表示的圖像特徵。當
l為其他值時,可以結合圖4以此類推,在此不再一一舉例。
步驟S33:基於第
l個網路層的第二網路,利用更新後的圖像特徵進行預測處理,得到概率資訊。
本發明實施例中,概率資訊包括目標圖像屬於至少一種參考類別的第一概率值和參考圖像屬於至少一種參考類別的第二概率值。
其中,以
l是1為例,可以利用第1層網路層中圓形表示的圖像特徵進行預測處理,得到概率資訊。當
l為其他值時,可以結合圖4以此類推,在此不再一一舉例。
步驟S34:判斷執行預測處理的是否為圖像檢測模型的最後一個網路層,若執行預測處理的不是圖像檢測模型的最後一個網路層,則執行步驟S35,若執行預測處理的是圖像檢測模型的最後一個網路層,則執行步驟S37。
其中,當圖像檢測模型包括
L個網路層時,可以判斷
l是否小於
L,若
l小於
L,則表明尚存在網路層未執行上述圖像特徵更新以及概率資訊預測的步驟,則可以繼續執行下述步驟S35,以利用後續網路層繼續更新圖像特徵並預測概率資訊,若若
l不小於
L,則表明圖像檢測模型的所有網路層均已全部執行上述圖像特徵更新以及概率資訊預測的步驟,則可以執行下述步驟S37,即基於概率資訊中的第一概率值,得到圖像類別檢測結果。
步驟S35:利用概率資訊,更新類別相關度,並將
l加1。
其中,仍以
l是1為例,可以利用第1層網路層所預測得到的概率資訊,更新類別相關度,並將
l+1,即此時
l更新為2。
利用概率資訊,更新類別相關度的具體過程可以參閱前述公開實施例中的相關描述,在此不再贅述。
步驟S36:重新執行步驟S32以及後續步驟。
其中,仍以
l是1為例,在上述步驟S35之後,
l更新為2,並重新執行上述步驟S32以及後續步驟,請結合參閱圖4,即基於第2個網路層的第一網路,利用類別相關度,更新多張圖像的圖像特徵,並基於第2個網路層的第二網路,利用更新後的圖像特徵進行預測處理,得到概率資訊,以此類推,在此不再一一舉例。
步驟S37:基於第一概率值,得到圖像類別檢測結果。
可以參閱前述公開實施例中的相關描述,在此不再贅述。
區別於前述實施例,在執行預測處理的並非最後一個網路層情況下,利用概率資訊,更新類別相關度,且重新利用下一網路層執行利用類別相關度,更新多張圖像的圖像特徵的步驟。故此,能夠提高類別相似度的魯棒性,並繼續利用更新後的類別相似度,來更新圖像特徵,從而又提高圖像特徵的魯棒性,進而能夠使得類別相似度和圖像特徵相互促進,相輔相成,能夠有利於進一步提高圖像類別檢測的準確性。
請參閱圖5,圖5是本發明實施例提供的圖像檢測模型的訓練方法一實施例的流程示意圖。可以包括如下步驟。
步驟S51:獲取多張樣本圖像的樣本圖像特徵以及至少一組樣本圖像對的樣本類別相關度。
本發明實施例中,多張樣本圖像包括樣本參考圖像和樣本目標圖像,多張樣本圖像中的每兩張樣本圖像形成一組樣本圖像對,樣本類別相關度表示樣本圖像對屬於相同圖像類別的可能性。樣本圖像特徵和樣本類別相關度的獲取過程,可以參閱前述公開實施例中圖像特徵和類別相關度的獲取過程,在此不再贅述。
此外,樣本目標圖像、樣本參考圖像以及圖像類別也可以參閱前述公開實施例中關於目標圖像、參考圖像以及圖像類別的相關描述,在此不再贅述。
在一個實施場景中,樣本圖像特徵可以是由特徵提取網路提取得到的,特徵提取網路可以與本發明實施例中的圖像檢測模型相互獨立,也可以是本發明實施例中的圖像檢測模型的一部分,在此不做限定。特徵提取網路的結構可以參閱前述公開實施例中的相關描述,在此不再贅述。
需要說明的是,不同於前述公開實施例,在訓練過程中,樣本目標圖像的圖像類別是已知的,可以在樣本目標圖像上標注該樣本目標圖像所屬的圖像類別。例如,在人臉識別場景中,至少一種圖像類別可以包括:“白人女性”、“黑人女性”、“白人男性”、“黑人男性”,樣本目標圖像所屬的圖像類別可以為“白人女性”,在此不做限定。其他場景可以以此類推,在此不再一一舉例。
步驟S52:基於圖像檢測模型的第一網路,利用樣本類別相關度,更新多張樣本圖像的樣本圖像特徵。
在一個實施場景中,第一網路可以是GNN,則可以將樣本類別相關度作為GNN輸入圖像資料的邊,並將樣本圖像特徵作為GNN輸入圖像資料的點,從而利用GNN處理輸入圖像資料,以完成對樣本圖像特徵的更新。可以參閱前述公開實施例中的相關描述,在此不再贅述。
步驟S53:基於圖像檢測模型的第二網路,利用更新後的樣本圖像特徵,得到樣本目標圖像的圖像類別檢測結果。
在一個實施場景中,第二網路可以是條件隨機場(CRF)網路,則可以基於CRF,利用更新後的樣本圖像特徵,得到樣本目標圖像的圖像類別檢測結果。其中,圖像類別檢測結果可以包括樣本目標圖像屬於至少一種參考類別的第一樣本概率值,且參考類別為樣本參考圖像所屬的圖像類別。例如,在人臉識別場景中,至少一種參考類別可以包括:“白人女性”、“黑人女性”、“白人男性”、“黑人男性”,則樣本目標圖像的圖像類別檢測結果可以包括樣本目標圖像屬於“白人女性”的第一概率值、屬於“黑人女性”的第一概率值、屬於“白人男性”的第一概率值和屬於“黑人男性”的第一概率值。其他場景可以以此類推,在此不再一一舉例。
步驟S54:利用樣本目標圖像的圖像類別檢測結果和樣本目標圖像標注的圖像類別,調整圖像檢測模型的網路參數。
其中,可以利用交叉熵損失函數,計算樣本目標圖像的圖像類別檢測結果和樣本目標圖像標注的圖像類別之間的差異,得到圖像檢測模型的損失值,並據此調整圖像檢測模型的網路參數。此外,在特徵提取網路獨立於圖像檢測模型的情況下,還可以根據損失值,一併調整圖像檢測模型的網路參數和特徵提取網路的網路參數。
在一個實施場景中,可以採用隨機梯度下降(Stochastic Gradient Descent,SGD)、批量梯度下降(Batch Gradient Descent,BGD)、小批量梯度下降(Mini-Batch Gradient Descent,MBGD)等方式,利用損失值對網路參數進行調整,其中,批量梯度下降是指在每一次反覆運算時,使用所有樣本來進行參數更新;隨機梯度下降是指在每一次反覆運算時,使用一個樣本來進行參數更新;小批量梯度下降是指在每一次反覆運算時,使用一批樣本來進行參數更新,在此不再贅述。
在一個實施場景中,還可以設置一訓練結束條件,當滿足訓練結束條件時,可以結束訓練。其中,訓練結束條件可以以下任一者包括:損失值小於一預設損失閾值,當前訓練次數達到預設次數閾值(例如,500次、1000次等),在此不做限定。
在另一個實施場景中,可以基於第二網路,利用更新後的樣本圖像特徵進行預測處理,得到樣本概率資訊,且樣本概率資訊包括樣本目標圖像屬於至少一種參考類別的第一樣本概率值和樣本參考圖像屬於至少一種參考類別的第二樣本概率值,從而基於第一樣本概率值,得到樣本目標圖像的圖像類別檢測結果,並在利用樣本目標圖像的圖像類別檢測結果和樣本目標圖像標注的圖像類別,調整圖像檢測模型的網路參數之前,利用第一樣本概率值和第二樣本概率值,更新樣本類別相關度,從而利用第一樣本概率值和樣本目標圖像標注的圖像類別,得到圖像檢測模型的第一損失值,並利用樣本目標圖像和樣本參考圖像之間的實際類別相關度和更新後的樣本類別相關度,得到圖像檢測模型的第二損失值,進而基於第一損失值和第二損失值,調整圖像檢測模型的網路參數。上述方式,能夠從兩個圖像間的類別相關度的維度,以及單個圖像的圖像類別的維度,來調整圖像檢測模型的網路參數,進而能夠有利於提高圖像檢測模型的準確性。
在一個實際的實施場景中,基於第二網路,利用更新後的樣本圖像特徵進行預測處理,得到樣本概率資訊的過程,可以參閱前述公開實施例中,利用更新後的圖像特徵進行預測處理,得到概率資訊的相關描述,在此不再贅述。此外,利用第一樣本概率值和第二樣本概率值,更新樣本類別相關度的過程,可以參閱前述公開實施例中,利用概率資訊,更新類別相關度的相關描述,在此不再贅述。
在另一個實際的實施場景中,可以利用交叉熵損失函數,計算第一樣本概率值和樣本目標圖像標注的圖像類別之間的第一損失值。
在又一個實際的實施場景中,可以利用二分類交叉熵損失函數,計算樣本目標圖像和樣本參考圖像之間的實際類別相關度和更新後的樣本類別相關度之間的第二損失值。其中,在圖像對的圖像類別相同的情況下,對應圖像對的實際類別相關度可以設置為一預設上限值(如,1),在圖像對的圖像類別不同的情況下,對應圖像對的實際類別相關度可以設置為一下限值(如,0)。為了便於描述,可以將實際類別相關度記為
。
在又一個實際的實施場景中,可以利用分別與第一損失值、第二損失值對應的權值,分別對第一損失值、第二損失值進行加權處理,得到加權損失值,並利用加權損失值,調整網路參數。其中,第一損失值對應的權值可以設置為0.5,第二損失值對應的權值也可以設置為0.5,以表示第一損失值和第二損失值在調整網路參數時同等重要。此外,也可以根據第一損失值和第二損失值不同重要程度,調整對應的權值,在此不再一一舉例。
上述方案,獲取多張樣本圖像的樣本圖像特徵以及至少一組樣本圖像對的樣本類別相關度,且多張樣本圖像包括樣本參考圖像和樣本目標圖像,多張樣本圖像中的每兩張樣本圖像形成一組樣本圖像對,樣本類別相關度表示樣本圖像對屬於相同圖像類別的可能性,並基於圖像檢測模型的第一網路,利用樣本類別相關度,更新多張樣本圖像的樣本圖像特徵,從而基於圖像檢測模型的第二網路,利用更新後的樣本圖像特徵,得到樣本目標圖像的圖像類別檢測結果,進而利用圖像類別檢測結果和樣本目標圖像標注的圖像類別,調整圖像檢測模型的網路參數。故此,通過利用樣本類別相關度,更新樣本圖像特徵,能夠使相同圖像類別的圖像對應的樣本圖像特徵趨於接近,並使不同圖像類別的圖像對應的樣本圖像特徵趨於疏離,從而能夠有利於提高樣本圖像特徵的魯棒性,並有利於捕捉到樣本圖像特徵的分佈情況,進而能夠有利於提高圖像檢測模型的準確性。
請參閱圖6,圖6是本發明實施例提供的圖像檢測模型的訓練方法另一實施例的流程示意圖。本發明實施例中,圖像檢測模型包括至少一個(如,
L個)順序連接的網路層,每個網路層包括一個第一網路和一個第二網路。可以包括如下步驟。
步驟S601:獲取多張樣本圖像的樣本圖像特徵以及至少一組樣本圖像對的樣本類別相關度。
本發明實施例中,多張樣本圖像包括樣本參考圖像和樣本目標圖像,多張樣本圖像中的每兩張樣本圖像形成一組樣本圖像對,樣本類別相關度表示樣本圖像對屬於相同圖像類別的可能性。
可以參閱前述公開實施例中的相關步驟,在此不再贅述。
步驟S602:基於第
l個網路層的第一網路,利用樣本類別相關度,更新多張樣本圖像的樣本圖像特徵。
可以參閱前述公開實施例中的相關步驟,在此不再贅述。
步驟S603:基於第
l個網路層的第二網路,利用更新後的樣本圖像特徵進行預測處理,得到樣本概率資訊。
本發明實施例中,樣本概率資訊包括樣本目標圖像屬於至少一種參考類別的第一樣本概率值和樣本參考圖像屬於至少一種參考類別的第二樣本概率值。至少一種參考類別為樣本參考圖像所屬的圖像類別。
可以參閱前述公開實施例中的相關步驟,在此不再贅述。
步驟S604:基於第一樣本概率值,得到樣本目標圖像對應於第
l個網路層的圖像類別檢測結果。
步驟S605:利用第一樣本概率值和第二樣本概率值,更新樣本類別相關度。
步驟S606:利用第一樣本概率值和樣本目標圖像標注的圖像類別,得到與第
l個網路層對應的第一損失值,並利用樣本目標圖像和樣本參考圖像之間的實際類別相關度和更新後的樣本類別相關度,得到於第
l個網路層的第二損失值。
其中,可以利用交叉熵損失函數(Cross Entropy,CE),利用第一樣本概率值
和樣本目標圖像標注的圖像類別
,得到與第
l個網路層對應的第一損失值,為了便於描述,記為
,其中,
i的取值範圍至NK+1至NK+T,即僅針對樣本目標圖像計算第一損失值。
此外,可以利用二分類交叉熵損失函數(Binary Cross Entropy,BCE),利用樣本目標圖像和樣本參考圖像之間的實際類別相關度
和更新後的樣本類別相關度
,得到與第
l個網路層對應的第二損失值,為了便於描述,記為
。其中,
i的取值範圍至NK+1至NK+T,即僅針對樣本目標圖像計算第一損失值。
步驟S607:判斷當前網路層是否為圖像檢測模型的最後一層網路層,若否,則執行步驟S608,否則執行步驟S609。
步驟S608:重新執行步驟S602以及後續步驟。
在當前網路層並非圖像檢測模型的最後一層網路層的情況下,可以將
l加1,從而利用當前網路層的下一網路層,重新執行基於圖像檢測模型的第一網路,利用樣本類別相關度,更新多張樣本圖像的樣本圖像特徵的步驟以及後續步驟,直至當前網路層是圖像檢測模型的最後一層網路層為止。在此過程中,可以得到與圖像檢測模型各個網路層對應的第一損失值和第二損失值。
步驟S609:利用與各個網路層對應的第一權值分別將與各個網路層對應的第一損失值進行加權處理,得到第一加權損失值。
本發明實施例中,網路層在圖像檢測模型中越靠後,網路層對應的第一權值越大,為了便於描述,可以將第
l個網路層對應的第一權值記為
。例如,當
l小於
L時,對應的第一權值可以設置為0.2,當
l等於
L時,對應的第一權值可以設置為1。可以根據實際需要進行設置,例如,還可以基於越靠後的網路層越重要,將各個網路層對應的第一權值設置為不同數值,且每一網路層對應的第一權值均大於位於其之前的網路層對應的第一權值,在此不做限定。其中,第一加權損失值可以表示為公式(15):
公式(15);
步驟S610:利用與各個網路層對應的第二權值分別將與各個網路層對應的第二損失值進行加權處理,得到第二加權損失值。
本發明實施例中,網路層在圖像檢測模型中越靠後,網路層對應的第二權值越大,為了便於描述,可以將第
l個網路層對應的第二權值記為
。例如,當
l小於
L時,對應的第二權值可以設置為0.2,當
l等於
L時,對應的第二權值可以設置為1。可以根據實際需要進行設置,例如,還可以基於越靠後的網路層越重要,將各個網路層對應的第二權值設置為不同數值,且每一網路層對應的第二權值均大於位於其之前的網路層對應的第二權值,在此不做限定。其中,第二加權損失值可以表示為公式(16):
公式(16);
步驟S611:基於第一加權損失值和第二加權損失值,調整圖像檢測模型的網路參數。
其中,可以利用分別與第一加權損失值、第二加權損失值對應的權值,分別對第一加權損失值、第二加權損失值進行加權處理,得到加權損失值,並利用加權損失值,調整網路參數。例如,第一加權損失值對應的權值可以設置為0.5,第二加權損失值對應的權值也可以設置為0.5,以表示第一加權損失值和第二加權損失值在調整網路參數時同等重要。此外,也可以根據第一加權損失值和第二加權損失值不同重要程度,調整對應的權值,在此不再一一舉例。
區別於前述實施例,將圖像檢測模型設置為包括至少一個順序連接的網路層,且每個網路層包括一個第一網路和一個第二網路,並在當前網路層不是圖像檢測模型的最後一層網路層的情況下,利用當前網路層的下一網路層,重新執行基於圖像檢測模型的第一網路,利用樣本類別相關度,更新樣本圖像特徵的步驟以及後續步驟,直至當前網路層是圖像檢測模型的最後一層網路層為止,從而利用與各個網路層對應的第一權值分別將與各個網路層對應的第一損失值進行加權處理,得到第一加權損失值,並利用與各個網路層對應的第二權值分別將與各個網路層對應的第二損失值進行加權處理,得到第二加權損失值,進而基於第一加權損失值和第二加權損失值,調整圖像檢測模型的網路參數,且網路層在圖像檢測模型中越靠後,網路層對應的第一權值和第二權值均越大,能夠獲取到圖像檢測模型各層的網路層對應的損失值,且將越靠後的網路層對應的權值設置地越大,進而能夠充分利用各層網路層處理所得的資料,調整圖像檢測的網路參數,有利於提高圖像檢測模型的準確性。
請參閱圖7,圖7是本發明實施例提供的圖像檢測裝置70一實施例的框架示意圖。圖像檢測裝置70包括圖像獲取模組71、特徵更新模組72和結果獲取模組73,圖像獲取模組71被配置為獲取多張圖像的圖像特徵以及至少一組圖像對的類別相關度,且多張圖像包括參考圖像和目標圖像,多張圖像中每兩張圖像組成一組圖像對,類別相關度表示圖像對屬於相同圖像類別的可能性;特徵更新模組72被配置為利用類別相關度,更新多張圖像的圖像特徵;結果獲取模組73被配置為利用更新後的圖像特徵,得到目標圖像的圖像類別檢測結果。
上述方案,獲取多張圖像的圖像特徵以及至少一組圖像對的類別相關度,且多張圖像包括參考圖像和目標圖像,多張圖像中每兩張圖像組成一組圖像對,類別相關度表示圖像對屬於相同圖像類別的可能性,並利用類別相關度,更新圖像特徵,從而利用更新後的圖像特徵,得到目標圖像的圖像類別檢測結果。故此,通過利用類別相關度,更新圖像特徵,能夠使相同圖像類別的圖像對應的圖像特徵趨於接近,並使不同圖像類別的圖像對應的圖像特徵趨於疏離,從而能夠有利於提高圖像特徵的魯棒性,並有利於捕捉到圖像特徵的分佈情況,進而能夠有利於提高圖像類別檢測的準確性。
在一些公開實施例中,結果獲取模組73包括概率預測子模組,被配置為利用更新後的圖像特徵進行預測處理,得到概率資訊,其中,概率資訊包括目標圖像屬於至少一種參考類別的第一概率值,參考類別是參考圖像所屬的圖像類別,結果獲取模組73包括結果獲取子模組,被配置為基於第一概率值,得到圖像類別檢測結果;其中,圖像類別檢測結果用於指示目標圖像所屬的圖像類別。
在一些公開實施例中,概率資訊還包括參考圖像屬於至少一種參考類別的第二概率值,圖像檢測裝置70還包括相關更新模組,被配置為在執行預測處理的次數滿足預設條件的情況下,利用概率資訊,更新類別相關度,並結合特徵更新模組72重新執行利用類別相關度,更新圖像特徵的步驟,結果獲取子模組還被配置為在執行預測處理的次數不滿足預設條件的情況下,基於第一概率值,得到圖像類別檢測結果。
在一些公開實施例中,類別相關度包括:每組圖像對屬於相同圖像類別的最終概率值,相關更新模組包括圖像劃分子模組,被配置為分別以多張圖像中每張圖像作為當前圖像,並將包含當前圖像的圖像對作為當前圖像對,相關更新模組包括概率統計子模組,被配置為獲取當前圖像的所有當前圖像對的最終概率值之和,作為當前圖像的概率和,相關更新模組包括概率獲取子模組,被配置為利用第一概率值和第二概率值,分別獲取每組當前圖像對屬於相同圖像類別的參考概率值,相關更新模組包括概率調整子模組,被配置為分別利用概率和、參考概率值,調整每組當前圖像對的最終概率值。
在一些公開實施例中,概率預測子模組包括預測類別單元,被配置為利用更新後的圖像特徵,預測目標圖像和參考圖像所屬的預測類別,其中,預測類別屬於至少一個參考類別,概率預測子模組包括第一匹配度獲取單元,被配置為針對每組圖像對,獲取圖像對的類別比對結果和特徵相似度,並得到圖像對關於類別比對結果和特徵相似度間的第一匹配度,其中,類別比對結果表示圖像對所屬的預測類別是否相同,特徵相似度表示圖像對的圖像特徵間的相似度,概率預測子模組包括第二匹配度獲取單元,被配置為基於參考圖像所屬的預測類別和參考類別,得到參考圖像關於預測類別與參考類別的第二匹配度,概率預測子模組包括概率資訊獲取單元,被配置為利用第一匹配度和第二匹配度,得到概率資訊。
在一些公開實施例中,在類別比對結果為預測類別相同的情況下,特徵相似度與第一匹配度正相關,在類別比對結果為預測類別不同的情況下,特徵相似度與第一匹配度負相關,且預測類別與參考類別相同時的第二匹配度大於預測類別與參考類別不同時的第二匹配度。
在一些公開實施例中,預測類別單元還被配置為基於條件隨機場網路,利用更新後的圖像特徵,預測圖像所屬的預測類別。
在一些公開實施例中,概率資訊獲取單元還被配置為基於循環信念傳播,利用第一匹配度和第二匹配度,得到概率資訊。
在一些公開實施例中,預設條件包括:執行預測處理的次數未達到預設閾值。
在一些公開實施例中,利用類別相關度,更新圖像特徵的步驟是由圖神經網路執行的。
在一些公開實施例中,特徵更新模組72包括特徵獲取子模組,被配置為利用類別相關度和圖像特徵,得到類內圖像特徵和類間圖像特徵,特徵更新模組72包括特徵轉換子模組,被配置為利用類內圖像特徵和類間圖像特徵進行特徵轉換,得到更新後的圖像特徵。
在一些公開實施例中,圖像檢測裝置70還包括初始化模組,初始化模組還被配置為在圖像對屬於相同圖像類別的情況下,將圖像對初始的類別相關度確定為預設上限值;在圖像對屬於不同圖像類別的情況下,將圖像對初始的類別相關度確定為預設下限值;在圖像對中至少一個為目標圖像的情況下,將圖像對初始的類別相關度確定為預設下限值和預設上限值之間的預設數值。
請參閱圖8,圖8是本發明實施例提供的圖像檢測模型的訓練裝置80一實施例的框架示意圖。圖像檢測模型的訓練裝置80包括樣本獲取模組81、特徵更新模組82、結果獲取模組83和參數調整模組84,樣本獲取模組81被配置為多張樣本圖像的樣本圖像特徵以及至少一組樣本圖像對的樣本類別相關度,其中,多張樣本圖像包括樣本參考圖像和樣本目標圖像,多張樣本圖像中的每兩張樣本圖像形成一組樣本圖像對,樣本類別相關度表示樣本圖像對屬於相同圖像類別的可能性;特徵更新模組82被配置為基於圖像檢測模型的第一網路,利用樣本類別相關度,更新多張樣本圖像的樣本圖像特徵;結果獲取模組83被配置為基於圖像檢測模型的第二網路,利用更新後的樣本圖像特徵,得到樣本目標圖像的圖像類別檢測結果;參數更新模組84被配置為利用樣本目標圖像的圖像類別檢測結果和樣本目標圖像標注的圖像類別,調整圖像檢測模型的網路參數。
上述方案,獲取多張樣本圖像的樣本圖像特徵以及至少一組樣本圖像對的樣本類別相關度,且多張樣本圖像包括樣本參考圖像和樣本目標圖像,多張樣本圖像中的每兩張樣本圖像形成一組樣本圖像對,樣本類別相關度表示樣本圖像對屬於相同圖像類別的可能,並基於圖像檢測模型的第一網路,利用樣本類別相關度,更新多張樣本圖像的樣本圖像特徵,從而基於圖像檢測模型的第二網路,利用更新後的樣本圖像特徵,得到樣本目標圖像的圖像類別檢測結果,進而利用圖像類別檢測結果和樣本目標圖像標注的圖像類別,調整圖像檢測模型的網路參數。故此,通過利用樣本類別相關度,更新樣本圖像特徵,能夠使相同圖像類別的圖像對應的樣本圖像特徵趨於接近,並使不同圖像類別的圖像對應的樣本圖像特徵趨於疏離,從而能夠有利於提高樣本圖像特徵的魯棒性,並有利於捕捉到樣本圖像特徵的分佈情況,進而能夠有利於提高圖像檢測模型的準確性。
在一些公開實施例中,結果獲取模組83包括概率資訊獲取子模組,被配置為基於第二網路,利用更新後的樣本圖像特徵進行預測處理,得到樣本概率資訊,其中,樣本概率資訊包括樣本目標圖像屬於至少一種參考類別的第一樣本概率值和樣本參考圖像屬於至少一種參考類別的第二樣本概率值,參考類別是樣本參考圖像所屬的圖像類別,結果獲取模組83包括檢測結果獲取子模組,被配置為基於第一樣本概率值,得到樣本目標圖像的圖像類別檢測結果,圖像檢測模型的訓練裝置80還包括相關更新模組,被配置為利用第一樣本概率值和第二樣本概率值,更新樣本類別相關度,參數更新模組84包括第一損失計算子模組,被配置為利用第一樣本概率值和樣本目標圖像標注的圖像類別,得到圖像檢測模型的第一損失值,參數更新模組84包括第二損失計算子模組,被配置為利用樣本目標圖像和樣本參考圖像之間的實際類別相關度和更新後的樣本類別相關度,得到圖像檢測模型的第二損失值,參數更新模組84包括參數調整子模組,被配置為基於第一損失值和第二損失值,調整圖像檢測模型的網路參數。
在一些公開實施例中,圖像檢測模型包括至少一個順序連接的網路層,每個網路層包括一個第一網路和一個第二網路,特徵更新模組82模組還被配置為在在當前網路層不是圖像檢測模型的最後一層網路層的情況下,利用當前網路層的下一網路層,重新執行基於圖像檢測模型的第一網路,利用樣本類別相關度,更新樣本圖像特徵的步驟以及後續步驟,直至當前網路層是圖像檢測模型的最後一層網路層為止,參數調整子模組包括第一加權單元,被配置為利用與各個網路層對應的第一權值分別將與各個網路層對應的第一損失值進行加權處理,得到第一加權損失值,參數調整子模組包括第二加權單元,被配置為利用與各個網路層對應的第二權值分別將與各個網路層對應的第二損失值進行加權處理,得到第二加權損失值,參數調整子模組包括參數調整單元,被配置為基於第一加權損失值和第二加權損失值,調整圖像檢測模型的網路參數,其中,網路層在圖像檢測模型中越靠後,網路層對應的第一權值和第二權值均越大。
請參閱圖9,圖9是本發明實施例提供的電子設備90一實施例的框架示意圖。電子設備90包括相互耦接的記憶體91和處理器92,處理器92被配置為執行記憶體91中儲存的程式指令,以實現上述任一圖像檢測方法實施例中的步驟,或實現上述任一圖像檢測模型的訓練方法實施例中的步驟。在一個實施場景中,電子設備90可以包括但不限於:微型電腦、伺服器,此外,電子設備90還可以包括筆記型電腦、平板電腦等移動設備,或者,電子設備90也可以是監控相機等等,在此不做限定。
其中,處理器92還被配置為控制其自身以及記憶體91以實現上述任一圖像檢測方法實施例中的步驟,或實現上述任一圖像檢測模型的訓練方法實施例中的步驟。處理器92還可以稱為CPU(Central Processing Unit,中央處理單元)。處理器92可能是一種積體電路晶片,具有信號的處理能力。處理器92還可以是通用處理器、數位訊號處理器(Digital Signal Processor,DSP)、專用積體電路(Application Specific Integrated Circuit,ASIC)、現場可程式設計閘陣列(Field-Programmable Gate Array,FPGA)或者其他可程式設計邏輯器件、分立門或者電晶體邏輯器件、分立硬體元件。通用處理器可以是微處理器或者該處理器也可以是任何常規的處理器等。另外,處理器92可以由積體電路晶片共同實現。
上述方案,能夠提高圖像類別檢測的準確性。
請參閱圖10,圖10為本發明實施例提供的電腦可讀儲存介質100一實施例的框架示意圖。電腦可讀儲存介質100儲存有能夠被處理器運行的程式指令101,程式指令101用於實現上述任一圖像檢測方法實施例中的步驟,或實現上述任一圖像檢測模型的訓練方法實施例中的步驟。
上述方案,能夠提高圖像類別檢測的準確性。
在一些實施例中,本發明實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法,該裝置的實現可以參照上文方法實施例的描述,為了簡潔,這裡不再贅述。
本發明實施例所提供的圖像檢測方法或圖像檢測模型的訓練方法的電腦程式產品,包括儲存了程式碼的電腦可讀儲存介質,所述程式碼包括的指令可被配置為執行上述方法實施例中所述的圖像檢測方法或圖像檢測模型的訓練方法的步驟,可參見上述方法實施例,在此不再贅述。
本發明實施例還提供一種電腦程式,該電腦程式被處理器執行時實現前述實施例的任意一種方法。該電腦程式產品可以通過硬體、軟體或其結合的方式實現。在一個可選實施例中,所述電腦程式產品體現為電腦儲存介質,在另一個可選實施例中,電腦程式產品體現為軟體產品,例如軟體發展包(Software Development Kit,SDK)等等。
上文對各個實施例的描述傾向於強調各個實施例之間的不同之處,其相同或相似之處可以互相參考,為了簡潔,本文不再贅述。
在本發明所提供的幾個實施例中,應該理解到,所揭露的方法和裝置,可以通過其它的方式實現。例如,以上所描述的裝置實施方式僅僅是示意性的,例如,模組或單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如單元或元件可以結合或者可以集成到另一個系統,或一些特徵可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些介面,裝置或單元的間接耦合或通信連接,可以是電性、機械或其它的形式。
作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分佈到網路單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施方式方案的目的。
另外,在本發明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬體的形式實現,也可以採用軟體功能單元的形式實現。
集成的單元如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時,可以儲存在一個電腦可讀取儲存介質中。基於這樣的理解,本發明實施例提供的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟體產品的形式體現出來,該電腦軟體產品儲存在一個儲存介質中,包括若干指令用以使得一台電腦設備(可以是個人電腦,伺服器,或者網路設備等)或處理器(processor)執行本發明各個實施方式方法的全部或部分步驟。而前述的儲存介質包括:U盤、移動硬碟、唯讀記憶體(ROM,Read-Only Memory)、隨機存取記憶體(RAM,Random Access Memory)、磁碟或者光碟等各種可以儲存程式碼的介質。
工業實用性
本發明實施例通過多張圖像的圖像特徵以及至少一組圖像對的類別相關度,且多張圖像包括參考圖像和目標圖像,多張圖像中每兩張圖像組成一組圖像對,類別相關度表示圖像對屬於相同圖像類別的可能性;利用類別相關度,更新多張圖像的圖像特徵;利用更新後的圖像特徵,得到目標圖像的圖像類別檢測結果。這樣,能夠使相同圖像類別的圖像對應的圖像特徵趨於接近,並使不同圖像類別的圖像對應的圖像特徵趨於疏離,從而能夠有利於提高圖像特徵的魯棒性,並有利於捕捉到圖像特徵的分佈情況,進而能夠有利於提高圖像類別檢測的準確性。
70:圖像檢測裝置
71:圖像獲取模組
72:特徵更新模組
73:結果獲取模組
80:圖像檢測模型的訓練裝置
81:樣本獲取模組
82:特徵更新模組
83:結果獲取模組
84:參數調整模組
90:電子設備
91:記憶體
92:處理器
100:電腦可讀儲存介質
101:程式指令
S11~S13:步驟
S21~S27:步驟
S31~S37:步驟
S51~S54:步驟
S601~S611:步驟
圖1是本發明實施例圖像檢測方法一實施例的流程示意圖;
圖2是本發明實施例圖像檢測方法另一實施例的流程示意圖;
圖3是本發明實施例圖像檢測方法又一實施例的流程示意圖;
圖4是本發明實施例圖像檢測方法一實施例的狀態示意圖;
圖5是本發明實施例圖像檢測模型的訓練方法一實施例的流程示意圖;
圖6是本發明實施例圖像檢測模型的訓練方法另一實施例的流程示意圖;
圖7是本發明實施例圖像檢測裝置一實施例的框架示意圖;
圖8是本發明實施例圖像檢測模型的訓練裝置一實施例的框架示意圖;
圖9是本發明實施例電子設備一實施例的框架示意圖;
圖10是本發明實施例電腦可讀儲存介質一實施例的框架示意圖。
S11~S13:步驟
Claims (16)
- 一種圖像檢測方法,包括:獲取多張圖像的圖像特徵以及至少一組圖像對的類別相關度;其中,所述多張圖像包括參考圖像和目標圖像,所述多張圖像中的每兩張圖像組成一組所述圖像對,所述類別相關度表示所述圖像對屬於相同圖像類別的可能性;利用所述類別相關度,更新所述多張圖像的圖像特徵;利用更新後的圖像特徵進行預測處理,得到概率資訊,其中,所述概率資訊包括所述目標圖像屬於至少一種參考類別的第一概率值,所述參考類別是所述參考圖像所屬的圖像類別;在執行所述預測處理的次數滿足預設條件的情況下,利用所述概率資訊,更新所述類別相關度,並重新執行所述利用所述類別相關度,更新所述多張圖像的圖像特徵的步驟;基於所述第一概率值,得到所述圖像類別檢測結果;其中,所述圖像類別檢測結果用於指示所述目標圖像所屬的圖像類別。
- 根據請求項1所述的方法,其中,所述概率資訊還包括所述參考圖像屬於所述至少一種參考類別的第二概率值;所述基於所述第一概率值,得到所述圖像類別檢測結果,包括:在執行所述預測處理的次數不滿足所述預設條件的情況 下,基於所述第一概率值,得到所述圖像類別檢測結果。
- 根據請求項2所述的方法,其中,所述類別相關度包括:每組所述圖像對屬於相同圖像類別的最終概率值;所述利用所述概率資訊,更新所述類別相關度,包括:分別以所述多張圖像中每張所述圖像作為當前圖像,並將包含所述當前圖像的所述圖像對作為當前圖像對;獲取所述當前圖像的所有所述當前圖像對的所述最終概率值之和,作為所述當前圖像的概率和;以及,利用所述第一概率值和所述第二概率值,分別獲取每組所述當前圖像對屬於相同圖像類別的參考概率值;分別利用所述概率和、所述參考概率值,調整每組所述當前圖像對的所述最終概率值。
- 根據請求項1至3任一項所述的方法,其中,所述利用更新後的圖像特徵進行預測處理,得到概率資訊,包括:利用更新後的圖像特徵,預測所述圖像所屬的預測類別,其中,所述預測類別屬於所述至少一個參考類別;針對每組所述圖像對,獲取所述圖像對的類別比對結果和特徵相似度,並得到所述圖像對關於所述類別比對結果和所述特徵相似度間的第一匹配度;其中,所述類別比對結果表示所述圖像對所屬的預測類別是否相同,所述特徵相似度表示所述圖像對的圖像特徵間的相似度;以及,基於所述參考圖像所屬的預測類別和所述參考類別,得 到所述參考圖像關於所述預測類別與所述參考類別間的第二匹配度;利用所述第一匹配度和所述第二匹配度,得到所述概率資訊。
- 根據請求項4所述的方法,其中,在所述類別比對結果為所述預測類別相同的情況下,所述特徵相似度與所述第一匹配度正相關,在所述類別比對結果為所述預測類別不同的情況下,所述特徵相似度與所述第一匹配度負相關,且所述預測類別與所述參考類別相同時的第二匹配度大於所述預測類別與所述參考類別不同時的第二匹配度。
- 根據請求項4所述的方法,其中,所述利用更新後的圖像特徵,預測所述圖像所屬的預測類別,包括:基於條件隨機場網路,利用更新後的圖像特徵,預測所述圖像所屬的預測類別。
- 根據請求項4所述的方法,其中,所述利用所述第一匹配度和所述第二匹配度,得到所述概率資訊,包括:基於循環信念傳播,利用所述第一匹配度和所述第二匹配度,得到所述概率資訊。
- 根據請求項1或2所述的方法,其中,所述預設條件包括:執行所述預測處理的次數未達到預設閾值。
- 根據請求項1至3任一項所述的方法,其中, 所述利用所述類別相關度,更新所述多張圖像的圖像特徵的步驟是由圖神經網路執行的。
- 根據請求項1至3任一項所述的方法,其中,所述利用所述類別相關度,更新所述多張圖像的圖像特徵,包括:利用所述類別相關度和所述圖像特徵,得到類內圖像特徵和類間圖像特徵;利用所述類內圖像特徵和所述類間圖像特徵進行特徵轉換,得到更新後的圖像特徵。
- 根據請求項1至3任一項所述的方法,還包括:在所述圖像對屬於相同圖像類別的情況下,將所述圖像對初始的類別相關度確定為預設上限值;在所述圖像對屬於不同圖像類別的情況下,將所述圖像對初始的類別相關度確定為預設下限值;在所述圖像對中至少一個為所述目標圖像的情況下,將所述圖像對初始的類別相關度確定為所述預設下限值和所述預設上限值之間的預設數值。
- 一種圖像檢測模型的訓練方法,包括:獲取多張樣本圖像的樣本圖像特徵以及至少一組樣本圖像對的樣本類別相關度;其中,所述多張樣本圖像包括樣本參考圖像和樣本目標圖像,所述多張樣本圖像中的每兩張樣本圖像形成一組所述樣本圖像對,所述樣本類別相關度表示所述樣本圖像對屬於相同圖像類別的可能性; 基於所述圖像檢測模型的第一網路,利用所述樣本類別相關度,更新所述多張樣本圖像的樣本圖像特徵;基於所述第二網路,利用更新後的樣本圖像特徵進行預測處理,得到樣本概率資訊,其中,所述樣本概率資訊包括所述樣本目標圖像屬於至少一種參考類別的第一樣本概率值和所述樣本參考圖像屬於所述至少一種參考類別的第二樣本概率值,所述參考類別是所述樣本參考圖像所屬的圖像類別;基於所述第一樣本概率值,得到所述樣本目標圖像的圖像類別檢測結果;利用所述第一樣本概率值和所述第二樣本概率值,更新所述樣本類別相關度;利用所述樣本目標圖像的圖像類別檢測結果和所述樣本目標圖像標注的圖像類別,調整所述圖像檢測模型的網路參數。
- 根據請求項12所述的方法,其中,所述利用所述樣本目標圖像的圖像類別檢測結果和所述樣本目標圖像標注的圖像類別,調整所述圖像檢測模型的網路參數,包括:利用所述第一樣本概率值和所述樣本目標圖像標注的圖像類別,得到所述圖像檢測模型的第一損失值;以及,利用所述樣本目標圖像和樣本參考圖像之間的實際類別相關度和更新後的樣本類別相關度,得到所述圖像檢測模型的第二損失值; 基於所述第一損失值和所述第二損失值,調整所述圖像檢測模型的網路參數。
- 根據請求項13所述的方法,其中,所述圖像檢測模型包括至少一個順序連接的網路層,每個所述網路層包括一個所述第一網路和一個所述第二網路;在所述基於所述第一損失值和所述第二損失值,調整所述圖像檢測模型的網路參數之前,所述方法還包括:在當前網路層不是所述圖像檢測模型的最後一層網路層的情況下,利用所述當前網路層的下一網路層,重新執行所述基於所述圖像檢測模型的第一網路,利用所述樣本類別相關度,更新所述多張樣本圖像的樣本圖像特徵的步驟以及後續步驟,直至當前網路層是所述圖像檢測模型的最後一層網路層為止;所述基於所述第一損失值和所述第二損失值,調整所述圖像檢測模型的網路參數,包括:利用與各個所述網路層對應的第一權值分別將與各個所述網路層對應的第一損失值進行加權處理,得到第一加權損失值;以及,利用與各個所述網路層對應的第二權值分別將與各個所述網路層對應的第二損失值進行加權處理,得到第二加權損失值;基於所述第一加權損失值和所述第二加權損失值,調整所述圖像檢測模型的網路參數;其中,所述網路層在所述圖像檢測模型中越靠後,所述 網路層對應的第一權值和第二權值均越大。
- 一種電子設備,包括相互耦接的記憶體和處理器,所述處理器被配置為執行所述記憶體中儲存的程式指令,以實現請求項1至11任一項所述的圖像檢測方法,或請求項12至14任一項所述的圖像檢測模型的訓練方法。
- 一種電腦可讀儲存介質,該電腦可讀儲存介質上儲存有程式指令,其中,所述程式指令被處理器執行時實現請求項1至11任一項所述的圖像檢測方法,或請求項12至14任一項所述的圖像檢測模型的訓練方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011167402.2 | 2020-10-27 | ||
CN202011167402.2A CN112307934B (zh) | 2020-10-27 | 2020-10-27 | 图像检测方法及相关模型的训练方法、装置、设备、介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI754515B true TWI754515B (zh) | 2022-02-01 |
TW202217645A TW202217645A (zh) | 2022-05-01 |
Family
ID=74331485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110100322A TWI754515B (zh) | 2020-10-27 | 2021-01-05 | 圖像檢測及相關模型訓練方法、設備及電腦可讀儲存介質 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220237907A1 (zh) |
KR (1) | KR20220058915A (zh) |
CN (2) | CN113850179A (zh) |
TW (1) | TWI754515B (zh) |
WO (1) | WO2022088411A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115879514B (zh) * | 2022-12-06 | 2023-08-04 | 深圳大学 | 类相关性预测改进方法、装置、计算机设备及存储介质 |
CN117058549B (zh) * | 2023-08-21 | 2024-02-20 | 中科三清科技有限公司 | 一种多行业二次污染动态来源解析系统及解析方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110168530A (zh) * | 2017-01-03 | 2019-08-23 | 三星电子株式会社 | 电子设备和操作该电子设备的方法 |
CN110188641A (zh) * | 2019-05-20 | 2019-08-30 | 北京迈格威科技有限公司 | 图像识别和神经网络模型的训练方法、装置和系统 |
CN110502659A (zh) * | 2019-08-23 | 2019-11-26 | 深圳市商汤科技有限公司 | 图像特征提取及网络的训练方法、装置和设备 |
CN110659625A (zh) * | 2019-09-29 | 2020-01-07 | 深圳市商汤科技有限公司 | 物体识别网络的训练方法及装置、电子设备和存储介质 |
CN111325276A (zh) * | 2020-02-24 | 2020-06-23 | Oppo广东移动通信有限公司 | 图像分类方法及装置、电子设备、计算机可读存储介质 |
TW202025137A (zh) * | 2018-12-27 | 2020-07-01 | 大陸商上海商湯智能科技有限公司 | 圖像處理方法及其裝置、電子設備及電腦可讀儲存媒體 |
CN111368934A (zh) * | 2020-03-17 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 图像识别模型训练方法、图像识别方法以及相关装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI604332B (zh) * | 2017-03-24 | 2017-11-01 | 緯創資通股份有限公司 | 遠距離的身份辨識方法及其系統與電腦可讀取記錄媒體 |
CN108985190B (zh) * | 2018-06-28 | 2021-08-27 | 北京市商汤科技开发有限公司 | 目标识别方法和装置、电子设备、存储介质 |
CN109582782A (zh) * | 2018-10-26 | 2019-04-05 | 杭州电子科技大学 | 一种基于用弱监督深度学习的文本聚类方法 |
TWI696144B (zh) * | 2018-12-19 | 2020-06-11 | 財團法人工業技術研究院 | 影像生成器的訓練方法 |
CN110689046A (zh) * | 2019-08-26 | 2020-01-14 | 深圳壹账通智能科技有限公司 | 图像识别方法、装置、计算机装置及存储介质 |
CN110913144B (zh) * | 2019-12-27 | 2021-04-27 | 维沃移动通信有限公司 | 图像处理方法及摄像装置 |
CN111259967B (zh) * | 2020-01-17 | 2024-03-08 | 北京市商汤科技开发有限公司 | 图像分类及神经网络训练方法、装置、设备及存储介质 |
CN111414862B (zh) * | 2020-03-22 | 2023-03-24 | 西安电子科技大学 | 基于神经网络融合关键点角度变化的表情识别方法 |
CN111814845B (zh) * | 2020-03-26 | 2022-09-20 | 同济大学 | 一种基于多支流融合模型的行人重识别方法 |
CN111539947B (zh) * | 2020-04-30 | 2024-03-29 | 上海商汤智能科技有限公司 | 图像检测方法及相关模型的训练方法和相关装置、设备 |
-
2020
- 2020-10-27 CN CN202111108726.3A patent/CN113850179A/zh active Pending
- 2020-10-27 CN CN202011167402.2A patent/CN112307934B/zh active Active
- 2020-12-10 WO PCT/CN2020/135472 patent/WO2022088411A1/zh active Application Filing
- 2020-12-10 KR KR1020227008920A patent/KR20220058915A/ko unknown
-
2021
- 2021-01-05 TW TW110100322A patent/TWI754515B/zh active
-
2022
- 2022-04-12 US US17/718,585 patent/US20220237907A1/en not_active Abandoned
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110168530A (zh) * | 2017-01-03 | 2019-08-23 | 三星电子株式会社 | 电子设备和操作该电子设备的方法 |
TW202025137A (zh) * | 2018-12-27 | 2020-07-01 | 大陸商上海商湯智能科技有限公司 | 圖像處理方法及其裝置、電子設備及電腦可讀儲存媒體 |
CN110188641A (zh) * | 2019-05-20 | 2019-08-30 | 北京迈格威科技有限公司 | 图像识别和神经网络模型的训练方法、装置和系统 |
CN110502659A (zh) * | 2019-08-23 | 2019-11-26 | 深圳市商汤科技有限公司 | 图像特征提取及网络的训练方法、装置和设备 |
CN110659625A (zh) * | 2019-09-29 | 2020-01-07 | 深圳市商汤科技有限公司 | 物体识别网络的训练方法及装置、电子设备和存储介质 |
CN111325276A (zh) * | 2020-02-24 | 2020-06-23 | Oppo广东移动通信有限公司 | 图像分类方法及装置、电子设备、计算机可读存储介质 |
CN111368934A (zh) * | 2020-03-17 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 图像识别模型训练方法、图像识别方法以及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112307934B (zh) | 2021-11-09 |
WO2022088411A1 (zh) | 2022-05-05 |
CN112307934A (zh) | 2021-02-02 |
KR20220058915A (ko) | 2022-05-10 |
CN113850179A (zh) | 2021-12-28 |
US20220237907A1 (en) | 2022-07-28 |
TW202217645A (zh) | 2022-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020221278A1 (zh) | 视频分类方法及其模型的训练方法、装置和电子设备 | |
CN111523621B (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN109902546B (zh) | 人脸识别方法、装置及计算机可读介质 | |
Xiao et al. | Attentional factorization machines: Learning the weight of feature interactions via attention networks | |
WO2020098606A1 (zh) | 节点分类方法、模型训练方法、装置、设备及存储介质 | |
WO2016107482A1 (zh) | 确定人脸图像中人脸的身份标识的方法、装置和终端 | |
WO2021089013A1 (zh) | 空间图卷积网络的训练方法、电子设备及存储介质 | |
TWI754515B (zh) | 圖像檢測及相關模型訓練方法、設備及電腦可讀儲存介質 | |
TWI761813B (zh) | 視頻分析方法及其相關的模型訓練方法、電子設備、儲存介質 | |
CN110166826B (zh) | 视频的场景识别方法、装置、存储介质及计算机设备 | |
WO2020258598A1 (zh) | 图像处理方法、提名评估方法及相关装置 | |
TWI747114B (zh) | 圖像特徵提取及網路的訓練方法、電子設備和電腦可讀儲存媒體 | |
CN110765286A (zh) | 跨媒体检索方法、装置、计算机设备和存储介质 | |
WO2023123923A1 (zh) | 人体重识别方法、人体重识别装置、计算机设备及介质 | |
CN111340213B (zh) | 神经网络的训练方法、电子设备、存储介质 | |
CN109447023A (zh) | 确定图像相似度的方法、视频场景切换识别方法及装置 | |
CN112529149A (zh) | 一种数据处理方法及相关装置 | |
WO2023040195A1 (zh) | 对象识别方法、网络的训练方法及装置、设备、介质及产品 | |
CN117315310A (zh) | 一种图像识别方法、图像识别模型训练方法及装置 | |
Negi et al. | End-to-end residual learning-based deep neural network model deployment for human activity recognition | |
CN114155388B (zh) | 一种图像识别方法、装置、计算机设备和存储介质 | |
Duffy et al. | An investigation into smartphone based weakly supervised activity recognition systems | |
CN118114123B (zh) | 识别模型的处理方法、装置、计算机设备和存储介质 | |
Huang et al. | Ranking Aggregation with Interactive Feedback for Collaborative Person Re-identification. | |
CN117648457A (zh) | 图像搜索方法、装置、电子设备及存储介质 |