TW202131219A - 圖像識別方法及圖像識別裝置、電子設備和電腦可讀儲存媒介 - Google Patents
圖像識別方法及圖像識別裝置、電子設備和電腦可讀儲存媒介 Download PDFInfo
- Publication number
- TW202131219A TW202131219A TW109116729A TW109116729A TW202131219A TW 202131219 A TW202131219 A TW 202131219A TW 109116729 A TW109116729 A TW 109116729A TW 109116729 A TW109116729 A TW 109116729A TW 202131219 A TW202131219 A TW 202131219A
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- area
- network
- information
- target
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/625—License plates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本公開涉及一種圖像識別方法及圖像識別裝置、電子設備和電腦可讀儲存媒介,所述圖像識別方法包括:對待處理圖像進行關鍵點檢測,確定所述待處理圖像中目標區域的多個輪廓關鍵點資訊;根據所述多個輪廓關鍵點資訊,對所述待處理圖像中的目標區域進行校正,得到與所述目標區域對應的校正區域的區域圖像資訊;對所述區域圖像資訊進行識別,得到所述目標區域的識別結果。本公開實施例可提高目標識別的準確率。
Description
本公開涉及電腦技術領域,尤其涉及一種圖像識別方法及圖像識別裝置、電子設備和電腦可讀儲存媒介。本申請要求在2020年2月12日提交中國專利局、申請號為202010089651.8、發明名稱為“圖像識別方法及裝置、電子設備和存儲介質”的中國專利申請的優先權,其全部內容通過引用結合在本申請中。
在電腦視覺以及智慧視頻監控等領域中,需要對圖像中的各種目標(例如行人、車輛等)進行檢測與識別。其中,在需要進行車牌檢測及識別的場景(例如智慧交通,車輛監控系統,停車場、車輛重識別,套牌車識別等場景)下,由於車速較快且車牌可能無法面對採集設備,導致車牌可能扭曲,旋轉,透視和變形,相關技術的處理方式無法快速識別車牌同時保證較高的準確率。
本公開提出了一種圖像識別技術方案。
根據本公開的一方面,提供了一種圖像識別方法,包括:對待處理圖像進行關鍵點檢測,確定所述待處理圖像中目標區域的多個輪廓關鍵點資訊;根據所述多個輪廓關鍵點資訊,對所述待處理圖像中的目標區域進行校正,得到與所述目標區域對應的校正區域的區域圖像資訊;對所述區域圖像資訊進行識別,得到所述目標區域的識別結果。
在一種可能的實現方式中,所述對待處理圖像進行關鍵點檢測,確定所述待處理圖像中目標區域的多個輪廓關鍵點資訊,包括:對所述待處理圖像進行特徵提取及融合,得到所述待處理圖像的特徵圖;對所述待處理圖像的特徵圖進行關鍵點檢測,得到所述待處理圖像中目標區域的多個輪廓關鍵點資訊。
在一種可能的實現方式中,所述多個輪廓關鍵點資訊包括所述多個輪廓關鍵點的第一位置,所述根據所述多個輪廓關鍵點資訊,對所述待處理圖像中的目標區域進行校正,得到與所述目標區域對應的校正區域的區域圖像資訊,包括:根據所述多個輪廓關鍵點的第一位置及所述校正區域的第二位置,確定所述目標區域與所述校正區域之間的單應變換矩陣;根據所述單應變換矩陣,對所述目標區域的圖像或特徵進行校正,得到所述校正區域的區域圖像資訊。
在一種可能的實現方式中,所述根據所述多個輪廓關鍵點的第一位置及所述校正區域的第二位置,確定所述目標區域與所述校正區域之間的單應變換矩陣,包括:對所述第一位置與所述第二位置分別進行標準化處理,得到標準化後的第一位置和標準化後的第二位置;根據所述標準化後的第一位置和所述標準化後的第二位置,確定所述目標區域與所述校正區域之間的單應變換矩陣。
在一種可能的實現方式中,所述根據所述單應變換矩陣,對所述目標區域的圖像進行校正,得到所述校正區域的區域圖像資訊,包括:根據所述校正區域中多個目標點的第三位置以及所述單應變換矩陣,確定所述目標區域中與各個所述第三位置對應的像素點;將與各個所述第三位置對應的像素點的像素資訊映射到各個所述目標點,並對各個所述目標點之間進行插值處理,得到所述校正區域的區域圖像資訊。
在一種可能的實現方式中,所述對所述區域圖像資訊進行識別,得到所述目標區域的識別結果,包括:對所述區域圖像資訊進行特徵提取,得到所述區域圖像資訊的特徵向量;對所述特徵向量進行解碼,得到所述目標區域的識別結果。
在一種可能的實現方式中,所述圖像識別方法通過神經網路實現,所述神經網路包括目標檢測網路、校正網路及識別網路,所述目標檢測網路用於對所述待處理圖像進行關鍵點檢測,所述校正網路用於對所述目標區域進行校正,所述識別網路用於對所述區域圖像資訊進行識別,其中,所述圖像識別方法還包括:
根據預設的訓練集,訓練所述目標檢測網路,得到訓練後的目標檢測網路,所述訓練集中包括多個樣本圖像、所述各樣本圖像中目標區域的輪廓關鍵點標注資訊、背景標注資訊及類別標注資訊;根據所述訓練集及所述訓練後的目標檢測網路,訓練所述校正網路及所述識別網路。
在一種可能的實現方式中,所述目標檢測網路包括特徵提取子網路、特徵融合子網路以及檢測子網路,所述根據預設的訓練集,訓練所述目標檢測網路,得到訓練後的目標檢測網路,包括:
通過所述特徵提取子網路對所述樣本圖像進行特徵提取,得到所述樣本圖像的第一特徵;通過所述特徵融合子網路對所述第一特徵進行特徵融合,得到所述樣本圖像的融合特徵;通過所述檢測子網路對所述融合特徵進行檢測,得到所述樣本圖像中目標的輪廓關鍵點檢測資訊及背景檢測資訊;根據所述多個樣本圖像的輪廓關鍵點檢測資訊及背景檢測資訊,和所述多個樣本圖像的輪廓關鍵點標注資訊及背景標注資訊,訓練所述目標檢測網路,得到訓練後的目標檢測網路。
在一種可能的實現方式中,所述目標區域包括車輛的車牌區域,所述目標區域的識別結果包括所述車牌區域的字元類別。
根據本公開的一方面,提供了一種圖像識別裝置,包括:關鍵點檢測模組,用於對待處理圖像進行關鍵點檢測,確定所述待處理圖像中目標區域的多個輪廓關鍵點資訊;校正模組,用於根據所述多個輪廓關鍵點資訊,對所述待處理圖像中的目標區域進行校正,得到與所述目標區域對應的校正區域的區域圖像資訊;識別模組,用於對所述區域圖像資訊進行識別,得到所述目標區域的識別結果。
在一種可能的實現方式中,所述關鍵點檢測模組包括:特徵提取及融合子模組,用於對所述待處理圖像進行特徵提取及融合,得到所述待處理圖像的特徵圖;檢測子模組,用於對所述待處理圖像的特徵圖進行關鍵點檢測,得到所述待處理圖像中目標區域的多個輪廓關鍵點資訊。
在一種可能的實現方式中,所述多個輪廓關鍵點資訊包括所述多個輪廓關鍵點的第一位置,所述校正模組包括:變換矩陣確定子模組,用於根據所述多個輪廓關鍵點的第一位置及所述校正區域的第二位置,確定所述目標區域與所述校正區域之間的單應變換矩陣;校正子模組,用於根據所述單應變換矩陣,對所述目標區域的圖像或特徵進行校正,得到所述校正區域的區域圖像資訊。
在一種可能的實現方式中,所述變換矩陣確定子模組用於:對所述第一位置與所述第二位置分別進行標準化處理,得到標準化後的第一位置和標準化後的第二位置;根據所述標準化後的第一位置和所述標準化後的第二位置,確定所述目標區域與所述校正區域之間的單應變換矩陣。
在一種可能的實現方式中,所述校正子模組用於:根據所述校正區域中多個目標點的第三位置以及所述單應變換矩陣,確定所述目標區域中與各個所述第三位置對應的像素點;將與各個所述第三位置對應的像素點的像素資訊映射到各個所述目標點,並對各個所述目標點之間進行插值處理,得到所述校正區域的區域圖像資訊。
在一種可能的實現方式中,所述識別模組包括:對所述區域圖像資訊進行特徵提取,得到所述區域圖像資訊的特徵向量;對所述特徵向量進行解碼,得到所述目標區域的識別結果。
在一種可能的實現方式中,所述圖像識別裝置通過神經網路實現,所述神經網路包括目標檢測網路、校正網路及識別網路,所述目標檢測網路用於對所述待處理圖像進行關鍵點檢測,所述校正網路用於對所述目標區域進行校正,所述識別網路用於對所述區域圖像資訊進行識別,其中,所述圖像識別裝置還包括:
第一訓練模組,用於根據預設的訓練集,訓練所述目標檢測網路,得到訓練後的目標檢測網路,所述訓練集中包括多個樣本圖像、所述各樣本圖像中目標區域的輪廓關鍵點標注資訊、背景標注資訊及類別標注資訊;第二訓練模組,用於根據所述訓練集及所述訓練後的目標檢測網路,訓練所述校正網路及所述識別網路。
在一種可能的實現方式中,所述目標檢測網路包括特徵提取子網路、特徵融合子網路以及檢測子網路,所述第一訓練模組用於:通過所述特徵提取子網路對所述樣本圖像進行特徵提取,得到所述樣本圖像的第一特徵;通過所述特徵融合子網路對所述第一特徵進行特徵融合,得到所述樣本圖像的融合特徵;通過所述檢測子網路對所述融合特徵進行檢測,得到所述樣本圖像中目標的輪廓關鍵點檢測資訊及背景檢測資訊;根據所述多個樣本圖像的輪廓關鍵點檢測資訊及背景檢測資訊,和所述多個樣本圖像的輪廓關鍵點標注資訊及背景標注資訊,訓練所述目標檢測網路,得到訓練後的目標檢測網路。
在一種可能的實現方式中,所述目標區域包括車輛的車牌區域,所述目標區域的識別結果包括所述車牌區域的字元類別。
根據本公開的一方面,提供了一種電子設備,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置為調用所述記憶體儲存的指令,以執行上述圖像識別方法。
根據本公開的一方面,提供了一種電腦可讀儲存媒介,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現上述圖像識別方法。
根據本公開的一方面,提供了一種電腦程式,所述電腦程式包括電腦可讀代碼,當所述電腦可讀代碼在電子設備中運行時,所述電子設備中的處理器執行上述圖像識別方法。
根據本公開的實施例,能夠確定出待處理圖像中目標區域的多個輪廓關鍵點資訊,根據多個輪廓關鍵點資訊校正目標區域,對校正得到的區域圖像資訊進行識別,得到目標區域的識別結果,從而提高目標識別的準確率。
應當理解的是,以上的一般描述和後文的細節描述僅是示例性和解釋性的,而非限制本公開。根據下面參考附圖對示例性實施例的詳細說明,本公開的其它特徵及方面將變得清楚。
以下將參考圖式詳細說明本公開的各種示例性實施例、特徵和方面。圖式中相同的圖式標記表示功能相同或相似的元件。儘管在圖式中示出了實施例的各種方面,但是除非特別指出,不必按比例繪製圖式。
在這裡專用的詞“示例性”意為“用作例子、實施例或說明性”。這裡作為“示例性”所說明的任何實施例不必解釋為優於或好於其它實施例。
本文中術語“和/或”,僅僅是一種描述關聯物件的關聯關係,表示可以存在三種關係,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合,例如,包括A、B、C中的至少一種,可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。
另外,為了更好地說明本公開,在下文的具體實施方式中給出了眾多的具體細節。本領域技術人員應當理解,沒有某些具體細節,本公開同樣可以實施。在一些實例中,對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述,以便於凸顯本公開的主旨。
圖1示出根據本公開實施例的圖像識別方法的流程圖,如圖1所示,所述圖像識別方法包括:
在步驟S11中,對待處理圖像進行關鍵點檢測,確定所述待處理圖像中目標區域的多個輪廓關鍵點資訊;
在步驟S12中,根據所述多個輪廓關鍵點資訊,對所述待處理圖像中的目標區域進行校正,得到與所述目標區域對應的校正區域的區域圖像資訊;
在步驟S13中,對所述區域圖像資訊進行識別,得到所述目標區域的識別結果。
在一種可能的實現方式中,所述圖像識別方法可以由終端設備或伺服器等電子設備執行,終端設備可以為使用者設備(User Equipment,UE)、移動設備、使用者終端、終端、蜂巢式電話、室內無線電話、個人數位助理(Personal Digital Assistant,PDA)、手持設備、計算設備、車載設備、可穿戴設備等,所述圖像識別方法可以通過處理器調用記憶體中儲存的電腦可讀指令的方式來實現。或者,可通過伺服器執行所述圖像識別方法。
舉例來說,待處理圖像可以為圖像採集設備(例如攝像頭)所採集的圖像或影像幀等,待處理圖像中包括待識別的目標,例如行人、車輛、車牌等。
在一種可能的實現方式中,可在步驟S11中對待處理圖像進行關鍵點檢測,確定待處理圖像中的目標所在圖像區域(可稱為目標區域)的輪廓上的多個輪廓關鍵點資訊。在目標區域為四邊形區域的情況下,目標區域的多個輪廓關鍵點可例如為目標區域的四個頂點。應當理解,本領域技術人員可根據實際情況設置所檢測的輪廓關鍵點的數量,只要檢測到的輪廓關鍵點能夠限定目標區域的範圍即可,本公開對目標區域的具體形狀以及輪廓關鍵點的數量不作限制。
在一種可能的實現方式中,由於待處理圖像的拍攝角度問題,待處理圖像中的目標區域可能存在扭曲、旋轉、變形等。在該情況下,可在步驟S12中,根據多個輪廓關鍵點資訊,對待處理圖像中的目標區域進行校正,例如通過單應變換進行校正,得到與目標區域對應的校正區域的區域圖像資訊。該校正區域為正視目標區域時所展示的區域,例如在目標為車牌時,該校正區域為正視車牌時車牌所在的矩形區域。校正區域的區域圖像資訊可以為校正區域的圖像或特徵圖。
在一種可能的實現方式中,在得到區域圖像資訊後,可在步驟S13中對區域圖像資訊進行識別,得到目標區域的識別結果。可例如通過神經網路對區域圖像資訊進行特徵提取,並對提取到的特徵進行解碼,得到識別結果。
在一種可能的實現方式中,目標區域包括車輛的車牌區域,所述目標區域的識別結果包括所述車牌區域的字元類別。也就是說,待識別的目標為車輛的車牌時,可檢測出圖像中車牌區域的多個輪廓關鍵點(例如4個頂點),進而對車牌區域進行校正及識別,得到車牌區域的字元類別,例如車牌區域包括字元9815QW。
在一種可能的實現方式中,在待識別的目標為看板或店鋪招牌等時,得到的目標區域的識別結果為看板或店鋪招牌上的文字和/或數字;在待識別的目標為交通標誌物時,得到的目標區域的識別結果為交通標誌物的標誌類型。本公開對此不作限制。
根據本公開的實施例,能夠確定出待處理圖像中目標區域的多個輪廓關鍵點資訊,根據多個輪廓關鍵點資訊校正目標區域,對校正得到的區域圖像資訊進行識別,得到目標區域的識別結果,從而提高目標識別的準確率。
在一種可能的實現方式中,步驟S11可包括:
對所述待處理圖像進行特徵提取及融合,得到所述待處理圖像的特徵圖;
對所述待處理圖像的特徵圖進行關鍵點檢測,得到所述待處理圖像中目標區域的多個輪廓關鍵點資訊。
舉例來說,可通過目標檢測網路對待處理圖像進行關鍵點檢測,目標檢測網路可例如為卷積神經網路。其中,目標檢測網路可包括特徵提取子網路、特徵融合子網路以及檢測子網路。
在一種可能的實現方式中,可通過特徵提取子網路對待處理圖像進行特徵提取,得到待處理圖像的多個尺度的特徵。特徵提取子網路可採用殘差網路Resnet,包括多個殘差層或殘差塊。應當理解,特徵提取子網路還可以採用googlenet(谷歌網路)、vggnet(vgg網路)、shufflenet(混洗網路)、darknet(黑暗網路)等網路結構,本公開對此不作限制。
在一種可能的實現方式中,可通過特徵融合子網路對待處理圖像的多個尺度的特徵進行融合,得到一個尺度的特徵,即待處理圖像的特徵圖。其中,特徵融合子網路可採用特徵金字塔網路FPN,還可以採用NAS-FPN(自動搜索的特徵金字塔網路),hourglass(沙漏網路)等網路結構,本公開對此不作限制。
在一種可能的實現方式中,可通過檢測子網路對待處理圖像的特徵圖進行關鍵點檢測,得到待處理圖像中目標區域的多個輪廓關鍵點資訊。其中,檢測子網路可包括多個卷積層及多個檢測層(例如包括全連接層),通過多個卷積層進一步提取待處理圖像的特徵圖中的特徵資訊,再通過多個檢測層分別檢測該特徵資訊中的關鍵點的位置。在目標區域為四邊形的情況下,可預測出4個定位熱力圖,分別定位目標區域的左上,右上,右下及左下頂點(即4個關鍵點)的位置。每個熱力圖可定義為頂點座標所在位置為1,其餘為0,可以選擇01編碼,也可以替換為高斯編碼,本公開對此不作限制。
圖2示出根據本公開實施例的關鍵點檢測過程的示意圖。如圖2所示,可將待處理圖像21輸入目標檢測網路,依次經由殘差網路(Res)22和特徵金字塔網路(FPN)23進行特徵提取及融合,得到特徵圖24。其中,待處理圖像21的尺寸可例如為320×280,經特徵提取及融合後,得到尺寸為80×70×64的特徵圖24;通過檢測子網路(未示出)對特徵圖24進一步卷積及關鍵點檢測,得到80×70×4的四個關鍵點的定位熱力圖25,從而確定出目標區域的左上,右上,右下及左下頂點的位置。
通過這種方式,能夠快速確定目標區域的多個輪廓關鍵點資訊,從而精確限定目標區域的邊界輪廓,提高了處理速度及精度。
在一種可能的實現方式中,多個輪廓關鍵點資訊包括所述多個輪廓關鍵點的第一位置,步驟S12可包括:
根據所述多個輪廓關鍵點的第一位置及所述校正區域的第二位置,確定所述目標區域與所述校正區域之間的單應變換矩陣;
根據所述單應變換矩陣,對所述目標區域的圖像或特徵進行校正,得到所述校正區域的區域圖像資訊。
舉例來說,在確定目標區域的多個輪廓關鍵點資訊後,可對目標區域進行校正。其中,多個輪廓關鍵點資訊可包括各個輪廓關鍵點在待處理圖像中或待處理圖像的特徵圖中的位置座標(即各個輪廓關鍵點的第一位置)。在目標區域為四邊形區域時,可包括4個輪廓關鍵點。
在一種可能的實現方式中,可設定待處理圖像或其特徵圖的尺度為h(高度)×w(寬度)×C(通道數),輪廓關鍵點座標為(x1,y1,x2,y2,x3,y3,x4,y4),經校正後的校正區域為hH
(高度)×wH
(寬度)×C(通道數)。可根據多個輪廓關鍵點的第一位置確定目標區域的位置,再根據目標區域的位置和校正區域的第二位置,可確定出目標區域與校正區域之間的單應變換矩陣。應當理解,可以採用本領域公知的方式確定目標區域與校正區域之間的單應變換矩陣,本公開對此不作限制。
在一種可能的實現方式中,所述根據所述多個輪廓關鍵點的第一位置及所述校正區域的第二位置,確定所述目標區域與所述校正區域之間的單應變換矩陣的步驟,可包括:
對所述第一位置與所述第二位置分別進行標準化處理,得到標準化後的第一位置和標準化後的第二位置;
根據所述標準化後的第一位置和所述標準化後的第二位置,確定所述目標區域與所述校正區域之間的單應變換矩陣。
也就是說,可對輸入的輪廓關鍵點座標(x1,y1,x2,y2,x3,y3,x4,y4),和輸出的校正區域hH
(高度)×wH
(寬度)×C(通道數)的座標分別進行標準化,將輸入座標和輸出座標標準化到[-1, 1]之間,得到標準化後的第一位置和標準化後的第二位置。根據標準化後的第一位置和標準化後的第二位置,確定標準化後的目標區域與校正區域之間的單應變換矩陣(例如得到3×3的矩陣),本公開對單應變換矩陣的確定方式不作限制。
通過這種方式,可統一目標區域與校正區域的尺度,降低目標區域與校正區域的尺度差異導致的誤差,提高單應變換矩陣的準確度。
在一種可能的實現方式中,所述根據所述單應變換矩陣,對所述目標區域的圖像或特徵進行校正,得到所述校正區域的區域圖像資訊的步驟可包括:
根據所述校正區域中多個目標點的第三位置以及所述單應變換矩陣,確定所述目標區域中與各個所述第三位置對應的像素點;
將與各個所述第三位置對應的像素點的像素資訊映射到各個所述目標點,並對各個所述目標點之間進行插值處理,得到所述校正區域的區域圖像資訊。
舉例來說,針對校正區域標準化後的第二位置,可在座標x軸和y軸上的[-1, 1]之間分別等間隔取wH
和hH
個點,得到校正區域的柵格化座標(共有hH
×wH
個座標),將柵格化座標作為校正區域中的多個目標點。根據多個目標點的第三位置以及單應變換矩陣,可計算出目標區域中對應的像素點的位置,從而確定目標區域中與各個第三位置對應的像素點。
在一種可能的實現方式中,可將與各個第三位置對應的像素點的像素資訊(即像素值)映射到各個目標點,並對各個目標點之間進行插值處理,得到校正區域的區域圖像資訊。可以採用雙線性插值的方式,也可以採用其他插值方式,本公開對此不作限制。該區域圖像資訊可以為區域圖像或區域特徵圖,本公開對此不作限制。
通過這種方式,可將傾斜旋轉的目標區域校正到水平方向。該處理過程可稱為單應池化(Homopooling)操作,該操作可以微分以及反向傳播用以校正目標區域的圖像或特徵,可嵌入任何神經網路進行端到端的訓練,從而能夠在統一的網路中實現整個圖像識別過程。
在一種可能的實現方式中,步驟S13包括:
對所述區域圖像資訊進行特徵提取,得到所述區域圖像資訊的特徵向量;對所述特徵向量進行解碼,得到所述目標區域的識別結果。
舉例來說,可通過識別網路對區域圖像資訊進行識別,該識別網路可包括多個卷積層,組正規化(group normalization)層,RELU激活層以及最大池化層等網路層。經由各個網路層提取區域圖像資訊的特徵,可得到寬度為1的特徵向量,例如尺寸為1×47的特徵向量。
在一種可能的實現方式中,該識別網路還可包括全連接層和CTC(Connectionist Temporal Classification,連線時間分類)解碼器。通過全連接層對特徵向量進行處理,可得到區域圖像資訊的字元概率分布向量;通過CTC解碼器對字元概率分布向量進行解碼,可得到目標區域的識別結果。在目標為車牌時,目標區域的識別結果為車牌所對應的字元,例如字元9815QW。通過這種方式,可提高識別結果的準確性。
圖3示出根據本公開實施例的圖像識別過程的示意圖。如圖3所示,根據本公開實施例的圖像識別方法可通過神經網路實現,該神經網路包括目標檢測網路31、校正網路32及識別網路33,目標檢測網路31用於對所述待處理圖像進行關鍵點檢測,校正網路32用於對所述目標區域進行校正,識別網路33用於對所述區域圖像資訊進行識別。
如圖3所示,待處理圖像34中的目標為車輛的車牌,可將待處理圖像34輸入目標檢測網路31進行關鍵點檢測,得到包括車牌的四個頂點的圖像35;通過校正網路32,對圖像35中的四個頂點對待處理圖像34的車牌區域進行校正,得到車牌圖像36;將車牌圖像36輸入識別網路33中進行識別,得到車牌區域的識別結果37,也即車牌所對應的字元9815QW。
在部署神經網路之前,需要對神經網路進行訓練。根據本公開實施例的圖像識別方法,還包括:
根據預設的訓練集,訓練所述目標檢測網路,得到訓練後的目標檢測網路,所述訓練集中包括多個樣本圖像、各所述樣本圖像中目標區域的輪廓關鍵點標注資訊、背景標注資訊及類別標注資訊;
根據所述訓練集及所述訓練後的目標檢測網路,訓練所述校正網路及所述識別網路。
舉例來說,可以分兩個階段對神經網路進行訓練,也即先訓練目標檢測網路,再訓練校正網路及所述識別網路。
在訓練的第一階段,可將訓練集中的樣本圖像輸入目標檢測網路中,輸出樣本圖像中目標區域的輪廓關鍵點檢測資訊;根據多個樣本圖像的輪廓關鍵點檢測資訊與輪廓關鍵點標注資訊之間的差異,調整目標檢測網路的參數,直到滿足預設的訓練條件,得到訓練後的目標檢測網路。
在訓練的第二階段,可將訓練集中的樣本圖像輸入訓練後的目標檢測網路,經由訓練後的目標檢測網路、校正網路及識別網路處理,得到樣本圖像中目標區域的訓練識別結果;根據多個樣本圖像的訓練識別結果及類別標注資訊之間的差異,調整校正網路及識別網路的參數,直到滿足預設的訓練條件,得到訓練後的校正網路及識別網路。
通過這種方式,可以提高訓練效果,加快訓練速度。
在一種可能的實現方式中,所述根據預設的訓練集,訓練所述目標檢測網路,得到訓練後的目標檢測網路的步驟包括:
通過所述特徵提取子網路對樣本圖像進行特徵提取,得到所述樣本圖像的第一特徵;
通過所述特徵融合子網路對所述第一特徵進行特徵融合,得到所述樣本圖像的融合特徵;
通過所述檢測子網路對所述融合特徵進行檢測,得到所述樣本圖像中目標的輪廓關鍵點檢測資訊及背景檢測資訊;
根據所述多個樣本圖像的輪廓關鍵點檢測資訊及背景檢測資訊,和所述多個樣本圖像的輪廓關鍵點標注資訊及背景標注資訊,訓練所述目標檢測網路,得到訓練後的目標檢測網路。
舉例來說,可在訓練過程中添加對背景的檢測,以便提高訓練效果。可將樣本圖像輸入特徵提取子網路中進行特徵提取,得到樣本圖像的第一特徵;將第一特徵輸入特徵融合子網路中進行特徵融合,得到樣本圖像的融合特徵;將融合特徵輸入檢測子網路中進行檢測,得到樣本圖像中目標的輪廓關鍵點檢測資訊及背景檢測資訊。即,在目標為車牌時,可得到四個頂點的檢測資訊以及樣本圖像中背景的檢測資訊。
在一種可能的實現方式中,多個樣本圖像的輪廓關鍵點檢測資訊及背景檢測資訊,和所述多個樣本圖像的輪廓關鍵點標注資訊及背景標注資訊,可確定目標檢測網路的網路損失,從而根據網路損失調整目標檢測網路的參數,直到滿足預設的訓練條件,得到訓練後的目標檢測網路。
通過添加背景檢測作為監督信號,能夠大幅提高目標檢測網路的訓練效果。
根據本公開實施例的圖像識別方法,能夠準確識別圖像的圖像中多角度,不定字長的目標(例如車牌、看板、交通標識物等)。該方法利用關鍵點識別取代基於邊界框的車牌檢測,該方式不用逐像素回歸,不需要檢測錨,省去了非極大值抑制,極大提高了檢測速度。利用關鍵點的熱力圖作為回歸目標提高了定位的準確率。同時點數增加可以獲取更多的車牌資訊,用於單應池化校正車牌。
根據本公開實施例的圖像識別方法,能夠利用單應池化校正車牌圖片或者特徵,可以嵌入到任何網路中,從而實現端到端聯合訓練的統一網路,網路各部分可以聯合優化,保證速度與精度。
根據本公開實施例的圖像識別方法,能夠應用于智慧城市、智慧交通、安防監控、停車場、車輛重識別,套牌車識別等場景中,快速精准識別車牌號碼,進而利用車牌號碼進行收費、罰款、檢測套牌車等。
可以理解,本公開提及的上述各個方法實施例,在不違背原理邏輯的情況下,均可以彼此相互結合形成結合後的實施例,限於篇幅,本公開不再贅述。本領域技術人員可以理解,在具體實施方式的上述方法中,各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。
此外,本公開還提供了圖像識別裝置、電子設備、電腦可讀儲存媒介、程式,上述均可用來實現本公開提供的任一種圖像識別方法,相應技術方案和描述和參見方法部分的相應記載,不再贅述。
圖4示出根據本公開實施例的圖像識別裝置的框圖,如圖4所示,所述圖像識別裝置包括:
關鍵點檢測模組41,用於對待處理圖像進行關鍵點檢測,確定所述待處理圖像中目標區域的多個輪廓關鍵點資訊;校正模組42,用於根據所述多個輪廓關鍵點資訊,對所述待處理圖像中的目標區域進行校正,得到與所述目標區域對應的校正區域的區域圖像資訊;識別模組43,用於對所述區域圖像資訊進行識別,得到所述目標區域的識別結果。
在一種可能的實現方式中,所述關鍵點檢測模組41包括:特徵提取及融合子模組,用於對所述待處理圖像進行特徵提取及融合,得到所述待處理圖像的特徵圖;檢測子模組,用於對所述待處理圖像的特徵圖進行關鍵點檢測,得到所述待處理圖像中目標區域的多個輪廓關鍵點資訊。
在一種可能的實現方式中,所述多個輪廓關鍵點資訊包括所述多個輪廓關鍵點的第一位置,所述校正模組42包括:變換矩陣確定子模組,用於根據所述多個輪廓關鍵點的第一位置及所述校正區域的第二位置,確定所述目標區域與所述校正區域之間的單應變換矩陣;校正子模組,用於根據所述單應變換矩陣,對所述目標區域的圖像或特徵進行校正,得到所述校正區域的區域圖像資訊。
在一種可能的實現方式中,所述變換矩陣確定子模組用於:對所述第一位置與所述第二位置分別進行標準化處理,得到標準化後的第一位置和標準化後的第二位置;根據所述標準化後的第一位置和所述標準化後的第二位置,確定所述目標區域與所述校正區域之間的單應變換矩陣。
在一種可能的實現方式中,所述校正子模組用於:根據所述校正區域中多個目標點的第三位置以及所述單應變換矩陣,確定所述目標區域中與各個所述第三位置對應的像素點;將與各個所述第三位置對應的像素點的像素資訊映射到各個所述目標點,並對各個所述目標點之間進行插值處理,得到所述校正區域的區域圖像資訊。
在一種可能的實現方式中,所述識別模組43包括:對所述區域圖像資訊進行特徵提取,得到所述區域圖像資訊的特徵向量;對所述特徵向量進行解碼,得到所述目標區域的識別結果。
在一種可能的實現方式中,所述圖像識別裝置通過神經網路實現,所述神經網路包括目標檢測網路、校正網路及識別網路,所述目標檢測網路用於對所述待處理圖像進行關鍵點檢測,所述校正網路用於對所述目標區域進行校正,所述識別網路用於對所述區域圖像資訊進行識別,其中,所述圖像識別裝置還包括:
第一訓練模組,用於根據預設的訓練集,訓練所述目標檢測網路,得到訓練後的目標檢測網路,所述訓練集中包括多個樣本圖像、所述各樣本圖像中目標區域的輪廓關鍵點標注資訊、背景標注資訊及類別標注資訊;第二訓練模組,用於根據所述訓練集及所述訓練後的目標檢測網路,訓練所述校正網路及所述識別網路。
在一種可能的實現方式中,所述目標檢測網路包括特徵提取子網路、特徵融合子網路以及檢測子網路,所述第一訓練模組用於:通過所述特徵提取子網路對所述樣本圖像進行特徵提取,得到所述樣本圖像的第一特徵;通過所述特徵融合子網路對所述第一特徵進行特徵融合,得到所述樣本圖像的融合特徵;通過所述檢測子網路對所述融合特徵進行檢測,得到所述樣本圖像中目標的輪廓關鍵點檢測資訊及背景檢測資訊;根據所述多個樣本圖像的輪廓關鍵點檢測資訊及背景檢測資訊,和所述多個樣本圖像的輪廓關鍵點標注資訊及背景標注資訊,訓練所述目標檢測網路,得到訓練後的目標檢測網路。
在一種可能的實現方式中,所述目標區域包括車輛的車牌區域,所述目標區域的識別結果包括所述車牌區域的字元類別。
在一些實施例中,本公開實施例提供的圖像識別裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法,其具體實現可以參照上文方法實施例的描述,為了簡潔,這裡不再贅述。
本公開實施例還提出一種電腦可讀儲存媒介,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現上述方法。電腦可讀儲存媒介可以是非揮發性電腦可讀儲存媒介或揮發性電腦可讀儲存媒介。
本公開實施例還提出一種電子設備,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置為調用所述記憶體儲存的指令,以執行上述方法。
本公開實施例還提供了一種電腦程式產品,包括電腦可讀代碼,當電腦可讀代碼在設備上運行時,設備中的處理器執行用於實現如上任一實施例提供的圖像識別方法的指令。
本公開實施例還提供了另一種電腦程式產品,用於儲存電腦可讀指令,指令被執行時使得電腦執行上述任一實施例提供的圖像識別方法的操作。
電子設備可以被提供為終端、伺服器或其它形態的設備。
圖5示出根據本公開實施例的一種電子設備800的框圖。例如,電子設備800可以是行動電話,電腦,數位廣播終端,消息收發設備,遊戲控制台,平板設備,醫療設備,健身設備,個人數位助理等終端。
參照圖5,電子設備800可以包括以下一個或多個組件:處理組件802,記憶體804,電源組件806,多媒體組件808,音訊組件810,輸入/輸出(I/ O)介面812,感測器組件814,以及通信組件816。
處理組件802通常控制電子設備800的整體操作,諸如與顯示,電話呼叫,資料通信,相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器820來執行指令,以完成上述的方法的全部或部分步驟。此外,處理組件802可以包括一個或多個模組,便於處理組件802和其他組件之間的交互。例如,處理組件802可以包括多媒體模組,以方便多媒體組件808和處理組件802之間的交互。
記憶體804被配置為儲存各種類型的資料以支援在電子設備800的操作。這些資料的示例包括用於在電子設備800上操作的任何應用程式或方法的指令,聯絡人資料,電話簿資料,消息,圖片,視頻等。記憶體804可以由任何類型的揮發性或非揮發性儲存設備或者它們的組合實現,如靜態隨機存取記憶體(SRAM),電子抹除式可複寫唯讀記憶體(EEPROM),可擦除可規劃式唯讀記憶體(EPROM),可程式設計唯讀記憶體(PROM),唯讀記憶體(ROM),磁記憶體,快閃記憶體,磁片或光碟。
電源組件806為電子設備800的各種組件提供電力。電源組件806可以包括電源管理系統,一個或多個電源,及其他與為電子設備800生成、管理和分配電力相關聯的組件。
多媒體組件808包括在所述電子設備800和使用者之間的提供一個輸出介面的螢幕。在一些實施例中,螢幕可以包括液晶顯示器(LCD)和觸控面板(TP)。如果螢幕包括觸控面板,螢幕可以被實現為觸控式螢幕,以接收來自使用者的輸入信號。觸控面板包括一個或多個觸控感測器以感測觸摸、滑動和觸摸面板上的手勢。所述觸控感測器可以不僅感測觸摸或滑動動作的邊界,而且還檢測與所述觸摸或滑動操作相關的持續時間和壓力。在一些實施例中,多媒體組件808包括一個前置攝像頭和/或後置攝像頭。當電子設備800處於操作模式,如拍攝模式或視訊模式時,前置攝像頭和/或後置攝像頭可以接收外部的多媒體資料。每個前置攝像頭和後置攝像頭可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。
音訊組件810被配置為輸出和/或輸入音訊信號。例如,音訊組件810包括一個麥克風(MIC),當電子設備800處於操作模式,如呼叫模式、記錄模式和語音辨識模式時,麥克風被配置為接收外部音訊信號。所接收的音訊信號可以被進一步儲存在記憶體804或經由通信組件816發送。在一些實施例中,音訊組件810還包括一個揚聲器,用於輸出音訊信號。
輸入/輸出介面812為處理組件802和週邊介面模組之間提供介面,上述週邊介面模組可以是鍵盤,點擊輪,按鈕等。這些按鈕可包括但不限於:主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。
感測器組件814包括一個或多個感測器,用於為電子設備800提供各個方面的狀態評估。例如,感測器組件814可以檢測到電子設備800的打開/關閉狀態,組件的相對定位,例如所述組件為電子設備800的顯示器和小鍵盤,感測器組件814還可以檢測電子設備800或電子設備800一個組件的位置改變,使用者與電子設備800接觸的存在或不存在,電子設備800方位或加速/減速和電子設備800的溫度變化。感測器組件814可以包括接近感測器,被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器,如CMOS或CCD圖像感測器,用於在成像應用中使用。在一些實施例中,該感測器組件814還可以包括加速度感測器,陀螺儀感測器,磁感測器,壓力感測器或溫度感測器。
通信組件816被配置為便於電子設備800和其他設備之間有線或無線方式的通信。電子設備800可以接入基於通信標準的無線網路,如WiFi,2G或3G,或它們的組合。在一個示例性實施例中,通信組件816經由廣播通道接收來自外部廣播管理系統的廣播信號或廣播相關資訊。在一個示例性實施例中,所述通信組件816還包括近場通信(NFC)模組,以促進短程通信。例如,在NFC模組可基於射頻識別(RFID)技術,紅外資料協會(IrDA)技術,超寬頻(UWB)技術,藍牙(BT)技術和其他技術來實現。
在示例性實施例中,電子設備800可以被一個或多個應用專用積體電路(ASIC)、數位訊號處理器(DSP)、數位信號處理設備(DSPD)、可程式設計邏輯裝置(PLD)、現場可程式設計閘陣列(FPGA)、控制器、微控制器、微處理器或其他電子元件實現,用於執行上述方法。
在示例性實施例中,還提供了一種非揮發性電腦可讀儲存媒介,例如包括電腦程式指令的記憶體804,上述電腦程式指令可由電子設備800的處理器820執行以完成上述方法。
圖6示出根據本公開實施例的一種電子設備1900的框圖。例如,電子設備1900可以被提供為一伺服器。參照圖6,電子設備1900包括處理組件1922,其進一步包括一個或多個處理器,以及由記憶體1932所代表的記憶體資源,用於儲存可由處理組件1922的執行的指令,例如應用程式。記憶體1932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外,處理組件1922被配置為執行指令,以執行上述方法。
電子設備1900還可以包括一個電源組件1926被配置為執行電子設備1900的電源管理,一個有線或無線網路介面1950被配置為將電子設備1900連接到網路,和一個輸入輸出(I/O)介面1958。電子設備1900可以操作基於儲存在記憶體1932的作業系統,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM或類似。
在示例性實施例中,還提供了一種非揮發性電腦可讀儲存媒介,例如包括電腦程式指令的記憶體1932,上述電腦程式指令可由電子設備1900的處理組件1922執行以完成上述方法。
本公開可以是系統、方法和/或電腦程式產品。電腦程式產品可以包括電腦可讀儲存媒介,其上載有用於使處理器實現本公開的各個方面的電腦可讀程式指令。
電腦可讀儲存媒介可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存媒介例如可以是――但不限於――電儲存設備、磁儲存設備、光儲存設備、電磁儲存設備、半導體儲存設備或者上述的任意合適的組合。電腦可讀儲存媒介的更具體的例子(非窮舉的列表)包括:可擕式電腦盤、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可擦式可程式設計唯讀記憶體(EPROM或快閃記憶體)、靜態隨機存取記憶體(SRAM)、可擕式壓縮磁碟唯讀記憶體(CD-ROM)、數位多媒體光碟(DVD)、記憶棒、軟碟、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裡所使用的電腦可讀儲存媒介不被解釋為暫態信號本身,諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波(例如,通過光纖電纜的光脈衝)、或者通過電線傳輸的電信號。
這裡所描述的電腦可讀程式指令可以從電腦可讀儲存媒介下載到各個計算/處理設備,或者通過網路、例如網際網路、區域網路、廣域網路和/或無線網路下載到外部電腦或外部儲存設備。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、閘道電腦和/或邊緣伺服器。每個計算/處理設備中的網路介面卡或者網路介面從網路接收電腦可讀程式指令,並轉發該電腦可讀程式指令,以供儲存在各個計算/處理設備中的電腦可讀儲存媒介中。
用於執行本公開操作的電腦程式指令可以是彙編指令、指令集架構(ISA)指令、機器指令、機器相關指令、微代碼、固件指令、狀態設置資料、或者以一種或多種程式設計語言的任意組合編寫的原始程式碼或目標代碼,所述程式設計語言包括物件導向的程式設計語言—諸如Smalltalk、C++等,以及常規的過程式程式設計語言—諸如“C”語言或類似的程式設計語言。電腦可讀程式指令可以完全地在使用者電腦上執行、部分地在使用者電腦上執行、作為一個獨立的套裝軟體執行、部分在使用者電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中,遠端電腦可以通過任意種類的網路—包括區域網路(LAN)或廣域網路(WAN)—連接到使用者電腦,或者,可以連接到外部電腦(例如利用網際網路服務提供者來通過網際網路連接)。在一些實施例中,通過利用電腦可讀程式指令的狀態資訊來個性化定制電子電路,例如可程式設計邏輯電路、現場可程式設計閘陣列(FPGA)或可程式設計邏輯陣列(PLA),該電子電路可以執行電腦可讀程式指令,從而實現本公開的各個方面。
這裡參照根據本公開實施例的方法、裝置(系統)和電腦程式產品的流程圖和/或框圖描述了本公開的各個方面。應當理解,流程圖和/或框圖的每個方框以及流程圖和/或框圖中各方框的組合,都可以由電腦可讀程式指令實現。
這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式設計資料處理裝置的處理器,從而生產出一種機器,使得這些指令在通過電腦或其它可程式設計資料處理裝置的處理器執行時,產生了實現流程圖和/或框圖中的一個或多個方框中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存媒介中,這些指令使得電腦、可程式設計資料處理裝置和/或其他設備以特定方式工作,從而,儲存有指令的電腦可讀介質則包括一個製造品,其包括實現流程圖和/或框圖中的一個或多個方框中規定的功能/動作的各個方面的指令。
也可以把電腦可讀程式指令載入到電腦、其它可程式設計資料處理裝置、或其它設備上,使得在電腦、其它可程式設計資料處理裝置或其它設備上執行一系列操作步驟,以產生電腦實現的過程,從而使得在電腦、其它可程式設計資料處理裝置、或其它設備上執行的指令實現流程圖和/或框圖中的一個或多個方框中規定的功能/動作。
圖式中的流程圖和框圖顯示了根據本公開的多個實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模組、程式段或指令的一部分,所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作為替換的實現中,方框中所標注的功能也可以以不同於圖式中所標注的順序發生。例如,兩個連續的方框實際上可以基本並行地執行,它們有時也可以按相反的循序執行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執行規定的功能或動作的專用的基於硬體的系統來實現,或者可以用專用硬體與電腦指令的組合來實現。
該電腦程式產品可以具體通過硬體、軟體或其結合的方式實現。在一個可選實施例中,所述電腦程式產品具體體現為電腦儲存媒介,在另一個可選實施例中,電腦程式產品具體體現為軟體產品,例如軟體發展包(Software Development Kit,SDK)等等。
在不違背邏輯的情況下,本公開不同實施例之間可以相互結合,不同實施例描述有所側重,為側重描述的部分可以參見其他實施例的記載。
以上已經描述了本公開的各實施例,上述說明是示例性的,並非窮盡性的,並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情況下,對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇,旨在最好地解釋各實施例的原理、實際應用或對市場中的技術的改進,或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。
S11~S13:流程步驟
21:待處理圖像
22:殘差網路
23:特徵金字塔網路
24:特徵圖
25:定位熱力圖
31:目標檢測網路
32:校正網路
33:識別網路
34:待處理圖像
35:圖像
36:車牌圖像
37:識別結果
41:關鍵點檢測模組
42:校正模組
43:識別模組
800:電子設備
802:處理組件
804:記憶體
806:電源組件
808:多媒體組件
810:音訊組件
812:輸入/輸出介面
814:感測器組件
816:通信組件
820:處理器
1900:電子設備
1922:處理組件
1926:電源組件
1932:記憶體
1950:網路介面
1958:輸入輸出介面
此處的圖式被併入說明書中並構成本說明書的一部分,這些圖式示出了符合本公開的實施例,並與說明書一起用於說明本公開的技術方案。
圖1示出根據本公開實施例的圖像識別方法的流程圖。
圖2示出根據本公開實施例的關鍵點檢測過程的示意圖。
圖3示出根據本公開實施例的圖像識別過程的示意圖。
圖4示出根據本公開實施例的圖像識別裝置的框圖。
圖5示出根據本公開實施例的一種電子設備的框圖。
圖6示出根據本公開實施例的一種電子設備的框圖。
S11~S13:流程步驟
Claims (12)
- 一種圖像識別方法,包括: 對待處理圖像進行關鍵點檢測,確定所述待處理圖像中目標區域的多個輪廓關鍵點資訊; 根據所述多個輪廓關鍵點資訊,對所述待處理圖像中的目標區域進行校正,得到與所述目標區域對應的校正區域的區域圖像資訊; 對所述區域圖像資訊進行識別,得到所述目標區域的識別結果。
- 根據請求項1所述的圖像識別方法,其中,所述對待處理圖像進行關鍵點檢測,確定所述待處理圖像中目標區域的多個輪廓關鍵點資訊,包括: 對所述待處理圖像進行特徵提取及融合,得到所述待處理圖像的特徵圖; 對所述待處理圖像的特徵圖進行關鍵點檢測,得到所述待處理圖像中目標區域的多個輪廓關鍵點資訊。
- 根據請求項1所述的圖像識別方法,其中,所述多個輪廓關鍵點資訊包括所述多個輪廓關鍵點的第一位置,所述根據所述多個輪廓關鍵點資訊,對所述待處理圖像中的目標區域進行校正,得到與所述目標區域對應的校正區域的區域圖像資訊,包括: 根據所述多個輪廓關鍵點的第一位置及所述校正區域的第二位置,確定所述目標區域與所述校正區域之間的單應變換矩陣; 根據所述單應變換矩陣,對所述目標區域的圖像或特徵進行校正,得到所述校正區域的區域圖像資訊。
- 根據請求項3所述的圖像識別方法,其中,所述根據所述多個輪廓關鍵點的第一位置及所述校正區域的第二位置,確定所述目標區域與所述校正區域之間的單應變換矩陣,包括: 對所述第一位置與所述第二位置分別進行標準化處理,得到標準化後的第一位置和標準化後的第二位置; 根據所述標準化後的第一位置和所述標準化後的第二位置,確定所述目標區域與所述校正區域之間的單應變換矩陣。
- 根據請求項3所述的圖像識別方法,其中,所述根據所述單應變換矩陣,對所述目標區域的圖像進行校正,得到所述校正區域的區域圖像資訊,包括: 根據所述校正區域中多個目標點的第三位置以及所述單應變換矩陣,確定所述目標區域中與各個所述第三位置對應的像素點; 將與各個所述第三位置對應的像素點的像素資訊映射到各個所述目標點,並對各個所述目標點之間進行插值處理,得到所述校正區域的區域圖像資訊。
- 根據請求項1所述的圖像識別方法,其中,所述對所述區域圖像資訊進行識別,得到所述目標區域的識別結果,包括: 對所述區域圖像資訊進行特徵提取,得到所述區域圖像資訊的特徵向量; 對所述特徵向量進行解碼,得到所述目標區域的識別結果。
- 根據請求項1所述的圖像識別方法,其中,所述圖像識別方法通過神經網路實現,所述神經網路包括目標檢測網路、校正網路及識別網路,所述目標檢測網路用於對所述待處理圖像進行關鍵點檢測,所述校正網路用於對所述目標區域進行校正,所述識別網路用於對所述區域圖像資訊進行識別, 其中,所述圖像識別方法還包括: 根據預設的訓練集,訓練所述目標檢測網路,得到訓練後的目標檢測網路,所述訓練集中包括多個樣本圖像、各所述樣本圖像中目標區域的輪廓關鍵點標注資訊、背景標注資訊及類別標注資訊; 根據所述訓練集及所述訓練後的目標檢測網路,訓練所述校正網路及所述識別網路。
- 根據請求項7所述的圖像識別方法,其中,所述目標檢測網路包括特徵提取子網路、特徵融合子網路以及檢測子網路, 所述根據預設的訓練集,訓練所述目標檢測網路,得到訓練後的目標檢測網路,包括: 通過所述特徵提取子網路對所述樣本圖像進行特徵提取,得到所述樣本圖像的第一特徵; 通過所述特徵融合子網路對所述第一特徵進行特徵融合,得到所述樣本圖像的融合特徵; 通過所述檢測子網路對所述融合特徵進行檢測,得到所述樣本圖像中目標的輪廓關鍵點檢測資訊及背景檢測資訊; 根據所述多個樣本圖像的輪廓關鍵點檢測資訊及背景檢測資訊,和所述多個樣本圖像的輪廓關鍵點標注資訊及背景標注資訊,訓練所述目標檢測網路,得到訓練後的目標檢測網路。
- 根據請求項1-8中任意一項所述的圖像識別方法,其中,所述目標區域包括車輛的車牌區域,所述目標區域的識別結果包括所述車牌區域的字元類別。
- 一種圖像識別裝置,包括: 關鍵點檢測模組,用於對待處理圖像進行關鍵點檢測,確定所述待處理圖像中目標區域的多個輪廓關鍵點資訊; 校正模組,用於根據所述多個輪廓關鍵點資訊,對所述待處理圖像中的目標區域進行校正,得到與所述目標區域對應的校正區域的區域圖像資訊; 識別模組,用於對所述區域圖像資訊進行識別,得到所述目標區域的識別結果。
- 一種電子設備,包括: 處理器; 用於儲存處理器可執行指令的記憶體; 其中,所述處理器被配置為調用所述記憶體儲存的指令,以執行請求項1至9中任意一項所述的圖像識別方法。
- 一種電腦可讀儲存媒介,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現請求項1至9中任意一項所述的圖像識別方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010089651.8A CN111339846B (zh) | 2020-02-12 | 2020-02-12 | 图像识别方法及装置、电子设备和存储介质 |
CN202010089651.8 | 2020-02-12 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202131219A true TW202131219A (zh) | 2021-08-16 |
Family
ID=71183387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109116729A TW202131219A (zh) | 2020-02-12 | 2020-05-20 | 圖像識別方法及圖像識別裝置、電子設備和電腦可讀儲存媒介 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20210312214A1 (zh) |
JP (1) | JP2022522596A (zh) |
CN (1) | CN111339846B (zh) |
SG (1) | SG11202106622XA (zh) |
TW (1) | TW202131219A (zh) |
WO (1) | WO2021159594A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI784720B (zh) * | 2021-09-17 | 2022-11-21 | 英業達股份有限公司 | 基於電腦視覺的電磁敏感性測試方法 |
TWI793951B (zh) * | 2021-11-24 | 2023-02-21 | 威盛電子股份有限公司 | 模型訓練方法與模型訓練系統 |
TWI814623B (zh) * | 2022-10-26 | 2023-09-01 | 鴻海精密工業股份有限公司 | 圖像識別方法、電腦設備及儲存介質 |
TWI832642B (zh) * | 2022-12-28 | 2024-02-11 | 國立中央大學 | 應用於穩定性招牌之偵測與辨識之影像處理方法 |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111768394A (zh) * | 2020-07-01 | 2020-10-13 | 上海商汤智能科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN111753854B (zh) * | 2020-07-28 | 2023-12-22 | 腾讯医疗健康(深圳)有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN112069901B (zh) * | 2020-08-06 | 2022-07-08 | 南京领行科技股份有限公司 | 车内物品监控方法、电子设备及存储介质 |
CN111898171A (zh) * | 2020-08-11 | 2020-11-06 | 上海控软网络科技有限公司 | 余料的加工图纸确定方法、装置、电子设备及存储介质 |
CN111985556A (zh) * | 2020-08-19 | 2020-11-24 | 南京地平线机器人技术有限公司 | 关键点识别模型的生成方法和关键点识别方法 |
CN112200765B (zh) * | 2020-09-04 | 2024-05-14 | 浙江大华技术股份有限公司 | 车辆中被误检的关键点的确定方法及装置 |
CN113780165A (zh) * | 2020-09-10 | 2021-12-10 | 深圳市商汤科技有限公司 | 车辆识别方法及装置、电子设备及存储介质 |
CN114169952A (zh) * | 2020-09-11 | 2022-03-11 | 京东方科技集团股份有限公司 | 一种商品推荐方法、服务器、购物车和购物系统 |
CN112291445B (zh) * | 2020-10-28 | 2023-04-25 | 北京字节跳动网络技术有限公司 | 图像处理的方法、装置、设备和存储介质 |
CN112364807B (zh) * | 2020-11-24 | 2023-12-15 | 深圳市优必选科技股份有限公司 | 图像识别方法、装置、终端设备及计算机可读存储介质 |
CN112541500B (zh) * | 2020-12-03 | 2023-07-25 | 北京智芯原动科技有限公司 | 一种端到端的车牌识别方法及装置 |
CN112989910A (zh) * | 2020-12-12 | 2021-06-18 | 南方电网调峰调频发电有限公司 | 电力目标检测方法、装置、计算机设备和存储介质 |
CN112560986B (zh) * | 2020-12-25 | 2022-01-04 | 上海商汤智能科技有限公司 | 图像检测方法及装置、电子设备和存储介质 |
CN112700464B (zh) * | 2021-01-15 | 2022-03-29 | 腾讯科技(深圳)有限公司 | 地图信息的处理方法、装置、电子设备以及存储介质 |
CN112906708B (zh) * | 2021-03-29 | 2023-10-24 | 北京世纪好未来教育科技有限公司 | 一种图片处理方法、装置、电子设备和计算机存储介质 |
CN113128407A (zh) * | 2021-04-21 | 2021-07-16 | 湖北微果网络科技有限公司 | 扫描识物方法、系统、计算机设备及存储介质 |
TWI805485B (zh) * | 2021-12-20 | 2023-06-11 | 財團法人工業技術研究院 | 影像辨識的方法及其電子裝置 |
CN114387436B (zh) * | 2021-12-28 | 2022-10-25 | 北京安德医智科技有限公司 | 壁冠状动脉检测方法及装置、电子设备和存储介质 |
WO2023125720A1 (en) * | 2021-12-29 | 2023-07-06 | Shanghai United Imaging Healthcare Co., Ltd. | Systems and methods for medical imaging |
CN114359911B (zh) * | 2022-03-18 | 2022-07-26 | 北京亮亮视野科技有限公司 | 文字关键信息的提取方法及装置 |
CN115375917B (zh) * | 2022-10-25 | 2023-03-24 | 杭州华橙软件技术有限公司 | 一种目标边缘特征提取方法、装置、终端及存储介质 |
CN115661577B (zh) * | 2022-11-01 | 2024-04-16 | 吉咖智能机器人有限公司 | 用于对象检测的方法、设备和计算机可读存储介质 |
CN115631465B (zh) * | 2022-12-22 | 2023-03-28 | 中关村科学城城市大脑股份有限公司 | 重点人群风险感知方法、装置、电子设备和可读介质 |
CN116958954B (zh) * | 2023-07-27 | 2024-03-22 | 匀熵智能科技(无锡)有限公司 | 基于关键点与旁路矫正的车牌识别方法、装置及存储介质 |
CN116935179B (zh) * | 2023-09-14 | 2023-12-08 | 海信集团控股股份有限公司 | 一种目标检测方法、装置、电子设备及存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5164222B2 (ja) * | 2009-06-25 | 2013-03-21 | Kddi株式会社 | 画像検索方法およびシステム |
US9020200B2 (en) * | 2012-06-12 | 2015-04-28 | Xerox Corporation | Geometric pre-correction for automatic license plate recognition |
CN106250894B (zh) * | 2016-07-26 | 2021-10-26 | 北京小米移动软件有限公司 | 卡片信息识别方法及装置 |
CN108133220A (zh) * | 2016-11-30 | 2018-06-08 | 北京市商汤科技开发有限公司 | 模型训练、关键点定位及图像处理方法、系统及电子设备 |
CN107742120A (zh) * | 2017-10-17 | 2018-02-27 | 北京小米移动软件有限公司 | 银行卡卡号的识别方法及装置 |
CN108460411B (zh) * | 2018-02-09 | 2021-05-04 | 北京市商汤科技开发有限公司 | 实例分割方法和装置、电子设备、程序和介质 |
CN108701234A (zh) * | 2018-03-05 | 2018-10-23 | 深圳前海达闼云端智能科技有限公司 | 车牌识别方法及云系统 |
CN110163199A (zh) * | 2018-09-30 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 车牌识别方法、车牌识别装置、车牌识别设备及介质 |
CN109522910B (zh) * | 2018-12-25 | 2020-12-11 | 浙江商汤科技开发有限公司 | 关键点检测方法及装置、电子设备和存储介质 |
CN110728283A (zh) * | 2019-10-11 | 2020-01-24 | 高新兴科技集团股份有限公司 | 一种车牌类型识别方法及设备 |
CN110781813B (zh) * | 2019-10-24 | 2023-04-07 | 北京市商汤科技开发有限公司 | 图像识别方法及装置、电子设备和存储介质 |
-
2020
- 2020-02-12 CN CN202010089651.8A patent/CN111339846B/zh active Active
- 2020-03-26 WO PCT/CN2020/081371 patent/WO2021159594A1/zh active Application Filing
- 2020-03-26 JP JP2021536000A patent/JP2022522596A/ja active Pending
- 2020-03-26 SG SG11202106622XA patent/SG11202106622XA/en unknown
- 2020-05-20 TW TW109116729A patent/TW202131219A/zh unknown
-
2021
- 2021-06-21 US US17/353,045 patent/US20210312214A1/en not_active Abandoned
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI784720B (zh) * | 2021-09-17 | 2022-11-21 | 英業達股份有限公司 | 基於電腦視覺的電磁敏感性測試方法 |
TWI793951B (zh) * | 2021-11-24 | 2023-02-21 | 威盛電子股份有限公司 | 模型訓練方法與模型訓練系統 |
TWI814623B (zh) * | 2022-10-26 | 2023-09-01 | 鴻海精密工業股份有限公司 | 圖像識別方法、電腦設備及儲存介質 |
TWI832642B (zh) * | 2022-12-28 | 2024-02-11 | 國立中央大學 | 應用於穩定性招牌之偵測與辨識之影像處理方法 |
Also Published As
Publication number | Publication date |
---|---|
US20210312214A1 (en) | 2021-10-07 |
CN111339846B (zh) | 2022-08-12 |
SG11202106622XA (en) | 2021-09-29 |
CN111339846A (zh) | 2020-06-26 |
WO2021159594A1 (zh) | 2021-08-19 |
JP2022522596A (ja) | 2022-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021159594A1 (zh) | 图像识别方法及装置、电子设备和存储介质 | |
TWI728621B (zh) | 圖像處理方法及其裝置、電子設備、電腦可讀儲存媒體和電腦程式 | |
TWI749423B (zh) | 圖像處理方法及裝置、電子設備和電腦可讀儲存介質 | |
JP6392468B2 (ja) | 領域認識方法及び装置 | |
CN106651955B (zh) | 图片中目标物的定位方法及装置 | |
US9674395B2 (en) | Methods and apparatuses for generating photograph | |
TWI740309B (zh) | 圖像處理方法及裝置、電子設備和電腦可讀儲存介質 | |
JP7262659B2 (ja) | 目標対象物マッチング方法及び装置、電子機器並びに記憶媒体 | |
TWI702544B (zh) | 圖像處理方法、電子設備和電腦可讀儲存介質 | |
TW202113756A (zh) | 圖像處理方法及裝置、電子設備、儲存媒體和電腦程式 | |
JP6392467B2 (ja) | 領域識別方法及び装置 | |
CN109801270B (zh) | 锚点确定方法及装置、电子设备和存储介质 | |
CN104918107B (zh) | 视频文件的标识处理方法及装置 | |
KR20170020736A (ko) | 이미지에 의한 공간 파라미터 결정 방법, 장치, 단말기기, 프로그램 및 컴퓨터 판독가능한 기록매체 | |
US11074449B2 (en) | Method, apparatus for controlling a smart device and computer storge medium | |
CN111126108A (zh) | 图像检测模型的训练和图像检测方法及装置 | |
CN110569835A (zh) | 一种图像识别方法、装置和电子设备 | |
US20220245839A1 (en) | Image registration, fusion and shielding detection methods and apparatuses, and electronic device | |
CN110874809A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
WO2022099988A1 (zh) | 目标跟踪方法及装置、电子设备和存储介质 | |
CN112990197A (zh) | 车牌识别方法及装置、电子设备和存储介质 | |
US20230326216A1 (en) | Object detection method and apparatus for vehicle, device, vehicle and medium | |
CN108182145B (zh) | 验证app界面布局的方法、装置及计算机可读存储介质 | |
CN110619257B (zh) | 一种文字区域确定方法和装置 | |
CN114693702A (zh) | 图像处理方法、装置、电子设备及存储介质 |