TWI720598B - 關鍵點檢測方法及裝置、電子設備和儲存介質 - Google Patents
關鍵點檢測方法及裝置、電子設備和儲存介質 Download PDFInfo
- Publication number
- TWI720598B TWI720598B TW108130497A TW108130497A TWI720598B TW I720598 B TWI720598 B TW I720598B TW 108130497 A TW108130497 A TW 108130497A TW 108130497 A TW108130497 A TW 108130497A TW I720598 B TWI720598 B TW I720598B
- Authority
- TW
- Taiwan
- Prior art keywords
- feature
- feature map
- processing
- maps
- map
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
- G06V2201/033—Recognition of patterns in medical or anatomical images of skeletal patterns
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本公開關於一種關鍵點檢測方法及裝置、電子設備和儲存介質,所述方法包括:獲得針對輸入圖像的多個尺度的第一特徵圖,各第一特徵圖的尺度成倍數關係;利用第一金字塔神經網路對各所述第一特徵圖進行正向處理得到與各個所述第一特徵圖一一對應的第二特徵圖,其中,所述第二特徵圖與其一一對應的所述第一特徵圖的尺度相同;利用第二金字塔神經網路對各個所述第二特徵圖進行反向處理得到與各個所述第二特徵圖一一對應的第三特徵圖,其中,所述第三特徵圖與其一一對應的所述第二特徵圖的尺度相同;對各所述第三特徵圖進行特徵融合處理,並利用特徵融合處理後的特徵圖獲得所述輸入圖像中的各關鍵點的位置。本公開能夠精確的提取關鍵點的位置。
Description
本公開關於電腦視覺技術領域,特別關於一種關鍵點檢測方法及裝置、電子設備和儲存介質。
人體關鍵點檢測是從人體圖像上檢測出關節或者五官等關鍵點的位置資訊,從而通過這些關鍵點的位置資訊來描述人體的姿態。
因為人體在圖像中有大有小,現有的技術通常可以採用神經網路來獲取圖像的多尺度特徵,用來最終預測人體關鍵點的位置。但是我們發現使用這種方式,還不能完全地挖掘和利用多尺度特徵,關鍵點的檢測精度較低。
本公開實施例提供了一種有效的提高關鍵點檢測精度的關鍵點檢測方法及裝置、電子設備和儲存介質。
根據本公開的第一方面,提供了一種關鍵點檢測方法,其包括:獲得針對輸入圖像的多個尺度的第一特徵圖,各第一特徵圖的尺度成倍數關係;利用第一金字塔神經網路對各所述第一特徵圖進行正向處理得到與各個所述第一特徵圖一一對應的第二特徵圖,其中,所述第二特徵圖與其一一對應的所述第一特徵圖的尺度相同;利用第二金字塔神經網路對各個所述第二特徵圖進行反向處理得到與各個所述第二特徵圖一一對應的第三特徵圖,其中,所述第三特徵圖與其一一對應的所述第二特徵圖的尺度相同;對各所述第三特徵圖進行特徵融合處理,並利用特徵融合處理後的特徵圖獲得所述輸入圖像中的各關鍵點的位置。
在一些可能的實施方式中,所述獲得針對輸入圖像的多個尺度的第一特徵圖包括:將所述輸入圖像調整為預設規格的第一圖像;將所述第一圖像輸入至殘差神經網路,對第一圖像執行不同採樣頻率的降採樣處理得到多個不同尺度的第一特徵圖。
在一些可能的實施方式中,所述正向處理包括第一卷積處理和第一線性插值處理,所述反向處理包括第二卷積處理和第二線性插值處理。
在一些可能的實施方式中,所述利用第一金字塔神經網路對各所述第一特徵圖進行正向處理得到與各個所述第一特徵圖一一對應的第二特徵圖,包括:利用第一卷積核對第一特徵圖C1...Cn中的第一特徵圖Cn進行卷積處理,
獲得與第一特徵圖Cn對應的第二特徵圖Fn,其中n表示第一特徵圖的數量,以及n為大於1的整數;對所述第二特徵圖F n 執行線性插值處理獲得與第二特徵圖F n 對應的第一中間特徵圖,其中第一中間特徵圖的尺度與第一特徵圖Cn-1的尺度相同;利用第二卷積核對第一特徵圖Cn以外的各第一特徵圖C1...Cn-1進行卷積處理,得到分別與第一特徵圖C1...Cn-1一一對應的第二中間特徵圖...,其中所述第二中間特徵圖的尺度與和其一一對應的第一特徵圖的尺度相同;基於所述第二特徵圖F n 以及各所述第二中間特徵圖...,得到第二特徵圖F1...Fn-1以及第一中間特徵圖...,其中所述第二特徵圖F i 由所述第二中間特徵圖與所述第一中間特徵圖進行疊加處理得到,第一中間特徵圖由對應的第二特徵圖F i 經線性插值得到,並且,所述第二中間特徵圖與第一中間特徵圖的尺度相同,其中,i為大於或者等於1且小於n的整數。
在一些可能的實施方式中,利用第二金字塔神經網路對各個所述第二特徵圖進行反向處理得到與各個所述第二特徵圖一一對應的第三特徵圖,包括:利用第三卷積核對第二特徵圖F1...F m 中的第二特徵圖F1進行卷積處理,獲得與第二特徵圖F1對應的第三特徵圖R1,其中m表示第二特徵圖的數量,以及m為大於1的整數;利用第四卷積核對第二特徵圖F2...Fm進行卷積處理,分別得到對應的第三中間特徵圖...,其中,第三中間特徵圖的尺度與對應的第二特徵圖的尺度相同;
利用第五卷積核對第三特徵圖R1進行卷積處理得到與第三特徵圖R1對應的第四中間特徵圖;利用各第三中間特徵圖...以及第四中間特徵圖,得到第三特徵圖R 2...R m 以及第四中間特徵圖...,其中,第三特徵圖R j 由第三中間特徵圖與第四中間特徵圖的疊加處理得到,第四中間特徵圖由對應的第三特徵圖R j-1通過第五卷積核卷積處理獲得,其中j為大於1且小於或者等於m。
在一些可能的實施方式中,所述對各所述第三特徵圖進行特徵融合處理,並利用特徵融合處理後的特徵圖獲得所述輸入圖像中的各關鍵點的位置,包括:對各第三特徵圖進行特徵融合處理,得到第四特徵圖:基於所述第四特徵圖獲得所述輸入圖像中各關鍵點的位置。
在一些可能的實施方式中,所述對各第三特徵圖進行特徵融合處理,得到第四特徵圖,包括:利用線性插值的方式,將各第三特徵圖調整為尺度相同的特徵圖;對所述尺度相同的特徵圖進行連接得到所述第四特徵圖。
在一些可能的實施方式中,在所述對各第三特徵圖進行特徵融合處理,得到第四特徵圖之前,還包括:將第一組第三特徵圖分別輸入至不同的瓶頸區塊結構中進行卷積處理,分別得到更新後的第三特徵圖,各所述瓶頸區塊結構中包括不同數量的卷積模組,其中,所述第三特徵圖包括第一組第三特徵圖和第二組第三特徵圖,所述第一組第三特徵圖和所述第二組第三特徵圖中均包括至少一個第三特徵圖。
在一些可能的實施方式中,所述對各第三特徵圖進行特徵融合處理,得到第四特徵圖,包括:利用線性插值的方式,將各所述更新後的第三特徵圖以及所述第二組第三特徵圖,調整為尺度相同的特徵圖;對所述尺度相同的特徵圖進行連接得到所述第四特徵圖。
在一些可能的實施方式中,所述基於所述第四特徵圖獲得所述輸入圖像中各關鍵點的位置,包括:利用第五卷積核對所述第四特徵圖進行降維處理;利用降維處理後的第四特徵圖確定輸入圖像的關鍵點的位置。
在一些可能的實施方式中,所述基於所述第四特徵圖獲得所述輸入圖像中各關鍵點的位置,包括:利用第五卷積核對所述第四特徵圖進行降維處理;利用卷積塊注意力模組對降維處理後的第四特徵圖中的特徵進行提純處理,得到提純後的特徵圖;利用提純後的特徵圖確定所述輸入圖像的關鍵點的位置。
在一些可能的實施方式中,所述方法還包括利用訓練圖像資料集訓練所述第一金字塔神經網路,其包括:利用第一金字塔神經網路對所述訓練圖像資料集中各圖像對應的第一特徵圖進行所述正向處理,得到所述訓練圖像資料集中各圖像對應的第二特徵圖;利用各第二特徵圖確定識別的關鍵點;根據第一損失函數得到所述關鍵點的第一損失;利用所述第一損失反向調節所述第一金字塔神經網路中的各卷積核,直至訓練次數達到設定的第一次數閾值。
在一些可能的實施方式中,所述方法還包括利用訓練圖像資料集訓練所述第二金字塔神經網路,其包括:利用第二金字塔神經網路對所述第一金字塔神經網路輸出的涉及訓練圖像資料集中各圖像對應的第二特徵圖進行所述反向處理,得到所述訓練圖像資料集中各圖像對應的第三特徵圖;利用各第三特徵圖確定識別的關鍵點;根據第二損失函數得到識別的各關鍵點的第二損失;利用所述第二損失反向調節所述第二金字塔神經網路中卷積核,直至訓練次數達到設定的第二次數閾值;或者,利用所述第二損失反向調節所述第一金字塔網路中的卷積核以及第二金字塔神經網路中的卷積核,直至訓練次數達到設定的第二次數閾值。
在一些可能的實施方式中,通過特徵提取網路執行所述對各所述第三特徵圖進行特徵融合處理,並且,在通過特徵提取網路執行所述對各所述第三特徵圖進行特徵融合處理之前,所述方法還包括:利用訓練圖像資料集訓練所述特徵提取網路,其包括:利用特徵提取網路對所述第二金字塔神經網路輸出的涉及訓練圖像資料集中各圖像對應的第三特徵圖進行所述特徵融合處理,並利用特徵融合處理後的特徵圖識別所述訓練圖像資料集中各圖像的關鍵點;根據第三損失函數得到各關鍵點的第三損失;利用所述第三損失值反向調節所述特徵提取網路的參數,直至訓練次數達到設定的第三次數閾值;或者,利用所述第三損失函數反向調節所述第一金字塔神經網路中的卷積核參數、第二金字塔神
經網路中的卷積核參數,以及所述特徵提取網路的參數,直至訓練次數達到設定的第三次數閾值。
根據本公開的第二方面,提供了一種關鍵點檢測裝置,其包括:多尺度特徵獲取模組,其用於獲得針對輸入圖像的多個尺度的第一特徵圖,各第一特徵圖的尺度成倍數關係;正向處理模組,其用於利用第一金字塔神經網路對各所述第一特徵圖進行正向處理得到與各個所述第一特徵圖一一對應的第二特徵圖,其中,所述第二特徵圖與其一一對應的所述第一特徵圖的尺度相同;反向處理模組,其用於利用第二金字塔神經網路對各個所述第二特徵圖進行反向處理得到與各個所述第二特徵圖一一對應的第三特徵圖,其中,所述第三特徵圖與其一一對應的所述第二特徵圖的尺度相同;關鍵點檢測模組,其用於對各所述第三特徵圖進行特徵融合處理,並利用特徵融合處理後的特徵圖獲得所述輸入圖像中的各關鍵點的位置。
在一些可能的實施方式中,所述多尺度特徵獲取模組還用於將所述輸入圖像調整為預設規格的第一圖像,並將所述第一圖像輸入至殘差神經網路,對第一圖像執行不同採樣頻率的降採樣處理得到多個不同尺度的第一特徵圖。
在一些可能的實施方式中,所述正向處理包括第一卷積處理和第一線性插值處理,所述反向處理包括第二卷積處理和第二線性插值處理。
在一些可能的實施方式中,所述正向處理模組還用於利用第一卷積核對第一特徵圖C1...Cn中的第一特徵圖Cn進行卷積處理,獲得與第一特徵圖Cn對應的第二特徵圖Fn,其中n表示第一特徵圖的數量,以及n為大於1的整數;以及對所述第二特徵圖F n 執行線性插值處理獲得與第二特徵圖F n 對應的第一中間特徵圖,其中第一中間特徵圖的尺度與第一特徵圖Cn-1的尺度相同;以及利用第二卷積核對第一特徵圖Cn以外的各第一特徵圖C1...Cn-1進行卷積處理,得到分別與第一特徵圖C1...Cn-1一一對應的第二中間特徵圖...,其中所述第二中間特徵圖的尺度與和其一一對應的第一特徵圖的尺度相同;並且基於所述第二特徵圖F n 以及各所述第二中間特徵圖...,得到第二特徵圖F1...Fn-1以及第一中間特徵圖...,其中所述第二特徵圖F i 由所述第二中間特徵圖與所述第一中間特徵圖進行疊加處理得到,第一中間特徵圖由對應的第二特徵圖F i 經線性插值得到,並且,所述第二中間特徵圖與第一中間特徵圖的尺度相同,其中,i為大於或者等於1且小於n的整數。
在一些可能的實施方式中,所述反向處理模組還用於利用第三卷積核對第二特徵圖F1...F m 中的第二特徵圖F1進行卷積處理,獲得與第二特徵圖F1對應的第三特徵圖R1,其中m表示第二特徵圖的數量,以及m為大於1的整數;以及利用第四卷積核對第二特徵圖F2...Fm進行卷積處理,分別得到對應的第三中間特徵圖...,其中,第三中間特徵圖的尺度與對應的第二特徵圖的尺度相同;以及利用第五卷積核
對第三特徵圖R1進行卷積處理得到與第三特徵圖R1對應的第四中間特徵圖;並且利用各第三中間特徵圖...以及第四中間特徵圖,得到第三特徵圖R 2...R m 以及第四中間特徵圖...,其中,第三特徵圖R j 由第三中間特徵圖與第四中間特徵圖的疊加處理得到,第四中間特徵圖由對應的第三特徵圖R j-1通過第五卷積核卷積處理獲得,其中j為大於1且小於或者等於m。
在一些可能的實施方式中,所述關鍵點檢測模組還用於對各第三特徵圖進行特徵融合處理,得到第四特徵圖,並基於所述第四特徵圖獲得所述輸入圖像中各關鍵點的位置。
在一些可能的實施方式中,所述關鍵點檢測模組還用於利用線性插值的方式,將各第三特徵圖調整為尺度相同的特徵圖,並對所述尺度相同的特徵圖進行連接得到所述第四特徵圖。
在一些可能的實施方式中,所述裝置還包括:優化模組,其用於將第一組第三特徵圖分別輸入至不同的瓶頸區塊結構中進行卷積處理,分別得到更新後的第三特徵圖,各所述瓶頸區塊結構中包括不同數量的卷積模組,其中,所述第三特徵圖包括第一組第三特徵圖和第二組第三特徵圖,所述第一組第三特徵圖和所述第二組第三特徵圖中均包括至少一個第三特徵圖。
在一些可能的實施方式中,所述關鍵點檢測模組還用於利用線性插值的方式,將各所述更新後的第三特徵
圖以及所述第二組第三特徵圖,調整為尺度相同的特徵圖,並對所述尺度相同的特徵圖進行連接得到所述第四特徵圖。
在一些可能的實施方式中,所述關鍵點檢測模組還用於利用第五卷積核對所述第四特徵圖進行降維處理,並利用降維處理後的第四特徵圖確定輸入圖像的關鍵點的位置。
在一些可能的實施方式中,所述關鍵點檢測模組還用於利用第五卷積核對所述第四特徵圖進行降維處理,利用卷積塊注意力模組對降維處理後的第四特徵圖中的特徵進行提純處理,得到提純後的特徵圖,並利用提純後的特徵圖確定所述輸入圖像的關鍵點的位置。
在一些可能的實施方式中,所述正向處理模組還用於利用訓練圖像資料集訓練所述第一金字塔神經網路,其包括:利用第一金字塔神經網路對所述訓練圖像資料集中各圖像對應的第一特徵圖進行所述正向處理,得到所述訓練圖像資料集中各圖像對應的第二特徵圖;利用各第二特徵圖確定識別的關鍵點;根據第一損失函數得到所述關鍵點的第一損失;利用所述第一損失反向調節所述第一金字塔神經網路中的各卷積核,直至訓練次數達到設定的第一次數閾值。
在一些可能的實施方式中,所述反向處理模組還用於利用訓練圖像資料集訓練所述第二金字塔神經網路,其包括:利用第二金字塔神經網路對所述第一金字塔神經網路輸出的涉及訓練圖像資料集中各圖像對應的第二特
徵圖進行所述反向處理,得到所述訓練圖像資料集中各圖像對應的第三特徵圖;利用各第三特徵圖確定識別的關鍵點;根據第二損失函數得到識別的各關鍵點的第二損失;利用所述第二損失反向調節所述第二金字塔神經網路中卷積核,直至訓練次數達到設定的第二次數閾值;或者,利用所述第二損失反向調節所述第一金字塔網路中的卷積核以及第二金字塔神經網路中的卷積核,直至訓練次數達到設定的第二次數閾值。
在一些可能的實施方式中,所述關鍵點檢測模組還用於通過特徵提取網路執行所述對各所述第三特徵圖進行特徵融合處理,並且在通過特徵提取網路執行所述對各所述第三特徵圖進行特徵融合處理之前,還利用訓練圖像資料集訓練所述特徵提取網路,其包括:利用特徵提取網路對所述第二金字塔神經網路輸出的涉及訓練圖像資料集中各圖像對應的第三特徵圖進行所述特徵融合處理,並利用特徵融合處理後的特徵圖識別所述訓練圖像資料集中各圖像的關鍵點;根據第三損失函數得到各關鍵點的第三損失;利用所述第三損失值反向調節所述特徵提取網路的參數,直至訓練次數達到設定的第三次數閾值;或者,利用所述第三損失函數反向調節所述第一金字塔神經網路中的卷積核參數、第二金字塔神經網路中的卷積核參數,以及所述特徵提取網路的參數,直至訓練次數達到設定的第三次數閾值。
根據本公開的協力廠商面,提供了一種電子設備,其包括:處理器;用於儲存處理器可執行指令的記憶體;
其中,所述處理器被配置為:執行第一方面中任意一項所述的方法。
根據本公開的第四方面,提供了一種電腦可讀儲存介質,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現第一方面中任意一項所述的方法。
本公開實施例提出了一種利用雙向金字塔神經網路來執行關鍵點特徵檢測,其中不僅利用正向處理的方式得到多尺度特徵,同時還利用反向處理融合更多的特徵,從而能夠進一步提高關鍵點的檢測精度。
應當理解的是,以上的一般描述和後文的細節描述僅是示例性和解釋性的,而非限制本公開。
根據下面參考附圖對示例性實施例的詳細說明,本公開的其它特徵及方面將變得清楚。
10‧‧‧多尺度特徵獲取模組
20‧‧‧正向處理模組
30‧‧‧反向處理模組
40‧‧‧關鍵點檢測模組
800‧‧‧電子設備
802‧‧‧處理組件
804‧‧‧記憶體
806‧‧‧電源組件
808‧‧‧多媒體組件
810‧‧‧音頻組件
812‧‧‧輸入/輸出介面
814‧‧‧感測器組件
816‧‧‧通信組件
820‧‧‧處理器
1900‧‧‧電子設備
1922‧‧‧處理組件
1926‧‧‧電源組件
1932‧‧‧記憶體
1950‧‧‧網路介面
1958‧‧‧輸入輸出介面
此處的附圖被併入說明書中並構成本說明書的一部分,這些附圖示出了符合本公開的實施例,並與說明書一起用於說明本公開的技術方案。
圖1示出根據本公開實施例的一種關鍵點檢測方法的流程圖;圖2示出根據本公開實施例的一種關鍵點檢測方法中步驟S100的流程圖;
圖3示出本公開實施例的關鍵點檢測方法的另一流程圖;圖4示出根據本公開實施例的一種關鍵點檢測方法中的步驟S200的流程圖;圖5示出根據本公開實施例的關鍵點檢測方法中步驟S300的流程圖;圖6出根據本公開實施例的關鍵點檢測方法中步驟S400的流程圖;圖7示出根據本公開實施例的關鍵點檢測方法中步驟S401的流程圖;圖8示出根據本公開實施例的關鍵點檢測方法的另一流程圖;圖9示出根據本公開實施例的關鍵點檢測方法中步驟S402的流程圖;圖10示出根據本公開實施例的一種關鍵點檢測方法中的訓練第一金字塔神經網路的流程圖;圖11示出根據本公開實施例的一種關鍵點檢測方法中的訓練第二金字塔神經網路的流程圖;圖12示出根據本公開實施例的一種關鍵點檢測方法中的訓練特徵提取網路模型的流程圖;圖13示出根據本公開實施例的一種關鍵點檢測裝置的方塊圖;圖14示出根據本公開實施例的一種電子設備800的方塊圖;
圖15示出根據本公開實施例的一種電子設備1900的方塊圖。
以下將參考附圖詳細說明本公開的各種示例性實施例、特徵和方面。附圖中相同的附圖標記表示功能相同或相似的元件。儘管在附圖中示出了實施例的各種方面,但是除非特別指出,不必按比例繪製附圖。
在這裡專用的詞“示例性”意為“用作例子、實施例或說明性”。這裡作為“示例性”所說明的任何實施例不必解釋為優於或好於其它實施例。
本文中術語“和/或”,僅僅是一種描述關聯物件的關聯關係,表示可以存在三種關係,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合,例如,包括A、B、C中的至少一種,可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。
另外,為了更好地說明本公開,在下文的具體實施方式中給出了眾多的具體細節。本領域技術人員應當理解,沒有某些具體細節,本公開同樣可以實施。在一些實例中,對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述,以便於凸顯本公開的主旨。
本公開實施例提供了一種關鍵點檢測方法,該方法可以用於執行人體圖像的關鍵點檢測,其利用了兩個金字塔網路模型分別執行關鍵點的多尺度特徵的正向處理和反向處理,融合了更多的特徵資訊,能夠提高關鍵點位置檢測的精度。
圖1示出根據本公開實施例的一種關鍵點檢測方法的流程圖。其中,本公開實施例的關鍵點檢測方法可以包括:
S100:獲得針對輸入圖像的多個尺度的第一特徵圖,各第一特徵圖的尺度成倍數關係。
本公開實施例採用輸入圖像的多尺度特徵的融合的方式執行上述關鍵點的檢。首先可以獲取輸入圖像的多個尺度的第一特徵圖,各第一特徵圖的尺度不同,且各尺度之間存在倍數的關係。本公開實施例可以利用多尺度分析演算法得到輸入圖像的多個尺度的第一特徵圖,或者也可以通過能夠執行多尺度分析的神經網路模型獲得輸入圖像的多個尺度的第一特徵圖,本公開不作具體限定。
S200:利用第一金字塔神經網路對各所述第一特徵圖進行正向處理得到與各個所述第一特徵圖一一對應的第二特徵圖,其中,所述第二特徵圖與其一一對應的所述第一特徵圖的尺度相同。
在本實施例中,正向處理可以包括第一卷積處理以及第一線性插值處理,通過第一金字塔神經網路的正向處理過程,可以得到與相應的第一特徵圖尺度相同的第二特徵圖,
各第二特徵圖的進一步融合了輸入圖像的各特徵,並且得到的第二特徵圖與第一特徵圖的數量相同,且第二特徵圖與對應的第一特徵圖的尺度相同。例如,本公開實施例得到的第一特徵圖可以為C1、C2、C3和C4,對應的正向處理後得到的第二特徵圖可以為F1、F2、F3和F4。其中,在第一特徵圖C1至C4的尺度關係為C1的尺度為C2的尺度的2倍,C2的尺度為C3的尺度的二倍,以及C3的尺度為C4的二倍時,得到的第二特徵圖F1至F4中,F1與C1的尺度相同,F2與C2的尺度相同,F3與C3的尺度相同,以及F4與C4的尺度相同,並且第二特徵圖F1的尺度為F2的尺度的2倍,F2的尺度為F3的尺度的二倍,以及F3的尺度為F4的二倍。上述僅為第一特徵圖經過正向處理得到第二特徵圖的示例性說明,不作為本公開的具體限定。
S300:利用第二金字塔神經網路對各第二特徵圖進行反向處理得到與各個所述第二特徵圖一一對應的第三特徵圖,所述反向處理包括第二卷積處理,其中,所述第三特徵圖與其一一對應的所述第二特徵圖的尺度相同。
在本實施例中,反向處理包括第二卷積處理以及第二線性插值處理,通過第二金字塔神經網路的反向處理過程,可以得到與相應的第二特徵圖尺度相同的第三特徵圖,且各第三特徵圖相對於第二特徵圖進一步融合了輸入圖像的特徵,並且得到的第三特徵圖與第二特徵圖的數量相同,且第三特徵圖與對應的第二特徵圖的尺度相同。例如,本公開實施例得到的第二特徵圖可以為F1、F2、F3和F4,對應的反向
處理後得到的第三特徵圖可以為R1、R2、R3和R4。其中,在第二特徵圖F1、F2、F3和F4的尺度關係為F1的尺度為F2的尺度的2倍,F2的尺度為F3的尺度的二倍,以及F3的尺度為F4的二倍時,得到的第三特徵圖R1至R4中,R1與F1的尺度相同,R2與F2的尺度相同,R3與F3的尺度相同,以及R4與F4的尺度相同,並且第三特徵圖R1的尺度為R2的尺度的2倍,R2的尺度為R3的尺度的二倍,以及R3的尺度為R4的二倍。上述僅為第二特徵圖經反向處理得到第三特徵圖的示例性說明,不作為本公開的具體限定。
S400:對各所述第三特徵圖進行特徵融合處理,並利用特徵融合處理後的特徵圖獲得所述輸入圖像中的各關鍵點的位置。
本公開實施例中,在對各第一特徵圖經正向處理得到第二特徵圖,以及根據第二特徵圖的反向處理得到第三特徵圖後,即可以執行各第三特徵圖的特徵融合處理。例如本公開實施例可以利用對應的卷積處理的方式實現各第三特徵圖的特徵融合,以及在第三特徵圖的尺度不相同時還可以執行尺度的轉變,而後執行特徵圖的拼接,以及關鍵點的提取。
本公開實施例可以執行對輸入圖像的不同關鍵點的檢測,例如在輸入圖像為人物的圖像時,關鍵點可以為左右眼睛、鼻子、左右耳朵、左右肩膀、左右手肘、左右手腕、左右胯部、左右膝蓋、左右腳踝中的至少一種,或者在其他實施例中,輸入圖像也可以其他類型的圖像,在執行關鍵點檢測時,可以識別其他的關鍵點。因此,本公開實施例
可以根據第三特徵圖的特徵融合結果,進一步執行關鍵點的檢測識別。
基於上述配置,本公開實施例可以通過雙向金字塔神經網路(第一金字塔神經網路和第二金字塔神經網路)分別基於第一特徵圖執行正向處理以及進一步的反向處理,能夠有效的提高輸入圖像的特徵融合度,進一步提高關鍵點的檢測精度。如上所示,本公開實施例可以首先獲取輸入圖像,該輸入圖像可以為任意的圖像類型,例如可以是人物圖像、風景圖像、動物圖像等等。對於不同類型的圖像,可以識別不同的關鍵點。例如,本公開實施例以人物圖像為例進行說明。首先可以通過步驟S100獲取輸入圖像在多個不同尺度下的第一特徵圖。
圖2示出根據本公開實施例的一種關鍵點檢測方法中步驟S100的流程圖。其中,獲得針對輸入圖像的不同尺度的第一特徵圖(步驟S100)可以包括:
S101:將所述輸入圖像調整為預設規格的第一圖像。
本公開實施例可以首先歸一化輸入圖像的尺寸規格,即可以首先將輸入圖像調整為預設規格的第一圖像,其中本公開實施例中預設規格可以為256pix*192pix,pix為圖元值,在其他的實施例中,可以將輸入圖像統一轉換為其他規格的圖像,本公開實施例對此不進行具體限定。
S102:將所述第一圖像輸入至殘差神經網路,對第一圖像執行不同採樣頻率的降採樣處理得到不同尺度的第一特徵圖。
在得到預設規格的第一圖像之後,可以對該第一圖像執行多個採樣頻率的採樣處理。例如,本公開實施例可以通過將第一圖像輸入至殘差神經網路,通過殘差神經網路處理得到針對第一圖像的不同尺度的第一特徵圖。其中,可以利用不同的採樣頻率對第一圖像進行將採樣處理從而得到不同尺度的第一特徵圖。本公開實施例的採樣頻率可以為1/8、1/16、1/32等,但本公開實施例對此不進行限定。另外,本公開實施例中的特徵圖是指圖像的特徵矩陣,例如本公開實施例的特徵矩陣可以為三維矩陣,以及本公開實施例中所述的特徵圖的長度和寬度可以分別為對應的特徵矩陣在行方向和列方向上的維度。
通過步驟S100處理後得到的輸入圖像的多個不同尺度的第一特徵圖。並且通過控制降採樣的採樣頻率可以使得各第一特徵圖之間的尺度的關係為且,,其中,C i 表示各第一特徵圖,L(C i )表示第一特徵圖C i 的長度,W(C i )表示第一特徵圖C i 的寬度,k1為大於或者等於1的整數,i為變數,且i的範圍為[2,n],n為第一特徵圖的數量。即本公開實施例中的各第一特徵圖的長度和寬度之間的關係均為2的k1次方倍。
圖3示出本公開實施例的關鍵點檢測方法的另一流程圖。其中,(a)部分示出本公開實施例的步驟S100的過程,通過步驟S100可以獲得四個第一特徵圖C1、C2、C3和C4,其中,第一特徵圖C1的長度和寬度可以分別對應的為第一特徵圖C2的長度和寬度的二倍,第二特徵圖C2的
長度和寬度可以分別對應的為第三特徵圖C3的長度和寬度的二倍,以及第三特徵圖C3的長度和寬度可以分別對應的為第四特徵圖C4的長度和寬度的二倍。本公開實施例上述C1和C2之間、C2和C3之間,以及C3和C4之間的尺度倍數可以均相同,例如k1取值為1。在其他的實施例中,k1可以為不同的值,例如可以為,第一特徵圖C1的長度和寬度可以分別對應的為第一特徵圖C2的長度和寬度的二倍,第二特徵圖C2的長度和寬度可以分別對應的為第三特徵圖C3的長度和寬度的四倍,以及第三特徵圖C3的長度和寬度可以分別對應的為第四特徵圖C4的長度和寬度的八倍,但本公開實施例對此不進行限定。
在獲得輸入圖像的不同尺度的第一特徵圖之後,可以對通過步驟S200執行第一特徵圖的正向處理過程,得到融合了各第一特徵圖的特徵的多個不同尺度的第二特徵圖。
圖4示出根據本公開實施例的一種關鍵點檢測方法中的步驟S200的流程圖。其中,所述利用第一金字塔神經網路對各所述第一特徵圖進行正向處理得到與各個所述第一特徵圖一一對應的第二特徵圖(步驟S200),包括:
S201:利用第一卷積核對第一特徵圖C1...Cn中的第一特徵圖Cn進行卷積處理,獲得與第一特徵圖Cn對應的第二特徵圖Fn,其中,其中n表示第一特徵圖的數量,以及n為大於1的整數,並且第一特徵圖Cn的長度和寬度分別與第二特徵圖F n 的長度和寬度對應相同。
本公開實施例中的第一金字塔神經網路執行的正向處理可以包括第一卷積處理以及第一線性插值處理,也可以包括其他的處理過程,本公開對此不進行限定。
在一種可能的實施方式中,本公開實施例獲得的第一特徵圖可以為C1...Cn,即n個第一特徵圖,且Cn可以為長度和寬度最小的特徵圖,即尺度最小的第一特徵圖。其中,首先可以利用第一金字塔神經網路對第一特徵圖Cn進行卷積處理,即利用第一卷積核對第一特徵圖Cn進行卷積處理,得到第二特徵圖Fn。該第二特徵圖Fn的長度和寬度均與第一特徵圖Cn的長度和寬度分別相同。其中,第一卷積核可以為3*3的卷積核,或者也可以是其他類型的卷積核。
S202:對所述第二特徵圖F n 執行線性插值處理獲得與第二特徵圖F n 對應的第一中間特徵圖,其中第一中間特徵圖的尺度與第一特徵圖Cn-1的尺度相同;在得到第二特徵圖Fn之後,可以利用該第二特徵圖Fn獲得與其對應的第一中間特徵圖,本公開實施例可以通過對第二特徵圖F n 執行線性插值處理獲得與第二特徵圖F n 對應的第一中間特徵圖,其中,第一中間特徵圖的尺度與第一特徵圖Cn-1的尺度相同,例如,在Cn-1的尺度為Cn的尺度的二倍時,第一中間特徵圖的長度為第二特徵圖F n 的長度的二倍,以及第一中間特徵圖的寬度為第二特徵圖F n 的寬度的二倍。
S203:利用第二卷積核對第一特徵圖Cn以外的各第一特徵圖C1...Cn-1進行卷積處理,得到分別與第一特徵圖C1...Cn-1一
一對應的第二中間特徵圖...,其中所述第二中間特徵圖的尺度與和其一一對應的第一特徵圖的尺度相同;同時,本公開實施例還可以獲得第一特徵圖Cn以外的各第一特徵圖C1...Cn-1對應的第二中間特徵圖...,其中,可以利用第二卷積核分別對第一特徵圖C1...Cn-1進行第二卷積處理,分別得到與各第一特徵圖C1...Cn-1一一對應的第二中間特徵圖...,其中第二卷積核可以為1*1的卷積核,但本公開對此不作具體限定。通過第二卷積處理得到的各第二中間特徵圖的尺度與對應的第一特徵圖的尺度分別相同。其中,本公開實施例可以按照第一特徵圖C1...Cn-1的倒序,獲得各第一特徵圖C1...Cn-1的第二中間特徵圖...。即,可以先獲得第一特徵圖Cn-1對應的第二中間圖,而後獲得第一特徵圖Cn-2的對應的第二中間圖,以此類推,直至獲得第一特徵圖C1對應的第二中間特徵圖。
S204:基於所述第二特徵圖F n 以及各所述第二中間特徵圖...,得到第二特徵圖F1...Fn-1以及第一中間特徵圖...,其中與第一特徵圖C1...Cn-1中的第一特徵圖Ci對應的第二特徵圖F i 由第二中間特徵圖與第一中間特徵圖進行疊加處理(加和處理)得到,並且第一中間特徵圖由對應的第二特徵圖F i 經線性插值得到,並且,所述第二中間特徵圖與第以中間特徵圖的尺度相同,其中,i為大於或者等於1且小於n的整數。
另外,在獲得各第二中間特徵圖的同時,或者獲得各第二中間特徵圖之後還可以對應的獲得第一中間特
徵圖以外的其他第一中間特徵圖...,本公開實施例中,與第一特徵圖C1...Cn-1中的第一特徵圖Ci對應的第二特徵圖,其中,第二中間特徵圖的尺度(長度和寬度)分別與第一中間特徵圖的尺度(長度和寬度)相等,並且第二中間特徵圖的長度和寬度與第一特徵圖Ci的長度和寬度相同,因此得到的第二特徵圖F i 的長度和寬度分別為第一特徵圖Ci的長度和寬度。其中,i為大於或者等於1且小於n的整數。
具體的,本公開實施例依然可以採用倒序的處理方式獲得第二特徵圖Fn以外的各第二特徵圖F i 。即,本公開實施例可以首先獲得第一中間特徵圖Fn-1,其中,可以利用第一特徵圖Cn-1對應的第二中間圖與第一中間特徵圖進行疊加處理得到第二特徵圖Fn-1,其中,第二中間特徵圖的長度和寬度分別與第一中間特徵圖的長度和寬度相同,以及第二特徵圖Fn-1的長度和寬度為第二中間特徵圖和的長度和寬度。此時第二特徵圖Fn-1的長度和寬度分別為第二特徵圖Fn的長度和寬度的二倍(Cn-1的尺度為Cn的尺度的二倍)。進一步地,可以對第二特徵圖Fn-1進行線性插值處理,得到第一中間特徵圖,使得的尺度與Cn-1的尺度相同,繼而可以利用第一特徵圖C n-2對應的第二中間圖與第一中間特徵圖進行疊加處理得到第二特徵圖Fn-2,其中,第二中間特徵圖的長度和寬度分別與第一中間特徵圖的長度和寬度相同,以及第二特徵圖Fn-2的長度和寬度為第二中間特徵圖和的長度和寬度。例如第二特徵圖
Fn-2的長度和寬度分別為第二特徵圖Fn-1的長度和寬度的二倍。以此類推,可以最終獲得第一中間特徵圖,以及根據該第一中間特徵圖與第一特徵圖的疊加處理得到第二特徵圖F1,F1的長度和寬度分別為與C1的長度和寬度的相同。從而得到各第二特徵圖,並滿足及,並且L(Fn)=L(Cn),W(Fn)=W(Cn)。
例如,以上述四個第一特徵圖C1、C2、C3和C4為例進行說明。如圖3所示,步驟S200可以使用第一金字塔神經網路(Feature Pyramid Network--FPN)來獲得多尺度的第二特徵圖。其中,首先可以將C4經過一個3*3的第一卷積核計算得到一個新的特徵圖F4(第二特徵圖),F4的長度和寬度的大小與C4相同。對F4進行雙線形插值的上採樣(upsample)操作,得到一個長和寬都放大兩倍的特徵圖,即第一中間特徵圖。C3經過一個1*1的第二卷積核計算得到一個第二中間特徵圖,與大小相同,兩個特徵圖相加,得到新的特徵圖F3(第二特徵圖),使得第二特徵圖F3的長度和寬度分別為第二特徵圖F4二倍。對F3進行雙線形插值的上採樣(upsample)操作,得到一個長和寬都放大兩倍的特徵圖,即第一中間特徵圖。C2經過一個1*1的第二卷積核計算得到一個第二中間特徵圖,與大小相同,兩個特徵圖相加,得到新的特徵圖F2(第二特徵圖),使得第二特徵圖F2的長度和寬度分別為第二特徵圖F3二倍。對F2進行雙線形插值的上採樣(upsample)操作,得到一個長和寬都放大兩倍的特徵圖,即第一中間特徵圖。C1經過一個
1*1的第二卷積核計算得到一個第二中間特徵圖,與大小相同,兩個特徵圖相加,得到新的特徵圖F2(第二特徵圖),使得第二特徵圖F1的長度和寬度分別為第二特徵圖F2二倍。經過FPN之後,同樣得到了四個不同尺度的第二特徵圖,分別記為F1、F2、F3和F4。並且F1和F2之間的長度和寬度的倍數與C1和C2之間的長度和寬度的倍數相同,以及F2和F3之間的長度和寬度的倍數與C2和C3之間的長度和寬度的倍數相同,F3和F4之間的長度和寬度的倍數與C3和C4之間的長度和寬度的倍數相同。
通過上述金字塔網路模型的正向處理之後,可以使得各第二特徵圖中融合更多的特徵,為了進一步提高特徵的提取精度,本公開實施例在步驟S200之後,還利用第二金字塔神經網路對各第二特徵圖執行反向處理。其中,反向處理可以包括第二卷積處理以及第二線性插值處理,同樣,也可以包括其他處理,本公開對此不進行具體限定。
圖5示出根據本公開實施例的關鍵點檢測方法中步驟S300的流程圖。其中,所述利用第二金字塔神經網路對各第二特徵圖進行反向處理得到不同尺度的第三特徵圖R i (步驟S300),可以包括:
S301:利用第三卷積核對F1...F m 中的第二特徵圖F1進行卷積處理,獲得與第二特徵圖F1對應的第三特徵圖R1,其中第三特徵圖R1的長度和寬度分別與第一特徵圖C1的長度和寬度對應相同,其中m表示第二特徵圖的數量,以及m為大於1的整數,此時m與第一特徵圖的數量n相同;
在反向處理的過程中,可以首先從長度和寬度最大的第二特徵圖F1進行反向處理,例如,可以通過第三卷積核對該第二特徵圖F1進行卷積處理,得到長度和寬度都與F1相同的第三中間特徵圖R1。其中,第三卷積核可以為3*3的卷積核,也可以是其他類型的卷積核,本領域技術領域可以根據不同的需求選擇所需的卷積核。
S302:利用第四卷積核對第二特徵圖F2...Fm進行卷積處理,分別得到對應的第三中間特徵圖...,其中,第三中間特徵圖的尺度與對應的第二特徵圖的尺度相同;在得到第三特徵圖R1之後,可以利用第四卷積核對第二特徵圖F1以外的各第二特徵圖F2...Fm分別執行卷積處理,得到對應的第三中間特徵圖...。步驟S302中,可以將第二特徵圖F1以外的第二特徵圖F2...Fm通過第四卷積核做卷積處理,其中可以首先對F2進行卷積處理得到對應的第三中間特徵圖,繼而可以對F3進行卷積處理得到對應的第三中間特徵圖,以此類推,得到第二特徵圖Fm對應的第三中間特徵圖。其中,本公開實施例中,各第三中間特徵圖的長度和寬度可以為對應的第二特徵圖F j 的長度和寬度。
S303:利用第五卷積核對第三特徵圖R1進行卷積處理得到與第三特徵圖R1對應的第四中間特徵圖;在得到第三特徵圖R1之後,可以利用第四卷積核對第二特徵圖F1以外的各第二特徵圖F2...Fm分別執行卷積處理,得到對應的第三中間特徵圖...。步驟S302中,可以將第二特徵圖F1以外的第二特徵圖F2...Fm通過第四卷積核做卷積處
理,其中可以首先對F2進行卷積處理得到對應的第三中間特徵圖,繼而可以對F3進行卷積處理得到對應的第三中間特徵圖,以此類推,得到第二特徵圖Fm對應的第三中間特徵圖。其中,本公開實施例中,各第三中間特徵圖的長度和寬度可以為對應的第二特徵圖F j 的長度和寬度的一半。
S304:利用各第三中間特徵圖...以及第四中間特徵圖,得到第三特徵圖R 2...R m ,其中,第三特徵圖R j 由第三中間特徵圖與第四中間特徵圖的疊加處理得到,以及第四中間特徵圖由對應的第三特徵圖R j-1通過第五卷積核卷積處理獲得,其中j為大於1且小於或者等於m。
另外,還可以利用步驟S302得到的第三中間特徵圖以及步驟S303得到的第四中間特徵圖,得到第三特徵圖R1以外的第三特徵圖R 2...R m 。其中,第三特徵圖R1之外的各第三特徵圖R 2...R m 由第三中間特徵圖與第四中間特徵圖的疊加處理得到。
具體的,步驟S304中,可以分別利用對應的第三中間特徵圖與第四中間特徵圖進行疊加處理得到第三特徵圖R1之外的各第三特徵圖R j 。其中,可以首先利用第三中間特徵圖與第四中間特徵圖的加和結果獲得第三特徵圖R2。而後,利用第五卷積核對R2進行卷積處理得到第
四中間特徵圖,通過第三中間特徵圖與第四中間特徵圖之間的加和結果獲得第三特徵圖R3。以此類推,可以進一步得到其餘第四中間特徵圖...,以及第三特徵圖R4…Rm。
另外,本公開實施例中,獲得的各第四中間特徵圖的長度和寬度分別與第二特徵圖F2的長度和寬度相同。以及第四中間特徵圖的長度和寬度分別與第四中間特徵圖的長度和寬度相同。從而,得到的第三特徵圖Rj的長度和寬度分別為第二特徵圖Fi的長度和寬度,進一步的各第三特徵圖R1…Rn的長度和寬度分別對應的與第一特徵圖C1…Cn的長度和寬度相等。
下面舉例說明反向處理的過程。如圖3所示,接著利用第二特徵金字塔網路(Reverse Feature Pyramid Network--RFPN)來進一步優化多尺度特徵。第二特徵圖F1經過一個3*3的卷積核(第三卷積核),得到一個新的特徵圖R1(第四特徵圖),R1長和寬的大小與F1相同。R1經過一個卷積核為3*3(第五卷積核),步長(stride)為2的卷積計算得到一個新的特徵圖,記為,的長和寬均可以是R1的一半。第二特徵圖F2經過一個3*3的卷積核(第四卷積核)計算得到一個新的特徵圖,記為。與的大小相同,將與相加得到新的特徵圖R2。對R2和F3重複R1和F2的操作,得到新的特徵圖R3。對R3和F4重複R1和F2的操作,得到新的特徵圖R4。經過RFPN之後,同樣得到了四個不同尺度的特徵圖,分別記為R1、R2、R3和R4。同樣的,R1和R2之間的長度和寬度的倍數與C1和C2之間的長度和寬度的倍數相
同,以及R2和R3之間的長度和寬度的倍數與R2和R3之間的長度和寬度的倍數相同,R3和R4之間的長度和寬度的倍數與C3和C4之間的長度和寬度的倍數相同。
基於上述配置,即可以得到經第二集資他網路模型進行反向處理得到的第三特徵圖R1…Rn,經過正向和反向處理兩個處理過程可以進一步提高圖像的融合的特徵,基於各第三特徵圖可以精確的識別特徵點。
在步驟S300之後,則可以根據各第三特徵圖Ri-的特徵融合結果,獲得輸入圖像的各關鍵點的位置。其中,圖6示出根據本公開實施例的關鍵點檢測方法中步驟S400的流程圖。其中,所述對各所述第三特徵圖進行特徵融合處理,並利用特徵融合處理後的特徵圖獲得所述輸入圖像中的各關鍵點的位置(步驟S400),可以包括:
S401:對各第三特徵圖進行特徵融合處理,得到第四特徵圖;本公開實施例中,在獲得各尺度的第三特徵圖R1...Rn之後,可以對各第三特徵圖進行特徵融合,由於本公開實施例中各第三特徵圖的長度和寬度不同,因此可以將分別R2…Rn進行線性插值處理,最終使得各第三特徵圖R2…Rn的長度和寬度與第三特徵圖R1的長度和寬度相同。繼而可以將處理後的第三特徵圖進行組合形成第四特徵圖。
S402:基於所述第四特徵圖獲得所述輸入圖像中各關鍵點的位置。
在獲得第四特徵圖之後,可以對第四特徵圖進行降維處理,例如可以通過卷積處理對第四特徵圖進行降維,並利用降維後的特徵圖識別輸入圖像的特徵點的位置。
圖7示出根據本公開實施例的關鍵點檢測方法中步驟S401的流程圖,其中,所述對各第三特徵圖進行特徵融合處理,得到第四特徵圖(步驟S401)可以包括:
S4012:利用線性插值的方式,將各第三特徵圖調整為尺度相同的特徵圖;由於本公開實施例獲得的各第三特徵圖R1...Rn的尺度不同,因此首先需要將各第三特徵圖調整為尺度相同的特徵圖,其中,本公開實施例可以對各第三特徵圖執行不同的線性插值處理使得各特徵圖的尺度相同,其中線性插值的倍數可以與各第三特徵圖之間的尺度倍數相關。
S4013:對線性插值處理後的各特徵圖進行連接得到所述第四特徵圖。
在得到尺度相同的各特徵圖後,可以將各特徵圖進行拼接組合得到第四特徵圖,例如本公開實施例的各插值處理後的特徵圖的長度和寬度均相同,可以將各特徵圖在高度方向上進行連接得到第四特徵圖,如,經過S4012處理後的各特徵圖可以表示為A、B、C和D,得到的第四特徵圖可以為
另外,步驟S401之前,本公開實施例為了對小尺度的特徵進行優化,可以將長度和寬度較小的第三特徵圖
進一步的優化,可以對該部分特徵進行進一步的卷積處理。圖8示出根據本公開實施例的關鍵點檢測方法的另一流程圖,其中,在所述對各第三特徵圖進行特徵融合處理,得到第四特徵圖之前,還可以包括S4011(請參考圖8)。
S4011:將第一組第三特徵圖分別輸入至不同的瓶頸區塊結構中進行卷積處理,分別對應的得到更新後的第三特徵圖,各所述瓶頸區塊結構中包括不同數量的卷積模組;其中,所述第三特徵圖包括第一組第三特徵圖和第二組第三特徵圖,所述第一組第三特徵圖和所述第二組第三特徵圖中均包括至少一個第三特徵圖。
如上所述,為了優化小尺度特徵圖內的特徵,可以對小尺度的特徵圖進一步卷積處理,其中,可以將第三特徵圖R1…Rm分成兩組,其中第一組第三特徵圖的尺度小於第二組第三特徵圖的尺度。對應的,可以將第一組第三特徵圖內的各第三特徵圖分別輸入至不同的瓶頸區塊結構內,得到更新後的第三特徵圖,該瓶頸區塊結構內可以包括至少一個卷積模組,不同的瓶頸區塊結構中的卷積模組的數量可以不同,其中,經過瓶頸區塊結構卷積處理後得到的特徵圖的大小與輸入之前的第三特徵圖的大小相同。
其中,可以按照第三特徵圖的數量的預設比例值確定該第一組第三特徵圖。例如,預設比例可以為50%,即可以將各第三特徵圖中尺度較小的一半的第三特徵圖作為第一組第三特徵圖輸入至不同的瓶頸區塊結構中進行特徵優化處理。該預設比例可以也可以為其他的比例值,本公開對此不
進行限定。或者,在另一些可能的實施例中,也可以按照尺度閾值確定該輸入至瓶頸區塊結構中的第一組第三特徵圖。小於該尺度閾值的特徵圖即確定需要輸入至瓶頸區塊結構中進行特徵優化處理。對於尺度閾值的確定可以根據各特徵圖的尺度進行確定,本公開實施例對此不進行具體限定。
另外,對於瓶頸區塊結構的選擇,本公開實施例不作具體限定,其中卷積模組的形式可以根據需求進行選擇。
S4012:利用線性插值的方式,將更新後的第三特徵圖以及第二組第三特徵圖,調整為尺度相同的特徵圖;在執行步驟S4011之後,可以將優化後的第一組第三特徵圖以及第二組第三特徵進行尺度歸一化,即將各特徵圖調整為尺寸相同的特徵圖。本公開實施例通過為各S4011優化後的第三特徵圖以及第二組第三特徵圖分別執行對應的線性插值處理,從而得到大小相同的特徵圖。
本公開實施例中,如圖3所示的(d)部分,為了對小尺度的特徵進行優化在R2、R3和R4後接了不同個數的瓶頸區塊(bottleneck block)結構,在R2後接一個bottleneck block後得倒新的特徵圖,記為,在R3後接兩個bottleneck block後得倒新的特徵圖,記為,在R4後接三個bottleneck block後得倒新的特徵圖,記為。為了進行融合,我們需要將四個特徵圖R1、、、的的大小統一,所以對進行雙線形插值的上採樣(upsample)操作放大2倍,得到特徵圖,對進行雙線形插值的上採樣(upsample)操作放大4倍,得到特徵圖,對進行雙線
形插值的上採樣(upsample)操作放大8倍,得到特徵圖。此時,R1、、、尺度相同。
S4013:對各尺度相同的特徵圖進行連接得到所述第四特徵圖。
通過上述不同實施例中的配置可以得到相應的第四特徵圖,在獲得第四特徵圖之後,即可以根據第四特徵圖得到輸入圖像的關鍵點位置。其中,可以直接對第四特徵圖進行降維處理,利用降維處理後的特徵圖確定輸入圖像的關鍵點的位置。在另一些實施例中,還可以對降維後的特徵圖進行提純處理,進一步提高關鍵點的精度。
圖9示出根據本公開實施例的關鍵點檢測方法中步驟S402的流程圖,所述基於所述第四特徵圖獲得所述輸入圖像中各關鍵點的位置,可以包括:
S4021:利用第五卷積核對所述第四特徵圖進行降維處理;本公開實施例中,執行降維處理的方式可以為卷積處理,即利用預設的卷積模組對第四特徵圖進行卷積處理,以實現第四特徵圖的降維,得到例如256維的特徵圖。
S4022:利用卷積塊注意力模組對降維處理後的第四特徵圖中的特徵進行提純處理,得到提純後的特徵圖;
而後,可以進一步利用卷積塊注意力模組對降維處理後的第四特徵圖進行提純處理。其中卷積塊注意力模組可以為現有技術中的卷積塊注意力模組。例如本公開實施例的卷積塊注意力模組可以包括通道注意力單元以及重要度注意力單元。其中,可以首先將降維處理後的第四特徵圖輸入至通道注意力單元,其中首先可以對降維處理後的第四特徵圖進行基於高度和寬度的全域最大池化(global max pooling)以及全域平均池化(global average pooling),而後分別將經全域最大池化得到的第一結果以及經全域平均池化得到的第二結果輸入至MLP(多層感知器),並對經MLP處理後的兩個結果進行加和處理得到第三結果,對將第三結果經過啟動處理得到通道注意力特徵圖。
在得到通道注意力特徵圖之後,將該通道注意力特徵圖輸入至重要度注意力單元,首先可以對該通道注意力特徵圖輸入至基於通道的全域最大池化(global max pooling)以及全域平均池化(global average pooling)處理,分別得到第四結果和第五結果,再將第四結果和第五結果進行連接,而後對連接後的結果通過卷積處理進行降維,利用sigmoid函數對降維結果進行處理得到重要度注意力特徵圖,而後將重要度注意力特徵圖與通道注意力特徵圖相乘積,得到提純後的特徵圖。上述僅為本公開實施例對於卷積塊注意力模組的示例性說明,在其他實施例中,也可以採用其他的結構對降維後的第四特徵圖進行提純處理。
S4023:利用提純後的特徵圖確定輸入圖像的關鍵點的位置。
在獲得提純後特徵圖之後,可以利用該特徵圖獲取關鍵點的位置資訊,例如可以將該提純後的特徵圖輸入至3*3的卷積模組,來預測輸入圖像中各關鍵點的位置資訊。其中,在輸入圖像為面部圖像時,預測的關鍵點可以為17個關鍵點的位置,比如可以包括對於左右眼睛、鼻子、左右耳朵、左右肩膀、左右手肘、左右手腕、左右胯部、左右膝蓋、左右腳踝的位置。在其他的實施例中,也可以獲取其他關鍵點的位置,本公開實施例對此不進行限定。
基於上述配置,即可以通過第一金字塔神經網路的正向處理以及第二金字塔神經網路的反向處理更充分的融合特徵,從而提高關鍵點的檢測精度。
在本公開實施例中,還可以執行對於第一金字塔神經網路以及第二金字塔神經網路的訓練,從而使得正向處理和反向處理滿足工作精度。其中,圖10示出根據本公開實施例的一種關鍵點檢測方法中的訓練第一金字塔神經網路的流程圖。其中,本公開實施例可以利用訓練圖像資料集訓練所述第一金字塔神經網路,其包括:
S501:利用第一金字塔神經網路對所述訓練圖像資料集中各圖像對應的第一特徵圖進行所述正向處理,得到所述訓練圖像資料集中各圖像對應的第二特徵圖;本公開實施例中,可以將訓練圖像資料集輸入至第一金字塔神經網路進行訓練。其中,訓練圖像資料集中可以包括
多個圖像以及與圖像對應的關鍵點的真實位置。利用第一金字塔網路可以執行如上所述步驟S100和S200(多尺度第一特徵圖的提取以及正向處理),得到各圖像的第二特徵圖。
S502:利用各第二特徵圖確定識別的關鍵點;在步驟S201之後,可以利用得到的第二特徵圖識別訓練圖像的關鍵點,獲得訓練圖像的各關鍵點的第一位置。
S503:根據第一損失函數得到所述關鍵點的第一損失;
S504:利用所述第一損失值反向調節所述第一金字塔神經網路中的各卷積核,直至訓練次數達到設定的第一次數閾值。
對應的,在得到各關鍵點的第一位置之後,可以得到該預測得到的第一位置對應的第一損失。在訓練的過程中,可以根據每次訓練得到的第一損失反向調節第一金字塔神經網路的參數,例如卷積核的參數,直到訓練次數達到第一次數閾值,該第一次數閾值可以根據需求進行設定,一般為大於120的數值,例如本公開實施例中第一次數閾值可以為140。
其中,第一位置對應的第一損失可以為將第一位置與真實位置之間的第一差值輸入至第一損失函數獲得的損失值,其中第一損失函數可以為對數損失函數。或者也可以是將第一位置和真實位置輸入至第一損失函數,獲得對應的第一損失。本公開實施例對此不進行限定。基於上述即可以實現第一金字塔神經網路的訓練過程,實現第一金字塔神經網路參數的優化。
另外,對應的,圖11示出根據本公開實施例的一種關鍵點檢測方法中的訓練第二金字塔神經網路的流程圖。其中,本公開實施例可以利用訓練圖像資料集訓練所述第二金字塔神經網路,其包括:
S601:利用第二金字塔神經網路對所述第一金字塔神經網路輸出的涉及訓練圖像資料集中各圖像對應的第二特徵圖進行所述反向處理,得到所述訓練圖像資料集中各圖像對應的第三特徵圖;
S602:利用各第三特徵圖識別關鍵點;本公開實施例中,可以首先利用第一金字塔神經網路獲得訓練資料集中各圖像的第二特徵圖,而後通過第二金字塔神經網路對所述訓練圖像資料集中各圖像對應的第二特徵圖進行上述的反向處理,得到所述訓練圖像資料集中各圖像對應的第三特徵圖,而後利用第三特徵圖預測對應的圖像的關鍵點的第二位置。
S603:根據第二損失函數得到識別的關鍵點的第二損失;S604:利用所述第二損失反向調節所述第二金字塔神經網路中卷積核,直至訓練次數達到設定的第二次數閾值,或者利用所述第二損失反向調節所述第一金字塔網路中的卷積核以及第二金字塔神經網路中的卷積核,直至訓練次數達到設定的第二次數閾值。
對應的,在得到各關鍵點的第二位置之後可以得到該預測得到的第二位置對應的第二損失。在訓練的過程
中,可以根據每次訓練得到的第二損失反向調節第二金字塔神經網路的參數,例如卷積核的參數,直到訓練次數達到第二次數閾值,該第二次數閾值可以根據需求進行設定,一般為大於120的數值,例如本公開實施例中第二次數閾值可以為140。
其中,第二位置對應的第二損失可以為將第二位置與真實位置之間的第二差值輸入至第二損失函數獲得的損失值,其中第二損失函數可以為對數損失函數。或者也可以是將第二位置和真實位置輸入至第二損失函數,獲得對應的第二損失值。本公開實施例對此不進行限定。
在本公開的另一些實施例中,在訓練第二金字塔神經網路的同時,還可以同時進一步優化訓練第一金字塔神經網路,即本公開實施例中,步驟S604時,可以利用獲得的第二損失值同時反向調節第一金字塔神經網路中的卷積核的參數以及第二金字塔神經網路匯中的卷積核參數。從而實現整個網路模型的進一步優化。
基於上述即可以實現第二金字塔神經網路的訓練過程,實現第一金字塔神經網路的優化。
另外,在本公開實施例中,步驟S400可以通過特徵提取網路模型來實現,其中,本公開實施例還可以執行特徵提取網路模型的優化過程,其中,圖12示出根據本公開實施例的一種關鍵點檢測方法中的訓練特徵提取網路模型的流程圖,其中,利用訓練圖像資料集訓練所述特徵提取網路模型,可以包括:
S701:利用特徵提取網路模型對所述第二金字塔神經網路輸出的涉及訓練圖像資料集中各圖像對應的第三特徵圖進行所述特徵融合處理,並利用特徵融合處理後的特徵圖識別所述訓練圖像資料集中各圖像的關鍵點;本公開實施例中,可以將與圖像訓練資料集對應的經第一金字塔神經網路正向處理以及經第二金字塔神經網路處理得到的第三特徵圖輸入至特徵提取網路模型,並通過特徵提取網路模型執行特徵融合,以及提純等處理得到訓練圖像資料集中的各圖像的關鍵點的第三位置。
S702:根據第三損失函數得到各關鍵點的第三損失;
S703:利用所述第三損失值反向調節所述特徵提取網路的參數,直至訓練次數達到設定的第三次數閾值,或者利用所述第三損失函數反向調節所述第一金字塔神經網路中的卷積核參數、第二金字塔神經網路中的卷積核參數,以及所述特徵提取網路的參數,直至訓練次數達到設定的第三次數閾值。
對應的在得到各關鍵點的第三位置之後可以得到該預測得到的第三位置對應的第三損失值。在訓練的過程中,可以根據每次訓練得到的第三損失反向調節特徵提取網路模型的參數,例如卷積核的參數,或者上述池化等過程的各參數,直到訓練次數達到第三次數閾值,該第三次數閾值可以根據需求進行設定,一般為大於120的數值,例如本公開實施例中第三次數閾值可以為140。
其中,第三位置對應的第三損失可以為將第三位置與真實位置之間的第三差值輸入至第一損失函數獲得的損失值,其中第三損失函數可以為對數損失函數。或者也可以是將第三位置和真實位置輸入至第三損失函數,獲得對應的第三損失值。本公開實施例對此不進行限定。
基於上述即可以實現特徵提取網路模型的訓練過程,實現特徵提取網路模型參數的優化。
在本公開的另一些實施例中,在訓練特徵提取網路的同時,還可以同時進一步優化訓練第一金字塔神經網路和第二金字塔神經網路,即本公開實施例中,步驟S703時,可以利用獲得的第三損失值同時反向調節第一金字塔神經網路中的卷積核的參數、第二金字塔神經網路匯中的卷積核參數,以及特徵提取網路模型的參數,從而實現整個網路模型的進一步優化。
綜上所述,本公開實施例提出了一種利用雙向金字塔網路模型來執行關鍵點特徵檢測,其中不僅利用正向處理的方式得到多尺度特徵,同時還利用反向處理融合更多的特徵,從而能夠進一步提高關鍵點的檢測精度。
本領域技術人員可以理解,在具體實施方式的上述方法中,各步驟的撰寫順序並不意味著嚴格的執行順序而對實施過程構成任何限定,各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。
可以理解,本公開提及的上述各個方法實施例,在不違背原理邏輯的情況下,均可以彼此相互結合形成結合後的實施例,限於篇幅,本公開不再贅述。
此外,本公開還提供了關鍵點檢測裝置、電子設備、電腦可讀儲存介質、程式,上述均可用來實現本公開提供的任一種關鍵點檢測方法,相應技術方案和描述和參見方法部分的相應記載,不再贅述。
圖13示出根據本公開實施例的關鍵點檢測裝置的方塊圖,如圖13所示,所述關鍵點檢測裝置包括:多尺度特徵獲取模組10,其用於獲得針對輸入圖像的多個尺度的第一特徵圖,各第一特徵圖的尺度成倍數關係;正向處理模組20,其用於利用第一金字塔神經網路對各所述第一特徵圖進行正向處理得到與各個所述第一特徵圖一一對應的第二特徵圖,其中,所述第二特徵圖與其一一對應的所述第一特徵圖的尺度相同;反向處理模組30,其用於利用第二金字塔神經網路對各個所述第二特徵圖進行反向處理得到與各個所述第二特徵圖一一對應的第三特徵圖,其中,所述第三特徵圖與其一一對應的所述第二特徵圖的尺度相同;關鍵點檢測模組40,其用於對各所述第三特徵圖進行特徵融合處理,並利用特徵融合處理後的特徵圖獲得所述輸入圖像中的各關鍵點的位置。
在一些可能的實施方式中,所述多尺度特徵獲取模組還用於將所述輸入圖像調整為預設規格的第一圖像,並將所述第一圖像輸入至殘差神經網路,對第一圖像執
行不同採樣頻率的降採樣處理得到多個不同尺度的第一特徵圖。
在一些可能的實施方式中,所述正向處理包括第一卷積處理和第一線性插值處理,所述反向處理包括第二卷積處理和第二線性插值處理。
在一些可能的實施方式中,所述正向處理模組還用於利用第一卷積核對第一特徵圖C1...Cn中的第一特徵圖Cn進行卷積處理,獲得與第一特徵圖Cn對應的第二特徵圖Fn,其中n表示第一特徵圖的數量,以及n為大於1的整數;以及對所述第二特徵圖F n 執行線性插值處理獲得與第二特徵圖F n 對應的第一中間特徵圖,其中第一中間特徵圖的尺度與第一特徵圖Cn-1的尺度相同;以及利用第二卷積核對第一特徵圖Cn以外的各第一特徵圖C1...Cn-1進行卷積處理,得到分別與第一特徵圖C1...Cn-1一一對應的第二中間特徵圖...,其中所述第二中間特徵圖的尺度與和其一一對應的第一特徵圖的尺度相同;並且基於所述第二特徵圖F n 以及各所述第二中間特徵圖...,得到第二特徵圖F1...Fn-1以及第一中間特徵圖...,其中所述第二特徵圖F i 由所述第二中間特徵圖與所述第一中間特徵圖進行疊加處理得到,第一中間特徵圖由對應的第二特徵圖F i 經線性插值得到,並且,所述第二中間特徵圖與第一中間特徵圖的尺度相同,其中,i為大於或者等於1且小於n的整數。
在一些可能的實施方式中,所述反向處理模組還用於利用第三卷積核對第二特徵圖F1...F m 中的第二特徵圖
F1進行卷積處理,獲得與第二特徵圖F1對應的第三特徵圖R1,其中m表示第二特徵圖的數量,以及m為大於1的整數;以及利用第四卷積核對第二特徵圖F2...Fm進行卷積處理,分別得到對應的第三中間特徵圖...,其中,第三中間特徵圖的尺度與對應的第二特徵圖的尺度相同;以及利用第五卷積核對第三特徵圖R1進行卷積處理得到與第三特徵圖R1對應的第四中間特徵圖;並且利用各第三中間特徵圖...以及第四中間特徵圖,得到第三特徵圖R 2...R m 以及第四中間特徵圖...,其中,第三特徵圖R j 由第三中間特徵圖與第四中間特徵圖的疊加處理得到,第四中間特徵圖由對應的第三特徵圖R j-1通過第五卷積核卷積處理獲得,其中j為大於1且小於或者等於m。
在一些可能的實施方式中,所述關鍵點檢測模組還用於對各第三特徵圖進行特徵融合處理,得到第四特徵圖,並基於所述第四特徵圖獲得所述輸入圖像中各關鍵點的位置。
在一些可能的實施方式中,所述關鍵點檢測模組還用於利用線性插值的方式,將各第三特徵圖調整為尺度相同的特徵圖,並對所述尺度相同的特徵圖進行連接得到所述第四特徵圖。
在一些可能的實施方式中,所述裝置還包括:優化模組,其用於將第一組第三特徵圖分別輸入至不同的瓶頸區塊結構中進行卷積處理,分別得到更新後的第三特徵圖,各所述瓶頸區塊結構中包括不同數量的卷積模組,其
中,所述第三特徵圖包括第一組第三特徵圖和第二組第三特徵圖,所述第一組第三特徵圖和所述第二組第三特徵圖中均包括至少一個第三特徵圖。
在一些可能的實施方式中,所述關鍵點檢測模組還用於利用線性插值的方式,將各所述更新後的第三特徵圖以及所述第二組第三特徵圖,調整為尺度相同的特徵圖,並對所述尺度相同的特徵圖進行連接得到所述第四特徵圖。
在一些可能的實施方式中,所述關鍵點檢測模組還用於利用第五卷積核對所述第四特徵圖進行降維處理,並利用降維處理後的第四特徵圖確定輸入圖像的關鍵點的位置。
在一些可能的實施方式中,所述關鍵點檢測模組還用於利用第五卷積核對所述第四特徵圖進行降維處理,利用卷積塊注意力模組對降維處理後的第四特徵圖中的特徵進行提純處理,得到提純後的特徵圖,並利用提純後的特徵圖確定所述輸入圖像的關鍵點的位置。
在一些可能的實施方式中,所述正向處理模組還用於利用訓練圖像資料集訓練所述第一金字塔神經網路,其包括:利用第一金字塔神經網路對所述訓練圖像資料集中各圖像對應的第一特徵圖進行所述正向處理,得到所述訓練圖像資料集中各圖像對應的第二特徵圖;利用各第二特徵圖確定識別的關鍵點;根據第一損失函數得到所述關鍵點的第一損失;利用所述第一損失反向調節所述第一金字塔神
經網路中的各卷積核,直至訓練次數達到設定的第一次數閾值。
在一些可能的實施方式中,所述反向處理模組還用於利用訓練圖像資料集訓練所述第二金字塔神經網路,其包括:利用第二金字塔神經網路對所述第一金字塔神經網路輸出的涉及訓練圖像資料集中各圖像對應的第二特徵圖進行所述反向處理,得到所述訓練圖像資料集中各圖像對應的第三特徵圖;利用各第三特徵圖確定識別的關鍵點;根據第二損失函數得到識別的各關鍵點的第二損失;利用所述第二損失反向調節所述第二金字塔神經網路中卷積核,直至訓練次數達到設定的第二次數閾值;或者,利用所述第二損失反向調節所述第一金字塔網路中的卷積核以及第二金字塔神經網路中的卷積核,直至訓練次數達到設定的第二次數閾值。
在一些可能的實施方式中,所述關鍵點檢測模組還用於通過特徵提取網路執行所述對各所述第三特徵圖進行特徵融合處理,並且在通過特徵提取網路執行所述對各所述第三特徵圖進行特徵融合處理之前,還利用訓練圖像資料集訓練所述特徵提取網路,其包括:利用特徵提取網路對所述第二金字塔神經網路輸出的涉及訓練圖像資料集中各圖像對應的第三特徵圖進行所述特徵融合處理,並利用特徵融合處理後的特徵圖識別所述訓練圖像資料集中各圖像的關鍵點;根據第三損失函數得到各關鍵點的第三損失;利用所述第三損失值反向調節所述特徵提取網路的參數,直至
訓練次數達到設定的第三次數閾值;或者,利用所述第三損失函數反向調節所述第一金字塔神經網路中的卷積核參數、第二金字塔神經網路中的卷積核參數,以及所述特徵提取網路的參數,直至訓練次數達到設定的第三次數閾值。
在一些實施例中,本公開實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法,其具體實現可以參照上文方法實施例的描述,為了簡潔,這裡不再贅述。
本公開實施例還提出一種電腦可讀儲存介質,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現上述方法。電腦可讀儲存介質可以是非易失性電腦可讀儲存介質。
本公開實施例還提出一種電子設備,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置為上述方法。
電子設備可以被提供為終端、伺服器或其它形態的設備。
圖14示出根據本公開實施例的一種電子設備800的方塊圖。例如,電子設備800可以是行動電話,電腦,數位廣播終端,消息收發設備,遊戲控制台,平板設備,醫療設備,健身設備,個人數位助理等終端。
參照圖14,電子設備800可以包括以下一個或多個組件:處理組件802,記憶體804,電源組件806,多
媒體組件808,音頻組件810,輸入/輸出(I/O)的介面812,感測器組件814,以及通信組件816。
處理組件802通常控制電子設備800的整體操作,諸如與顯示,電話呼叫,資料通信,相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器820來執行指令,以完成上述的方法的全部或部分步驟。此外,處理組件802可以包括一個或多個模組,便於處理組件802和其他組件之間的交互。例如,處理組件802可以包括多媒體模組,以方便多媒體組件808和處理組件802之間的交互。
記憶體804被配置為儲存各種類型的資料以支援在電子設備800的操作。這些資料的示例包括用於在電子設備800上操作的任何應用程式或方法的指令,連絡人資料,電話簿資料,消息,圖片,視頻等。記憶體804可以由任何類型的易失性或非易失性儲存裝置或者它們的組合實現,如靜態隨機存取記憶體(SRAM),電可擦除可程式設計唯讀記憶體(EEPROM),可擦除可程式設計唯讀記憶體(EPROM),可程式設計唯讀記憶體(PROM),唯讀記憶體(ROM),磁記憶體,快閃記憶體,磁片或光碟。
電源組件806為電子設備800的各種組件提供電力。電源組件806可以包括電源管理系統,一個或多個電源,及其他與為電子設備800生成、管理和分配電力相關聯的組件。
多媒體組件808包括在所述電子設備800和使用者之間的提供一個輸出介面的螢幕。在一些實施例中,螢幕可以包括液晶顯示器(LCD)和觸摸面板(TP)。如果螢幕包括觸摸面板,螢幕可以被實現為觸控式螢幕,以接收來自使用者的輸入信號。觸摸面板包括一個或多個觸摸感測器以感測觸摸、滑動和觸摸面板上的手勢。所述觸摸感測器可以不僅感測觸摸或滑動動作的邊界,而且還檢測與所述觸摸或滑動操作相關的持續時間和壓力。在一些實施例中,多媒體組件808包括一個前置攝影頭和/或後置攝影頭。當電子設備800處於操作模式,如拍攝模式或視訊模式時,前置攝影頭和/或後置攝影頭可以接收外部的多媒體資料。每個前置攝影頭和後置攝影頭可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。
音頻組件810被配置為輸出和/或輸入音頻信號。例如,音頻組件810包括一個麥克風(MIC),當電子設備800處於操作模式,如呼叫模式、記錄模式和語音辨識模式時,麥克風被配置為接收外部音頻信號。所接收的音頻信號可以被進一步儲存在記憶體804或經由通信組件816發送。在一些實施例中,音頻組件810還包括一個揚聲器,用於輸出音頻信號。
I/O介面812為處理組件802和週邊介面模組之間提供介面,上述週邊介面模組可以是鍵盤,點擊輪,按鈕等。這些按鈕可包括但不限於:主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。
感測器組件814包括一個或多個感測器,用於為電子設備800提供各個方面的狀態評估。例如,感測器組件814可以檢測到電子設備800的打開/關閉狀態,組件的相對定位,例如所述組件為電子設備800的顯示器和小鍵盤,感測器組件814還可以檢測電子設備800或電子設備800一個組件的位置改變,使用者與電子設備800接觸的存在或不存在,電子設備800方位或加速/減速和電子設備800的溫度變化。感測器組件814可以包括接近感測器,被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器,如CMOS或CCD圖像感測器,用於在成像應用中使用。在一些實施例中,該感測器組件814還可以包括加速度感測器,陀螺儀感測器,磁感測器,壓力感測器或溫度感測器。
通信組件816被配置為便於電子設備800和其他設備之間有線或無線方式的通信。電子設備800可以接入基於通信標準的無線網路,如WiFi,2G或3G,或它們的組合。在一個示例性實施例中,通信組件816經由廣播通道接收來自外部廣播管理系統的廣播信號或廣播相關資訊。在一個示例性實施例中,所述通信組件816還包括近場通信(NFC)模組,以促進短程通信。例如,在NFC模組可基於射頻識別(RFID)技術,紅外資料協會(IrDA)技術,超寬頻(UWB)技術,藍牙(BT)技術和其他技術來實現。
在示例性實施例中,電子設備800可以被一個或多個應用專用積體電路(ASIC)、數位訊號處理器(DSP)、
數位信號處理設備(DSPD)、可程式設計邏輯器件(PLD)、現場可程式設計閘陣列(FPGA)、控制器、微控制器、微處理器或其他電子組件實現,用於執行上述方法。
在示例性實施例中,還提供了一種非易失性電腦可讀儲存介質,例如包括電腦程式指令的記憶體804,上述電腦程式指令可由電子設備800的處理器820執行以完成上述方法。
圖15示出根據本公開實施例的一種電子設備1900的方塊圖。例如,電子設備1900可以被提供為一伺服器。參照圖15,電子設備1900包括處理組件1922,其進一步包括一個或多個處理器,以及由記憶體1932所代表的記憶體資源,用於儲存可由處理組件1922的執行的指令,例如應用程式。記憶體1932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外,處理組件1922被配置為執行指令,以執行上述方法。
電子設備1900還可以包括一個電源組件1926被配置為執行電子設備1900的電源管理,一個有線或無線網路介面1950被配置為將電子設備1900連接到網路,和一個輸入輸出(I/O)介面1958。電子設備1900可以操作基於儲存在記憶體1932的作業系統,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或類似。
在示例性實施例中,還提供了一種非易失性電腦可讀儲存介質,例如包括電腦程式指令的記憶體1932,
上述電腦程式指令可由電子設備1900的處理組件1922執行以完成上述方法。
本公開可以是系統、方法和/或電腦程式產品。電腦程式產品可以包括電腦可讀儲存介質,其上載有用於使處理器實現本公開的各個方面的電腦可讀程式指令。
電腦可讀儲存介質可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存介質例如可以是(但不限於)電儲存裝置、磁儲存裝置、光儲存裝置、電磁儲存裝置、半導體儲存裝置或者上述的任意合適的組合。電腦可讀儲存介質的更具體的例子(非窮舉的列表)包括:可擕式電腦盤、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可擦式可程式設計唯讀記憶體(EPROM或快閃記憶體)、靜態隨機存取記憶體(SRAM)、可擕式壓縮磁碟唯讀記憶體(CD-ROM)、數位多功能盤(DVD)、記憶棒、軟碟、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裡所使用的電腦可讀儲存介質不被解釋為暫態信號本身,諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波(例如,通過光纖電纜的光脈衝)、或者通過電線傳輸的電信號。
這裡所描述的電腦可讀程式指令可以從電腦可讀儲存介質下載到各個計算/處理設備,或者通過網路、例如網際網路、局域網、廣域網路和/或無線網下載到外部電腦或外部儲存裝置。網路可以包括銅傳輸電纜、光纖傳輸、
無線傳輸、路由器、防火牆、交換機、閘道電腦和/或邊緣伺服器。每個計算/處理設備中的網路介面卡或者網路介面從網路接收電腦可讀程式指令,並轉發該電腦可讀程式指令,以供儲存在各個計算/處理設備中的電腦可讀儲存介質中。
用於執行本公開操作的電腦程式指令可以是彙編指令、指令集架構(ISA)指令、機器指令、機器相關指令、微代碼、固件指令、狀態設置資料、或者以一種或多種程式設計語言的任意組合編寫的原始程式碼或目標代碼,所述程式設計語言包括物件導向的程式設計語言-諸如Smalltalk、C++等,以及常規的過程式程式設計語言-諸如“C”語言或類似的程式設計語言。電腦可讀程式指令可以完全地在使用者電腦上執行、部分地在使用者電腦上執行、作為一個獨立的套裝軟體執行、部分在使用者電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中,遠端電腦可以通過任意種類的網路-包括局域網(LAN)或廣域網路(WAN)-連接到使用者電腦,或者,可以連接到外部電腦(例如利用網際網路服務提供者來通過網際網路連接)。在一些實施例中,通過利用電腦可讀程式指令的狀態資訊來個性化定制電子電路,例如可程式設計邏輯電路、現場可程式設計閘陣列(FPGA)或可程式設計邏輯陣列(PLA),該電子電路可以執行電腦可讀程式指令,從而實現本公開的各個方面。
這裡參照根據本公開實施例的方法、裝置(系統)和電腦程式產品的流程圖和/或方塊圖描述了本公開的各個方面。應當理解,流程圖和/或方塊圖的每個方塊以及流程圖和/或方塊圖中各方塊的組合,都可以由電腦可讀程式指令實現。
這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式設計資料處理裝置的處理器,從而生產出一種機器,使得這些指令在通過電腦或其它可程式設計資料處理裝置的處理器執行時,產生了實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存介質中,這些指令使得電腦、可程式設計資料處理裝置和/或其他設備以特定方式工作,從而,儲存有指令的電腦可讀介質則包括一個製造品,其包括實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的各個方面的指令。
也可以把電腦可讀程式指令載入到電腦、其它可程式設計資料處理裝置、或其它設備上,使得在電腦、其它可程式設計資料處理裝置或其它設備上執行一系列操作步驟,以產生電腦實現的過程,從而使得在電腦、其它可程式設計資料處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作。
附圖中的流程圖和方塊圖顯示了根據本公開的多個實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上,流程圖或方塊圖中的每個方
塊可以代表一個模組、程式段或指令的一部分,所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作為替換的實現中,方塊中所標注的功能也可以以不同於附圖中所標注的順序發生。例如,兩個連續的方塊實際上可以基本並行地執行,它們有時也可以按相反的循序執行,這依所涉及的功能而定。也要注意的是,方塊圖和/或流程圖中的每個方塊、以及方塊圖和/或流程圖中的方塊的組合,可以用執行規定的功能或動作的專用的基於硬體的系統來實現,或者可以用專用硬體與電腦指令的組合來實現。
以上已經描述了本公開的各實施例,上述說明是示例性的,並非窮盡性的,並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情況下,對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇,旨在最好地解釋各實施例的原理、實際應用或對市場中的技術改進,或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。
圖1代表圖為流程圖,無元件符號說明。
Claims (16)
- 一種關鍵點檢測方法,包括:獲得針對輸入圖像的多個尺度的第一特徵圖,各第一特徵圖的尺度成倍數關係;利用第一金字塔神經網路對各所述第一特徵圖進行正向處理得到與各個所述第一特徵圖一一對應的第二特徵圖,其中,所述第二特徵圖與其一一對應的所述第一特徵圖的尺度相同;利用第二金字塔神經網路對各個所述第二特徵圖進行反向處理得到與各個所述第二特徵圖一一對應的第三特徵圖,其中,對各個所述第二特徵圖進行反向處理的順序與得到各個所述第二特徵圖的順序相反,所述第三特徵圖與其一一對應的所述第二特徵圖的尺度相同;對各所述第三特徵圖進行特徵融合處理,並利用特徵融合處理後的特徵圖獲得所述輸入圖像中的各關鍵點的位置。
- 根據請求項1所述的方法,所述獲得針對輸入圖像的多個尺度的第一特徵圖包括:將所述輸入圖像調整為預設規格的第一圖像;將所述第一圖像輸入至殘差神經網路,對第一圖像執行不同採樣頻率的降採樣處理得到多個不同尺度的第一特徵圖。
- 根據請求項1所述的方法,所述正向處理包括第一卷積處理和第一線性插值處理,所述反向處理包括第二卷積處理和第二線性插值處理。
- 根據請求項1-3中任意一項所述的方法,所述利用第一金字塔神經網路對各所述第一特徵圖進行正向處理得到與各個所述第一特徵圖一一對應的第二特徵圖,包括:利用第一卷積核對第一特徵圖C1...Cn中的第一特徵圖Cn進行卷積處理,獲得與第一特徵圖Cn對應的第二特徵圖Fn,其中n表示第一特徵圖的數量,以及n為大於1的整數;對所述第二特徵圖F n 執行線性插值處理獲得與第二特徵圖F n 對應的第一中間特徵圖,其中第一中間特徵圖的尺度與第一特徵圖Cn-1的尺度相同;利用第二卷積核對第一特徵圖Cn以外的各第一特徵圖C1...Cn-1進行卷積處理,得到分別與第一特徵圖C1...Cn-1一一對應的第二中間特徵圖,其中所述第二中間特徵圖的尺度與和其一一對應的第一特徵圖的尺度相同;基於所述第二特徵圖F n 以及各所述第二中間特徵圖,得到第二特徵圖F1...Fn-1以及第一中間特徵圖,其中所述第二特徵圖F i 由所述第二中間特徵圖與所述第一中間特徵圖進行疊加處理得到,第一中間特徵圖由對應的第二特徵圖F i 經線性插值得到,並且,所述第二中間特徵圖與第一中間特徵圖的尺度相同,其中,i為大於或者等於1且小於n的整數。
- 根據請求項1-3中任意一項所述的方法,利用第二金字塔神經網路對各個所述第二特徵圖進行反向處理得到與各個所述第二特徵圖一一對應的第三特徵圖,包括:利用第三卷積核對第二特徵圖F1...F m 中的第二特徵圖F1進行卷積處理,獲得與第二特徵圖F1對應的第三特徵圖R1,其中m表示第二特徵圖的數量,以及m為大於1的整數;利用第四卷積核對第二特徵圖F2...Fm進行卷積處理,分別得到對應的第三中間特徵圖,其中,第三中間特徵圖的尺度與對應的第二特徵圖的尺度相同;利用第五卷積核對第三特徵圖R1進行卷積處理得到與第三特徵圖R1對應的第四中間特徵圖;利用各第三中間特徵圖以及第四中間特徵圖,得到第三特徵圖R 2...R m 以及第四中間特徵圖,其中,第三特徵圖R j 由第三中間特徵圖與第四中間特徵圖的疊加處理得到,第四中間特徵圖由對應的第三特徵圖R j-1通過第五卷積核卷積處理獲得,其中j為大於1且小於或者等於m。
- 根據請求項1-3中任意一項所述的方法,所述對各所述第三特徵圖進行特徵融合處理,並利用特徵融合處理後的特徵圖獲得所述輸入圖像中的各關鍵點的位置,包括:對各第三特徵圖進行特徵融合處理,得到第四特徵圖: 基於所述第四特徵圖獲得所述輸入圖像中各關鍵點的位置。
- 根據請求項6所述的方法,所述對各第三特徵圖進行特徵融合處理,得到第四特徵圖,包括:利用線性插值的方式,將各第三特徵圖調整為尺度相同的特徵圖;對所述尺度相同的特徵圖進行連接得到所述第四特徵圖。
- 根據請求項6所述的方法,在所述對各第三特徵圖進行特徵融合處理,得到第四特徵圖之前,還包括:將第一組第三特徵圖分別輸入至不同的瓶頸區塊結構中進行卷積處理,分別得到更新後的第三特徵圖,各所述瓶頸區塊結構中包括不同數量的卷積模組,其中,所述第三特徵圖包括第一組第三特徵圖和第二組第三特徵圖,所述第一組第三特徵圖和所述第二組第三特徵圖中均包括至少一個第三特徵圖。
- 根據請求項8所述的方法,所述對各第三特徵圖進行特徵融合處理,得到第四特徵圖,包括:利用線性插值的方式,將各所述更新後的第三特徵圖以及所述第二組第三特徵圖,調整為尺度相同的特徵圖;對所述尺度相同的特徵圖進行連接得到所述第四特徵圖。
- 根據請求項6所述的方法,所述基於所述第四特徵圖獲得所述輸入圖像中各關鍵點的位置,包括: 利用第五卷積核對所述第四特徵圖進行降維處理;利用降維處理後的第四特徵圖確定輸入圖像的關鍵點的位置。
- 根據請求項6所述的方法,所述基於所述第四特徵圖獲得所述輸入圖像中各關鍵點的位置,包括:利用第五卷積核對所述第四特徵圖進行降維處理;利用卷積塊注意力模組對降維處理後的第四特徵圖中的特徵進行提純處理,得到提純後的特徵圖;利用提純後的特徵圖確定所述輸入圖像的關鍵點的位置。
- 根據請求項1-3中任意一項所述的方法,所述方法還包括利用訓練圖像資料集訓練所述第一金字塔神經網路,其包括:利用第一金字塔神經網路對所述訓練圖像資料集中各圖像對應的第一特徵圖進行所述正向處理,得到所述訓練圖像資料集中各圖像對應的第二特徵圖;利用各第二特徵圖確定識別的關鍵點;根據第一損失函數得到所述關鍵點的第一損失;利用所述第一損失反向調節所述第一金字塔神經網路中的各卷積核,直至訓練次數達到設定的第一次數閾值。
- 根據請求項1-3中任意一項所述的方法,所述方法還包括利用訓練圖像資料集訓練所述第二金字塔神經網路,其包括: 利用第二金字塔神經網路對所述第一金字塔神經網路輸出的涉及訓練圖像資料集中各圖像對應的第二特徵圖進行所述反向處理,得到所述訓練圖像資料集中各圖像對應的第三特徵圖;利用各第三特徵圖確定識別的關鍵點;根據第二損失函數得到識別的各關鍵點的第二損失;利用所述第二損失反向調節所述第二金字塔神經網路中卷積核,直至訓練次數達到設定的第二次數閾值;或者,利用所述第二損失反向調節所述第一金字塔網路中的卷積核以及第二金字塔神經網路中的卷積核,直至訓練次數達到設定的第二次數閾值。
- 根據請求項1-3中任意一項所述的方法,通過特徵提取網路執行所述對各所述第三特徵圖進行特徵融合處理,並且,在通過特徵提取網路執行所述對各所述第三特徵圖進行特徵融合處理之前,所述方法還包括:利用訓練圖像資料集訓練所述特徵提取網路,其包括:利用特徵提取網路對所述第二金字塔神經網路輸出的涉及訓練圖像資料集中各圖像對應的第三特徵圖進行所述特徵融合處理,並利用特徵融合處理後的特徵圖識別所述訓練圖像資料集中各圖像的關鍵點;根據第三損失函數得到各關鍵點的第三損失;利用所述第三損失值反向調節所述特徵提取網路的參數,直至訓練次數達到設定的第三次數閾值;或者, 利用所述第三損失函數反向調節所述第一金字塔神經網路中的卷積核參數、第二金字塔神經網路中的卷積核參數,以及所述特徵提取網路的參數,直至訓練次數達到設定的第三次數閾值。
- 一種電子設備,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置為:執行請求項1至14中任意一項所述的方法。
- 一種電腦可讀儲存介質,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現請求項1至14中任意一項所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811367869.4 | 2018-11-16 | ||
CN201811367869.4A CN109614876B (zh) | 2018-11-16 | 2018-11-16 | 关键点检测方法及装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202020806A TW202020806A (zh) | 2020-06-01 |
TWI720598B true TWI720598B (zh) | 2021-03-01 |
Family
ID=66003175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108130497A TWI720598B (zh) | 2018-11-16 | 2019-08-26 | 關鍵點檢測方法及裝置、電子設備和儲存介質 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20200250462A1 (zh) |
JP (1) | JP6944051B2 (zh) |
KR (1) | KR102394354B1 (zh) |
CN (7) | CN113591754B (zh) |
SG (1) | SG11202003818YA (zh) |
TW (1) | TWI720598B (zh) |
WO (1) | WO2020098225A1 (zh) |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102227583B1 (ko) * | 2018-08-03 | 2021-03-15 | 한국과학기술원 | 딥 러닝 기반의 카메라 캘리브레이션 방법 및 장치 |
CN113591754B (zh) * | 2018-11-16 | 2022-08-02 | 北京市商汤科技开发有限公司 | 关键点检测方法及装置、电子设备和存储介质 |
JP7103240B2 (ja) * | 2019-01-10 | 2022-07-20 | 日本電信電話株式会社 | 物体検出認識装置、方法、及びプログラム |
CN110378253B (zh) * | 2019-07-01 | 2021-03-26 | 浙江大学 | 一种基于轻量化神经网络的实时关键点检测方法 |
CN110378976B (zh) * | 2019-07-18 | 2020-11-13 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN110705563B (zh) * | 2019-09-07 | 2020-12-29 | 创新奇智(重庆)科技有限公司 | 一种基于深度学习的工业零件关键点检测方法 |
CN110647834B (zh) * | 2019-09-18 | 2021-06-25 | 北京市商汤科技开发有限公司 | 人脸和人手关联检测方法及装置、电子设备和存储介质 |
KR20210062477A (ko) * | 2019-11-21 | 2021-05-31 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US11080833B2 (en) * | 2019-11-22 | 2021-08-03 | Adobe Inc. | Image manipulation using deep learning techniques in a patch matching operation |
WO2021146890A1 (en) * | 2020-01-21 | 2021-07-29 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for object detection in image using detection model |
CN111414823B (zh) * | 2020-03-12 | 2023-09-12 | Oppo广东移动通信有限公司 | 人体特征点的检测方法、装置、电子设备以及存储介质 |
CN111382714B (zh) * | 2020-03-13 | 2023-02-17 | Oppo广东移动通信有限公司 | 图像检测方法、装置、终端及存储介质 |
CN111401335B (zh) * | 2020-04-29 | 2023-06-30 | Oppo广东移动通信有限公司 | 一种关键点检测方法及装置、存储介质 |
CN111709428B (zh) * | 2020-05-29 | 2023-09-15 | 北京百度网讯科技有限公司 | 图像中关键点位置的识别方法、装置、电子设备及介质 |
CN111784642B (zh) * | 2020-06-10 | 2021-12-28 | 中铁四局集团有限公司 | 一种图像处理方法、目标识别模型训练方法和目标识别方法 |
CN111695519B (zh) * | 2020-06-12 | 2023-08-08 | 北京百度网讯科技有限公司 | 关键点定位方法、装置、设备以及存储介质 |
US11847823B2 (en) | 2020-06-18 | 2023-12-19 | Apple Inc. | Object and keypoint detection system with low spatial jitter, low latency and low power usage |
CN111709945B (zh) * | 2020-07-17 | 2023-06-30 | 深圳市网联安瑞网络科技有限公司 | 一种基于深度局部特征的视频拷贝检测方法 |
CN112131925B (zh) * | 2020-07-22 | 2024-06-07 | 随锐科技集团股份有限公司 | 一种多通道特征空间金字塔的构造方法 |
CN112149558A (zh) * | 2020-09-22 | 2020-12-29 | 驭势科技(南京)有限公司 | 一种用于关键点检测的图像处理方法、网络和电子设备 |
CN112132011B (zh) * | 2020-09-22 | 2024-04-26 | 深圳市捷顺科技实业股份有限公司 | 一种面部识别方法、装置、设备及存储介质 |
CN112232361B (zh) * | 2020-10-13 | 2021-09-21 | 国网电子商务有限公司 | 图像处理的方法及装置、电子设备及计算机可读存储介质 |
CN112364699A (zh) * | 2020-10-14 | 2021-02-12 | 珠海欧比特宇航科技股份有限公司 | 基于加权损失融合网络的遥感图像分割方法、装置及介质 |
CN112257728B (zh) * | 2020-11-12 | 2021-08-17 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备以及存储介质 |
CN112329888B (zh) * | 2020-11-26 | 2023-11-14 | Oppo广东移动通信有限公司 | 图像处理方法、装置、电子设备以及存储介质 |
CN112581450B (zh) * | 2020-12-21 | 2024-04-16 | 北京工业大学 | 基于膨胀卷积金字塔与多尺度金字塔的花粉检测方法 |
CN112800834B (zh) * | 2020-12-25 | 2022-08-12 | 温州晶彩光电有限公司 | 一种基于跪拜行为识别来定位炫彩射灯的方法及系统 |
CN112836710B (zh) * | 2021-02-23 | 2022-02-22 | 浙大宁波理工学院 | 一种基于特征金字塔网络的房间布局估计获取方法与系统 |
KR20220125719A (ko) * | 2021-04-28 | 2022-09-14 | 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 | 목표 대상 검측 모델을 트레이닝하는 방법 및 장비, 목표 대상을 검측하는 방법 및 장비, 전자장비, 저장매체 및 컴퓨터 프로그램 |
CN113902903A (zh) * | 2021-09-30 | 2022-01-07 | 北京工业大学 | 一种基于下采样的双注意力多尺度融合方法 |
KR102647320B1 (ko) * | 2021-11-23 | 2024-03-12 | 숭실대학교산학협력단 | 객체 추적 장치 및 방법 |
CN114022657B (zh) * | 2022-01-06 | 2022-05-24 | 高视科技(苏州)有限公司 | 一种屏幕缺陷分类方法、电子设备及存储介质 |
CN114724175B (zh) * | 2022-03-04 | 2024-03-29 | 亿达信息技术有限公司 | 行人图像的检测网络、检测方法、训练方法、电子设备和介质 |
WO2024011281A1 (en) * | 2022-07-11 | 2024-01-18 | James Cook University | A method and a system for automated prediction of characteristics of aquaculture animals |
KR20240083242A (ko) * | 2022-12-02 | 2024-06-12 | 주식회사 Lg 경영개발원 | 기계 학습 기반 이상 검출 장치 및 방법 |
CN116738296B (zh) * | 2023-08-14 | 2024-04-02 | 大有期货有限公司 | 机房状况综合智能监控系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016033776A (ja) * | 2014-07-31 | 2016-03-10 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 大規模画像データベースの高速検索手法 |
CN106339680A (zh) * | 2016-08-25 | 2017-01-18 | 北京小米移动软件有限公司 | 人脸关键点定位方法及装置 |
US9552510B2 (en) * | 2015-03-18 | 2017-01-24 | Adobe Systems Incorporated | Facial expression capture for character animation |
TW201800057A (zh) * | 2016-06-20 | 2018-01-01 | 蝴蝶網路公司 | 用於協助使用者操作超音波裝置的自動化影像獲取 |
TW201822038A (zh) * | 2016-12-12 | 2018-06-16 | 達盟系統有限公司 | 在半導體元件的製造流程中利用自適應機器學習的自動缺陷篩選 |
US20180189613A1 (en) * | 2016-04-21 | 2018-07-05 | Ramot At Tel Aviv University Ltd. | Cascaded convolutional neural network |
CN108280455A (zh) * | 2018-01-19 | 2018-07-13 | 北京市商汤科技开发有限公司 | 人体关键点检测方法和装置、电子设备、程序和介质 |
US20180307897A1 (en) * | 2016-05-28 | 2018-10-25 | Samsung Electronics Co., Ltd. | System and method for a unified architecture multi-task deep learning machine for object recognition |
CN108764133A (zh) * | 2018-05-25 | 2018-11-06 | 北京旷视科技有限公司 | 图像识别方法、装置及系统 |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2663996B2 (ja) * | 1990-05-22 | 1997-10-15 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ニューラル・ネットワーク用の仮想ニューロコンピュータ・アーキテクチュア |
CN101510257B (zh) * | 2009-03-31 | 2011-08-10 | 华为技术有限公司 | 一种人脸相似度匹配方法及装置 |
CN101980290B (zh) * | 2010-10-29 | 2012-06-20 | 西安电子科技大学 | 抗噪声环境多聚焦图像融合方法 |
CN102622730A (zh) * | 2012-03-09 | 2012-08-01 | 武汉理工大学 | 基于非降采样Laplacian金字塔和BEMD的遥感图像融合处理方法 |
CN103049895B (zh) * | 2012-12-17 | 2016-01-20 | 华南理工大学 | 基于平移不变剪切波变换的多模态医学图像融合方法 |
CN103279957B (zh) * | 2013-05-31 | 2015-11-25 | 北京师范大学 | 一种基于多尺度特征融合的遥感图像感兴趣区域提取方法 |
CN103793692A (zh) * | 2014-01-29 | 2014-05-14 | 五邑大学 | 低分辨率多光谱掌纹、掌静脉实时身份识别方法与系统 |
EP3204888A4 (en) * | 2014-10-09 | 2017-10-04 | Microsoft Technology Licensing, LLC | Spatial pyramid pooling networks for image processing |
CN104346607B (zh) * | 2014-11-06 | 2017-12-22 | 上海电机学院 | 基于卷积神经网络的人脸识别方法 |
CN104793620B (zh) * | 2015-04-17 | 2019-06-18 | 中国矿业大学 | 基于视觉特征捆绑和强化学习理论的避障机器人 |
CN104866868B (zh) * | 2015-05-22 | 2018-09-07 | 杭州朗和科技有限公司 | 基于深度神经网络的金属币识别方法和装置 |
US10007863B1 (en) * | 2015-06-05 | 2018-06-26 | Gracenote, Inc. | Logo recognition in images and videos |
CN105184779B (zh) * | 2015-08-26 | 2018-04-06 | 电子科技大学 | 一种基于快速特征金字塔的车辆多尺度跟踪方法 |
CN105912990B (zh) * | 2016-04-05 | 2019-10-08 | 深圳先进技术研究院 | 人脸检测的方法及装置 |
JP2020510463A (ja) * | 2017-01-27 | 2020-04-09 | アーテリーズ インコーポレイテッド | 全層畳み込みネットワークを利用する自動化されたセグメンテーション |
CN108229490B (zh) * | 2017-02-23 | 2021-01-05 | 北京市商汤科技开发有限公司 | 关键点检测方法、神经网络训练方法、装置和电子设备 |
CN106934397B (zh) * | 2017-03-13 | 2020-09-01 | 北京市商汤科技开发有限公司 | 图像处理方法、装置及电子设备 |
WO2018169639A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc | Recognition in unlabeled videos with domain adversarial learning and knowledge distillation |
CN108664981B (zh) * | 2017-03-30 | 2021-10-26 | 北京航空航天大学 | 显著图像提取方法及装置 |
CN107194318B (zh) * | 2017-04-24 | 2020-06-12 | 北京航空航天大学 | 目标检测辅助的场景识别方法 |
CN108229281B (zh) * | 2017-04-25 | 2020-07-17 | 北京市商汤科技开发有限公司 | 神经网络的生成方法和人脸检测方法、装置及电子设备 |
CN108229497B (zh) * | 2017-07-28 | 2021-01-05 | 北京市商汤科技开发有限公司 | 图像处理方法、装置、存储介质、计算机程序和电子设备 |
CN107909041A (zh) * | 2017-11-21 | 2018-04-13 | 清华大学 | 一种基于时空金字塔网络的视频识别方法 |
CN108182384B (zh) * | 2017-12-07 | 2020-09-29 | 浙江大华技术股份有限公司 | 一种人脸特征点定位方法及装置 |
CN108021923B (zh) * | 2017-12-07 | 2020-10-23 | 上海为森车载传感技术有限公司 | 一种用于深度神经网络的图像特征提取方法 |
CN108229445A (zh) * | 2018-02-09 | 2018-06-29 | 深圳市唯特视科技有限公司 | 一种基于级联金字塔网络的多人姿态估计方法 |
CN108664885B (zh) * | 2018-03-19 | 2021-08-31 | 杭州电子科技大学 | 基于多尺度级联HourGlass网络的人体关键点检测方法 |
CN108520251A (zh) * | 2018-04-20 | 2018-09-11 | 北京市商汤科技开发有限公司 | 关键点检测方法及装置、电子设备和存储介质 |
CN108596087B (zh) * | 2018-04-23 | 2020-09-15 | 合肥湛达智能科技有限公司 | 一种基于双网络结果的驾驶疲劳程度检测回归模型 |
CN113591754B (zh) * | 2018-11-16 | 2022-08-02 | 北京市商汤科技开发有限公司 | 关键点检测方法及装置、电子设备和存储介质 |
-
2018
- 2018-11-16 CN CN202110904124.2A patent/CN113591754B/zh active Active
- 2018-11-16 CN CN202110904136.5A patent/CN113591755B/zh active Active
- 2018-11-16 CN CN202110902644.XA patent/CN113569796B/zh active Active
- 2018-11-16 CN CN202110904119.1A patent/CN113569798B/zh active Active
- 2018-11-16 CN CN202110902641.6A patent/CN113591750A/zh active Pending
- 2018-11-16 CN CN202110902646.9A patent/CN113569797B/zh active Active
- 2018-11-16 CN CN201811367869.4A patent/CN109614876B/zh active Active
-
2019
- 2019-04-22 SG SG11202003818YA patent/SG11202003818YA/en unknown
- 2019-04-22 WO PCT/CN2019/083721 patent/WO2020098225A1/zh active Application Filing
- 2019-04-22 KR KR1020207012580A patent/KR102394354B1/ko active IP Right Grant
- 2019-04-22 JP JP2020518758A patent/JP6944051B2/ja active Active
- 2019-08-26 TW TW108130497A patent/TWI720598B/zh active
-
2020
- 2020-04-22 US US16/855,630 patent/US20200250462A1/en not_active Abandoned
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016033776A (ja) * | 2014-07-31 | 2016-03-10 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 大規模画像データベースの高速検索手法 |
US9552510B2 (en) * | 2015-03-18 | 2017-01-24 | Adobe Systems Incorporated | Facial expression capture for character animation |
US20180189613A1 (en) * | 2016-04-21 | 2018-07-05 | Ramot At Tel Aviv University Ltd. | Cascaded convolutional neural network |
US20180307897A1 (en) * | 2016-05-28 | 2018-10-25 | Samsung Electronics Co., Ltd. | System and method for a unified architecture multi-task deep learning machine for object recognition |
TW201800057A (zh) * | 2016-06-20 | 2018-01-01 | 蝴蝶網路公司 | 用於協助使用者操作超音波裝置的自動化影像獲取 |
CN106339680A (zh) * | 2016-08-25 | 2017-01-18 | 北京小米移动软件有限公司 | 人脸关键点定位方法及装置 |
TW201822038A (zh) * | 2016-12-12 | 2018-06-16 | 達盟系統有限公司 | 在半導體元件的製造流程中利用自適應機器學習的自動缺陷篩選 |
CN108280455A (zh) * | 2018-01-19 | 2018-07-13 | 北京市商汤科技开发有限公司 | 人体关键点检测方法和装置、电子设备、程序和介质 |
CN108764133A (zh) * | 2018-05-25 | 2018-11-06 | 北京旷视科技有限公司 | 图像识别方法、装置及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113591755B (zh) | 2024-04-16 |
CN113569796B (zh) | 2024-06-11 |
CN113569797A (zh) | 2021-10-29 |
CN109614876B (zh) | 2021-07-27 |
SG11202003818YA (en) | 2020-06-29 |
CN109614876A (zh) | 2019-04-12 |
KR102394354B1 (ko) | 2022-05-04 |
CN113569796A (zh) | 2021-10-29 |
CN113569797B (zh) | 2024-05-21 |
JP2021508388A (ja) | 2021-03-04 |
KR20200065033A (ko) | 2020-06-08 |
JP6944051B2 (ja) | 2021-10-06 |
CN113591755A (zh) | 2021-11-02 |
TW202020806A (zh) | 2020-06-01 |
CN113591754A (zh) | 2021-11-02 |
CN113591750A (zh) | 2021-11-02 |
CN113569798A (zh) | 2021-10-29 |
CN113569798B (zh) | 2024-05-24 |
WO2020098225A1 (zh) | 2020-05-22 |
CN113591754B (zh) | 2022-08-02 |
US20200250462A1 (en) | 2020-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI720598B (zh) | 關鍵點檢測方法及裝置、電子設備和儲存介質 | |
WO2021051650A1 (zh) | 人脸和人手关联检测方法及装置、电子设备和存储介质 | |
KR102406354B1 (ko) | 비디오 수복 방법 및 장치, 전자 기기 및 기억 매체 | |
WO2020155711A1 (zh) | 图像生成方法及装置、电子设备和存储介质 | |
TWI718631B (zh) | 人臉圖像的處理方法及裝置、電子設備和儲存介質 | |
WO2021082241A1 (zh) | 图像处理方法及装置、电子设备和存储介质 | |
TW202030648A (zh) | 一種目標對象處理方法、裝置、電子設備及儲存介質 | |
TW202029125A (zh) | 圖像處理方法及裝置、電子設備和儲存介質 | |
TW202109449A (zh) | 影像處理方法、電子設備,和電腦可讀儲存介質 | |
US20200125833A1 (en) | Method and apparatus for positioning face feature points | |
US11556761B2 (en) | Method and device for compressing a neural network model for machine translation and storage medium | |
CN105653032A (zh) | 显示调整方法及装置 | |
CN110188865B (zh) | 信息处理方法及装置、电子设备和存储介质 | |
WO2020192113A1 (zh) | 图像处理方法及装置、电子设备和存储介质 | |
TWI719777B (zh) | 圖像重建方法、圖像重建裝置、電子設備和電腦可讀儲存媒體 | |
CN109447258B (zh) | 神经网络模型的优化方法及装置、电子设备和存储介质 | |
CN108984628B (zh) | 内容描述生成模型的损失值获取方法及装置 | |
CN107239758B (zh) | 人脸关键点定位的方法及装置 | |
CN109635926B (zh) | 用于神经网络的注意力特征获取方法、装置及存储介质 | |
CN111046780A (zh) | 神经网络训练及图像识别方法、装置、设备和存储介质 | |
CN111753596A (zh) | 神经网络的训练方法及装置、电子设备和存储介质 | |
CN111368748A (zh) | 网络训练方法及装置、图像识别方法及装置 |