TWI738349B - 圖像處理方法及圖像處理裝置、電子設備和電腦可讀儲存媒體 - Google Patents
圖像處理方法及圖像處理裝置、電子設備和電腦可讀儲存媒體 Download PDFInfo
- Publication number
- TWI738349B TWI738349B TW109116706A TW109116706A TWI738349B TW I738349 B TWI738349 B TW I738349B TW 109116706 A TW109116706 A TW 109116706A TW 109116706 A TW109116706 A TW 109116706A TW I738349 B TWI738349 B TW I738349B
- Authority
- TW
- Taiwan
- Prior art keywords
- feature
- features
- density
- images
- target
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本發明涉及一種圖像處理方法及圖像處理裝置、電子設備和電腦可讀儲存媒體,所述方法包括:根據待處理的多個第一圖像的第一特徵,分別確定各第一特徵的密度;根據目標特徵的密度,確定與目標特徵對應的密度鏈訊息,目標特徵爲任意一個第一特徵,與目標特徵對應的密度鏈訊息包括N個特徵,N個特徵的第i個特徵爲第i-1個特徵的第一近鄰特徵中的一個,且第i個特徵的密度大於第i-1個特徵的密度;根據與各第一特徵對應的密度鏈訊息,分別對各第一特徵進行調整,得到多個第一圖像的第二特徵;對多個第一圖像的第二特徵進行聚類,得到多個第一圖像的處理結果。本發明實施例能夠提高圖像的聚類效果。
Description
本發明涉及電腦技術領域,尤其涉及一種圖像處理方法及圖像處理裝置、電子設備和電腦可讀儲存媒體。
本發明要求在2020年2月18日提交中國專利局、申請號爲202010098842.0、發明名稱爲“圖像處理方法及裝置、電子設備和存儲介質”的中國專利申請的優先權,其全部內容通過引用結合在本發明中。
聚類可將屬同一類別的多個目標(例如人臉)聚在一起,例如,可將圖像庫中屬同一人的圖像聚類在一起,從而將不同人的圖像區分開。在相關技術中,可提取圖像中目標的特徵,並對特徵進行聚類。
因此,本發明提出了一種圖像處理技術方案。
根據本發明的一方面,提供了一種圖像處理方法,包括:根據待處理的多個第一圖像的第一特徵,分別確定各個所述第一特徵的密度,所述第一特徵的密度表示與所述第一特徵之間的距離小於或等於第一距離閾值的第一特徵的數量;根據目標特徵的密度,確定與所述目標特徵對應的密度鏈訊息,其中,所述目標特徵爲任意一個第一特徵,與所述目標特徵對應的密度鏈訊息包括N個特徵,所述N個特徵的第i個特徵爲所述N個特徵的第i-1個特徵的第一近鄰特徵中的一個,且所述第i個特徵的密度大於所述第i-1個特徵的密度,N、i爲正整數且1<i≤N,所述第一近鄰特徵包括與所述第i-1個特徵之間的距離小於或等於第二距離閾值的至少一個第一特徵,所述目標特徵爲所述N個特徵中的第一個;根據與各個所述第一特徵對應的密度鏈訊息,分別對各個所述第一特徵進行調整,得到所述多個第一圖像的第二特徵;對所述多個第一圖像的第二特徵進行聚類,得到所述多個第一圖像的處理結果。
在一種可能的實現方式中,與所述目標特徵對應的密度鏈訊息還包括所述N個特徵的第二近鄰特徵,所述N個特徵的第i-1個特徵的第二近鄰特徵包括與所述第i-1個特徵之間的距離小於或等於第三距離閾值的至少一個第一特徵,所述根據與各個所述第一特徵對應的密度鏈訊息,分別對各個所述第一特徵進行調整,得到所述多個第一圖像的第二特徵,包括:針對所述目標特徵,對所述N個特徵及所述N個特徵的第二近鄰特徵分別進行融合,得到所述目標特徵的N個融合特徵;根據所述目標特徵的N個融合特徵,確定所述N個融合特徵之間的關聯特徵;根據所述目標特徵的N個融合特徵以及所述關聯特徵,確定與所述目標特徵對應的第一圖像的第二特徵。
在一種可能的實現方式中,根據所述目標特徵的N個融合特徵以及所述關聯特徵,確定與所述目標特徵對應的第一圖像的第二特徵,包括:將所述關聯特徵分別與所述N個融合特徵進行拼接,得到N個拼接特徵;對所述N個拼接特徵進行歸一化,得到所述N個融合特徵的N個權值;根據所述N個權值,對所述N個融合特徵進行融合,得到與所述目標特徵對應的第一圖像的第二特徵。
在一種可能的實現方式中,所述根據待處理的多個第一圖像的第一特徵,分別確定各個所述第一特徵的密度之前,所述方法還包括:根據所述多個第一圖像的第三特徵,建立特徵圖網路,所述特徵圖網路包括多個節點及所述節點之間的連線,每個所述節點包括一個所述第三特徵,所述連線的值表示所述節點與所述節點的近鄰節點之間的距離,所述節點的近鄰節點包括與所述節點之間的距離最小的K個節點,K爲正整數;對所述特徵圖網路進行圖卷積處理,得到所述多個第一圖像的第一特徵。
在一種可能的實現方式中,所述N個特徵的第i個特徵爲所述N個特徵的第i-1個特徵的第一近鄰特徵中密度最大的特徵。
在一種可能的實現方式中,所述根據所述多個第一圖像的第三特徵,建立特徵圖網路之前,所述方法還包括:對所述多個第一圖像分別進行特徵提取,得到所述多個第一圖像的第三特徵。
在一種可能的實現方式中,所述對所述多個第一圖像的第二特徵進行聚類,得到所述多個第一圖像的處理結果,包括:對所述多個第一圖像的第二特徵進行聚類,確定至少一個圖像組,每個所述圖像組中包括至少一個第一圖像;分別確定所述至少一個圖像組對應的目標類別,所述目標類別表示所述第一圖像中目標的身份,所述處理結果包括所述至少一個圖像組以及所述至少一個圖像組對應的目標類別。
根據本發明的一方面,提供了一種圖像處理裝置,包括:
密度確定模組,用於根據待處理的多個第一圖像的第一特徵,分別確定各個所述第一特徵的密度,所述第一特徵的密度表示與所述第一特徵之間的距離小於或等於第一距離閾值的第一特徵的數量;密度鏈確定模組,用於根據目標特徵的密度,確定與所述目標特徵對應的密度鏈訊息,其中,所述目標特徵爲任意一個第一特徵,與所述目標特徵對應的密度鏈訊息包括N個特徵,所述N個特徵的第i個特徵爲所述N個特徵的第i-1個特徵的第一近鄰特徵中的一個,且所述第i個特徵的密度大於所述第i-1個特徵的密度,N、i爲正整數且1<i≤N,所述第一近鄰特徵包括與所述第i-1個特徵之間的距離小於或等於第二距離閾值的至少一個第一特徵,所述目標特徵爲所述N個特徵中的第一個;特徵調整模組,用於根據與各個所述第一特徵對應的密度鏈訊息,分別對各個所述第一特徵進行調整,得到所述多個第一圖像的第二特徵;結果確定模組,用於對所述多個第一圖像的第二特徵進行聚類,得到所述多個第一圖像的處理結果。
在一種可能的實現方式中,與所述目標特徵對應的密度鏈訊息還包括所述N個特徵的第二近鄰特徵,所述N個特徵的第i-1個特徵的第二近鄰特徵包括與所述第i-1個特徵之間的距離小於或等於第三距離閾值的至少一個第一特徵,所述特徵調整模組,包括:融合子模組,用於針對所述目標特徵,對所述N個特徵及所述N個特徵的第二近鄰特徵分別進行融合,得到所述目標特徵的N個融合特徵;特徵子模組,用於根據所述目標特徵的N個融合特徵,確定所述N個融合特徵之間的關聯特徵;特徵確定子模組,用於根據所述目標特徵的N個融合特徵以及所述關聯特徵,確定與所述目標特徵對應的第一圖像的第二特徵。
在一種可能的實現方式中,所述特徵確定子模組用於:將所述關聯特徵分別與所述N個融合特徵進行拼接,得到N個拼接特徵;對所述N個拼接特徵進行歸一化,得到所述N個融合特徵的N個權值;根據所述N個權值,對所述N個融合特徵進行融合,得到與所述目標特徵對應的第一圖像的第二特徵。
在一種可能的實現方式中,所述密度確定模組之前,所述裝置還包括:圖網路建立模組,用於根據所述多個第一圖像的第三特徵,建立特徵圖網路,所述特徵圖網路包括多個節點及所述節點之間的連線,每個所述節點包括一個所述第三特徵,所述連線的值表示所述節點與所述節點的近鄰節點之間的距離,所述節點的近鄰節點包括與所述節點之間的距離最小的K個節點,K爲正整數;圖卷積模組,用於對所述特徵圖網路進行圖卷積處理,得到所述多個第一圖像的第一特徵。
在一種可能的實現方式中,所述N個特徵的第i個特徵爲所述N個特徵的第i-1個特徵的第一近鄰特徵中密度最大的特徵。
在一種可能的實現方式中,所述圖網路建立模組之前,所述裝置還包括:特徵提取模組,用於對所述多個第一圖像分別進行特徵提取,得到所述多個第一圖像的第三特徵。
在一種可能的實現方式中,所述結果確定模組包括:聚類子模組,用於對所述多個第一圖像的第二特徵進行聚類,確定至少一個圖像組,每個所述圖像組中包括至少一個第一圖像;類別確定子模組,用於分別確定所述至少一個圖像組對應的目標類別,所述目標類別表示所述第一圖像中目標的身份,所述處理結果包括所述至少一個圖像組以及所述至少一個圖像組對應的目標類別。
根據本發明的一方面,提供了一種電子設備,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置爲調用所述記憶體儲存的指令,以執行上述方法。
根據本發明的一方面,提供了一種電腦可讀儲存媒體,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現上述方法。
根據本發明的一方面,提供了一種電腦程式,所述電腦程式包括電腦可讀代碼,當所述電腦可讀代碼在電子設備中運行時,所述電子設備中的處理器執行上述方法。
根據本發明的實施例,能夠確定多個圖像特徵的密度,根據特徵密度確定特徵的密度鏈訊息,根據密度鏈訊息對特徵進行調整,對調整後的特徵進行聚類以得到處理結果,通過特徵的空間密度分布對特徵進行調整,能夠提高圖像的聚類效果。
應當理解的是,以上的一般描述和後文的細節描述僅是示例性和解釋性的,而非限制本發明。根據下面參考附圖對示例性實施例的詳細說明,本發明的其它特徵及方面將變得清楚。
以下將參考附圖詳細說明本發明的各種示例性實施例、特徵和方面。附圖中相同的附圖標記表示功能相同或相似的元件。儘管在附圖中示出了實施例的各種方面,但是除非特別指出,不必按比例繪製附圖。
在這裏專用的詞“示例性”意爲“用作例子、實施例或說明性”。這裏作爲“示例性”所說明的任何實施例不必解釋爲優於或好於其它實施例。
本文中術語“和/或”,僅僅是一種描述關聯對象的關聯關係,表示可以存在三種關係,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合,例如,包括A、B、C中的至少一種,可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。
另外,爲了更好地說明本發明,在下文的具體實施方式中給出了眾多的具體細節。本領域技術人員應當理解,沒有某些具體細節,本發明同樣可以實施。在一些實例中,對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述,以便於凸顯本發明的主旨。
圖1示出根據本發明實施例的圖像處理方法的流程圖,如圖1所示,所述方法包括:
在步驟S11中,根據待處理的多個第一圖像的第一特徵,分別確定各個所述第一特徵的密度,所述第一特徵的密度表示與所述第一特徵之間的距離小於或等於第一距離閾值的第一特徵的數量;
在步驟S12中,根據目標特徵的密度,確定與所述目標特徵對應的密度鏈訊息,其中,所述目標特徵爲任意一個第一特徵,與所述目標特徵對應的密度鏈訊息包括N個特徵,所述N個特徵的第i個特徵爲所述N個特徵的第i-1個特徵的第一近鄰特徵中的一個,且所述第i個特徵的密度大於所述第i-1個特徵的密度,N、i爲正整數且1<i≤N,所述第一近鄰特徵包括與所述第i-1個特徵之間的距離小於或等於第二距離閾值的至少一個第一特徵,所述目標特徵爲所述N個特徵中的第一個;
在步驟S13中,根據與各個所述第一特徵對應的密度鏈訊息,分別對各個所述第一特徵進行調整,得到所述多個第一圖像的第二特徵;
在步驟S14中,對所述多個第一圖像的第二特徵進行聚類,得到所述多個第一圖像的處理結果。
在一種可能的實現方式中,所述圖像處理方法可以由終端設備或伺服器等電子設備執行,終端設備可以爲用戶設備(User Equipment,UE)、行動設備、用戶終端、終端、蜂窩電話、無繩電話、個人數位處理(Personal Digital Assistant,PDA)、手持設備、計算設備、車載設備、可穿戴設備等,所述方法可以通過處理器調用儲存器中儲存的電腦可讀指令的方式來實現。或者,可通過伺服器執行所述方法。
在一種可能的實現方式中,待處理的多個第一圖像可以是由圖像採集設備(例如攝影機)採集的圖像,或者從採集圖像中截取的局部圖像等。第一圖像中包括待識別的目標(例如人臉、人體、車輛等)。其中,多個第一圖像中的目標可能爲同一類別的目標(例如同一個人的人臉),因此可通過聚類將同一類別的目標聚在一起,以便於後續處理。本發明對第一圖像的獲取方式以及第一圖像中目標的具體類型不作限制。
在一種可能的實現方式中,可例如通過卷積神經網路提取多個第一圖像中的特徵訊息,將提取到的特徵訊息作爲第一特徵;也可對提取到的特徵訊息進行初步處理,將處理後的特徵訊息作爲第一特徵。本發明對第一特徵的獲取方式以及用於提取特徵的卷積神經網路的類型不作限制。
在一種可能的實現方式中,在步驟S11中,可根據待處理的多個第一圖像的第一特徵,分別確定各個所述第一特徵的密度。第一特徵的密度與該第一特徵之間的距離小於或等於第一距離閾值的第一特徵的數量。也就是說,可根據特徵在空間中的分布,確定出每個第一特徵的一定範圍內周圍特徵的個數,作爲每個第一特徵所處位置的密度。本領域技術人員可根據實際情況設定第一距離閾值的具體取值,本發明對此不作限制。
在一種可能的實現方式中,在步驟S12中,對於多個第一特徵中的任意一個(可稱爲目標特徵),根據該目標特徵的密度,可尋找該目標特徵周圍一個密度較大的第一特徵(大於目標特徵的密度),或大於目標特徵的密度的第一特徵中密度最大的第一特徵,並建立一個指向該第一特徵的標記。對於每個第一特徵分別進行上述處理,可形成一個樹狀結構。可對每個第一特徵順著樹狀結構找到密度最大的一個第一特徵,這樣可尋找得到一條密度鏈,稱爲密度鏈訊息。
在一種可能的實現方式中,對於目標特徵,可確定出與該目標特徵對應的密度鏈訊息。設該密度鏈訊息包括N個特徵,則目標特徵爲N個特徵中的第一個。可尋找到目標特徵的第一近鄰特徵,包括與該目標特徵之間的距離小於或等於第二距離閾值的第一特徵,如果各個第一近鄰特徵的密度均小於或等於目標特徵的密度,則N=1,也即與該目標特徵對應的密度鏈訊息包括目標特徵本身。如果存在密度大於目標特徵的密度的第一近鄰特徵,則將該第一近鄰特徵作爲密度鏈訊息中的下一個特徵。本發明對第二距離閾值的具體取值不作限制。
在一種可能的實現方式中,對於N個特徵的第i-1個特徵,可尋找到第i-1個特徵的第一近鄰特徵,包括與所述第i-1個特徵之間的距離小於或等於第二距離閾值的至少一個第一特徵;並將密度大於所述第i-1個特徵的密度的一個第一近鄰特徵,確定爲N個特徵的第i個特徵,N、i爲正整數且1<i≤N。以此類推,可得到所有的N個特徵,也即得到與該目標特徵對應的密度鏈訊息。
在一種可能的實現方式中,在步驟S13中,根據與各個所述第一特徵對應的密度鏈訊息,分別對各個所述第一特徵進行調整,得到所述多個第一圖像的第二特徵。可例如將密度鏈訊息輸入長短期記憶網路(Long-Short Term Memory,LSTM)中處理,學習密度鏈訊息中的各個特徵之間的依賴關係,得到一個新的特徵,也即與該密度鏈訊息對應的第一圖像的第二特徵,從而實現對相應的第一特徵的調整。
在一種可能的實現方式中,在步驟S14中,可對所述多個第一圖像的第二特徵進行聚類,得到所述多個第一圖像的處理結果。該處理結果可包括聚類得到的一個或多個圖像組(或圖像特徵組)以及各個圖像組對應的目標類別。例如在第一圖像爲人臉圖像時,處理結果包括同一人物的人臉圖像組及該人物的身份。本發明對聚類的具體方式不作限制。
根據本發明的實施例,能夠確定多個圖像特徵的密度,根據特徵密度確定特徵的密度鏈訊息,根據密度鏈訊息對特徵進行調整,對調整後的特徵進行聚類以得到處理結果,通過特徵的空間密度分布對特徵進行調整,能夠提高圖像的聚類效果。
在一種可能的實現方式中,在步驟S11之前,所述方法還包括:對所述多個第一圖像分別進行特徵提取,得到所述多個第一圖像的第三特徵。
舉例來說,針對待處理的多個第一圖像,可將各個第一圖像分別輸入例如卷積神經網路中進行特徵提取,得到各個第一圖像的特徵訊息,可稱爲第三特徵。可將提取到的第三特徵作爲第一特徵;也可對提取到的第三特徵進行初步處理,將處理後的特徵作爲第一特徵。本發明對特徵提取的具體方式不作限制。
通過這種方式,可以得到圖像中目標的特徵訊息,以便後續處理。
在一種可能的實現方式中,在提取到第三特徵後,在步驟S11之前,所述方法還包括:
根據所述多個第一圖像的第三特徵,建立特徵圖網路,所述特徵圖網路包括多個節點及所述節點之間的連線,每個所述節點包括一個所述第三特徵,所述連線的值表示所述節點與所述節點的近鄰節點之間的距離,所述節點的近鄰節點包括與所述節點之間的距離最小的K個節點,K爲正整數;
對所述特徵圖網路進行圖卷積處理,得到所述多個第一圖像的第一特徵。
舉例來說,可以通過圖卷積對提取到的圖像特徵進行初步處理。可對多個第一圖像的第三特徵進行建圖,建立特徵圖網路。該特徵圖網路包括多個節點,每個節點即爲一個第三特徵。對於每個節點,可尋找與該節點最近(也即距離最小)的K個近鄰節點,建立該節點與K個近鄰節點之間的連線(或稱爲邊),並爲各個連線賦值。連線的值可表示該節點與該節點的近鄰節點之間的距離(或相似度)。對各個節點分別進行上述處理,可得到建立特徵圖網路,其包括多個節點及各個節點之間的連線。本領域技術人員可採用相關技術中的各種方式確定各個節點的近鄰節點,本發明對確定近鄰節點的方式及近鄰節點的數量K不作限制。
在一種可能的實現方式中,在建立特徵圖網路後,可採用圖卷積對特徵圖網路進行計算,對每個節點重新計算一個特徵,該特徵是融合了鄰居特徵訊息後的綜合特徵,可稱爲第一特徵。這樣,可以得到多個第一圖像的第一特徵。本發明對圖卷積的具體計算方式不作限制。
通過這種方式,可以融合各特徵周圍較接近的鄰居特徵的訊息,實現局部的特徵融合,從而提高後續聚類處理的效果。
在一種可能的實現方式中,在得到多個第一圖像的第一特徵後,可根據特徵在空間中的分布,在步驟S11中確定各個第一特徵的密度,也即每個第一特徵的一定範圍內周圍特徵的個數。在步驟S12中,對於多個第一特徵中的任意一個(稱爲目標特徵),可獲取該目標特徵的密度鏈訊息。該密度鏈訊息包括N個特徵,該目標特徵爲N個特徵中的第一個。
在一種可能的實現方式中,所述N個特徵的第i個特徵爲所述N個特徵的第i-1個特徵的第一近鄰特徵中密度最大的特徵。也就是說,可尋找到第i-1個特徵的第一近鄰特徵,包括與所述第i-1個特徵之間的距離小於或等於第二距離閾值的至少一個第一特徵;將第一近鄰特徵中密度大於第i-1個特徵的密度,且密度最大的第一近鄰特徵,確定爲N個特徵的第i個特徵。
圖2示出根據本發明實施例的圖像處理方法中的密度鏈確定過程的示意圖。如圖2所示,各個圓圈表示第一特徵,圓圈的顔色越深表示特徵的密度越大,圓圈的顔色越淺表示特徵的密度越小。對於任意一個第一特徵,也即目標特徵v
k,其密度鏈訊息可表示爲C(v
k),包括以目標特徵v
k爲起點,密度由低到高排列的一組第一特徵。k表示特徵編號,爲正整數。
在一種可能的實現方式中,與所述目標特徵對應的密度鏈訊息還包括所述N個特徵的第二近鄰特徵,所述N個特徵的第i-1個特徵的第二近鄰特徵包括與所述第i-1個特徵之間的距離小於或等於第三距離閾值的至少一個第一特徵。也就是說,密度鏈中的每個特徵都關聯其最近的幾個鄰居(稱爲第二近鄰特徵),將密度鏈中的N個特徵以及N個特徵的第二近鄰特徵共同作爲密度鏈訊息。本發明對第三距離閾值的具體取值不作限制。
在一種可能的實現方式中,在步驟S13中,根據與各個所述第一特徵對應的密度鏈訊息,分別對各個所述第一特徵進行調整,得到所述多個第一圖像的第二特徵。其中,步驟S13可包括:
針對所述目標特徵,對所述N個特徵及所述N個特徵的第二近鄰特徵分別進行融合,得到所述目標特徵的N個融合特徵;
根據所述目標特徵的N個融合特徵,確定所述N個融合特徵之間的關聯特徵;
根據所述目標特徵的N個融合特徵以及所述關聯特徵,確定與所述目標特徵對應的第一圖像的第二特徵。
舉例來說,對於目標特徵的密度鏈訊息中的第i個特徵,可將該第i個特徵與該第i個特徵的第二近鄰特徵進行融合,也即將第i個特徵與該第i個特徵的第二近鄰特徵直接疊加(concat),或根據預設的權重值對第i個特徵與該第i個特徵的第二近鄰特徵進行加權疊加(concat),得到第i個融合特徵。對N個特徵中的每一個特徵都這樣處理,可得到N個融合特徵。
在一種可能的實現方式中,可將目標特徵的N個融合特徵輸入預先訓練的LSTM網路中處理,學習N個融合特徵之間的依賴關係,輸出N個融合特徵之間的關聯特徵(也可稱爲查詢特徵Query)。本領域技術人員可根據實際情況設置LSTM網路,本發明對LSTM網路的網路結構不作限制。
在一種可能的實現方式中,根據目標特徵的N個融合特徵以及所述關聯特徵,確定與所述目標特徵對應的第一圖像的第二特徵的步驟可包括:
將所述關聯特徵分別與所述N個融合特徵進行拼接,得到N個拼接特徵;
對所述N個拼接特徵進行歸一化,得到所述N個融合特徵的N個權值;
根據所述N個權值,對所述N個融合特徵進行融合,得到與所述目標特徵對應的第一圖像的第二特徵。
也就是說,可將關聯特徵分別與N個融合特徵進行拼接,得到N個拼接特徵(也可稱爲關鍵特徵Key);通過例如Softmax函數分別對N個拼接特徵進行歸一化處理,可得到每個融合特徵的權值,共得到N個權值;進而,可根據各個融合特徵的權值,對N個融合特徵進行加權平均(weighted average),得到一個新的特徵,也即與該目標特徵對應的第一圖像的第二特徵,從而實現對目標特徵的調整過程。這樣,對每個第一特徵進行上述處理,可得到所述多個第一圖像的第二特徵。
通過這種方式,能夠根據特徵的空間密度分布對特徵進行調整,提高圖像的聚類效果。
圖4a、圖4b、圖4c及圖4d示出根據本發明實施例的圖像處理過程的示意圖。在示例中,對多個第一圖像進行特徵提取後,可得到多個第三特徵,其中圓圈和三角可分別表示不同類別的目標的特徵。圖4a示出了初始的特徵分布情況,如圖4a所示,第三特徵的分布較爲分散,直接聚類時的效果較差。
在示例中,可對多個第三特徵進行建圖,得到特徵圖網路,其包括多個節點及近鄰節點之間的連線;圖建立完成後使用圖卷積進行計算,實現局部的特徵融合,得到多個第一特徵。圖4b示出了經圖卷積處理後的特徵分布情況,如圖4b所示,經圖卷積處理後,鄰近的第一特徵之間的距離變小,能夠提高聚類的效果。
在示例中,可根據各個第一特徵的密度,按照密度由低到高的順序建立指向標記,形成樹狀結構,如圖4c所示。進而,可確定出每個第一特徵的密度鏈訊息。
在示例中,可將各個第一特徵的密度鏈訊息分別輸入LSTM網路,對各個第一特徵進行調整,得到調整後的多個第二特徵。圖4d示出了最終的特徵分布情況,如圖4d所示,可見經調整後,同一類別的第二特徵之間的距離明顯變小,更容易聚類,能夠顯著提高聚類的效果。
在一種可能的實現方式中,在完成特徵調整(也可稱爲特徵重學習)後,可在步驟S14中對所述多個第一圖像的第二特徵進行聚類,得到所述多個第一圖像的處理結果。其中,步驟S14可包括:
對所述多個第一圖像的第二特徵進行聚類,確定至少一個圖像組,每個所述圖像組中包括至少一個第一圖像;
分別確定所述至少一個圖像組對應的目標類別,所述目標類別表示所述第一圖像中目標的身份,
所述處理結果包括所述至少一個圖像組以及所述至少一個圖像組對應的目標類別。
舉例來說,可通過聚類將包括同一類別的目標的第一圖像聚合在一起。可對多個第一圖像的第二特徵進行聚類,確定至少一個圖像組,每個所述圖像組中包括至少一個第一圖像。本領域技術人員可採用相關技術中的任意聚類方式實現該聚類過程,本發明對此不作限制。
在一種可能的實現方式中,可分別確定所述至少一個圖像組對應的目標類別。在第一圖像中的目標爲人臉或人體時,目標類別表示第一圖像中的人的身份(例如爲顧客A),可通過人臉識別確定各個圖像組中人物的身份訊息。這樣,經聚類及識別後,最終得到處理結果,該處理結果包括所述至少一個圖像組以及所述至少一個圖像組對應的目標類別。通過這種方式,可以將不同人的圖像區分開,便於查看或進行後續的分析處理。
根據本發明實施例的方法,採用密度導向的思路,根據特徵的空間密度分布對特徵進行重學習,通過圖卷積和LSTM網路對特徵進行個性化的學習和調整,在速度與效果上均比已有的學習算法要更好,解決了傳統方法細粒度差,算法總體效果不好的問題。
根據本發明實施例的方法,能夠與相關技術中的聚類方法進行疊加,具有較强的可擴展性。也即,如果相關技術中的聚類方法的流程包括獲得特徵->聚類的步驟,則疊加後的流程包括獲得特徵->特徵重學習->新特徵->聚類的步驟。經疊加後,能夠提高相關技術中的聚類方法的效果。
根據本發明實施例的方法的應用場景包括但不限於人臉聚類,一般數據聚類等,能夠應用於智能視訊分析,安防監控等領域,有效提高圖像的分析處理效果。
可以理解,本發明提及的上述各個方法實施例,在不違背原理邏輯的情況下,均可以彼此相互結合形成結合後的實施例,限於篇幅,本發明不再贅述。本領域技術人員可以理解,在具體實施方式的上述方法中,各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。
此外,本發明還提供了圖像處理裝置、電子設備、電腦可讀儲存媒體、程式,上述均可用來實現本發明提供的任一種圖像處理方法,相應技術方案和描述和參見方法部分的相應記載,不再贅述。
圖5示出根據本發明實施例的圖像處理裝置的方塊圖,如圖5所示,所述裝置包括:
密度確定模組51,用於根據待處理的多個第一圖像的第一特徵,分別確定各個所述第一特徵的密度,所述第一特徵的密度表示與所述第一特徵之間的距離小於或等於第一距離閾值的第一特徵的數量;
密度鏈確定模組52,用於根據目標特徵的密度,確定與所述目標特徵對應的密度鏈訊息,其中,所述目標特徵爲任意一個第一特徵,與所述目標特徵對應的密度鏈訊息包括N個特徵,所述N個特徵的第i個特徵爲所述N個特徵的第i-1個特徵的第一近鄰特徵中的一個,且所述第i個特徵的密度大於所述第i-1個特徵的密度,N、i爲正整數且1<i≤N,所述第一近鄰特徵包括與所述第i-1個特徵之間的距離小於或等於第二距離閾值的至少一個第一特徵,所述目標特徵爲所述N個特徵中的第一個;
特徵調整模組53,用於根據與各個所述第一特徵對應的密度鏈訊息,分別對各個所述第一特徵進行調整,得到所述多個第一圖像的第二特徵;
結果確定模組54,用於對所述多個第一圖像的第二特徵進行聚類,得到所述多個第一圖像的處理結果。
在一種可能的實現方式中,與所述目標特徵對應的密度鏈訊息還包括所述N個特徵的第二近鄰特徵,所述N個特徵的第i-1個特徵的第二近鄰特徵包括與所述第i-1個特徵之間的距離小於或等於第三距離閾值的至少一個第一特徵,所述特徵調整模組,包括:融合子模組,用於針對所述目標特徵,對所述N個特徵及所述N個特徵的第二近鄰特徵分別進行融合,得到所述目標特徵的N個融合特徵;特徵子模組,用於根據所述目標特徵的N個融合特徵,確定所述N個融合特徵之間的關聯特徵;特徵確定子模組,用於根據所述目標特徵的N個融合特徵以及所述關聯特徵,確定與所述目標特徵對應的第一圖像的第二特徵。
在一種可能的實現方式中,所述特徵確定子模組用於:將所述關聯特徵分別與所述N個融合特徵進行拼接,得到N個拼接特徵;對所述N個拼接特徵進行歸一化,得到所述N個融合特徵的N個權值;根據所述N個權值,對所述N個融合特徵進行融合,得到與所述目標特徵對應的第一圖像的第二特徵。
在一種可能的實現方式中,所述密度確定模組之前,所述裝置還包括:圖網路建立模組,用於根據所述多個第一圖像的第三特徵,建立特徵圖網路,所述特徵圖網路包括多個節點及所述節點之間的連線,每個所述節點包括一個所述第三特徵,所述連線的值表示所述節點與所述節點的近鄰節點之間的距離,所述節點的近鄰節點包括與所述節點之間的距離最小的K個節點,K爲正整數;圖卷積模組,用於對所述特徵圖網路進行圖卷積處理,得到所述多個第一圖像的第一特徵。
在一種可能的實現方式中,所述N個特徵的第i個特徵爲所述N個特徵的第i-1個特徵的第一近鄰特徵中密度最大的特徵。
在一種可能的實現方式中,所述圖網路建立模組之前,所述裝置還包括:特徵提取模組,用於對所述多個第一圖像分別進行特徵提取,得到所述多個第一圖像的第三特徵。
在一種可能的實現方式中,所述結果確定模組包括:聚類子模組,用於對所述多個第一圖像的第二特徵進行聚類,確定至少一個圖像組,每個所述圖像組中包括至少一個第一圖像;類別確定子模組,用於分別確定所述至少一個圖像組對應的目標類別,所述目標類別表示所述第一圖像中目標的身份,所述處理結果包括所述至少一個圖像組以及所述至少一個圖像組對應的目標類別。
在一些實施例中,本發明實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法,其具體實現可以參照上文方法實施例的描述,爲了簡潔,這裏不再贅述。
本發明實施例還提出一種電腦可讀儲存媒體,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現上述方法。電腦可讀儲存媒體可以是非揮發性電腦可讀儲存媒體或揮發性電腦可讀儲存媒體。
本發明實施例還提出一種電子設備,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置爲調用所述記憶體儲存的指令,以執行上述方法。
本發明實施例還提供了一種電腦程式産品,包括電腦可讀代碼,當電腦可讀代碼在設備上運行時,設備中的處理器執行用於實現如上任一實施例提供的圖像處理方法的指令。
本發明實施例還提供了另一種電腦程式産品,用於儲存電腦可讀指令,指令被執行時使得電腦執行上述任一實施例提供的圖像處理方法的操作。
電子設備可以被提供爲終端、伺服器或其它形態的設備。
圖6示出根據本發明實施例的一種電子設備800的方塊圖。例如,電子設備800可以是行動電話,電腦,數位廣播終端,訊息收發設備,遊戲控制台,平板設備,醫療設備,健身設備,個人數位助理等終端。
參照圖6,電子設備800可以包括以下一個或多個組件:處理組件802,記憶體804,電源組件806,多媒體組件808,音訊組件810,輸入/輸出(I/O)的介面812,感測器組件814,以及通訊組件816。
處理組件802通常控制電子設備800的整體操作,諸如與顯示,電話呼叫,數據通訊,相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器820來執行指令,以完成上述的方法的全部或部分步驟。此外,處理組件802可以包括一個或多個模組,便於處理組件802和其他組件之間的交互。例如,處理組件802可以包括多媒體模組,以方便多媒體組件808和處理組件802之間的交互。
記憶體804被配置爲儲存各種類型的數據以支持在電子設備800的操作。這些數據的示例包括用於在電子設備800上操作的任何應用程式或方法的指令,連絡人數據,電話簿數據,訊息,圖片,視訊等。記憶體804可以由任何類型的揮發性或非揮發性儲存設備或者它們的組合實現,如靜態隨機存取記憶體(SRAM),電子可抹除可程式化唯讀記憶體(EEPROM),可抹除可程式化唯讀記憶體(EPROM),可程式化唯讀記憶體(PROM),唯讀記憶體(ROM),磁記憶體,快閃記憶體,磁碟或光碟。
電源組件806爲電子設備800的各種組件提供電力。電源組件806可以包括電源管理系統,一個或多個電源,及其他與爲電子設備800生成、管理和分配電力相關聯的組件。
多媒體組件808包括在所述電子設備800和用戶之間的提供一個輸出介面的螢幕。在一些實施例中,螢幕可以包括液晶顯示器(LCD)和觸控面板(TP)。如果螢幕包括觸控面板,螢幕可以被實現爲觸控螢幕,以接收來自用戶的輸入訊號。觸控面板包括一個或多個觸控感測器以感測觸控、滑動和觸控面板上的手勢。所述觸控感測器可以不僅感測觸控或滑動動作的邊界,而且還檢測與所述觸控或滑動操作相關的持續時間和壓力。在一些實施例中,多媒體組件808包括一個前置攝影機和/或後置攝影機。當電子設備800處於操作模式,如拍攝模式或視訊模式時,前置攝影機和/或後置攝影機可以接收外部的多媒體數據。每個前置攝影機和後置攝影機可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。
音訊組件810被配置爲輸出和/或輸入音訊訊號。例如,音訊組件810包括一個麥克風(MIC),當電子設備800處於操作模式,如呼叫模式、記錄模式和語音識別模式時,麥克風被配置爲接收外部音訊訊號。所接收的音訊訊號可以被進一步儲存在記憶體804或經由通訊組件816發送。在一些實施例中,音訊組件810還包括一個揚聲器,用於輸出音訊訊號。
I/O介面812爲處理組件802和周邊介面模組之間提供介面,上述周邊介面模組可以是鍵盤,滑鼠,按鈕等。這些按鈕可包括但不限於:主頁按鈕、音量按鈕、啓動按鈕和鎖定按鈕。
感測器組件814包括一個或多個感測器,用於爲電子設備800提供各個方面的狀態評估。例如,感測器組件814可以檢測到電子設備800的打開/關閉狀態,組件的相對定位,例如所述組件爲電子設備800的顯示器和小鍵盤,感測器組件814還可以檢測電子設備800或電子設備800一個組件的位置改變,用戶與電子設備800接觸的存在或不存在,電子設備800方位或加速/減速和電子設備800的溫度變化。感測器組件814可以包括接近感測器,被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器,如CMOS或CCD圖像感測器,用於在成像應用中使用。在一些實施例中,該感測器組件814還可以包括加速度感測器,陀螺儀感測器,磁感測器,壓力感測器或溫度感測器。
通訊組件816被配置爲便於電子設備800和其他設備之間有線或無線方式的通訊。電子設備800可以接入基於通訊標準的無線網路,如WiFi,2G或3G,或它們的組合。在一個示例性實施例中,通訊組件816經由廣播信道接收來自外部廣播管理系統的廣播訊號或廣播相關訊息。在一個示例性實施例中,所述通訊組件816還包括近場通訊(NFC)模組,以促進短程通訊。例如,在NFC模組可基於射頻識別(RFID)技術,紅外數據協會(IrDA)技術,超寬頻(UWB)技術,藍牙(BT)技術和其他技術來實現。
在示例性實施例中,電子設備800可以被一個或多個應用專用積體電路(ASIC)、數位訊號處理器(DSP)、數位訊號處理設備(DSPD)、可程式化邏輯裝置(PLD)、現場可程式化邏輯閘陣列(FPGA)、控制器、微控制器、微處理器或其他電子元件實現,用於執行上述方法。
在示例性實施例中,還提供了一種非揮發性電腦可讀儲存媒體,例如包括電腦程式指令的記憶體804,上述電腦程式指令可由電子設備800的處理器820執行以完成上述方法。
圖7示出根據本發明實施例的一種電子設備1900的方塊圖。例如,電子設備1900可以被提供爲一伺服器。參照圖7,電子設備1900包括處理組件1922,其進一步包括一個或多個處理器,以及由記憶體1932所代表的記憶體資源,用於儲存可由處理組件1922的執行的指令,例如應用程式。記憶體1932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外,處理組件1922被配置爲執行指令,以執行上述方法。
電子設備1900還可以包括一個電源組件1926被配置爲執行電子設備1900的電源管理,一個有線或無線網路介面1950被配置爲將電子設備1900連接到網路,和一個輸入輸出(I/O)介面1958。電子設備1900可以操作基於儲存在記憶體1932的操作系統,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM或類似。
在示例性實施例中,還提供了一種非揮發性電腦可讀儲存媒體,例如包括電腦程式指令的記憶體1932,上述電腦程式指令可由電子設備1900的處理組件1922執行以完成上述方法。
本發明可以是系統、方法和/或電腦程式産品。電腦程式産品可以包括電腦可讀儲存媒體,其上載有用於使處理器實現本發明的各個方面的電腦可讀程式指令。
電腦可讀儲存媒體可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存媒體例如可以是――但不限於――電儲存設備、磁儲存設備、光儲存設備、電磁儲存設備、半導體儲存設備或者上述的任意合適的組合。電腦可讀儲存媒體的更具體的例子(非窮舉的列表)包括:可攜式電腦盤、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可抹除可程式化唯讀記憶體(EPROM或快閃)、靜態隨機存取記憶體(SRAM)、可攜式壓縮磁碟唯讀記憶體(CD-ROM)、數位多功能影音光碟(DVD)、記憶卡、磁片、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裏所使用的電腦可讀儲存媒體不被解釋爲瞬時訊號本身,諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波(例如,通過光纖電纜的光脈衝)、或者通過電線傳輸的電訊號。
這裏所描述的電腦可讀程式指令可以從電腦可讀儲存媒體下載到各個計算/處理設備,或者通過網路、例如網際網路、區域網路、廣域網路和/或無線網路下載到外部電腦或外部儲存設備。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、閘道電腦和/或邊緣伺服器。每個計算/處理設備中的網路介面卡或者網路介面從網路接收電腦可讀程式指令,並轉發該電腦可讀程式指令,以供儲存在各個計算/處理設備中的電腦可讀儲存媒體中。
用於執行本發明操作的電腦程式指令可以是彙編指令、指令集架構(ISA)指令、機器指令、機器相關指令、微代碼、韌體指令、狀態設置數據、或者以一種或多種程式化語言的任意組合編寫的原始碼或目標代碼,所述程式化語言包括面向對象的程式化語言—諸如Smalltalk、C++等,以及常規的過程式程式化語言—諸如“C”語言或類似的程式化語言。電腦可讀程式指令可以完全地在用戶電腦上執行、部分地在用戶電腦上執行、作爲一個獨立的套裝軟體執行、部分在用戶電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中,遠端電腦可以通過任意種類的網路—包括區域網路(LAN)或廣域網路(WAN)—連接到用戶電腦,或者,可以連接到外部電腦(例如利用網際網路服務提供商來通過網際網路連接)。在一些實施例中,通過利用電腦可讀程式指令的狀態訊息來個性化定制電子電路,例如可程式化邏輯電路、現場可程式化邏輯閘陣列(FPGA)或可程式化邏輯陣列(PLA),該電子電路可以執行電腦可讀程式指令,從而實現本發明的各個方面。
這裏參照根據本發明實施例的方法、裝置(系統)和電腦程式産品的流程圖和/或方塊圖描述了本發明的各個方面。應當理解,流程圖和/或方塊圖的每個方塊以及流程圖和/或方塊圖中各方塊的組合,都可以由電腦可讀程式指令實現。
這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式化數據處理裝置的處理器,從而生産出一種機器,使得這些指令在通過電腦或其它可程式化數據處理裝置的處理器執行時,産生了實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存媒體中,這些指令使得電腦、可程式化數據處理裝置和/或其他設備以特定方式工作,從而,儲存有指令的電腦可讀媒體則包括一個製造品,其包括實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的各個方面的指令。
也可以把電腦可讀程式指令加載到電腦、其它可程式化數據處理裝置、或其它設備上,使得在電腦、其它可程式化數據處理裝置或其它設備上執行一系列操作步驟,以産生電腦實現的過程,從而使得在電腦、其它可程式化數據處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作。
附圖中的流程圖和方塊圖顯示了根據本發明的多個實施例的系統、方法和電腦程式産品的可能實現的體系架構、功能和操作。在這點上,流程圖或方塊圖中的每個方塊可以代表一個模組、程式段或指令的一部分,所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作爲替換的實現中,方塊中所標注的功能也可以以不同於附圖中所標注的順序發生。例如,兩個連續的方塊實際上可以基本並行地執行,它們有時也可以按相反的順序執行,這依所涉及的功能而定。也要注意的是,方塊圖和/或流程圖中的每個方塊、以及方塊圖和/或流程圖中的方塊的組合,可以用執行規定的功能或動作的專用的基於硬體的系統來實現,或者可以用專用硬體與電腦指令的組合來實現。
該電腦程式産品可以具體通過硬體、軟體或其結合的方式實現。在一個可選實施例中,所述電腦程式産品具體體現爲電腦儲存媒體,在另一個可選實施例中,電腦程式産品具體體現爲軟體産品,例如軟體開發套件(Software Development Kit,SDK)等等。
在不違背邏輯的情況下,本發明不同實施例之間可以相互結合,不同實施例描述有所側重,爲側重描述的部分可以參見其他實施例的記載。
以上已經描述了本發明的各實施例,上述說明是示例性的,並非窮盡性的,並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情況下,對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇,旨在最好地解釋各實施例的原理、實際應用或對市場中的技術的改進,或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。
51······· 密度確定模組
52······· 密度鏈確定模組
53······· 特徵調整模組
54······· 結果確定模組
800····· 電子設備
802····· 處理組件
804····· 記憶體
806····· 電源組件
808····· 多媒體組件
810····· 音訊組件
812····· 輸入/輸出介面
814····· 感測器組件
816····· 通訊組件
820····· 處理器
1900··· 電子設備
1922··· 處理組件
1926··· 電源組件
1932··· 記憶體
1950··· 網路介面
1958··· 輸入/輸出介面
S11~S14…步驟
此處的附圖被併入說明書中並構成本說明書的一部分,這些附圖示出了符合本發明的實施例,並與說明書一起用於說明本發明的技術方案:
圖1示出根據本發明實施例的圖像處理方法的流程圖;
圖2示出根據本發明實施例的圖像處理方法中的密度鏈確定過程的示意圖;
圖3示出根據本發明實施例的圖像處理方法中的密度鏈訊息的示意圖;
圖4a、圖4b、圖4c及圖4d示出根據本發明實施例的圖像處理過程的示意圖;
圖5示出根據本發明實施例的圖像處理裝置的方塊圖;
圖6示出根據本發明實施例的一種電子設備的方塊圖;及
圖7示出根據本發明實施例的一種電子設備的方塊圖。
S11~S14…步驟
Claims (10)
- 一種圖像處理方法,其特徵在於,包括:根據待處理的多個第一圖像的第一特徵,分別確定各個所述第一特徵的密度,所述第一特徵的密度表示與所述第一特徵之間的距離小於或等於第一距離閾值的第一特徵的數量;根據目標特徵的密度,確定與所述目標特徵對應的密度鏈訊息,其中,所述目標特徵為任意一個第一特徵,與所述目標特徵對應的密度鏈訊息包括N個特徵,所述N個特徵的第i個特徵為所述N個特徵的第i-1個特徵的第一近鄰特徵中的一個,且所述第i個特徵的密度大於所述第i-1個特徵的密度,N、i為正整數且1<iN,所述第一近鄰特徵包括與所述第i-1個特徵之間的距離小於或等於第二距離閾值的至少一個第一特徵,所述目標特徵為所述N個特徵中的第一個;根據與各個所述第一特徵對應的密度鏈訊息,分別對各個所述第一特徵進行調整,得到所述多個第一圖像的第二特徵,所述第二特徵為根據所述密度鏈訊息得到的一個新的特徵;對所述多個第一圖像的第二特徵進行聚類,得到所述多個第一圖像的處理結果。
- 如請求項1所述的方法,其中,與所述目標特徵對應的密度鏈訊息還包括所述N個特徵的第二近鄰特徵,所述N個特徵的第i-1個特徵的第二近鄰特徵包括與所述第i-1個特 徵之間的距離小於或等於第三距離閾值的至少一個第一特徵,所述根據與各個所述第一特徵對應的密度鏈訊息,分別對各個所述第一特徵進行調整,得到所述多個第一圖像的第二特徵,包括:針對所述目標特徵,對所述N個特徵及所述N個特徵的第二近鄰特徵分別進行融合,得到所述目標特徵的N個融合特徵;根據所述目標特徵的N個融合特徵,確定所述N個融合特徵之間的關聯特徵;根據所述目標特徵的N個融合特徵以及所述關聯特徵,確定與所述目標特徵對應的第一圖像的第二特徵。
- 如請求項2所述的方法,其中,根據所述目標特徵的N個融合特徵以及所述關聯特徵,確定與所述目標特徵對應的第一圖像的第二特徵,包括:將所述關聯特徵分別與所述N個融合特徵進行拼接,得到N個拼接特徵;對所述N個拼接特徵進行歸一化,得到所述N個融合特徵的N個權值;根據所述N個權值,對所述N個融合特徵進行融合,得到與所述目標特徵對應的第一圖像的第二特徵。
- 如請求項1所述的方法,其中,所述根據待處理的多個第一圖像的第一特徵,分別確定各個所述第一特徵的密度之前,所述方法還包括: 根據所述多個第一圖像的第三特徵,建立特徵圖網路,所述特徵圖網路包括多個節點及所述節點之間的連線,每個所述節點包括一個所述第三特徵,所述連線的值表示所述節點與所述節點的近鄰節點之間的距離,所述節點的近鄰節點包括與所述節點之間的距離最小的K個節點,K為正整數;對所述特徵圖網路進行圖卷積處理,得到所述多個第一圖像的第一特徵。
- 如請求項1所述的方法,其中,所述N個特徵的第i個特徵為所述N個特徵的第i-1個特徵的第一近鄰特徵中密度最大的特徵。
- 如請求項4所述的方法,其中,所述根據所述多個第一圖像的第三特徵,建立特徵圖網路之前,所述方法還包括:對所述多個第一圖像分別進行特徵提取,得到所述多個第一圖像的第三特徵。
- 如請求項1至6其中任意一項所述的方法,其中,所述對所述多個第一圖像的第二特徵進行聚類,得到所述多個第一圖像的處理結果,包括:對所述多個第一圖像的第二特徵進行聚類,確定至少一個圖像組,每個所述圖像組中包括至少一個第一圖像;分別確定所述至少一個圖像組對應的目標類別,所述目標類別表示所述第一圖像中目標的身份,所述處理結果包括所述至少一個圖像組以及所述至少一個圖像組對應的目標類別。
- 一種圖像處理裝置,其特徵在於,包括:密度確定模組,用於根據待處理的多個第一圖像的第一特徵,分別確定各個所述第一特徵的密度,所述第一特徵的密度表示與所述第一特徵之間的距離小於或等於第一距離閾值的第一特徵的數量;密度鏈確定模組,用於根據目標特徵的密度,確定與所述目標特徵對應的密度鏈訊息,其中,所述目標特徵為任意一個第一特徵,與所述目標特徵對應的密度鏈訊息包括N個特徵,所述N個特徵的第i個特徵為所述N個特徵的第i-1個特徵的第一近鄰特徵中的一個,且所述第i個特徵的密度大於所述第i-1個特徵的密度,N、i為正整數且1<iN,所述第一近鄰特徵包括與所述第i-1個特徵之間的距離小於或等於第二距離閾值的至少一個第一特徵,所述目標特徵為所述N個特徵中的第一個;特徵調整模組,用於根據與各個所述第一特徵對應的密度鏈訊息,分別對各個所述第一特徵進行調整,得到所述多個第一圖像的第二特徵,所述第二特徵為根據所述密度鏈訊息得到的一個新的特徵;結果確定模組,用於對所述多個第一圖像的第二特徵進行聚類,得到所述多個第一圖像的處理結果。
- 一種電子設備,其特徵在於,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置為調用所述記憶體儲存的指 令,以執行如請求項1至7其中任意一項所述的方法。
- 一種電腦可讀儲存媒體,其上儲存有電腦程式指令,其特徵在於,所述電腦程式指令被處理器執行時實現如請求項1至7其中任意一項所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010098842.0 | 2020-02-18 | ||
CN202010098842.0A CN111310664B (zh) | 2020-02-18 | 2020-02-18 | 图像处理方法及装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202133030A TW202133030A (zh) | 2021-09-01 |
TWI738349B true TWI738349B (zh) | 2021-09-01 |
Family
ID=71158298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109116706A TWI738349B (zh) | 2020-02-18 | 2020-05-20 | 圖像處理方法及圖像處理裝置、電子設備和電腦可讀儲存媒體 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20210279508A1 (zh) |
JP (1) | JP7114811B2 (zh) |
CN (1) | CN111310664B (zh) |
SG (1) | SG11202105513VA (zh) |
TW (1) | TWI738349B (zh) |
WO (1) | WO2021164100A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310664B (zh) * | 2020-02-18 | 2022-11-22 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
US11860977B1 (en) * | 2021-05-04 | 2024-01-02 | Amazon Technologies, Inc. | Hierarchical graph neural networks for visual clustering |
CN113706367B (zh) * | 2021-08-26 | 2024-05-17 | 北京市商汤科技开发有限公司 | 节点排布方式确定方法及装置、电子设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8675973B2 (en) * | 2010-03-11 | 2014-03-18 | Kabushiki Kaisha Toshiba | Signal classification apparatus |
TWI552007B (zh) * | 2012-01-17 | 2016-10-01 | Alibaba Group Holding Ltd | Method and apparatus for generating image index |
CN106874923A (zh) * | 2015-12-14 | 2017-06-20 | 阿里巴巴集团控股有限公司 | 一种商品的风格分类确定方法及装置 |
CN108920580A (zh) * | 2018-06-25 | 2018-11-30 | 腾讯科技(深圳)有限公司 | 图像匹配方法、装置、存储介质及终端 |
CN109801260A (zh) * | 2018-12-20 | 2019-05-24 | 北京海益同展信息科技有限公司 | 牲畜个数的识别方法及装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100116404A (ko) * | 2009-04-22 | 2010-11-01 | 계명대학교 산학협력단 | 영상정보로부터 독립세포와 군집세포를 분류하는 방법 및 장치 |
DE102013012780A1 (de) * | 2013-07-31 | 2015-02-05 | Connaught Electronics Ltd. | Verfahren zum Detektieren eines Zielobjekts durch Clusterbildung aus charakteristischen Merkmalen eines Bilds, Kamerasystem und Kraftfahrzeug |
JP2015184061A (ja) * | 2014-03-20 | 2015-10-22 | 株式会社東芝 | 抽出装置、方法及びプログラム |
CN108776787B (zh) * | 2018-06-04 | 2020-09-29 | 京东数字科技控股有限公司 | 图像处理方法及装置、电子设备、存储介质 |
CN110135295A (zh) * | 2019-04-29 | 2019-08-16 | 华南理工大学 | 一种基于迁移学习的无监督行人重识别方法 |
CN110348521A (zh) * | 2019-07-12 | 2019-10-18 | 创新奇智(重庆)科技有限公司 | 图像处理聚类方法及其系统、电子设备 |
CN110781975B (zh) * | 2019-10-31 | 2022-11-29 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN111310664B (zh) * | 2020-02-18 | 2022-11-22 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
-
2020
- 2020-02-18 CN CN202010098842.0A patent/CN111310664B/zh active Active
- 2020-03-26 JP JP2021526214A patent/JP7114811B2/ja active Active
- 2020-03-26 WO PCT/CN2020/081364 patent/WO2021164100A1/zh active Application Filing
- 2020-03-26 SG SG11202105513VA patent/SG11202105513VA/en unknown
- 2020-05-20 TW TW109116706A patent/TWI738349B/zh active
-
2021
- 2021-05-24 US US17/328,432 patent/US20210279508A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8675973B2 (en) * | 2010-03-11 | 2014-03-18 | Kabushiki Kaisha Toshiba | Signal classification apparatus |
TWI552007B (zh) * | 2012-01-17 | 2016-10-01 | Alibaba Group Holding Ltd | Method and apparatus for generating image index |
CN106874923A (zh) * | 2015-12-14 | 2017-06-20 | 阿里巴巴集团控股有限公司 | 一种商品的风格分类确定方法及装置 |
CN108920580A (zh) * | 2018-06-25 | 2018-11-30 | 腾讯科技(深圳)有限公司 | 图像匹配方法、装置、存储介质及终端 |
CN109801260A (zh) * | 2018-12-20 | 2019-05-24 | 北京海益同展信息科技有限公司 | 牲畜个数的识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111310664B (zh) | 2022-11-22 |
US20210279508A1 (en) | 2021-09-09 |
CN111310664A (zh) | 2020-06-19 |
WO2021164100A1 (zh) | 2021-08-26 |
TW202133030A (zh) | 2021-09-01 |
SG11202105513VA (en) | 2021-09-29 |
JP7114811B2 (ja) | 2022-08-08 |
JP2022524254A (ja) | 2022-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021196401A1 (zh) | 图像重建方法及装置、电子设备和存储介质 | |
TWI766286B (zh) | 圖像處理方法及圖像處理裝置、電子設備和電腦可讀儲存媒介 | |
TWI724736B (zh) | 圖像處理方法及裝置、電子設備、儲存媒體和電腦程式 | |
WO2020232977A1 (zh) | 神经网络训练方法及装置以及图像处理方法及装置 | |
TWI747325B (zh) | 目標對象匹配方法及目標對象匹配裝置、電子設備和電腦可讀儲存媒介 | |
WO2021008023A1 (zh) | 图像处理方法及装置、电子设备和存储介质 | |
TWI740309B (zh) | 圖像處理方法及裝置、電子設備和電腦可讀儲存介質 | |
TWI738349B (zh) | 圖像處理方法及圖像處理裝置、電子設備和電腦可讀儲存媒體 | |
TW202105246A (zh) | 人臉識別方法、電子設備和儲存介質 | |
TW202105199A (zh) | 資料更新方法、電子設備和儲存介質 | |
WO2021031609A1 (zh) | 活体检测方法及装置、电子设备和存储介质 | |
TWI773945B (zh) | 錨點確定方法、電子設備和儲存介質 | |
TWI738172B (zh) | 影片處理方法及裝置、電子設備、儲存媒體和電腦程式 | |
WO2016011741A1 (zh) | 自动连接无线局域网的方法及装置 | |
WO2021036382A1 (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN111259967B (zh) | 图像分类及神经网络训练方法、装置、设备及存储介质 | |
TWI757668B (zh) | 網路優化方法及裝置、圖像處理方法及裝置、儲存媒體 | |
CN111582383B (zh) | 属性识别方法及装置、电子设备和存储介质 | |
TWI785638B (zh) | 目標檢測方法、電子設備和電腦可讀儲存介質 | |
WO2019237870A1 (zh) | 目标匹配方法及装置、电子设备和存储介质 | |
WO2020192113A1 (zh) | 图像处理方法及装置、电子设备和存储介质 | |
TW202145064A (zh) | 對象計數方法、電子設備、電腦可讀儲存介質 | |
TW202119281A (zh) | 人臉識別方法、電子設備和儲存介質 | |
TW202129556A (zh) | 網路訓練方法及裝置、圖像處理方法及裝置、電子設備、電腦可讀儲存媒體及電腦程式 | |
WO2021061045A2 (zh) | 堆叠物体的识别方法及装置、电子设备和存储介质 |