TWI710964B - 圖像聚類方法及裝置、電子設備和儲存介質 - Google Patents

圖像聚類方法及裝置、電子設備和儲存介質 Download PDF

Info

Publication number
TWI710964B
TWI710964B TW108129691A TW108129691A TWI710964B TW I710964 B TWI710964 B TW I710964B TW 108129691 A TW108129691 A TW 108129691A TW 108129691 A TW108129691 A TW 108129691A TW I710964 B TWI710964 B TW I710964B
Authority
TW
Taiwan
Prior art keywords
image
type group
similarity
group
images
Prior art date
Application number
TW108129691A
Other languages
English (en)
Other versions
TW202036365A (zh
Inventor
徐靜
趙瑞
Original Assignee
大陸商深圳市商湯科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商深圳市商湯科技有限公司 filed Critical 大陸商深圳市商湯科技有限公司
Publication of TW202036365A publication Critical patent/TW202036365A/zh
Application granted granted Critical
Publication of TWI710964B publication Critical patent/TWI710964B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Algebra (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公開涉一種圖像聚類方法及裝置、電子設備和儲存介質,所述方法包括:獲取圖像集中每個圖像對應的人臉特徵以及屬性特徵;利用各圖像的人臉特徵的相似度對所述圖像集執行聚類處理,得到至少一個第一類組,每個所述第一類組包括的圖像為預測出的包括相同對象的圖像;利用每個所述第一類組內各圖像的人臉特徵和屬性特徵,確定針對每個第一類組的相似度矩陣;基於每個第一類組對應的相似度矩陣以及每個第一類組內的各圖像的人臉特徵,對每個第一類組內的各圖像進行重新聚類,得到至少一個第二類組,所述第二類組內的圖像為優化預測的具有相同對象的圖像。本公開能夠提高圖像聚類精度。

Description

圖像聚類方法及裝置、電子設備和儲存介質
本公開涉及電腦視覺領域,特別涉及一種圖像聚類方法及裝置、電子設備和儲存介質。
人臉聚類是電腦視覺中一個經典問題,其目的在於將海量的人臉資料按照身份進行劃分,把屬於同一個人的人臉圖片都彙聚在一起。人臉聚類在多個領域應用中產生非常重要的價值。例如在手機等終端領域中,人臉聚類可以把人物的照片按照身份進行歸類整理,方便用戶查看;在安防領域中,人臉聚類也有非常重要的應用,例如可以實現一人一檔案的人口管理等。但在實際應用中的人臉圖片存在姿態、光照、表情、遮擋和清晰度等因素的差異,這些問題對人臉聚類提出了很高難度的挑戰。
本公開實施例提供了一種能夠提高圖像聚類精度的圖像聚類方法及裝置、電子設備和儲存介質。
根據本公開的一方面,提供了一種圖像聚類方法,其包括:獲取圖像集中每個圖像對應的人臉特徵以及屬性特徵;利用各圖像的人臉特徵的相似度對所述圖像集執行聚類處理,得到至少一個第一類組,每個所述第一類組包括的圖像為預測出的包括相同對象的圖像;利用每個所述第一類組內各圖像的人臉特徵和屬性特徵,確定針對每個第一類組的相似度矩陣,所述相似度矩陣內的元素表示相應的第一類組內各圖像之間的相似度; 基於每個第一類組對應的相似度矩陣以及每個第一類組內的各圖像的人臉特徵,對每個第一類組內的各圖像進行重新聚類,得到至少一個第二類組,所述第二類組內的圖像為優化預測的具有相同對象的圖像。
在一些可能的實施方式中,所述利用各圖像的人臉特徵的相似度對所述圖像集執行聚類處理,得到至少一個第一類組,包括:確定所述圖像集中各圖像對應的人臉特徵之間的相似度;基於各人臉特徵之間的相似度,確定與每個圖像的人臉特徵相似度最高的K個圖像,K為大於或者等於1的整數;從與每個圖像的人臉特徵的相似度最高的K個圖像中選擇出人臉特徵的相似度超過第一閾值的第一圖像;根據每個圖像及其對應的第一圖像形成第一類組。
在一些可能的實施方式中,包括多個第一閾值,所述利用各圖像的人臉特徵的相似度對所述圖像集執行聚類處理,得到至少一個第一類組,還包括:針對不同的第一閾值,形成與每個所述第一閾值對應的第一類組。
在一些可能的實施方式中,所述利用每個所述第一類組內各圖像的人臉特徵和屬性特徵,確定針對每個第一類組的相似度矩陣,包括:基於每個第一類組內各圖像的人臉特徵之間的相似度確定針對相應第一類組的人臉特徵相似度矩陣,以及基於每個第一類組內各圖像的屬性特徵確定針對相應第一類組的屬性特徵相似度矩陣,所述人臉特徵相似度矩陣中的元素表示第一類組內各圖像的人臉特徵之間的相似度,所述屬性特徵相似度矩陣中的元素表示第一類組內各圖像的屬性特徵之間的相似度;根據每個第一類組的人臉特徵相似度矩陣和屬性特徵相似度矩陣,得到對應於每個第一類組的所述相似度矩陣。
在一些可能的實施方式中,所述基於每個第一類組內各圖像的屬性特徵確定針對相應第一類組的屬性特徵相似度矩陣,包括: 確定第一類組內每個圖像的屬性特徵與該第一類組內的全部圖像的屬性特徵之間的屬性特徵相似度;基於第一類組內各圖像的屬性特徵之間的相似度,確定針對所述第一類組的屬性特徵相似度矩陣。
在一些可能的實施方式中,所述人臉特徵相似度矩陣的第i行元素表示第一類組內第i個圖像的人臉特徵與該第一類組內的各圖像的人臉特徵之間的相似度;所述屬性特徵相似度矩陣的第i行元素表示第一類組內第i個圖像的屬性特徵與該第一類組內的各圖像的屬性特徵之間的相似度;i為大於或者等於1且小於或者等於N的整數,N表示第一類組內圖像的個數。
在一些可能的實施方式中,所述人臉特徵之間的相似度和/或所述屬性特徵之間的相似度為余弦相似度。
在一些可能的實施方式中,所述根據每個第一類組的人臉特徵相似度矩陣和屬性特徵相似度矩陣,得到對應於每個第一類組的所述相似度矩陣,包括:對每個第一類組的人臉特徵相似度矩陣和屬性特徵相似度矩陣執行至少一層卷積處理,得到所述對應於每個第一類組的相似度矩陣。
在一些可能的實施方式中,所述基於每個第一類組對應的相似度矩陣以及每個第一類組內的各圖像的人臉特徵,對每個第一類組內的各圖像進行重新聚類,得到至少一個第二類組,包括:對每個第一類組對應的相似度矩陣進行預處理,得到預處理後的相似度矩陣;對每個第一類組對應的預處理後相似度矩陣和第一類組內的各圖像的人臉特徵執行至少一層圖卷積處理,獲得針對每個第一類組的置信度矩陣,所述置信度矩陣中的元素表示第一類組內的各圖像被分配在該第一類組的置信度;根據第一類組內各圖像對應的置信度對第一類組執行重新聚類,獲得重新聚類後的第二類組。
在一些可能的實施方式中,所述根據第一類組內各圖像對應的置信度對第一類組執行重新聚類,獲得重新聚類後的第二類組,包括:從第一類組中刪除置信度低於第二閾值的圖像,獲得重新聚類後的第二類組。
在一些可能的實施方式中,所述基於每個第一類組對應的預處理後的相似度矩陣以及每個第一類組內的各圖像的人臉特徵,對每個第一類組內的各圖像進行重新聚類,得到至少一個第二類組,還包括:基於所述圖卷積處理,還獲得針對每個第一類組的類別置信度,所述類別置信度表示相應的第一類組的分類置信度;並且,在所述根據第一類組內各圖像對應的置信度對第一類組執行重新聚類,獲得重新聚類後的第二類組之前,所述方法還包括:回應於第一類組的所述類別置信度低於第三閾值的情況,刪除該第一類組。
在一些可能的實施方式中,所述根據第一類組內各圖像對應的置信度對第一類組執行重新聚類,獲得重新聚類後的第二類組,包括:按照類別置信度從高到低的順序對各第一類組進行排序;為第j個第一類組內置信度超過第二閾值的圖像分配第j標籤,並刪除該第j個第一類組內置信度低於所述第二閾值的圖像,形成針對該j個第一類組對應的第二類組,其中j為大於或者等於1且小於或者等於M的正整數,M表示第一類組的數量。
在一些可能的實施方式中,所述根據第一類組內各圖像對應的置信度對第一類組執行重新聚類,獲得重新聚類後的第二類組,還包括:在得到第M個第一類組對應的第二類組之後,回應於所述圖像集中存在未被聚類到任意第二類組的圖像的情況,基於各未被聚類到任意第二類組的圖像分別形成第二類組。
在一些可能的實施方式中,其特徵在於,所述對每個第一類組對應的相似度矩陣進行預處理,得到預處理後的相似度矩陣,包括:將所述第一類組對應的相似度矩陣與單位矩陣相加。
在一些可能的實施方式中,所述獲取圖像集中每個圖像對應的人臉特徵以及屬性特徵,包括:利用第一神經網路獲得所述圖像集中各圖像的人臉特徵,以及利用第二神經網路獲得所述圖像集中各圖像的屬性特徵。
根據本公開的第二方面,提供了一種圖像聚類裝置,其包括:獲取模組,其用於獲取圖像集中每個圖像對應的人臉特徵以及屬性特徵;第一聚類模組,其用於利用各圖像的人臉特徵的相似度對所述圖像集執行聚類處理,得到至少一個第一類組,每個所述第一類組包括的圖像為預測出的包括相同對象的圖像;確定模組,其用於利用每個所述第一類組內各圖像的人臉特徵和屬性特徵,確定針對每個第一類組的相似度矩陣,所述相似度矩陣內的元素表示相應的第一類組內各圖像之間的相似度;第二聚類模組,其用於基於每個第一類組對應的相似度矩陣以及每個第一類組內的各圖像的人臉特徵,對每個第一類組內的各圖像進行重新聚類,得到至少一個第二類組,所述第二類組內的圖像為優化預測的具有相同對象的圖像。
在一些可能的實施方式中,所述第一聚類模組還用於:確定所述圖像集中各圖像對應的人臉特徵之間的相似度;基於各人臉特徵之間的相似度,確定與每個圖像的人臉特徵相似度最高的K個圖像,K為大於或者等於1的整數;從與每個圖像的人臉特徵的相似度最高的K個圖像中選擇出人臉特徵的相似度超過第一閾值的第一圖像;根據每個圖像及其對應的第一圖像形成第一類組。
在一些可能的實施方式中,包括多個第一閾值,所述第一聚類模組還用於針對不同的第一閾值,形成與每個所述第一閾值對應的第一類組。
在一些可能的實施方式中,所述確定模組包括:第一確定單元,其用於基於每個第一類組內各圖像的人臉特徵之間的相似度確定針對相應第一類組的人臉特徵相似度矩陣,所述人臉特徵相似度矩陣中的元素表示第一類組內各圖像的人臉特徵之間的相似度;第二確定單元,其用於基於每個第一類組內各圖像的屬性特徵確定針對相應第一類組的屬性特徵相似度矩陣,所述屬性特徵相似度矩陣中的元素表示第一類組內各圖像的屬性特徵之間的相似度;第三確定單元,其用於根據每個第一類組的人臉特徵相似度矩陣和屬性特徵相似度矩陣,得到對應於每個第一類組的所述相似度矩陣。
在一些可能的實施方式中,所述第二確定單元還用於確定第一類組內每個圖像的屬性特徵與該第一類組內的全部圖像的屬性特徵之間的屬性特徵相似度;基於第一類組內各圖像的屬性特徵之間的相似度,確定針對所述第一類組的屬性特徵相似度矩陣。
在一些可能的實施方式中,所述人臉特徵相似度矩陣的第i行元素表示第一類組內第i個圖像的人臉特徵與該第一類組內的各圖像的人臉特徵之間的相似度;所述屬性特徵相似度矩陣的第i行元素表示第一類組內第i個圖像的屬性特徵與該第一類組內的各圖像的屬性特徵之間的相似度;i為大於或者等於1且小於或者等於N的整數,N表示第一類組內圖像的個數。
在一些可能的實施方式中,所述人臉特徵之間的相似度和/或所述屬性特徵之間的相似度為余弦相似度。
在一些可能的實施方式中,所述第三確定單元還用於對每個第一類組的人臉特徵相似度矩陣和屬性特徵相似度矩陣 執行至少一層卷積處理,得到所述對應於每個第一類組的相似度矩陣。
在一些可能的實施方式中,所述第二聚類模組包括:預處理單元,其用於對每個第一類組對應的相似度矩陣進行預處理,得到預處理後的相似度矩陣;圖卷積單元,其用於對每個第一類組對應的預處理後相似度矩陣和第一類組內的各圖像的人臉特徵執行至少一層圖卷積處理,獲得針對每個第一類組的置信度矩陣,所述置信度矩陣中的元素表示第一類組內的各圖像被分配在該第一類組的置信度;聚類單元,其用於根據第一類組內各圖像對應的置信度對第一類組執行重新聚類,獲得重新聚類後的第二類組。
在一些可能的實施方式中,所述聚類單元還用於從第一類組中刪除置信度低於第二閾值的圖像,獲得重新聚類後的第二類組。
在一些可能的實施方式中,所述圖卷積單元還用於基於所述圖卷積處理,獲得針對每個第一類組的類別置信度,所述類別置信度表示相應的第一類組的分類置信度;所述聚類單元還用於回應於第一類組的所述類別置信度低於第三閾值的情況,刪除該第一類組。
在一些可能的實施方式中,所述聚類單元還用於:按照類別置信度從高到低的順序對各第一類組進行排序;為第j個第一類組內置信度超過第二閾值的圖像分配第j標籤,並刪除該第j個第一類組內置信度低於所述第二閾值的圖像,形成針對該j個第一類組對應的第二類組,其中j為大於或者等於1且小於或者等於M的正整數,M表示第一類組的數量。
在一些可能的實施方式中,所述聚類單元還用於在得到第M個第一類組對應的第二類組之後,回應於所述圖像集中存在未被聚類到任意第二類組的圖像的情況,基於各未被聚類到任意第二類組的圖像分別形成第二類組。
在一些可能的實施方式中,所述預處理單元還用於將所述第一類組對應的相似度矩陣與單位矩陣相加,以執行所述預處理。
在一些可能的實施方式中,所述獲取模組包括:第一神經網路,其用於獲得所述圖像集中各圖像的人臉特徵;第二神經網路,其用於獲得所述圖像集中各圖像的屬性特徵。
根據本公開的協力廠商面,提供了一種電子設備,其包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置為:執行第一方面中任意一項所述的方法。
根據本公開的第四方面,提供了一種電腦可讀儲存介質,其上儲存有電腦程式指令,其特徵在於,所述電腦程式指令被處理器執行時實現第一方面中任意一項所述的方法。
本公開實施例,可以首先通過圖像中的人臉特徵對圖像進行初步聚類,而後可以同時利用圖像對應的人臉特徵和屬性特徵對初步聚類的結果進行優化聚類,可以增強類內圖像之間的相似度,降低類間圖像之間的相似度,提高聚類精度。
應當理解的是,以上的一般描述和後文的細節描述僅是示例性和解釋性的,而非限制本公開。
根據下面參考附圖對示例性實施例的詳細說明,本公開的其它特徵及方面將變得清楚。
10‧‧‧獲取模組
20‧‧‧第一聚類模組
30‧‧‧確定模組
40‧‧‧第二聚類模組
800‧‧‧電子設備
802‧‧‧處理組件
804‧‧‧記憶體
806‧‧‧電源組件
808‧‧‧多媒體組件
810‧‧‧音頻組件
812‧‧‧輸入/輸出介面
814‧‧‧感測器組件
816‧‧‧通信組件
820‧‧‧處理器
1900‧‧‧電子設備
1922‧‧‧處理組件
1926‧‧‧電源組件
1932‧‧‧記憶體
1950‧‧‧網路介面
1958‧‧‧輸入輸出介面
此處的附圖被併入說明書中並構成本說明書的一部分,這些附圖示出了符合本公開的實施例,並與說明書一起用於說明本公開的技術方案。
圖1示出根據本公開實施例的一種圖像聚類方法的流程圖;圖2示出根據本公開實施例的第一神經網路的結構示意圖;圖3示出根據本公開實施例的第二神經網路的結構示意圖;圖4示出根據本公開的一種圖像聚類方法中步驟S20的流程圖; 圖5示出根據本公開實施例的一種圖像聚類方法中步驟S30的流程圖;圖6示出根據本公開實施例的一種圖像聚類方法中步驟S31的流程圖;圖7示出根據本公開實施例的一種圖像聚類方法中步驟S31的另一流程圖;圖8示出根據本公開實施例的第三神經網路的結構示意圖;圖9示出根據本公開實施例的圖卷積網路的結構示意圖;圖10示出根據本公開實施例的一種圖像聚類方法中步驟S40的流程圖;圖11示出根據本公開實施的一種圖像聚類方法中步驟S43的流程圖;圖12示出根據本公開實施例的一種圖像聚類裝置的方塊圖;圖13示出根據本公開實施例的一種電子設備800的方塊圖;圖14示出根據本公開實施例的一種電子設備1900的方塊圖。
以下將參考附圖詳細說明本公開的各種示例性實施例、特徵和方面。附圖中相同的附圖標記表示功能相同或相似的元件。儘管在附圖中示出了實施例的各種方面,但是除非特別指出,不必按比例繪製附圖。
在這裡專用的詞“示例性”意為“用作例子、實施例或說明性”。這裡作為“示例性”所說明的任何實施例不必解釋為優於或好於其它實施例。
本文中術語“和/或”,僅僅是一種描述關聯對象的關聯關係,表示可以存在三種關係,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合,例如,包括A、B、C中的至少一種,可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。
另外,為了更好地說明本公開,在下文的具體實施方式中給出了眾多的具體細節。本領域技術人員應當理解,沒有 某些具體細節,本公開同樣可以實施。在一些實例中,對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述,以便於凸顯本公開的主旨。
本公開實施例提供了一種圖像聚類方法,該方法可以用於對多個圖像進行聚類分析,其中可以引入屬性特徵對聚類結果進行優化,提高聚類的精度。本公開實施例的圖像聚類方法可以應用在任意的電子設備或者伺服器中,其中電子設備可以包括:使用者設備(UE,User Equipment)、移動設備、蜂窩電話、無繩電話、個人數文書處理(PDA,Personal Digital Assistant)、手持設備、計算設備、車載設備、可穿戴設備等,伺服器可以為本機伺服器,也可以為雲端伺服器,上述僅為示例性說明,不作為本公開的具體限定。
圖1示出根據本公開實施例的一種圖像聚類方法的流程圖,其中,所述圖像聚類方法可以包括:S10:獲取圖像集中每個圖像對應的人臉特徵以及屬性特徵;S20:利用各圖像的人臉特徵的相似度對所述圖像集執行聚類處理,得到至少一個第一類組,每個所述第一類組包括的圖像為預測出的包括相同對象的圖像;S30:利用每個所述第一類組內各圖像的人臉特徵和屬性特徵,確定針對每個第一類組的相似度矩陣,所述相似度矩陣內的元素表示相應的第一類組內各圖像之間的相似度;S40:基於每個第一類組對應的相似度矩陣以及每個第一類組內的各圖像的人臉特徵,對每個第一類組內的各圖像進行重新聚類,得到至少一個第二類組,所述第二類組內的圖像為優化預測的具有相同對象的圖像。
本公開實施例的圖像聚類方法旨在實現圖像集中圖像的精確聚類。在執行所述圖像聚類方法時,可以首先需要獲取圖像集。本公開實施例的圖像集可以包括多幅圖像,各圖像中包括的對象可以相同也可以不同,本公開實施例用於根據圖像中的各對象的識別結果實現圖像集中圖像的聚類分析,通過聚類可以將相同對象的圖像歸為一類,從而可以方便的對相應對象的行動軌跡、行為、生活規律等進行分析,或者也可以用於歸檔處理, 本公開對此不做具體限定。其中,本公開實施例中圖像集中各圖像包括的對象可以為人物對象,對應的可以實現人物對象的圖像的聚類,在其他實施例中,本公開實施例方法也可以應用在其他類型對象的聚類分析中,對此不作具體限定。
另外,本公開實施例獲取的圖像集中的圖像可以由圖像設備採集,例如可以為通過手機等具有拍照功能的終端設備拍攝獲得,或者也可以由裝設在監控區域內的攝像設備採集獲得,在其他實施例中也可以通過其他方式獲得,本公開在此不一一舉例說明。
在獲得圖像集之後,本公開實施例即可以對獲得的圖像集中的各圖像進行分析,進而實現圖像的聚類。
其中,首先可以通過步驟S10獲得圖像集中每個圖像的人臉特徵以及屬性特徵。其中人臉特徵可以包括人臉關鍵點的位置資訊,如眼睛、眉毛、鼻子、嘴巴、耳朵、下巴、額頭等關鍵點的位置資訊,或者也可以包括其他關鍵點的位置資訊,上述僅為示例性說明,本公開實施例對人臉關鍵點的數量和類型不作限制。另外,獲取的屬性特徵可以用於表示圖像中對象的外部特徵,例如可以包括圖像中對象佩戴的配飾(眼鏡、帽子、口罩等)、膚色、性別、年齡以及服飾等資訊,在其他實施例中也可以包括其他資訊,在此不再一一舉例說明。
其中,本公開實施例獲取人臉特徵的方式可以包括通過人臉識別演算法提取人臉的人臉特徵,或者也可以通過具有人臉特徵提取功能的神經網路實現圖像中對象的人臉特徵的提取。例如,本公開實施例可以通過第一神經網路實現圖像集中各圖像的人臉特徵的提取。圖2示出根據本公開實施例的第一神經網路的結構示意圖。在一些可能的實施方式中,第一神經網路可以為卷積神經網路。第一神經網路的訓練過程可以包括:向第一神經網路輸入訓練圖像以及對應的真實標籤,該標籤為圖像中的各對象的標籤,通過第一神經網路的卷積等處理操作,實現圖像的特徵提取,並通過分類器對提取的特徵進行分類,得到預測的分類結果,在分類結果與真實標籤之間的損失值滿足訓練要求時,訓練完成。此時得到的第一神經網路即可以精確的提取圖像中人 物對象的人臉特徵,本公開實施例可以將圖像集中的各圖像輸入至第一神經網路,並將最後一層提取的特徵作為後續處理的人臉特徵。
另外,本公開實施例中,獲取屬性特徵的方式可以包括通過相應的特徵提取演算法進行屬性識別,例如可以通過人臉特徵提取演算法提取的人臉特徵識別年齡、性別和配飾等資訊,還可以通過對人體特徵的提取識別穿戴的服飾、性別等資訊。或者,在其他實施例中,也可以通過具有屬性特徵提取功能的神經網路實現圖像中對象的屬性特徵的提取。例如,本公開實施例可以通過第二神經網路實現圖像集中各圖像的屬性特徵的提取。圖3示出根據本公開實施例的第二神經網路的結構示意圖。在一些可能的實施方式中,第二神經網路可以為卷積神經網路。第二神經網路的訓練過程可以包括:向第二神經網路輸入訓練圖像以及對應的屬性特徵,通過第二神經網路的卷積等處理操作,實現圖像的特徵提取,並通過不同的分類器對屬性進行預測,得到預測的分類結果,在分類結果與真實屬性特徵之間的損失值滿足訓練要求時,訓練完成。此時得到的第二神經網路即可以精確的提取圖像中人物對象的屬性特徵,本公開實施例可以將圖像集中的各圖像輸入至第二神經網路,並將最後一層提取的特徵作為後續處理的屬性特徵。
通過上述實施例,即可以實現圖像集中各圖像的人臉特徵和屬性特徵的提取,通過上述方式,得到的人臉特徵和屬性特徵的精度較高,有利於後續的分類處理。
在得到各圖像的屬性特徵和人臉特徵之後,即可以通過得到的人臉特徵對圖像集中的各圖像進行初步聚類處理,即可以執行步驟S20。由於提取的人臉特徵可以用於對象的識別,本公開實施例可以根據人臉特徵判斷圖像中的對象是否為相同對象,並將判斷為相同對象的圖像歸為一類,從而對各圖像進行分類。
在一些可能的實施方式中,可以獲取各圖像的人臉特徵之間的相似度,並將與圖像集中的一個圖像A的人臉特徵超過相似度閾值的所有圖像B歸為一類,這樣即可以對圖像集中的 圖像進行初步分類,得到至少一個第一類組。其中,由於本公開實施例得到人臉特徵和屬性特徵均可以為向量或者矩陣的形式,因此,獲得人臉特徵之間的相似度的計算方式可以為計算兩個圖像的人臉特徵之間的歐式距離,或者也可以得到二者的余弦相似度,本公開對此不做具體限定。
在另一些可能的實施方式中,為了提高聚類效率,也可以先確定每個圖像的K近鄰,而後在從K近鄰中選擇出包括相同對象的圖像。圖4示出根據本公開的一種圖像聚類方法中步驟S20的流程圖,其中,所述利用各圖像的人臉特徵的相似度對所述圖像集執行聚類處理,得到至少一個第一類組(步驟S20),可以包括:S21:確定所述圖像集中各圖像對應的人臉特徵之間的相似度;S22:基於各人臉特徵之間的相似度,確定與每個圖像的人臉特徵相似度最高的K個圖像,K為大於或者等於1的整數;S23:從與每個圖像的人臉特徵相似度最高的K個圖像中選擇出人臉特徵的相似度超過第一閾值的第一圖像;S24:根據每個圖像及其對應的第一圖像形成第一類組。
如上述所述,可以基於人臉特徵確定圖像的人臉特徵之間的相似度。本公開實施例可以首先從圖像集中選擇出與每個圖像q的人臉特徵相似度最高的K個圖像,即與圖像q的人臉特徵相似度最高的K個人臉特徵對應的圖像。其中,本公開實施例可以採用faiss(Facebook AI Similarity Search,臉書人工智慧相似度檢索)檢索得到圖像集中的K個近鄰圖像,即與各圖像的人臉特徵最為相近的K個圖像。K近鄰的提取是通過faiss檢索實現的,其能夠實現快速提取最近鄰的方法。在其他實施例中,也可以通過其他方式快速的檢索出與各圖像相似度最高的K個近鄰圖像,本公開對此不作具體限定。
在得到每個圖像的K個近鄰圖像,即人臉特徵相似度最高的K個圖像之後,可以通過執行步驟S23在該K個圖像中選擇出滿足預設要求的圖像。例如,可以選擇出人臉特徵的相似度超過第一閾值的圖像。其中第一閾值的取值可以根據需求進行設 定,例如可以為0.9,或者也可以為其他數值,本公開對此不作具體限定。
本公開實施例可以得到每個圖像與其對應的K個圖像之間的相似度,即人臉特徵相似度,在該人臉特徵相似度超過預設的第一閾值時,即可以將該兩個對應的圖像歸為同一類中。其中,得到任意兩個圖像的人臉特徵之間的相似度的方式可以為計算歐式距離,或者計算余弦相似度。其中,余弦相似度的運算式為:
Figure 108129691-A0101-12-0014-1
其中,S1表示人臉特徵相似度,A和B分別表示兩個圖像的人臉特徵,i表示人臉特徵中元素,n為人臉特徵中的元素個數。
通過上述方式即可以在得到圖像集中的每個圖像q的K個近鄰圖像中,選擇出與圖像q的人臉特徵相似度大於第一閾值的圖像,此時可將選擇出的圖像稱作第一圖像。並可以將圖像q以及與其對應的各第一圖像歸為一類(第一類組)。如果在圖像q的K個近鄰圖像中,不存在相似度大於第一閾值的圖像,則可以將圖像q單獨的歸為一個第一類組, 由於本公開實施例可以首先檢索出每個圖像的K個近鄰圖像,而後在進一步根據第一閾值篩選出第一圖像,該過程減少了人臉特徵相似度的計算量,節約聚類的時間。
另外,在本公開的一些實施例中,可以設置多個第一閾值,在執行步驟S23時,可以獲得基於每個第一閾值得到的多組第一圖像,例如利用第一閾值v1得到與圖像q的人臉特徵相似度大於第一閾值v1的多個第一圖像p1和p2,利用第一閾值v2得到與圖像q的人臉特徵相似度大於第一閾值v2的多個第一圖像p1,利用第一閾值v3並未得到與圖像q的人臉特徵相似度大於第一閾值v3的第一圖像,其中v3大於v2,且v2大於v1。
對應的,針對每個第一閾值,根據對應得到的第一圖像可以形成不同的第一類組,例如針對第一閾值v1,得到第一類組{q,p1,p2},針對第一閾值v2,得到第一類組{q,p1},針 對第一閾值v1,得到第一類組{q}。也就是說,本公開實施例可以根據每個第一閾值得到相應的第一類組,通過設置不同的閾值,可以減少後續的優化聚類處理時,出現某些圖像並未被分類,或者並未被精確的聚類到相應的類組中的情況,提高聚類精度。
通過上述實施例即可以實現通過人臉特徵對圖像集中的圖像的初步聚類,進一步地,本公開實施例可以跟獲得的屬性特徵和人臉特徵一起對初步聚類得到的第一類組進行優化,提高聚類精度。其中,可以首先根據各第一類組內的圖像的人臉特徵得到該第一類組的人臉特徵相似度矩陣,以及根據各第一類組內圖像的屬性特徵得到該第一類組的屬性特徵相似度矩陣,並進一步利用得到的人臉特徵相似度矩陣和屬性特徵相似度矩陣對第一類組進行優化聚類。
圖5示出根據本公開實施例的一種圖像聚類方法中步驟S30的流程圖,其中所述利用每個所述第一類組內的圖像的人臉特徵和屬性特徵,確定針對每個第一類組的相似度矩陣(步驟S30),可以包括:S31:基於每個第一類組內各圖像的人臉特徵之間的相似度確定針對相應第一類組的人臉特徵相似度矩陣,以及基於每個第一類組內各圖像的屬性特徵確定針對相應第一類組的屬性特徵相似度矩陣,所述人臉特徵相似度矩陣中的元素表示第一類組內各圖像的人臉特徵之間的相似度,所述屬性特徵相似度矩陣中的元素表示第一類組內各圖像之間的屬性特徵之間的相似度;S32:根據每個第一類組的人臉特徵相似度矩陣和屬性特徵相似度矩陣,得到對應於每個第一類組的所述相似度矩陣。
其中,本公開實施例可以確定每個第一類組內各圖像的人臉特徵相似度,如在步驟S20中已經得到每個第一類組內各圖像之間的人臉特徵相似度,此時可以讀取得到的各圖像的人臉特徵之間的相似度,或者也可以重新計算每個第一類組內各圖像的人臉特徵之間的相似度,本公開對此不作具體限定,同時計算方式同樣可以為歐式距離計算方式或者余弦相似度計算方式。
在得到每個第一類組內任意兩個圖像的人臉特徵之間的相似度之後,即可以根據各人臉特徵相似度建立對應於該第 一類組的人臉特徵相似度矩陣。其中,人臉特徵相似度矩陣的第i行元素表示第一類組內第i個圖像的人臉特徵與該第一類組內的各圖像的人臉特徵之間的相似度。
圖6示出根據本公開實施例的一種圖像聚類方法中步驟S31的流程圖,其中,所述基於每個第一類組內各圖像的人臉特徵確定針對相應第一類組的人臉特徵相似度矩陣,包括:S3101:確定第一類組內每個圖像的人臉特徵與該第一類組內的全部圖像的人臉特徵之間的人臉特徵相似度;如上述所述,可以讀取步驟S20中得到的第一類組內任意兩個圖像之間的人臉特徵相似度,也可以重新計算各圖像之間的人臉特徵相似度,本公開對此不作具體限定。
S3102:將針對第一類組內第i個圖像的各人臉特徵相似度作為所述人臉特徵相似度矩陣的第i行元素,以形成所述人臉特徵相似度矩陣,i為大於或者等於1且小於或者等於N整數,N表示第一類組內圖像的個數。
在得到第一類組內每兩個圖像之間的人臉相似度之後,即可以按照各圖像的順序得到人臉特徵相似度矩陣。其中,人臉特徵相似度矩陣的維度可以根據第一類組內的圖像的數量確定,如包括N個圖像,則人臉特徵相似度矩陣為N*N維度。其中,Dij表示第i個圖像與第j個圖像之間的人臉特徵相似度。假設第一類組內包括圖像c、d、e和f,則得到的人臉特徵相似度矩陣可以表示為:
Figure 108129691-A0101-12-0016-2
其中,Dii表示第i個圖像和第i個圖像的相似度,即為1,i為c、d、e和f的編號。
通過上述即可以基於第一類組內任意兩個圖像之間的人臉特徵相似度得到人臉相似度特徵矩陣。
同樣的,本公開實施例還可以確定每個第一類組內各圖像屬性特徵之間的相似度,並對應的得到對應與第一類組的屬性特徵相似度矩陣,所述屬性特徵相似度矩陣的第i行元素表示 第一類組內第i個圖像的屬性特徵與該第一類組內的各圖像的屬性特徵之間的相似度。圖7示出根據本公開實施例的一種圖像聚類方法中步驟S31的另一流程圖,所述基於每個第一類組內各圖像的屬性特徵確定針對相應第一類組的屬性特徵相似度矩陣,可以包括:S3111:確定第一類組內每個圖像的屬性特徵與該第一類組內的全部圖像的屬性特徵之間的屬性特徵相似度;S3112:將針對第一類組內第i個圖像的屬性特徵相似度作為所述屬性特徵相似度矩陣的第i行元素,以形成所述屬性特徵相似度矩陣,i為大於或者等於1且小於或者等於N的整數,N表示第一類組內圖像的個數。
在一些可能的實施方式中,可以根據各圖像的屬性特徵確定兩個圖像之間的屬性特徵相似度,其中,可以計算兩個屬性特徵之間的歐式距離或者余弦相似度,得到任意兩個圖像之間的屬性特徵相似度。其中屬性特徵的余弦相似度的計算方式可以用下式表示:
Figure 108129691-A0101-12-0017-3
其中,S2表示屬性特徵相似度,C和D分別表示兩個圖像的屬性特徵,i表示屬性特徵中元素,n為屬性特徵中的元素個數。通過上述方式,可以得到任意兩個圖像的屬性特徵相似度。
在得到第一類組內每兩個圖像之間的屬性特徵相似度之後,即可以按照各圖像的順序得到屬性特徵相似度矩陣。其中,屬性特徵相似度矩陣的維度可以根據第一類組內的圖像的數量確定,如包括N個圖像,則屬性特徵相似度矩陣為N*N維度。其中,Eij表示第i個圖像與第j個圖像之間的屬性特徵相似度。假設第一類組內包括圖像c、d、e和f,則得到的屬性特徵相似度矩陣可以表示為:
Figure 108129691-A0101-12-0018-4
其中,Eii表示第i個圖像和第i個圖像的屬性特徵相似度,即為1,i為c、d、e和f的編號。
通過上述可以分別得到每個第一類組對應的人臉特徵相似度矩陣和屬性特徵相似度矩陣,繼而可以利用這兩個特徵相似度矩陣得到第一類組內各圖像的相似度矩陣,即可以執行步驟S32。本公開實施例中,可以將對應於第一類組的人臉特徵相似度矩陣和屬性特徵相似度矩陣連接,得到連接特徵矩陣,並對該連接特徵矩陣執行卷積處理,得到最終的對應於第一類組內各圖像的相似度矩陣。其中,對應於第一類組的相似度矩陣中的元素可以為第一類組內各圖像之間的圖像相似度(人臉相似度)。
在一些可能的實施方式中,可以通過第三神經網路執行第一類組對應的相似度矩陣的獲取。第三神經網路可以為經過訓練的、可以根據輸入的人臉特徵相似度矩陣和屬性特徵相似度矩陣,得到對應優化的圖像的相似度矩陣的神經網路,第三神經網路可以為卷積神經網路。圖8示出根據本公開實施例的第三神經網路的結構示意圖。如圖8所示,可以將第一類組對應的N行N列的人臉特徵相似度矩陣和屬性特徵相似度矩陣輸入至第三神經網路CNN中,經過第三神經網路的卷積處理可以得到最終的對應於第一類組的相似度矩陣。由於得到的相似度矩陣中各元素融入了人臉特徵和屬性特徵,因此可以提高得到的圖像之間的相似度精度。
在得到每個第一類組對應的相似度矩陣之後,即可以執行步驟S40。可以通過第一類組對應的相似度矩陣以及第一類組內各圖像對應的人臉特徵進一步對第一類組的聚類結果進行優化聚類,即重新聚類。其中,本公開實施例可以採用圖卷積的方式執行該重新聚類的過程。圖9示出根據本公開實施例的圖卷積網路的結構示意圖。圖10示出根據本公開實施例的一種圖像聚類方法中步驟S40的流程圖,其中,所述基於每個第一類組對應的相似度矩陣以及每個第一類組內的各圖像的人臉特徵,對每個第 一類組內的各圖像進行重新聚類,得到至少一個第二類組(步驟S40),可以包括:S41:對每個第一類組對應的相似度矩陣進行預處理,得到預處理後的相似度矩陣;本公開實施例在執行第一類組的重新聚類的過程中,可以對第一類組對應的相似度矩陣執行預處理,該預處理可以加強相似度矩陣中各圖像本身之間的相似度,從而區別於兩個不同圖像之間的相似度。其中,本公開實施例可以通過將每個第一類組的相似度矩陣與單位矩陣相加來執行所述預處理。例如,相似度矩陣 可以表示成A,則預處理後的相似度矩陣可以表示成:
Figure 108129691-A0101-12-0019-24
。 其中,
Figure 108129691-A0101-12-0019-26
表示預處理後的相似度矩陣,IN表示單位矩陣,即對角線的元素值為1,其餘元素為0的矩陣。其中單位矩陣的維度和相似度矩陣的維度相同。
S42:對每個第一類組對應的預處理後相似度矩陣和第一類組內的各圖像的人臉特徵執行至少一層圖卷積處理,獲得針對每個第一類組的置信度矩陣,所述置信度矩陣中的元素表示第一類組內的各圖像被分配在該第一類組的置信度;本公開實施例中,假設圖卷積處理可以包括x層,針對每層的處理的運算式可以為:
Figure 108129691-A0101-12-0019-5
其中,H(x)表示對一類組內的圖像執行第x層圖卷積的輸入特徵,H(x+1)表示對第一類組內的圖像執行第x層的圖卷積結果,即表 示第一類組內的圖像的分類置信度。
Figure 108129691-A0101-12-0019-30
表示預處理後的相似度矩 陣,D表示的元素表示
Figure 108129691-A0101-12-0019-27
中每行元素和,即
Figure 108129691-A0101-12-0019-28
,i表示行數, j表示列數,H(0)表示圖像的人臉特徵,W(x)表示第x層圖卷積處理的卷積參數。
通過上述方式,即可以得到第x層圖卷積處理得到的H(x+1),該H(x+1)即可以表示每個圖像在其所在的第一類組內的置信度,基於每個圖像得到的置信度即可以組成每個第一類組的置信度矩陣。
S43:根據第一類組內各圖像對應的置信度對第一類組執行重新聚類,獲得重新聚類後的第二類組。
在一些可能的實施方式中,由於步驟S42中得到了預測的每個圖像應當被分配在其所在的第一類組的置信度,因此,在該置信度較低的情況下,可以表示該圖像中的對象與其所在的第一類組對應的對象可能並不匹配,此時可以從第一類組中刪除該圖像。
具體的,本公開實施例可以將置信度低於第二閾值的圖像從第一類組中刪除,從而可以保證第一類組內各圖像的聚類精度。其中,第二閾值的取值可以根據需求進行設定,例如可以為0.95,或者也可以為其他值,本公開對此不作具體限定。
通過上述方式即可以對第一類組重新聚類處理,刪除其中置信度較低的圖像,從而獲得第一類組對應的第二類組,進一步的,在刪除所有第一類組中置信度低於第二閾值的圖像形成第二類組之後,如果存在未被聚類到任意第二類組的圖像,此時可以將未被聚類到任意第二類組的圖像分別形成一個第二類組。或者也可以根據各未被聚類到任意第二類組之間的人臉特徵相似度進一步對這些圖像進行聚類,如可以將相似度大於第二閾值的圖像聚類到一個第二類組內,該過程可以提高圖像聚類精度。
在另一些可能的實施方式中,在執行上述圖卷積處理的過程中,還可以同時各第一類組對應的類別置信度,該類別置信度可以用於表示第一類組的分類置信度,即表示第一類組內圖像的總體聚類置信度,如果該類別置信度較低,則說明相應的第一類組內的圖像可能並不對應於一個對象,或者可能同時對應於多個對象,即聚類精確度很低。本公開實施例可以將步驟S42中得到的第一類組中每個圖像的置信度中最高的置信度確定為第一類組的類別置信度,或者也可以將每個圖像的置信度的平均值作為該第一類組的類別置信度,在其他實施例中也可以通過其他方式得到該類別置信度,本公開不作具體限定,只要能夠用於表示第一類組的整體的聚類精確度,即可以作為本公開實施例。
為了提高重新聚類後得到的各第二類組的精確度,本公開實施例在所述根據第一類組內各圖像對應的置信度對第一類組執行重新聚類,獲得重新聚類後的第二類組之前,還可以將類別置信度低於第三閾值的第一類組刪除,即不保留類別置信度低於第三閾值的第一類組。同樣的,本公開實施例對第三閾值的 選取也不作具體限定,例如可以第三閾值可以為0.6,或者也可以為其他閾值,本公開對此不作具體限定。
由於在步驟S20執行聚類處理時,可以根據不同的閾值執行第一類組的聚類,因此,可以保證第一類組中樣本的多樣性,即一個圖像可能被聚類到不同的類組中,即使圖像被從第一類組中刪除或者刪除整個第一類組,也可以提高圖像能夠被精確的分配到其所對應的類組中的概率。下面對結合類別置信度執行重新聚類的過程進行詳細說明。
圖11示出根據本公開實施例的一種圖像聚類方法中步驟S43的流程圖。其中,所述根據第一類組內各圖像對應的置信度對第一類組執行重新聚類,獲得重新聚類後的第二類組,可以包括:S431:按照類別置信度從高到低的順序對各第一類組進行排序;如上述實施例,通過執行每個第一類組內各圖像的人臉特徵的圖卷積處理可以同時獲得第一類組的類別置信度,在得到各第一類組的類別置信度之後,即可以根據對類別置信度進行排序,本公開實施例可以按照類別置信度從高到低的順序對第一類組排序。
S432:為第j個第一類組內置信度超過第二閾值的圖像分配第j標籤,並刪除該第j個第一類組內置信度低於所述第二閾值的圖像,形成針對該j個第一類組對應的第二類組,其中j為大於或者等於1且小於或者等於M的正整數,M表示第一類組的數量。
在按照類別置信度從高到低的順序對第一類組進行排序之後,即可以分別對各第一類組進行優化聚類處理。其中,可以從置信度最高的第一類組開始,為該第一類組內圖像的置信度高於第二閾值的圖像分配第一標籤。其中,置信度大於或者第二閾值的圖像可以被確定為是與第一類組對應的對象為相同對象的圖像,此時可以為這些圖像分配標籤,用以標識圖像。而對於置信度小於第二閾值的圖像可以不被分配標籤,同時將這些小於第二閾值的圖像從該置信度最高的第一類組中刪除,通過該過程完成了置信度最高的第一類組的優化聚類,得到與其對應的第二 分組。在該過程中,由於置信度高於第二閾值的圖像已經被分配了第一標籤,此時可以將其餘第一類組內的相同圖像刪除,也就是說,如果一個圖像被分配了標籤,即表示其被聚類完成,此時可以將其於第一類組內的相同圖像刪除,不再對其重複聚類。
在對類別置信度最高的第一類組執行優化聚類之後,即可以對類別置信度位於第二位的第一類組進行重新聚類,其過程與上述過程相同。可以將該第二位的第一類組內置信度大於或者第二閾值的圖像分配第二標籤,這些被分配第二標籤的圖像可以被確定為是與第一類組對應的對象為相同對象的圖像,第二標籤可以用於標識圖像。而對於置信度小於第二閾值的圖像可以不被分配標籤,同時將這些小於第二閾值的圖像從該類別置信度在第二位的第一類組中刪除,通過該過程完成了第二位類別置信度的第一類組的優化聚類,得到與其對應的第二分組。在該過程中,由於置信度高於第二閾值的圖像已經被分配了第二標籤,此時可以將其餘第一類組內的相同圖像刪除,也就是說,如果一個圖像被分配了標籤,即表示其被聚類完成,此時可以將其於第一類組內的相同圖像刪除,不再對其重複聚類。
同理的,按照上述過程,可以按照類別置信度從高到低的順序對每個第一類組進行重新聚類,即可以為第j個第一類組內置信度超過第二閾值的圖像分配第j標籤,並刪除該第j個第一類組內置信度低於所述第二閾值的圖像,形成針對該j個第一類組對應的第二類組,其中j為大於或者等於1且小於或者等於M的正整數,M表示第一類組的數量。同時在第一類組內的圖像被分配標籤之後,即從其餘第一類組內將該圖像刪除,從而避免同一圖像被重複聚類。
通過上述方式可以實現各第一類組的重新聚類,提高了獲得的第二類組的聚類精度。進一步的,本公開實施例在完成了所有的第一類組的重新聚類過程之後,可能存在某些被刪除的圖像始終未被分配標籤,即圖像未被聚類到任意的第二類組內,此時可以將這些圖像分別形成第二類組。或者也可以分別識別這些未被聚類的圖像的人臉特徵相似度,如果該相似度高於第 一閾值,則可以將相似度高於第一閾值的圖像聚類到一起形成第二類組。從而可以進一步提高聚類精度。
綜上所述,本公開實施例,可以首先通過圖像中的人臉特徵對圖像進行初步聚類,而後可以同時利用圖像對應的人臉特徵和屬性特徵對初步聚類的結果進行優化聚類,可以增強類內圖像之間的相似度,降低類間圖像之間的相似度,提高聚類精度。
本領域技術人員可以理解,在具體實施方式的上述方法中,各步驟的撰寫順序並不意味著嚴格的執行順序而對實施過程構成任何限定,各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。
可以理解,本公開提及的上述各個方法實施例,在不違背原理邏輯的情況下,均可以彼此相互結合形成結合後的實施例,限於篇幅,本公開不再贅述。
此外,本公開還提供了圖像聚類裝置、電子設備、電腦可讀儲存介質、程式,上述均可用來實現本公開提供的任一種圖像聚類方法,相應技術方案和描述和參見方法部分的相應記載,不再贅述。
圖12示出根據本公開實施例的一種圖像聚類裝置的方塊圖,如圖12所示,所述圖像聚類裝置包括:獲取模組10,其用於獲取圖像集中每個圖像對應的人臉特徵以及屬性特徵;第一聚類模組20,其用於利用各圖像的人臉特徵的相似度對所述圖像集執行聚類處理,得到至少一個第一類組,每個所述第一類組包括的圖像為預測出的包括相同對象的圖像;確定模組30,其用於利用每個所述第一類組內各圖像的人臉特徵和屬性特徵,確定針對每個第一類組的相似度矩陣,所述相似度矩陣內的元素表示相應的第一類組內各圖像之間的相似度;第二聚類模組40,其用於基於每個第一類組對應的相似度矩陣以及每個第一類組內的各圖像的人臉特徵,對每個第一類組內的各圖像進行重新聚類,得到至少一個第二類組,所述第二類組內的圖像為優化預測的具有相同對象的圖像。
在一些可能的實施方式中,所述第一聚類模組還用於:確定所述圖像集中各圖像對應的人臉特徵之間的相似度;基於各人臉特徵之間的相似度,確定與每個圖像的人臉特徵相似度最高的K個圖像,K為大於或者等於1的整數;從與每個圖像的人臉特徵的相似度最高的K個圖像中選擇出人臉特徵的相似度超過第一閾值的第一圖像;根據每個圖像及其對應的第一圖像形成第一類組。
在一些可能的實施方式中,包括多個第一閾值,所述第一聚類模組還用於針對不同的第一閾值,形成與每個所述第一閾值對應的第一類組。
在一些可能的實施方式中,所述確定模組包括:第一確定單元,其用於基於每個第一類組內各圖像的人臉特徵之間的相似度確定針對相應第一類組的人臉特徵相似度矩陣,所述人臉特徵相似度矩陣中的元素表示第一類組內各圖像的人臉特徵之間的相似度;第二確定單元,其用於基於每個第一類組內各圖像的屬性特徵確定針對相應第一類組的屬性特徵相似度矩陣,所述屬性特徵相似度矩陣中的元素表示第一類組內各圖像的屬性特徵之間的相似度;第三確定單元,其用於根據每個第一類組的人臉特徵相似度矩陣和屬性特徵相似度矩陣,得到對應於每個第一類組的所述相似度矩陣。
在一些可能的實施方式中,所述第二確定單元還用於確定第一類組內每個圖像的屬性特徵與該第一類組內的全部圖像的屬性特徵之間的屬性特徵相似度;基於第一類組內各圖像的屬性特徵之間的相似度,確定針對所述第一類組的屬性特徵相似度矩陣。
在一些可能的實施方式中,所述人臉特徵相似度矩陣的第i行元素表示第一類組內第i個圖像的人臉特徵與該第一類組內的各圖像的人臉特徵之間的相似度; 所述屬性特徵相似度矩陣的第i行元素表示第一類組內第i個圖像的屬性特徵與該第一類組內的各圖像的屬性特徵之間的相似度;i為大於或者等於1且小於或者等於N整數,N表示第一類組內圖像的個數。
在一些可能的實施方式中,所述人臉特徵之間的相似度和/或所述屬性特徵之間的相似度為余弦相似度。
在一些可能的實施方式中,所述第三確定單元還用於對每個第一類組的人臉特徵相似度矩陣和屬性特徵相似度矩陣執行至少一層卷積處理,得到所述對應於每個第一類組的相似度矩陣。
在一些可能的實施方式中,所述第二聚類模組包括:預處理單元,其用於對每個第一類組對應的相似度矩陣進行預處理,得到預處理後的相似度矩陣;圖卷積單元,其用於對每個第一類組對應的預處理後相似度矩陣和第一類組內的各圖像的人臉特徵執行至少一層圖卷積處理,獲得針對每個第一類組的置信度矩陣,所述置信度矩陣中的元素表示第一類組內的各圖像被分配在該第一類組的置信度;聚類單元,其用於根據第一類組內各圖像對應的置信度對第一類組執行重新聚類,獲得重新聚類後的第二類組。
在一些可能的實施方式中,所述聚類單元還用於從第一類組中刪除置信度低於第二閾值的圖像,獲得重新聚類後的第二類組。
在一些可能的實施方式中,所述圖卷積單元還用於基於所述圖卷積處理,獲得針對每個第一類組的類別置信度,所述類別置信度表示相應的第一類組的分類置信度;所述聚類單元還用於回應於第一類組的所述類別置信度低於第三閾值的情況,刪除該第一類組。
在一些可能的實施方式中,所述聚類單元還用於:按照類別置信度從高到低的順序對各第一類組進行排序;為第j個第一類組內置信度超過第二閾值的圖像分配第j標籤,並刪除該第j個第一類組內置信度低於所述第二閾值的圖像, 形成針對該j個第一類組對應的第二類組,其中j為大於或者等於1且小於或者等於M的正整數,M表示第一類組的數量。
在一些可能的實施方式中,所述聚類單元還用於在得到第M個第一類組對應的第二類組之後,回應於所述圖像集中存在未被聚類到任意第二類組的圖像的情況,基於各未被聚類到任意第二類組的圖像分別形成第二類組。
在一些可能的實施方式中,所述預處理單元還用於將所述第一類組對應的相似度矩陣與單位矩陣相加,以執行所述預處理。
在一些可能的實施方式中,所述獲取模組包括:第一神經網路,其用於獲得所述圖像集中各圖像的人臉特徵;第二神經網路,其用於獲得所述圖像集中各圖像的屬性特徵。
在一些實施例中,本公開實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法,其具體實現可以參照上文方法實施例的描述,為了簡潔,這裡不再贅述。
本公開實施例還提出一種電腦可讀儲存介質,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現上述方法。電腦可讀儲存介質可以是非易失性電腦可讀儲存介質。
本公開實施例還提出一種電子設備,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置為上述方法。
電子設備可以被提供為終端、伺服器或其它形態的設備。
圖13示出根據本公開實施例的一種電子設備800的方塊圖。例如,電子設備800可以是行動電話,電腦,數位廣播終端,消息收發設備,遊戲控制台,平板設備,醫療設備,健身設備,個人數位助理等終端。
參照圖13,電子設備800可以包括以下一個或多個元件:處理組件802,記憶體804,電源組件806,多媒體組件808,音頻組件810,輸入/輸出(I/O)的介面812,感測器組件814,以及通信組件816。
處理組件802通常控制電子設備800的整體操作,諸如與顯示,電話呼叫,資料通信,相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器820來執行指令,以完成上述的方法的全部或部分步驟。此外,處理組件802可以包括一個或多個模組,便於處理組件802和其他元件之間的交互。例如,處理組件802可以包括多媒體模組,以方便多媒體組件808和處理組件802之間的交互。
記憶體804被配置為儲存各種類型的資料以支援在電子設備800的操作。這些資料的示例包括用於在電子設備800上操作的任何應用程式或方法的指令,連絡人資料,電話簿資料,消息,圖片,視頻等。記憶體804可以由任何類型的易失性或非易失性存放裝置或者它們的組合實現,如靜態隨機存取記憶體(SRAM),電可擦除可程式設計唯讀記憶體(EEPROM),可擦除可程式設計唯讀記憶體(EPROM),可程式設計唯讀記憶體(PROM),唯讀記憶體(ROM),磁記憶體,快閃記憶體,磁片或光碟。
電源組件806為電子設備800的各種元件提供電力。電源組件806可以包括電源管理系統,一個或多個電源,及其他與為電子設備800生成、管理和分配電力相關聯的組件。
多媒體組件808包括在所述電子設備800和使用者之間的提供一個輸出介面的螢幕。在一些實施例中,螢幕可以包括液晶顯示器(LCD)和觸摸面板(TP)。如果螢幕包括觸摸面板,螢幕可以被實現為觸控式螢幕,以接收來自使用者的輸入信號。觸摸面板包括一個或多個觸摸感測器以感測觸摸、滑動和觸摸面板上的手勢。所述觸摸感測器可以不僅感測觸摸或滑動動作的邊界,而且還檢測與所述觸摸或滑動操作相關的持續時間和壓力。在一些實施例中,多媒體組件808包括一個前置攝像頭和/或後置攝像頭。當電子設備800處於操作模式,如拍攝模式或視訊模式時,前置攝像頭和/或後置攝像頭可以接收外部的多媒體資料。每個前置攝像頭和後置攝像頭可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。
音頻組件810被配置為輸出和/或輸入音訊信號。例如,音頻組件810包括一個麥克風(MIC),當電子設備800處於操作模式,如呼叫模式、記錄模式和語音辨識模式時,麥克風被配置為接收外部音訊信號。所接收的音訊信號可以被進一步儲存在記憶體804或經由通信組件816發送。在一些實施例中,音頻組件810還包括一個揚聲器,用於輸出音訊信號。
I/O介面812為處理組件802和週邊介面模組之間提供介面,上述週邊介面模組可以是鍵盤,點擊輪,按鈕等。這些按鈕可包括但不限於:主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。
感測器組件814包括一個或多個感測器,用於為電子設備800提供各個方面的狀態評估。例如,感測器組件814可以檢測到電子設備800的打開/關閉狀態,元件的相對定位,例如所述元件為電子設備800的顯示器和小鍵盤,感測器組件814還可以檢測電子設備800或電子設備800一個元件的位置改變,使用者與電子設備800接觸的存在或不存在,電子設備800方位或加速/減速和電子設備800的溫度變化。感測器組件814可以包括接近感測器,被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器,如CMOS或CCD圖像感測器,用於在成像應用中使用。在一些實施例中,該感測器組件814還可以包括加速度感測器,陀螺儀感測器,磁感測器,壓力感測器或溫度感測器。
通信組件816被配置為便於電子設備800和其他設備之間有線或無線方式的通信。電子設備800可以接入基於通信標準的無線網路,如WiFi,2G或3G,或它們的組合。在一個示例性實施例中,通信組件816經由廣播通道接收來自外部廣播管理系統的廣播信號或廣播相關資訊。在一個示例性實施例中,所述通信組件816還包括近場通信(NFC)模組,以促進短程通信。例如,在NFC模組可基於射頻識別(RFID)技術,紅外資料協會(IrDA)技術,超寬頻(UWB)技術,藍牙(BT)技術和其他技術來實現。
在示例性實施例中,電子設備800可以被一個或多個應用專用積體電路(ASIC)、數位訊號處理器(DSP)、數位信號處理設備(DSPD)、可程式設計邏輯器件(PLD)、現場可程式設計閘陣列(FPGA)、控制器、微控制器、微處理器或其他電子元件實現,用於執行上述方法。
在示例性實施例中,還提供了一種非易失性電腦可讀儲存介質,例如包括電腦程式指令的記憶體804,上述電腦程式指令可由電子設備800的處理器820執行以完成上述方法。
圖14示出根據本公開實施例的一種電子設備1900的方塊圖。例如,電子設備1900可以被提供為一伺服器。參照圖14,電子設備1900包括處理組件1922,其進一步包括一個或多個處理器,以及由記憶體1932所代表的記憶體資源,用於儲存可由處理組件1922的執行的指令,例如應用程式。記憶體1932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外,處理組件1922被配置為執行指令,以執行上述方法。
電子設備1900還可以包括一個電源組件1926被配置為執行電子設備1900的電源管理,一個有線或無線網路介面1950被配置為將電子設備1900連接到網路,和一個輸入輸出(I/O)介面1958。電子設備1900可以操作基於儲存在記憶體1932的作業系統,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或類似。
在示例性實施例中,還提供了一種非易失性電腦可讀儲存介質,例如包括電腦程式指令的記憶體1932,上述電腦程式指令可由電子設備1900的處理組件1922執行以完成上述方法。
本公開可以是系統、方法和/或電腦程式產品。電腦程式產品可以包括電腦可讀儲存介質,其上載有用於使處理器實現本公開的各個方面的電腦可讀程式指令。
電腦可讀儲存介質可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存介質例如可以是──但不限於──電存放裝置、磁存放裝置、光存放裝置、電磁存放裝置、半導體存放裝置或者上述的任意合適的組合。電腦可讀儲存介質的更具體的例子(非窮舉的列表)包括:可擕式電腦盤、 硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可擦式可程式設計唯讀記憶體(EPROM或快閃記憶體)、靜態隨機存取記憶體(SRAM)、可擕式壓縮磁碟唯讀記憶體(CD-ROM)、數位多功能盤(DVD)、記憶棒、軟碟、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裡所使用的電腦可讀儲存介質不被解釋為暫態信號本身,諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波(例如,通過光纖電纜的光脈衝)、或者通過電線傳輸的電信號。
這裡所描述的電腦可讀程式指令可以從電腦可讀儲存介質下載到各個計算/處理設備,或者通過網路、例如網際網路、局域網、廣域網路和/或無線網下載到外部電腦或外部存放裝置。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、閘道電腦和/或邊緣伺服器。每個計算/處理設備中的網路介面卡或者網路介面從網路接收電腦可讀程式指令,並轉發該電腦可讀程式指令,以供儲存在各個計算/處理設備中的電腦可讀儲存介質中。
用於執行本公開操作的電腦程式指令可以是彙編指令、指令集架構(ISA)指令、機器指令、機器相關指令、微代碼、固件指令、狀態設置資料、或者以一種或多種程式設計語言的任意組合編寫的原始程式碼或目標代碼,所述程式設計語言包括對象導向的程式設計語言-諸如Smalltalk、C++等,以及常規的過程式程式設計語言-諸如“C”語言或類似的程式設計語言。電腦可讀程式指令可以完全地在使用者電腦上執行、部分地在使用者電腦上執行、作為一個獨立的套裝軟體執行、部分在使用者電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中,遠端電腦可以通過任意種類的網路-包括局域網(LAN)或廣域網路(WAN)-連接到使用者電腦,或者,可以連接到外部電腦(例如利用網際網路服務提供者來通過網際網路連接)。在一些實施例中,通過利用電腦可讀程式指令的狀態資訊來個性化定制電子電路,例如可程式設計邏輯電路、現場可程式設計閘陣列(FPGA)或可程式設計邏輯陣 列(PLA),該電子電路可以執行電腦可讀程式指令,從而實現本公開的各個方面。
這裡參照根據本公開實施例的方法、裝置(系統)和電腦程式產品的流程圖和/或方塊圖描述了本公開的各個方面。應當理解,流程圖和/或方塊圖的每個方塊以及流程圖和/或方塊圖中各方塊的組合,都可以由電腦可讀程式指令實現。
這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式設計資料處理裝置的處理器,從而生產出一種機器,使得這些指令在通過電腦或其它可程式設計資料處理裝置的處理器執行時,產生了實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存介質中,這些指令使得電腦、可程式設計資料處理裝置和/或其他設備以特定方式工作,從而,儲存有指令的電腦可讀介質則包括一個製造品,其包括實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作的各個方面的指令。
也可以把電腦可讀程式指令載入到電腦、其它可程式設計資料處理裝置、或其它設備上,使得在電腦、其它可程式設計資料處理裝置或其它設備上執行一系列操作步驟,以產生電腦實現的過程,從而使得在電腦、其它可程式設計資料處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作。
附圖中的流程圖和方塊圖顯示了根據本公開的多個實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上,流程圖或方塊圖中的每個方框可以代表一個模組、程式段或指令的一部分,所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作為替換的實現中,方框中所標注的功能也可以以不同於附圖中所標注的順序發生。例如,兩個連續的方框實際上可以基本並行地執行,它們有時也可以按相反的循序執行,這依所涉及的功能而定。也要注意的是,方塊圖和/或流程圖中的每個方框、以及方塊圖和/或流程圖中的方框的組合,可以用執行規定的功能或 動作的專用的基於硬體的系統來實現,或者可以用專用硬體與電腦指令的組合來實現。
以上已經描述了本公開的各實施例,上述說明是示例性的,並非窮盡性的,並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情況下,對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇,旨在最好地解釋各實施例的原理、實際應用或對市場中的技術的技術改進,或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。
圖1代表圖為流程圖,無元件符號說明

Claims (16)

  1. 一種圖像聚類方法,包括:獲取圖像集中每個圖像對應的人臉特徵以及屬性特徵;利用各圖像的人臉特徵的相似度對所述圖像集執行聚類處理,得到至少一個第一類組,每個所述第一類組包括的圖像為預測出的包括相同對象的圖像;利用每個所述第一類組內各圖像的人臉特徵和屬性特徵,確定針對每個第一類組的相似度矩陣,所述相似度矩陣內的元素表示相應的第一類組內各圖像之間的相似度;基於每個第一類組對應的相似度矩陣以及每個第一類組內的各圖像的人臉特徵,對每個第一類組內的各圖像進行重新聚類,得到至少一個第二類組,所述第二類組內的圖像為優化預測的具有相同對象的圖像;其中,所述利用每個所述第一類組內各圖像的人臉特徵和屬性特徵,確定針對每個第一類組的相似度矩陣,包括:基於每個第一類組內各圖像的人臉特徵之間的相似度確定針對相應第一類組的人臉特徵相似度矩陣,以及基於每個第一類組內各圖像的屬性特徵確定針對相應第一類組的屬性特徵相似度矩陣,所述人臉特徵相似度矩陣中的元素表示第一類組內各圖像的人臉特徵之間的相似度,所述屬性特徵相似度矩陣中的元素表示第一類組內各圖像的屬性特徵之間的相似度;根據每個第一類組的人臉特徵相似度矩陣和屬性特徵相似度矩陣,得到對應於每個第一類組的所述相似度矩陣。
  2. 根據請求項1所述的方法,所述利用各圖像的人臉特徵的相似度對所述圖像集執行聚類處理,得到至少一個第一類組,包括:確定所述圖像集中各圖像對應的人臉特徵之間的相似度;基於各人臉特徵之間的相似度,確定與每個圖像的人臉特徵相似度最高的K個圖像,K為大於或者等於1的整數;從與每個圖像的人臉特徵的相似度最高的K個圖像中選擇出人臉特徵的相似度超過第一閾值的第一圖像;根據每個圖像及其對應的第一圖像形成第一類組。
  3. 根據請求項2所述的方法,包括多個第一閾值,所述利用各圖像的人臉特徵的相似度對所述圖像集執行聚類處理,得到至少一個第一類組,還包括:針對不同的第一閾值,形成與每個所述第一閾值對應的第一類組。
  4. 根據請求項1所述的方法,所述基於每個第一類組內各圖像的屬性特徵確定針對相應第一類組的屬性特徵相似度矩陣,包括:確定第一類組內每個圖像的屬性特徵與該第一類組內的全部圖像的屬性特徵之間的屬性特徵相似度;基於第一類組內各圖像的屬性特徵之間的相似度,確定針對所述第一類組的屬性特徵相似度矩陣。
  5. 根據請求項1所述的方法,所述人臉特徵相似度矩陣的第i行元素表示第一類組內第i個圖像的人臉特徵與該第一類組內的各圖像的人臉特徵之間的相似度;所述屬性特徵相似度矩陣的第i行元素表示第一類組內第i個圖像的屬性特徵與該第一類組內的各圖像的屬性特徵之間的相似度;i為大於或者等於1且小於或者等於N整數,N表示第一類組內圖像的個數。
  6. 根據請求項1所述的方法,所述人臉特徵之間的相似度和/或所述屬性特徵之間的相似度為余弦相似度。
  7. 根據請求項1所述的方法,所述根據每個第一類組的人臉特徵相似度矩陣和屬性特徵相似度矩陣,得到對應於每個第一類組的所述相似度矩陣,包括:對每個第一類組的人臉特徵相似度矩陣和屬性特徵相似度矩陣執行至少一層卷積處理,得到所述對應於每個第一類組的相似度矩陣。
  8. 根據請求項1所述的方法,所述基於每個第一類組對應的相似度矩陣以及每個第一類組內的各圖像的人臉特徵,對每個第一類組內的各圖像進行重新聚類,得到至少一個第二類組,包括: 對每個第一類組對應的相似度矩陣進行預處理,得到預處理後的相似度矩陣;對每個第一類組對應的預處理後相似度矩陣和第一類組內的各圖像的人臉特徵執行至少一層圖卷積處理,獲得針對每個第一類組的置信度矩陣,所述置信度矩陣中的元素表示第一類組內的各圖像被分配在該第一類組的置信度;根據第一類組內各圖像對應的置信度對第一類組執行重新聚類,獲得重新聚類後的第二類組。
  9. 根據請求項8所述的方法,所述根據第一類組內各圖像對應的置信度對第一類組執行重新聚類,獲得重新聚類後的第二類組,包括:從第一類組中刪除置信度低於第二閾值的圖像,獲得重新聚類後的第二類組。
  10. 根據請求項8所述的方法,所述基於每個第一類組對應的預處理後的相似度矩陣以及每個第一類組內的各圖像的人臉特徵,對每個第一類組內的各圖像進行重新聚類,得到至少一個第二類組,還包括:基於所述圖卷積處理,還獲得針對每個第一類組的類別置信度,所述類別置信度表示相應的第一類組的分類置信度;並且,在所述根據第一類組內各圖像對應的置信度對第一類組執行重新聚類,獲得重新聚類後的第二類組之前,所述方法還包括:回應於第一類組的所述類別置信度低於第三閾值的情況,刪除該第一類組。
  11. 根據請求項10所述的方法,所述根據第一類組內各圖像對應的置信度對第一類組執行重新聚類,獲得重新聚類後的第二類組,包括:按照類別置信度從高到低的順序對各第一類組進行排序;為第j個第一類組內置信度超過第二閾值的圖像分配第j標籤,並刪除該第j個第一類組內置信度低於所述第二閾值的圖像,形成針對該j個第一類組對應的第二類組,其中j為大於或者等於1且小於或者等於M的正整數,M表示第一類組的數量。
  12. 根據請求項11所述的方法,所述根據第一類組內各圖像對應的置信度對第一類組執行重新聚類,獲得重新聚類後的第二類組,還包括:在得到第M個第一類組對應的第二類組之後,回應於所述圖像集中存在未被聚類到任意第二類組的圖像的情況,基於各未被聚類到任意第二類組的圖像分別形成第二類組。
  13. 根據請求項8所述的方法,所述對每個第一類組對應的相似度矩陣進行預處理,得到預處理後的相似度矩陣,包括:將所述第一類組對應的相似度矩陣與單位矩陣相加。
  14. 根據請求項1所述的方法,所述獲取圖像集中每個圖像對應的人臉特徵以及屬性特徵,包括:利用第一神經網路獲得所述圖像集中各圖像的人臉特徵,以及利用第二神經網路獲得所述圖像集中各圖像的屬性特徵。
  15. 一種電子設備,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置為:執行請求項1至14中任意一項所述的方法。
  16. 一種電腦可讀儲存介質,其上儲存有電腦程式指令,所述電腦程式指令被處理器執行時實現請求項1至14中任意一項所述的方法。
TW108129691A 2019-03-18 2019-08-20 圖像聚類方法及裝置、電子設備和儲存介質 TWI710964B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910204426.1A CN109800744B (zh) 2019-03-18 2019-03-18 图像聚类方法及装置、电子设备和存储介质
CN201910204426.1 2019-03-18

Publications (2)

Publication Number Publication Date
TW202036365A TW202036365A (zh) 2020-10-01
TWI710964B true TWI710964B (zh) 2020-11-21

Family

ID=66563593

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108129691A TWI710964B (zh) 2019-03-18 2019-08-20 圖像聚類方法及裝置、電子設備和儲存介質

Country Status (7)

Country Link
US (1) US11232288B2 (zh)
JP (1) JP6926339B2 (zh)
KR (1) KR20200113195A (zh)
CN (1) CN109800744B (zh)
SG (1) SG11202006328YA (zh)
TW (1) TWI710964B (zh)
WO (1) WO2020186689A1 (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800744B (zh) * 2019-03-18 2021-08-20 深圳市商汤科技有限公司 图像聚类方法及装置、电子设备和存储介质
CN110414429A (zh) * 2019-07-29 2019-11-05 佳都新太科技股份有限公司 人脸聚类方法、装置、设备和存储介质
CN110458078B (zh) * 2019-08-05 2022-05-06 高新兴科技集团股份有限公司 一种人脸图像数据聚类方法、系统及设备
CN110502651B (zh) * 2019-08-15 2022-08-02 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN110781247B (zh) * 2019-09-23 2021-11-26 华为技术有限公司 向量聚类方法、装置及存储介质
CN110705475B (zh) * 2019-09-30 2022-05-17 北京地平线机器人技术研发有限公司 用于目标对象识别的方法、装置、介质以及设备
CN111062407B (zh) * 2019-10-15 2023-12-19 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
US11763433B2 (en) * 2019-11-14 2023-09-19 Samsung Electronics Co., Ltd. Depth image generation method and device
CN111062431A (zh) * 2019-12-12 2020-04-24 Oppo广东移动通信有限公司 图像聚类方法、图像聚类装置、电子设备及存储介质
US11676018B2 (en) * 2020-01-30 2023-06-13 Mediatek Inc. Feature extraction with keypoint resampling and fusion (KRF)
CN111291827B (zh) * 2020-02-28 2023-12-22 北京市商汤科技开发有限公司 图像聚类方法、装置、设备及存储介质
CN111767909B (zh) * 2020-05-12 2022-02-01 合肥联宝信息技术有限公司 一种字符识别方法、设备及计算机可读存储介质
CN111695531B (zh) * 2020-06-16 2023-05-23 天津师范大学 一种基于异构卷积网络的跨域行人再识别方法
CN111898704B (zh) * 2020-08-17 2024-05-10 腾讯科技(深圳)有限公司 对内容样本进行聚类的方法和装置
CN112101238A (zh) * 2020-09-17 2020-12-18 浙江商汤科技开发有限公司 聚类方法及装置、电子设备和存储介质
KR20220053426A (ko) 2020-10-22 2022-04-29 삼성에스디에스 주식회사 이미지 클러스터링 장치 및 방법
CN112307938B (zh) * 2020-10-28 2022-11-11 深圳市商汤科技有限公司 数据聚类方法及其装置、电子设备、存储介质
JP7085605B2 (ja) * 2020-10-30 2022-06-16 みずほリサーチ&テクノロジーズ株式会社 モデル評価システム、モデル評価方法及びモデル評価プログラム
CN112560963A (zh) * 2020-12-17 2021-03-26 北京赢识科技有限公司 大规模人脸图像聚类方法、装置、电子设备及介质
CN113052245B (zh) * 2021-03-30 2023-08-25 重庆紫光华山智安科技有限公司 图像聚类方法和装置、电子设备及存储介质
CN113111934B (zh) * 2021-04-07 2023-08-08 杭州海康威视数字技术股份有限公司 一种图像分组方法、装置、电子设备及存储介质
CN113361334B (zh) * 2021-05-18 2022-07-22 山东师范大学 基于关键点优化和多跳注意图卷积行人重识别方法及系统
KR102414823B1 (ko) * 2021-11-02 2022-06-30 주식회사 에이젠글로벌 금융 서비스를 위한 금융 세그먼트 분화 방법 및 이러한 방법을 수행하는 장치
CN114492678A (zh) * 2022-04-13 2022-05-13 深圳前海中电慧安科技有限公司 一种人像聚类建档方法、装置、设备及存储介质
CN115273170A (zh) * 2022-06-14 2022-11-01 青岛云天励飞科技有限公司 图像聚类方法、装置、设备及计算机可读存储介质
CN115439676A (zh) * 2022-11-04 2022-12-06 浙江莲荷科技有限公司 图像聚类方法、装置以及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160379044A1 (en) * 2013-11-30 2016-12-29 Beijing Sense Time Technology Development Co., Ltd. Method and system for face image recognition
CN108154092A (zh) * 2017-12-13 2018-06-12 北京小米移动软件有限公司 人脸特征预测方法及装置
CN108171191A (zh) * 2018-01-05 2018-06-15 百度在线网络技术(北京)有限公司 用于检测人脸的方法和装置
TW201828156A (zh) * 2017-01-19 2018-08-01 阿里巴巴集團服務有限公司 圖像識別方法、度量學習方法、圖像來源識別方法及裝置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7783135B2 (en) * 2005-05-09 2010-08-24 Like.Com System and method for providing objectified image renderings using recognition information from images
CN101414348A (zh) * 2007-10-19 2009-04-22 三星电子株式会社 多角度人脸识别方法和系统
JP2010250634A (ja) * 2009-04-17 2010-11-04 Seiko Epson Corp 画像サーバー、画像検索システム、画像検索方法およびインデックス作成方法
CN103902689B (zh) * 2014-03-26 2016-07-20 小米科技有限责任公司 聚类方法、增量聚类方法及相关装置
US20170132457A1 (en) * 2014-06-27 2017-05-11 Beijing Qihoo Technology Company Limited Human face similarity recognition method and system
CN105574512A (zh) * 2015-12-21 2016-05-11 小米科技有限责任公司 图像处理的方法和装置
CN105654039B (zh) * 2015-12-24 2019-09-17 小米科技有限责任公司 图像处理的方法和装置
CN105868309B (zh) * 2016-03-24 2019-05-24 广东微模式软件股份有限公司 一种基于人脸图像聚类和识别技术的图像快速查找和自助打印方法
CN106250821A (zh) * 2016-07-20 2016-12-21 南京邮电大学 一种聚类再分类的人脸识别方法
CN106355170B (zh) * 2016-11-22 2020-03-20 Tcl集团股份有限公司 照片分类方法及装置
CN106815566B (zh) * 2016-12-29 2021-04-16 天津中科智能识别产业技术研究院有限公司 一种基于多任务卷积神经网络的人脸检索方法
CN107609466A (zh) * 2017-07-26 2018-01-19 百度在线网络技术(北京)有限公司 人脸聚类方法、装置、设备及存储介质
EP3680785A4 (en) * 2017-09-15 2020-09-23 Guangdong Oppo Mobile Telecommunications Corp., Ltd. IMAGE PROCESSING PROCESS AND APPARATUS, COMPUTER DEVICE AND NON-VOLATIL READABLE INFORMATION MEDIA
CN108875522B (zh) * 2017-12-21 2022-06-10 北京旷视科技有限公司 人脸聚类方法、装置和系统及存储介质
CN108229419B (zh) * 2018-01-22 2022-03-04 百度在线网络技术(北京)有限公司 用于聚类图像的方法和装置
CN108280477B (zh) * 2018-01-22 2021-12-10 百度在线网络技术(北京)有限公司 用于聚类图像的方法和装置
CN108491872B (zh) * 2018-03-16 2020-10-30 深圳市商汤科技有限公司 目标再识别方法和装置、电子设备、程序和存储介质
CN108960043A (zh) * 2018-05-21 2018-12-07 东南大学 一种用于电子相册管理的人物家庭关系构建方法
CN109063737A (zh) * 2018-07-03 2018-12-21 Oppo广东移动通信有限公司 图像处理方法、装置、存储介质及移动终端
CN109117803B (zh) * 2018-08-21 2021-08-24 腾讯科技(深圳)有限公司 人脸图像的聚类方法、装置、服务器及存储介质
CN109117808B (zh) * 2018-08-24 2020-11-03 深圳前海达闼云端智能科技有限公司 面部识别方法、装置、电子设备及计算机可读介质
CN109800744B (zh) * 2019-03-18 2021-08-20 深圳市商汤科技有限公司 图像聚类方法及装置、电子设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160379044A1 (en) * 2013-11-30 2016-12-29 Beijing Sense Time Technology Development Co., Ltd. Method and system for face image recognition
TW201828156A (zh) * 2017-01-19 2018-08-01 阿里巴巴集團服務有限公司 圖像識別方法、度量學習方法、圖像來源識別方法及裝置
CN108154092A (zh) * 2017-12-13 2018-06-12 北京小米移动软件有限公司 人脸特征预测方法及装置
CN108171191A (zh) * 2018-01-05 2018-06-15 百度在线网络技术(北京)有限公司 用于检测人脸的方法和装置

Also Published As

Publication number Publication date
CN109800744A (zh) 2019-05-24
CN109800744B (zh) 2021-08-20
US11232288B2 (en) 2022-01-25
SG11202006328YA (en) 2020-10-29
US20200327311A1 (en) 2020-10-15
WO2020186689A1 (zh) 2020-09-24
JP2021517998A (ja) 2021-07-29
JP6926339B2 (ja) 2021-08-25
TW202036365A (zh) 2020-10-01
KR20200113195A (ko) 2020-10-06

Similar Documents

Publication Publication Date Title
TWI710964B (zh) 圖像聚類方法及裝置、電子設備和儲存介質
TWI754855B (zh) 人臉圖像識別方法、裝置、電子設備及儲存介質
US11455491B2 (en) Method and device for training image recognition model, and storage medium
CN109389162B (zh) 样本图像筛选方法和装置、电子设备及存储介质
US11394675B2 (en) Method and device for commenting on multimedia resource
TW202109314A (zh) 圖像處理方法及圖像處理裝置、電子設備和電腦可讀儲存媒體
JP2022542127A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
TWI735112B (zh) 圖像生成方法、電子設備和儲存介質
TWI785267B (zh) 影像處理方法、電子設備和儲存介質
CN109963072B (zh) 对焦方法、装置、存储介质及电子设备
CN111582383B (zh) 属性识别方法及装置、电子设备和存储介质
KR20210048272A (ko) 음성 및 영상 자동 포커싱 방법 및 장치
CN111583919A (zh) 信息处理方法、装置及存储介质
CN110659690A (zh) 神经网络的构建方法及装置、电子设备和存储介质
CN111783517B (zh) 图像识别方法、装置、电子设备及存储介质
CN111259967A (zh) 图像分类及神经网络训练方法、装置、设备及存储介质
WO2021061045A2 (zh) 堆叠物体的识别方法及装置、电子设备和存储介质
CN111797746B (zh) 人脸识别方法、装置及计算机可读存储介质
CN114302231A (zh) 视频处理方法及装置、电子设备和存储介质
CN112232890A (zh) 数据处理方法、装置、设备及存储介质
KR20210048270A (ko) 복수 객체에 대한 오디오 포커싱 방법 및 장치
CN109977792B (zh) 人脸特征压缩方法及装置
CN112036356B (zh) 视频检测方法、装置、设备及存储介质
CN115708359A (zh) 视频片段的截取方法、装置及存储介质
CN115620703A (zh) 基于语音信号的指令触发方法、装置、设备和存储介质