TW202217597A

TW202217597A - 圖像的增量聚類方法、電子設備、電腦儲存介質

Info

Publication number: TW202217597A
Application number: TW109146540A
Authority: TW
Inventors: 劉凱鑒; 余世杰; 陳浩彬; 陳大鵬; 趙瑞
Original assignee: 大陸商浙江商湯科技開發有限公司
Priority date: 2020-10-30
Filing date: 2020-12-28
Publication date: 2022-05-01
Also published as: CN112257801B; WO2022088390A1; KR20220070482A; JP2023502863A; CN112257801A

Abstract

本發明提供了一種圖像的增量聚類方法、電子設備、電腦儲存介質，其中，該方法通過獲取第一圖像資料集的第一聚類簇；將所述第一聚類簇分割為M個第一子簇，並獲取所述M個第一子簇中每個第一子簇對應的第一聚類中心；所述M為大於或等於1的整數；獲取第二圖像資料集，利用所述第一聚類中心將所述第二圖像資料集與所述第一聚類簇合併。

Description

圖像的增量聚類方法、電子設備、電腦儲存介質

本發明實施例關於電腦視覺技術領域，尤其關於一種圖像的增量聚類方法、電子設備、電腦儲存介質。

深度學習的發展極大地推動了圖像處理技術的進步，以人臉識別為例，通過有監督學習得到的人臉識別模型在識別精度上有了質的飛躍，然而在面對爆炸式增長的無標籤圖像資料時，如何準確而快速地進行分類，仍是一個值得討論和研究的問題。

針對上述問題，本發明提供了一種圖像的增量聚類方法、電子設備、電腦儲存介質，有利於解決增量式聚類中因聚類中心發生漂移影響聚類效果的問題。

為實現上述目的，本發明實施例第一方面提供了一種圖像的增量聚類方法，該方法包括：獲取第一圖像資料集的第一聚類簇；將所述第一聚類簇分割為M個第一子簇，並獲取所述M個第一子簇中每個第一子簇對應的第一聚類中心；所述M為大於或等於1的整數；獲取第二圖像資料集，利用所述第一聚類中心將所述第二圖像資料集與所述第一聚類簇合併。

結合第一方面，在一種可能的實施方式中，所述第一聚類簇包括第一聚類簇A、第一聚類簇B和第一聚類簇C；所述利用所述第一聚類中心將所述第二圖像資料集與所述第一聚類簇合併，包括：在所述第二圖像資料集中包括多個圖像資料的情況下，對所述多個圖像資料進行聚類，得到孤立圖像資料和第二聚類簇；利用所述第一聚類中心將所述孤立圖像資料與所述第一聚類簇A合併；以及，利用所述第一聚類中心將所述第二聚類簇與所述第一聚類簇B合併；在所述第二圖像資料集中只存在單個圖像資料的情況下，利用所述第一聚類中心將所述單個圖像資料與所述第一聚類簇C合併。

這樣，對第二圖像資料集中的多個圖像資料進行聚類，利用得到孤立圖像資料和第二聚類簇分別與第一聚類簇中包括的第一聚類簇A、第一聚類簇B和第一聚類簇C進行合併，可以實現聚類簇吸收單個樣本和聚類簇間的合併。

結合第一方面，在一種可能的實施方式中，所述第一聚類簇存在對應的第二聚類中心；在利用所述第一聚類中心將所述第二圖像資料集與所述第一聚類簇合併之前，所述方法還包括：利用所述第二聚類中心從所述第一聚類簇中確定出K個第一聚類簇。

結合第一方面，在一種可能的實施方式中，所述第二聚類簇存在對應的第三聚類中心；所述利用所述第二聚類中心從所述第一聚類簇中確定出K個第一聚類簇，包括：獲取所述孤立圖像資料與所述第二聚類中心之間的第一相似度；根據所述第一相似度從高到低對所述第一聚類簇進行排序得到第一聚類簇序列，選取所述第一聚類簇序列中前K個第一聚類簇；以及，獲取所述第三聚類中心與所述第二聚類中心之間的第二相似度；根據所述第二相似度從高到低對所述第一聚類簇進行排序得到第二聚類簇序列，選取所述第二聚類簇序列中前K個第一聚類簇；或者，獲取所述單個圖像資料與所述第二聚類中心之間的第三相似度；根據所述第三相似度從高到低對所述第一聚類簇進行排序得到第三聚類簇序列，選取所述第三聚類簇序列中前K個第一聚類簇。

這樣，利用計算得到的第二聚類中心與孤立圖像資料、第三聚類中心和單個圖像資料的相似度，對第一聚類簇進行篩選，有利於確定出與第二圖像資料集中的圖像資料聚類類別更相近的第一聚類簇。

結合第一方面，在一種可能的實施方式中，所述利用所述第一聚類中心將所述孤立圖像資料與所述第一聚類簇A合併，包括：獲取所述孤立圖像資料與第一聚類中心D之間的第四相似度；所述第一聚類中心D為所述K個第一聚類簇中每個第一聚類簇的每個第一子簇對應的所述第一聚類中心；對於所述K個第一聚類簇中的每個第一聚類簇，確定所述每個第一聚類簇中所述第四相似度大於第一閾值的所述第一聚類中心D的第一數量；將所述K個第一聚類簇中所述第一數量最大的第一聚類簇確定為所述第一聚類簇A；將所述孤立圖像資料與所述第一聚類簇A合併。

這樣，第一聚類簇A中存在最多與孤立圖像資料更相近的第一子簇，將孤立圖像資料合併到第一聚類簇A中能夠使得聚類結果更為準確。

結合第一方面，在一種可能的實施方式中，所述利用所述第一聚類中心將所述第二聚類簇與所述第一聚類簇B合併，包括：將所述第二聚類簇分割為N個第二子簇，並獲取所述N個第二子簇中每個第二子簇對應的第四聚類中心；所述N為大於或等於1的整數；獲取所述第四聚類中心與第一聚類中心E之間的第五相似度；所述第一聚類中心E為K個第一聚類簇中每個第一聚類簇的每個第一子簇對應的所述第一聚類中心；對於所述K個第一聚類簇中的每個第一聚類簇，確定所述每個第一聚類簇中所述第五相似度大於第二閾值的所述第一聚類中心E的第二數量；將所述K個第一聚類簇中所述第二數量最大的第一聚類簇確定為所述第一聚類簇B；將所述第二聚類簇與所述第一聚類簇B合併。

這樣，第一聚類簇K數量最多，則將其確定為第一聚類簇B，也就是說第一聚類簇B存在最多與第二聚類簇的第二子簇更相近的第一子簇，將第二聚類簇合併到第一聚類簇B中能夠使得聚類結果更為準確。

結合第一方面，在一種可能的實施方式中，所述利用所述第一聚類中心將所述單個圖像資料與所述第一聚類簇C合併，包括：獲取所述單個圖像資料與第一聚類中心F之間的第六相似度；所述第一聚類中心F為所述K個第一聚類簇中每個第一聚類簇的每個第一子簇對應的所述第一聚類中心；對於所述K個第一聚類簇中的每個第一聚類簇，確定所述每個第一聚類簇中所述第六相似度大於第三閾值的所述第一聚類中心F的第三數量；將所述K個第一聚類簇中所述第三數量最大的第一聚類簇確定為所述第一聚類簇C；將所述單個圖像資料與所述第一聚類簇C合併。

這樣，第一聚類簇C中存在最多與單個圖像資料更相近的第一子簇，將單個圖像資料合併到第一聚類簇C中能夠使得聚類結果更為準確。

結合第一方面，在一種可能的實施方式中，所述M小於或等於第四閾值；在利用所述第一聚類中心將所述第二圖像資料集與所述第一聚類簇合併之後，所述方法還包括：將合併後的第一聚類簇分割為R個第三子簇，並獲取所述R個第三子簇中每個第三子簇的第五聚類中心；所述R為大於或等於1的整數；在所述R小於或等於所述第四閾值的情況下，保留所述R個第三子簇，並用所述R個第三子簇對應的所述第五聚類中心對所述第一聚類中心進行更新；在所述R大於所述第四閾值的情況下，獲取所述R個第三子簇中每個第三子簇中的圖像資料的第四數量；根據所述第四數量從大到小對所述R個第三子簇進行排序得到第四聚類簇序列，選取所述第四聚類簇序列中前P個第三子簇，並用所述P個第三子簇對應的所述第五聚類中心對所述第一聚類中心進行更新；所述P小於或等於所述第四閾值。

這樣，這樣可以在子簇較多的情況下，通過保留圖像資料較多的子簇來限制子中心的量，消除離群圖像資料的影響，不僅便於維護，還可使得在長時間大規模增量聚類場景下仍然具有良好的聚類效果。

結合第一方面，在一種可能的實施方式中，所述第一聚類簇通過對所述第一圖像資料集中的圖像資料進行聚類得到；所述將所述第一聚類簇分割為M個第一子簇，包括：獲取所述第一聚類簇中的圖像資料之間的第七相似度，得到相似度矩陣；基於所述相似度矩陣將所述第一聚類簇分割為所述M個第一子簇。

這樣，可以利用相似度矩陣將所述第一聚類簇分割為所述M個第一子簇。

結合第一方面，在一種可能的實施方式中，所述基於所述相似度矩陣將所述第一聚類簇分割為所述M個第一子簇，包括：獲取以所述第一聚類簇中的圖像資料為頂點構成的連通圖；從所述相似度矩陣中查詢得到所述連通圖中的頂點之間的所述第七相似度；將所述第七相似度大於第五閾值的多個頂點分割為一個第一子簇，得到所述M個第一子簇。

這樣，可以利用連通圖，將所述第七相似度大於第五閾值的多個頂點分割為一個第一子簇。

本發明實施例第二方面提供了一種圖像的增量聚類裝置，該裝置包括：第一獲取模組，配置為獲取第一圖像資料集的第一聚類簇；第一分割模組，配置為將所述第一聚類簇分割為M個第一子簇，並獲取所述M個第一子簇中每個第一子簇對應的第一聚類中心；所述M為大於或等於1的整數；合併模組，配置為獲取第二圖像資料集，利用所述第一聚類中心將所述第二圖像資料集與所述第一聚類簇合併。

本發明實施例協力廠商面提供了一種電子設備，該電子設備包括輸入裝置和輸出裝置，還包括處理器，適於實現一條或多條指令；以及，電腦儲存介質，所述電腦儲存介質儲存有一條或多條指令，所述一條或多條指令適於由所述處理器載入並執行上述第一方面任一種實施方式中的步驟。

本發明實施例第四方面提供了一種電腦儲存介質，所述電腦儲存介質儲存有一條或多條指令，所述一條或多條指令適於由處理器載入並執行上述第一方面任一種實施方式中的步驟。

本發明實施例第五方面提供了一種電腦程式產品，所述電腦程式產品包括一條或多條指令，所述一條或多條指令適於由處理器載入並執行上述第一方面任一種實施方式中的步驟。

可以看出，本發明實施例通過獲取第一圖像資料集的第一聚類簇；將所述第一聚類簇分割為M個第一子簇，並獲取所述M個第一子簇中每個第一子簇對應的第一聚類中心；所述M為大於或等於1的整數；獲取第二圖像資料集，利用所述第一聚類中心將所述第二圖像資料集與所述第一聚類簇合併。這樣將第一聚類簇分割為多個第一子簇，基於第一子簇的第一聚類中心實現第一聚類簇對第二圖像資料集的合併，通過維護多個第一聚類中心（即子中心）來解決隨著圖像資料的增多，聚類中心（第一聚類簇的聚類中心，即主中心）會受到新增圖像資料的影響而產生漂移的問題，從而有利於使聚類結果更為準確，以提高聚類效果。另外，在聚類過程中，第二圖像資料集不用再與第一圖像資料集整個進行相似度計算，有利於降低計算複雜度。

為了使本技術領域的人員更好地理解本發明方案，下面將結合本發明實施例中的附圖，對本發明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例可以是本發明一部分的實施例，而不是全部的實施例。基於本發明中的實施例，本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例，都應當屬於本發明保護的範圍。

本發明說明書、申請專利範圍和附圖中出現的術語“包括”和“具有”以及它們任何變形，意圖在於覆蓋不排他的包含。例如包含了一系列步驟或單元的過程、方法、系統、產品或設備沒有限定於已列出的步驟或單元，而是在本發明的一些實施例中還包括沒有列出的步驟或單元，或在本發明的一些實施例中還包括對於這些過程、方法、產品或設備固有的其它步驟或單元。此外，術語“第一”、“第二”和“第三”等是用於區別不同的物件，而並非用於描述特定的順序。

實際場景中，比如社交媒體、安防等，圖像往往是增量式產生，因此增量聚類在解決分類問題中有著廣泛的應用，傳統的增量式聚類需要維護一些第一聚類簇，但是不同的簇稀疏程度不同，隨著增量式聚類的不斷推移，聚類中心發生漂移的可能性增大，聚類效果反而有所下降。

本發明實施例提出一種針對圖像資料的增量聚類方法，可基於圖1所示的應用環境實施，如圖1所示，該應用環境主要包括圖像處理中心101和圖像採集設備102，圖像處理中心101包括但不限於伺服器1011、終端和資料庫。在一些場景中，圖像採集設備102可以是閘機通道、商場、社區等場景下布控的攝影機或攝影頭，用於進行圖像的採集，例如：人臉圖像、視頻監控圖像，圖像處理中心101可以是監控中心，圖像處理中心101可引入視頻雲節點（Video Cloud Node，VCN）1012進行視頻監控的管理，例如：在顯示器1013對圖像進行展示，將圖像聚類後儲存至資料庫1014。在一些場景中，圖像採集設備102還可以是使用者終端，其採集的圖像可以是使用者拍攝的照片，例如：用戶在社交媒體發佈的照片，圖像處理中心可以是社交媒體的處理後臺。其中，圖像採集設備102可將採集的圖像上傳到圖像處理中心101，由圖像處理中心101進行特徵提取、聚類分類、人臉識別等操作，由於圖像採集設備側的圖像每天是增量式產生，而增量式聚類需要維護一些聚類簇，隨著圖像資料的不斷增加，增量式聚類的不斷進行，原始維護的聚類簇的聚類中心會存在漂移的風險，使得聚類效果逐漸變差，因此伺服器1011可用於執行本發明實施例提出的增量聚類方法，以解決增量式聚類中因聚類中心發生漂移影響聚類效果的問題。其中，上述伺服器1011可以是獨立的物理伺服器，也可以是伺服器集群或者分散式系統，還可以是提供雲服務、雲資料庫、雲計算、雲函數、雲儲存、網路服務、雲通信、中介軟體服務、功能變數名稱服務、安全服務、以及大資料和人工智慧平臺等基礎雲計算服務的雲伺服器。

以下結合相關附圖對本發明實施例提供的圖像的增量聚類方法進行詳細闡述。

圖2為本發明實施例提供的一種圖像的增量聚類方法的流程示意圖，該圖像的增量聚類方法應用於伺服器，如圖2所示，包括步驟S21至S23。

S21，獲取第一圖像資料集的第一聚類簇。

第一圖像資料集是指當前批圖像資料之前已經被聚類為多個聚類簇的圖像資料集，例如：假設圖像採集設備在某一時刻批量上傳的人臉圖像的資料（比如人臉特徵）為當前批資料，那麼在這之前已經上傳至伺服器的人臉圖像的資料即為第一圖像資料集。第一聚類簇即對該第一圖像資料集中的圖像資料進行聚類得到的聚類簇，其採用的聚類演算法可以是K均值聚類演算法，應當理解的，每個聚類簇均存在對應的聚類中心，即第二聚類中心。

S22，將所述第一聚類簇分割為M個第一子簇，並獲取所述M個第一子簇中每個第一子簇對應的第一聚類中心；所述M為大於或等於1的整數。

圖3A為本發明實施例提供的一種第一聚類簇的連通圖的示意圖，如圖3A所示，第一聚類簇的連通圖包括第一聚類簇301和第二聚類中心302，其中，第一聚類簇301為對第一圖像資料集中的圖像資料進行聚類得到的聚類簇；第二聚類中心302為每個聚類簇存在對應的聚類中心。

圖3B為本發明實施例提供的一種將第一聚類簇分割為第一子簇的示意圖，如圖3B所示，第一聚類簇分割為第一子簇包括第一聚類簇301、第二聚類中心302、第一子簇303和第一聚類中心304，其中，第一子簇303為對第一聚類簇301進行分割後得到的子簇；第一聚類中心304為每個第一子簇的聚類中心。

第一子簇即對第一聚類簇進行分割後得到的子簇，對於第一資料集的每個第一聚類簇，獲取第一聚類簇中圖像資料之間的相似度，即第七相似度，得到相似度矩陣，然後獲取以第一聚類簇中的圖像資料為頂點構成的連通圖，如圖3A所示，對於連通圖中的每兩個頂點，從相似度矩陣中查詢其相似度，在對第一圖像資料集進行聚類的情況下採用的閾值為X，即第五閾值，則將相似度大於該X的多個圖像資料分割為一個更加緊密的第一子簇，由此得到M個第一子簇，如圖3B所示，圖3A所示的第一聚類簇經過連通圖的分析被分割為了M個第一子簇。在得到M個第一子簇後，獲取M個第一子簇中每個第一子簇的聚類中心，即第一聚類中心，那麼每個第一聚類簇便可由一個主聚類中心和M個子聚類中心描述。以更加緊湊的子簇來描述第一聚類簇，有利於解決單一主聚類中心隨著新增圖像資料的併入表達能力減弱的問題。

S23，獲取第二圖像資料集，利用所述第一聚類中心將所述第二圖像資料集與所述第一聚類簇合併。

圖4A為本發明實施例提供的一種第二圖像資料集的聚類結果的示意圖，如圖4A所示，第二圖像資料集的聚類結果包括第二圖像資料集401、第二聚類簇402、孤立圖像資料403和第三聚類中心404，其中，第二圖像資料集401為圖像採集設備上傳的當前批圖像的資料集；第二聚類簇402為對第二圖像資料集中的圖像資料進行聚類得到的聚類簇；孤立圖像資料403為未被聚類的孤立圖像資料；第三聚類中心404為每個第二聚類簇存在的聚類中心。

圖4B為本發明實施例提供的一種孤立圖像資料與第一聚類簇合併的示意圖，如圖4B所示，孤立圖像資料與第一聚類簇合併包括第一聚類簇A 405和孤立圖像資料403，其中，第一聚類簇A 405為第一聚類簇中確定出第一聚類簇A。

圖4C為本發明實施例提供的一種第二聚類簇與第一聚類簇合併的示意圖，如圖4C所示，第二聚類簇與第一聚類簇合併包括第一聚類簇B 406和第二聚類簇407，其中，第一聚類簇B 406與該第二聚類簇407屬於同一個聚類類別。

第二圖像資料集即圖像採集設備上傳的當前批圖像的資料集，由圖像採集設備上傳的圖像得到。其中，第一聚類簇包括第一聚類簇A、第一聚類簇B和第一聚類簇C，在第二圖像資料集中包括多個圖像資料的情況下，對多個圖像資料進行聚類，得到聚類結果。該聚類結果包括未被聚類的孤立圖像資料和若干個第二聚類簇，若干個第二聚類簇中每個第二聚類簇均存在對應的聚類中心，即第三聚類中心，請參見圖4A。對於該孤立圖像資料，從第一聚類簇中確定出第一聚類簇A，利用第一聚類中心將其與第一聚類簇A進行合併，即如圖4B所示將孤立圖像資料吸收到第一聚類簇A中，該第一聚類簇A與該孤立圖像資料屬於同一個聚類類別。對於每個第二聚類簇，從第一聚類簇中確定出第一聚類簇B，利用第一聚類中心將其與第一聚類簇B進行合併，即如圖4C所示進行聚類簇與聚類簇之間的合併，該第一聚類簇B與該第二聚類簇屬於同一個聚類類別。與孤立圖像資料類似，在第二圖像資料集中只存在單個圖像資料的情況下，即新增的圖像資料僅為單個，不用對第二圖像資料集進行聚類操作，從第一聚類簇中確定出第一聚類簇C，利用第一聚類中心將其與第一聚類簇C進行合併，該第一聚類簇C與該單個圖像資料屬於同一個聚類類別。

在一種可能的實施方式中，在利用所述第一聚類中心將所述第二圖像資料集與所述第一聚類簇合併之前，所述方法還包括：利用所述第二聚類中心從所述第一聚類簇中確定出K個第一聚類簇。

其中，在將第二圖像資料集與第一聚類簇合併之前，需要利用第一聚類簇的第二聚類中心對所有第一聚類簇進行初步篩選，從所有第一聚類簇中確定出K個第一聚類簇，然後再從K個聚類簇中選出上述的第一聚類簇A和第一聚類簇B，或第一聚類簇C。需要說明的是，該K個第一聚類簇可以是利用第二聚類中心對所有第一聚類進行排序後的top K個，例如：100個第一聚類簇經過排序後的前20個；該K個第一聚類簇還可以是經過排序後的所有第一聚類簇，例如：100個第一聚類簇經過排序後仍然選取100個。利用第二聚類中心對第一聚類簇進行初步的篩選，有利於確定出與第二圖像資料集中的圖像資料聚類類別更相近的第一聚類簇，比如上述的第一聚類簇A、第一聚類簇B和第一聚類簇C。

在一種可能的實施方式中，所述利用所述第二聚類中心從所述第一聚類簇中確定出K個第一聚類簇，包括：獲取所述孤立圖像資料與所述第二聚類中心之間的第一相似度；根據所述第一相似度從高到低對所述第一聚類簇進行排序得到第一聚類簇序列，選取所述第一聚類簇序列中前K個第一聚類簇；以及，獲取所述第三聚類中心與所述第二聚類中心之間的第二相似度；根據所述第二相似度從高到低對所述第一聚類簇進行排序得到第二聚類簇序列，選取所述第二聚類簇序列中前K個第一聚類簇；或者，獲取所述單個圖像資料與所述第二聚類中心之間的第三相似度；根據所述第三相似度從高到低對所述第一聚類簇進行排序得到第三聚類簇序列，選取所述第三聚類簇序列中前K個第一聚類簇。

其中，在第二圖像資料集經過聚類得到孤立圖像資料和多個第二聚類簇的情況下，針對孤立樣本圖像資料，計算其與每個第一聚類簇的第二聚類中心之間的第一相似度，針對第二聚類簇，計算其對應的第三聚類中心與每個第一聚類簇的第二聚類中心之間的第二相似度，分別按照第一相似度、第二相似度從高到低對所有第一聚類簇進行排序，得到對應的第一聚類簇序列和第二聚類簇序列，然後從第一聚類簇序列和第二聚類簇序列中分別選取出前K個第一聚類簇。在第二圖像資料集中只包括單個圖像資料的情況下，計算單個圖像資料與每個第一聚類簇的第二聚類中心的第三相似度，按照第三相似度從高到低對所有第一聚類簇進行排序，得到對應的第三聚類簇序列，然後從第三聚類簇序列中選取出前K個第一聚類簇。

在一種可能的實施方式中，所述利用所述第一聚類中心將所述孤立圖像資料與所述第一聚類簇A合併，包括：獲取所述孤立圖像資料與第一聚類中心D之間的第四相似度；所述第一聚類中心D為所述K個第一聚類簇中每個第一聚類簇的每個第一子簇對應的所述第一聚類中心；對於所述K個第一聚類簇中的每個第一聚類簇，確定所述每個第一聚類簇中所述第四相似度大於第一閾值的所述第一聚類中心D的第一數量；將所述K個第一聚類簇中所述第一數量最大的第一聚類簇確定為所述第一聚類簇A；將所述孤立圖像資料與所述第一聚類簇A合併。

其中，針對孤立樣本圖像資料的合併，需要從選取出的前K個第一聚類簇中確定出第一聚類簇A，需要說明的是，前K個第一聚類簇可以是排序後的所有第一聚類簇。首先計算孤立圖像資料與K個第一聚類簇中每個第一聚類簇的每個第一子簇的聚類中心（即第一聚類中心D）之間的相似度，確定為第四相似度，然後對K個第一聚類簇進行分析，確定每個第一聚類簇中滿足第四相似度大於第一閾值的第一聚類中心D的數量，確定為第一數量，將該第一數量最大的第一聚類簇確定為第一聚類簇A，例如：K個第一聚類簇中，第一聚類簇1有20個這樣的第一聚類中心D，第一聚類簇2有18個這樣的第一聚類中心D，…，第一聚類簇K有15個這樣的第一聚類中心D，第一聚類簇1數量最多，則將其確定為第一聚類簇A，也就是說第一聚類簇A中存在最多與孤立圖像資料更相近的第一子簇，將孤立圖像資料合併到第一聚類簇A中能夠使得聚類結果更為準確。

在一種可能的實施方式中，所述利用所述第一聚類中心將所述第二聚類簇與所述第一聚類簇B合併，包括：將所述第二聚類簇分割為N個第二子簇，並獲取所述N個第二子簇中每個第二子簇對應的第四聚類中心；所述N為大於或等於1的整數；獲取所述第四聚類中心與第一聚類中心E之間的第五相似度；所述第一聚類中心E為K個第一聚類簇中每個第一聚類簇的每個第一子簇對應的所述第一聚類中心；對於所述K個第一聚類簇中的每個第一聚類簇，確定所述每個第一聚類簇中所述第五相似度大於第二閾值的所述第一聚類中心E的第二數量；將所述K個第一聚類簇中所述第二數量最大的第一聚類簇確定為所述第一聚類簇B；將所述第二聚類簇與所述第一聚類簇B合併。

其中，針對聚類簇與聚類簇之間的合併，需要從選取出的前K個第一聚類簇中確定出第一聚類簇B，需要說明的是，前K個第一聚類簇可以是排序後的所有第一聚類簇。首先按照分割第一聚類簇的方式將每個第二聚類簇分割為N個第二子簇，並計算出每個第二子簇的聚類中心，即第四聚類中心，然後計算第四聚類中心與K個第一聚類簇中每個第一聚類簇的每個第一子簇的聚類中心（即第一聚類中心E）之間的相似度，確定為誒第五相似度，再對K個第一聚類簇進行分析，確定每個第一聚類簇中滿足第五相似度大於第二閾值的第一聚類中心E的數量，確定為第二數量，將該第二數量最大的第一聚類簇確定為第一聚類簇B，例如：K個第一聚類簇中，第一聚類簇1有30個這樣的第一聚類中心E，第一聚類簇2有15個這樣的第一聚類中心E，…，第一聚類簇K有40個這樣的第一聚類中心E，第一聚類簇K數量最多，則將其確定為第一聚類簇B，也就是說第一聚類簇B存在最多與第二聚類簇的第二子簇更相近的第一子簇，將第二聚類簇合併到第一聚類簇B中能夠使得聚類結果更為準確。

在一種可能的實施方式中，所述利用所述第一聚類中心將所述單個圖像資料與所述第一聚類簇C合併，包括：獲取所述單個圖像資料與第一聚類中心F之間的第六相似度；所述第一聚類中心F為所述K個第一聚類簇中每個第一聚類簇的每個第一子簇對應的所述第一聚類中心；對於所述K個第一聚類簇中的每個第一聚類簇，確定所述每個第一聚類簇中所述第六相似度大於第三閾值的所述第一聚類中心F的第三數量；將所述K個第一聚類簇中所述第三數量最大的第一聚類簇確定為所述第一聚類簇C；將所述單個圖像資料與所述第一聚類簇C合併。

其中，針對單個圖像資料的合併，需要從選取出的前K個第一聚類簇中確定出第一聚類簇C，需要說明的是，前K個第一聚類簇可以是排序後的所有第一聚類簇。首先計算單個圖像資料與K個第一聚類簇中每個第一聚類簇的每個第一子簇的聚類中心（即第一聚類中心F）之間的相似度，確定為第六相似度，然後對K個第一聚類簇進行分析，確定每個第一聚類簇中滿足第六相似度大於第三閾值的第一聚類中心F的數量，確定為第三數量，將該第三數量最大的第一聚類簇確定為第一聚類簇C，也就是說第一聚類簇C中存在最多與單個圖像資料更相近的第一子簇，將單個圖像資料合併到第一聚類簇C中能夠使得聚類結果更為準確。

在一種可能的實施方式中，所述M小於或等於第四閾值；在利用所述第一聚類中心將所述第二圖像資料集與所述第一聚類簇合併之後，如圖5所示，所述方法還包括： S51，將合併後的第一聚類簇分割為R個第三子簇，並獲取所述R個第三子簇中每個第三子簇的第五聚類中心；所述R為大於或等於1的整數； S52，在所述R小於或等於所述第四閾值的情況下，保留所述R個第三子簇，並用所述R個第三子簇對應的所述第五聚類中心對所述第一聚類中心進行更新； S53，在所述R大於所述第四閾值的情況下，獲取所述R個第三子簇中每個第三子簇中的圖像資料的第四數量； S54，根據所述第四數量從大到小對所述R個第三子簇進行排序得到第四聚類簇序列，選取所述第四聚類簇序列中前P個第三子簇，並用所述P個第三子簇對應的所述第五聚類中心對所述第一聚類中心進行更新；所述P小於或等於所述第四閾值。

其中，在將孤立圖像資料和第二聚類簇，或者單個圖像資料合併到某個第一聚類簇之後，由於原第一聚類簇有新的圖像資料被聚類進來，因此需要對原第一聚類簇的子中心進行更新。具體包括，按照分割第一聚類簇的方式將合併後的第一聚類簇分割為R個第三子簇，並計算出每個第三子簇的第五聚類中心，根據R確定第三子簇的數量，若第三子簇的數量小於或等於第四閾值，例如：20個，則保留這R個第三子簇，將這R個第三子簇的第五聚類中心作為合併後的第一聚類簇的新子中心，以更新原來的第一聚類中心，那麼，合併後的第一聚類簇就採用第二聚類中心和R個第五聚類中心進行描述。

另外，若第三子簇的數量大於第四閾值，則按照每個第三子簇中圖像資料的數量（即第四數量）從大到小對R個第三子簇進行排序得到第四聚類簇序列，選取前P個第三子簇保留下來，比如：僅保留前20個第三子簇，其餘第三子簇捨棄，將這P個第三子簇的第五聚類中心作為合併後的第一聚類簇的新子中心，以更新原來的第一聚類中心，那麼，合併後的第一聚類簇就採用第二聚類中心和P個第五聚類中心進行描述。應當理解的，每次將聚類簇分割為子簇的情況下，只保留預設數量個子簇，因此，M和N均小於或等於第四閾值，這樣可以在子簇較多的情況下，通過保留圖像資料較多的子簇來限制子中心的量，消除離群圖像資料的影響，不僅便於維護，還可使得在長時間大規模增量聚類場景下仍然具有良好的聚類效果。

請參見圖6，圖6為本發明實施例提供的另一種圖像的增量聚類方法的流程示意圖，如圖6所示，包括步驟S61至S66： S61，獲取第一圖像資料集的第一聚類簇； S62，將所述第一聚類簇分割為M個第一子簇，並獲取所述M個第一子簇中每個第一子簇對應的第一聚類中心；所述M為大於或等於1的整數； S63，獲取第二圖像資料集； S64，在所述第二圖像資料集中包括多個圖像資料的情況下，對所述多個圖像資料進行聚類，得到孤立圖像資料和第二聚類簇； S65，利用所述第一聚類中心將所述孤立圖像資料與第一聚類簇A合併；以及，利用所述第一聚類中心將所述第二聚類簇與第一聚類簇B合併； S66，在所述第二圖像資料集中只存在單個圖像資料的情況下，利用所述第一聚類中心將所述單個圖像資料與第一聚類簇C合併。

其中，上述步驟S61至S66的實施方式，在圖2至圖5所示的實施例中已有相關說明，且能達到相同或相似的有益效果，此處不再贅述。

深度學習研究上的突破不斷推動著人臉識別技術的發展，通過監督學習得到的人臉識別模型不斷取得突破，但是面對大量的無標籤的人臉資料時，如何準確快速地進行分類，是一個具有巨大的經濟、社會價值的問題。

由於實際的場景，比如社交媒體、安防等領域，圖片資料量往往比較大，而且資料是每天增量式地產生，因此增量式的聚類方式具有更大的實際應用價值。增量式的聚類方式在聚類過程需要維護一些聚類簇，傳統的聚類演算法採用單一的聚類中心來描述某個類簇，比如對類簇內所有樣本特徵取均值得到聚類中心，但是不同的簇稀疏程度不同，這樣簡單採用均值的單一聚類中心的方式容易喪失聚類簇內部的豐富樣本資訊，隨著增量式聚類的過程不斷進行，聚類效果會逐漸受到影響。

在人臉聚類的實際應用過程中，不同人的人臉特徵在特徵空間資料中分佈不盡相同，有些聚類簇內部樣本比較緊湊，有些聚類簇內部樣本可能會比較鬆散。如果採用單一中心來描述聚類簇的話，就會喪失聚類簇的這些內部資訊，隨著增量聚類的不斷進行，已有樣本的影響會不斷減少，隨著新樣本的加入，聚類中心發生漂移的風險增大。

本發明實施例提供的一種圖像的增量聚類方法，包括以下步驟。

S67、對聚類簇樣本間進行相似度計算，將一個聚類簇分割成若干個更加緊密的子簇。

對聚類簇樣本間進行相似度計算，可以獲得相似度矩陣

，假設聚類所採用的閾值為

，需要設定一個更高的閾值

，即滿足

來將一個聚類簇分割成若干個更加緊密的子簇。

可以使用基於連通圖分析的方式來分析聚類簇以獲得聚類簇的多中心。對聚類簇計算相似度矩陣，通過採用高於聚類所使用的相似度閾值，可以將一個聚類簇分割成若干個更加緊湊的子簇，這樣就可以得到多個子簇中心，加上作為主中心的聚類簇的中心，構成了聚類簇的多中心描述方式。

這裡，使用基於連通圖分析的聚類多中心的設計分析得到多個子中心包括：首先對每個聚類簇，通過設定更高的閾值（需要高於聚類閾值），將聚類簇打散成幾個更加緊湊的連通子圖，對每個連通子圖來計算子中心，從而可以獲得多個子中心，主中心還是對整個聚類簇採用常規的計算均值方式獲取。

S68、增量聚類過程中，每當有新批次數據加入的時候，會先對新資料進行一次聚類，會生成若干數量的聚類簇和未被聚類的孤立樣本。

S69、將生成若干數量的聚類簇和未被聚類的孤立樣本，和步驟S67得到已有的聚類結果進行聚類合併。

基於單一主中心和多個子中心的多中心增量聚類方法：在得到主中心和多個子中心的基礎上，在增量聚類的過程中，首先利用主中心和新增資料進行TopK搜索粗篩，然後根據多個子中心來進一步確定是否吸收新的樣本或者其他聚類簇。

這聚類合併的過程中過程涉及到聚類簇間的合併和聚類簇吸收單個孤立樣本。針對孤立樣本點的吸收，基於多中心的設計，首先會設定較低的閾值，採用主中心來搜索TopK，然後再根據子中心是否和樣本點滿足聚類閾值

。這種情況下可能會有多個聚類簇和孤立樣本點滿足這樣的要求，採用滿足要求的子中心數目最多的聚類簇作為目標簇。在聚類簇之間合併的時候，同樣採用較低閾值來篩選檢索TopK，然後根據聚類簇之間是否有子中心對滿足閾值要求，當有多個簇滿足要求的時候，取滿足閾值要求的子中心數目最多的簇作為目標簇。

使用基於多中心的增量聚類架構，綜合利用了多中心機制中的單一主中心和多個子中心，在TopK近鄰搜索的時候，採用主中心參與相似度的計算，然後通過多個子中心和待聚類的單個樣本或者聚類簇計算相似度，來進一步確定是否完成單個樣本的吸收或者聚類簇的合併。該架構綜合利用了多中心表示的優點，能夠在不增加過多計算複雜的情況下，同時提高聚類效果。

聚類簇合併或者新樣本加入的時候，需要對子中心進行更新，為了簡化計算，可以建模成子中心的聚類，從而實現子中心的合併更新。同時為了防止子中心資料過多，可以對每個子中心根據所代表的樣本點數目從大到小排序，例如，最多只取前20個子中心。

使用聚類簇多中心的增量更新的方式。在實際場景中，隨著資料量不斷增加，通過子中心的合併更新以及子中心數目的限制，可以防止子中心數目的不斷增加，帶來過多計算以及儲存的負擔，同時也可以減少離群干擾點的影響。

本發明實施例中，充分考慮到大規模資料下人臉聚類的複雜情況。

首先，提出了人臉聚類簇多中心的構建方式，可以用這種方式獲取人臉聚類簇的單一主中心和多個子中心的描述。解決了聚類簇的描述是維護一個聚類中心，忽略了聚類簇內部一些緊湊的子簇資訊的問題，和隨著資料不斷增加，由於維護單個聚類中心，聚類中心會不斷受到新樣本的影響，存在一定的中心漂移的風險，同時聚類簇內部已有樣本的影響會不斷弱化，減小中心的表達能力的問題。以及，單一的聚類中心在增量聚類過程中會喪失聚類簇內部的樣本資訊，增量式聚類過程中通常會對每個聚類簇維護單一的聚類中心，資料不斷加入的過程中，通過聚類中心去和新的樣本或者類簇之間來計算相似度來進行類簇的合併和更新，同時聚類中心也會不斷更新。隨著資料的不斷加入，單一的多中心會逐漸失去簇內部豐富的樣本資訊，同時也容易發生漂移，從而隨著時間積累而影響聚類效果的問題。

其次，提出了一種基於多中心的增量聚類架構，利用該架構，可以很好地平衡採用多中心表示進行增量聚類的計算複雜度和聚類精度，可以實現聚類簇吸收單個樣本和聚類簇間的合併，解決了現有技術的多中心的設置在大規模資料場景下會對聚類計算速度和儲存帶來很大影響的問題。

最後，提出了一種多中心的增量更新的方式，該方法通過子中心間的合併更新，以及子中心數目的限制，使得能夠在長時間大規模增量聚類場景下具有良好的聚類效果。基於該方式，可以限制多中心數目的增加，同時消除離群點的影響，解決了現有技術中由於人臉圖片的特徵一般具有較高的維度，維護多個多中心，在聚類的時候記憶體壓力成倍地增加的問題，和在TopK近鄰搜索的時候，使得計算額外成倍地增加的問題。

基於圖2或圖6所示方法實施例的描述，本發明實施例還提供一種圖像的增量聚類裝置，請參見圖7，圖7為本發明實施例提供的一種圖像的增量聚類裝置的結構示意圖，如圖7所示，該裝置包括：第一獲取模組71，配置為獲取第一圖像資料集的第一聚類簇；第一分割模組72，配置為將所述第一聚類簇分割為M個第一子簇，並獲取所述M個第一子簇中每個第一子簇對應的第一聚類中心；所述M為大於或等於1的整數；合併模組73，配置為獲取第二圖像資料集，利用所述第一聚類中心將所述第二圖像資料集與所述第一聚類簇合併。

在一種可能的實施方式中，所述第一聚類簇包括第一聚類簇A、第一聚類簇B和第一聚類簇C；在利用所述第一聚類中心將所述第二圖像資料集與所述第一聚類簇合併方面，合併模組73配置為：在所述第二圖像資料集中包括多個圖像資料的情況下，對所述多個圖像資料進行聚類，得到孤立圖像資料和第二聚類簇；利用所述第一聚類中心將所述孤立圖像資料與所述第一聚類簇A合併；以及，利用所述第一聚類中心將所述第二聚類簇與所述第一聚類簇B合併；在所述第二圖像資料集中只存在單個圖像資料的情況下，利用所述第一聚類中心將所述單個圖像資料與所述第一聚類簇C合併。

在一種可能的實施方式中，所述第一聚類簇存在對應的第二聚類中心；在利用所述第一聚類中心將所述第二圖像資料集與所述第一聚類簇合併之前，合併模組73還配置為：利用所述第二聚類中心從所述第一聚類簇中確定出K個第一聚類簇。

在一種可能的實施方式中，所述第二聚類簇存在對應的第三聚類中心；在利用所述第二聚類中心從所述第一聚類簇中確定出K個第一聚類簇方面，合併模組73配置為：獲取所述孤立圖像資料與所述第二聚類中心之間的第一相似度；根據所述第一相似度從高到低對所述第一聚類簇進行排序得到第一聚類簇序列，選取所述第一聚類簇序列中前K個第一聚類簇；以及，獲取所述第三聚類中心與所述第二聚類中心之間的第二相似度；根據所述第二相似度從高到低對所述第一聚類簇進行排序得到第二聚類簇序列，選取所述第二聚類簇序列中前K個第一聚類簇；或者，獲取所述單個圖像資料與所述第二聚類中心之間的第三相似度；根據所述第三相似度從高到低對所述第一聚類簇進行排序得到第三聚類簇序列，選取所述第三聚類簇序列中前K個第一聚類簇。

在一種可能的實施方式中，在利用所述第一聚類中心將所述孤立圖像資料與所述第一聚類簇A合併方面，合併模組73配置為：獲取所述孤立圖像資料與第一聚類中心D之間的第四相似度；所述第一聚類中心D為所述K個第一聚類簇中每個第一聚類簇的每個第一子簇對應的所述第一聚類中心；對於所述K個第一聚類簇中的每個第一聚類簇，確定所述每個第一聚類簇中所述第四相似度大於第一閾值的所述第一聚類中心D的第一數量；將所述K個第一聚類簇中所述第一數量最大的第一聚類簇確定為所述第一聚類簇A；將所述孤立圖像資料與所述第一聚類簇A合併。

在一種可能的實施方式中，在利用所述第一聚類中心將所述第二聚類簇與所述第一聚類簇B合併方面，合併模組73配置為：將所述第二聚類簇分割為N個第二子簇，並獲取所述N個第二子簇中每個第二子簇對應的第四聚類中心；所述N為大於或等於1的整數；獲取所述第四聚類中心與第一聚類中心E之間的第五相似度；所述第一聚類中心E為K個第一聚類簇中每個第一聚類簇的每個第一子簇對應的所述第一聚類中心；對於所述K個第一聚類簇中的每個第一聚類簇，確定所述每個第一聚類簇中所述第五相似度大於第二閾值的所述第一聚類中心E的第二數量；將所述K個第一聚類簇中所述第二數量最大的第一聚類簇確定為所述第一聚類簇B；將所述第二聚類簇與所述第一聚類簇B合併。

在一種可能的實施方式中，在利用所述第一聚類中心將所述單個圖像資料與所述第一聚類簇C合併方面，合併模組73配置為：獲取所述單個圖像資料與第一聚類中心F之間的第六相似度；所述第一聚類中心F為所述K個第一聚類簇中每個第一聚類簇的每個第一子簇對應的所述第一聚類中心；對於所述K個第一聚類簇中的每個第一聚類簇，確定所述每個第一聚類簇中所述第六相似度大於第三閾值的所述第一聚類中心F的第三數量；將所述K個第一聚類簇中所述第三數量最大的第一聚類簇確定為所述第一聚類簇C；將所述單個圖像資料與所述第一聚類簇C合併。

在一種可能的實施方式中，所述M小於或等於第四閾值；第一分割模組72還配置為：將合併後的第一聚類簇分割為R個第三子簇，並獲取所述R個第三子簇中每個第三子簇的第五聚類中心；所述R為大於或等於1的整數；在所述R小於或等於所述第四閾值的情況下，保留所述R個第三子簇，並用所述R個第三子簇對應的所述第五聚類中心對所述第一聚類中心進行更新；在所述R大於所述第四閾值的情況下，獲取所述R個第三子簇中每個第三子簇中的圖像資料的第四數量；根據所述第四數量從大到小對所述R個第三子簇進行排序得到第四聚類簇序列，選取所述第四聚類簇序列中前P個第三子簇，並用所述P個第三子簇對應的所述第五聚類中心對所述第一聚類中心進行更新；所述P小於或等於所述第四閾值。

在一種可能的實施方式中，在將所述第一聚類簇分割為M個第一子簇方面，第一分割模組72配置為：獲取所述第一聚類簇中的圖像資料之間的第七相似度，得到相似度矩陣；基於所述相似度矩陣將所述第一聚類簇分割為所述M個第一子簇。

在一種可能的實施方式中，在基於所述相似度矩陣將所述第一聚類簇分割為所述M個第一子簇方面，第一分割模組72配置為：獲取以所述第一聚類簇中的圖像資料為頂點構成的連通圖；從所述相似度矩陣中查詢得到所述連通圖中的頂點之間的所述第七相似度；將所述第七相似度大於第五閾值的多個頂點分割為一個第一子簇，得到所述M個第一子簇。

根據本發明的一個實施例，圖7所示的圖像的增量聚類裝置中的各個單元可以分別或全部合併為一個或若干個另外的單元來構成，或者其中的某個（些）單元還可以再拆分為功能上更小的多個單元來構成，這可以實現同樣的操作，而不影響本發明的實施例的技術效果的實現。上述單元是基於邏輯功能劃分的，在實際應用中，一個單元的功能也可以由多個單元來實現，或者多個單元的功能由一個單元實現。在本發明的其它實施例中，基於圖像的增量聚類裝置也可以包括其它單元，在實際應用中，這些功能也可以由其它單元協助實現，並且可以由多個單元協作實現。

根據本發明的另一個實施例，可以通過在包括中央處理單元（CPU）、隨機存取儲存介質（RAM）、唯讀儲存介質（ROM）等處理元件和記憶元件的例如電腦的通用計算設備上運行能夠執行如圖2或圖6中所示的相應方法所涉及的各步驟的電腦程式（包括程式碼），來構造如圖7所示的圖像的增量聚類裝置設備，以及來實現本發明實施例的圖像的增量聚類方法。所述電腦程式可以記載於例如電腦可讀記錄介質上，並通過電腦可讀記錄介質裝載於上述計算設備中，並在其中運行。

基於上述方法實施例和裝置實施例的描述，本發明實施例還提供一種電子設備。請參見圖8，該電子設備至少包括處理器81、輸入裝置82、輸出裝置83以及電腦儲存介質84。其中，電子設備內的處理器81、輸入裝置82、輸出裝置83以及電腦儲存介質84可通過匯流排或其他方式連接。

電腦儲存介質84可以儲存在電子設備的記憶體中，所述電腦儲存介質84配置為儲存電腦程式，所述電腦程式包括程式指令，所述處理器81配置為執行所述電腦儲存介質84儲存的程式指令。處理器81（或稱CPU（Central Processing Unit，中央處理器））是電子設備的計算核心以及控制核心，其適於實現一條或多條指令，適於載入並執行一條或多條指令從而實現相應方法流程或相應功能。

在一個實施例中，本發明實施例提供的電子設備的處理器81可以配置為進行一系列圖像的增量聚類處理：獲取第一圖像資料集的第一聚類簇；將所述第一聚類簇分割為M個第一子簇，並獲取所述M個第一子簇中每個第一子簇對應的第一聚類中心；所述M為大於或等於1的整數；獲取第二圖像資料集，利用所述第一聚類中心將所述第二圖像資料集與所述第一聚類簇合併。

再一個實施例中，所述第一聚類簇包括第一聚類簇A、第一聚類簇B和第一聚類簇C；處理器81執行所述利用所述第一聚類中心將所述第二圖像資料集與所述第一聚類簇合併，包括：在所述第二圖像資料集中包括多個圖像資料的情況下，對所述多個圖像資料進行聚類，得到孤立圖像資料和第二聚類簇；利用所述第一聚類中心將所述孤立圖像資料與所述第一聚類簇A合併；以及，利用所述第一聚類中心將所述第二聚類簇與所述第一聚類簇B合併；在所述第二圖像資料集中只存在單個圖像資料的情況下，利用所述第一聚類中心將所述單個圖像資料與所述第一聚類簇C合併。

再一個實施例中，所述第一聚類簇存在對應的第二聚類中心；在利用所述第一聚類中心將所述第二圖像資料集與所述第一聚類簇合併之前，處理器81還配置為執行：利用所述第二聚類中心從所述第一聚類簇中確定出K個第一聚類簇。

再一個實施例中，所述第二聚類簇存在對應的第三聚類中心；處理器81執行所述利用所述第二聚類中心從所述第一聚類簇中確定出K個第一聚類簇，包括：獲取所述孤立圖像資料與所述第二聚類中心之間的第一相似度；根據所述第一相似度從高到低對所述第一聚類簇進行排序得到第一聚類簇序列，選取所述第一聚類簇序列中前K個第一聚類簇；以及，獲取所述第三聚類中心與所述第二聚類中心之間的第二相似度；根據所述第二相似度從高到低對所述第一聚類簇進行排序得到第二聚類簇序列，選取所述第二聚類簇序列中前K個第一聚類簇；或者，獲取所述單個圖像資料與所述第二聚類中心之間的第三相似度；根據所述第三相似度從高到低對所述第一聚類簇進行排序得到第三聚類簇序列，選取所述第三聚類簇序列中前K個第一聚類簇。

再一個實施例中，處理器81執行所述利用所述第一聚類中心將所述孤立圖像資料與所述第一聚類簇A合併，包括：獲取所述孤立圖像資料與第一聚類中心D之間的第四相似度；所述第一聚類中心D為所述K個第一聚類簇中每個第一聚類簇的每個第一子簇對應的所述第一聚類中心；對於所述K個第一聚類簇中的每個第一聚類簇，確定所述每個第一聚類簇中所述第四相似度大於第一閾值的所述第一聚類中心D的第一數量；將所述K個第一聚類簇中所述第一數量最大的第一聚類簇確定為所述第一聚類簇A；將所述孤立圖像資料與所述第一聚類簇A合併。

再一個實施例中，處理器81執行所述利用所述第一聚類中心將所述第二聚類簇與所述第一聚類簇B合併，包括：將所述第二聚類簇分割為N個第二子簇，並獲取所述N個第二子簇中每個第二子簇對應的第四聚類中心；所述N為大於或等於1的整數；獲取所述第四聚類中心與第一聚類中心E之間的第五相似度；所述第一聚類中心E為K個第一聚類簇中每個第一聚類簇的每個第一子簇對應的所述第一聚類中心；對於所述K個第一聚類簇中的每個第一聚類簇，確定所述每個第一聚類簇中所述第五相似度大於第二閾值的所述第一聚類中心E的第二數量；將所述K個第一聚類簇中所述第二數量最大的第一聚類簇確定為所述第一聚類簇B；將所述第二聚類簇與所述第一聚類簇B合併。

再一個實施例中，處理器81執行所述利用所述第一聚類中心將所述單個圖像資料與所述第一聚類簇C合併，包括：獲取所述單個圖像資料與第一聚類中心F之間的第六相似度；所述第一聚類中心F為所述K個第一聚類簇中每個第一聚類簇的每個第一子簇對應的所述第一聚類中心；對於所述K個第一聚類簇中的每個第一聚類簇，確定所述每個第一聚類簇中所述第六相似度大於第三閾值的所述第一聚類中心F的第三數量；將所述K個第一聚類簇中所述第三數量最大的第一聚類簇確定為所述第一聚類簇C；將所述單個圖像資料與所述第一聚類簇C合併。

再一個實施例中，所述M小於或等於第四閾值；在利用所述第一聚類中心將所述第二圖像資料集與所述第一聚類簇合併之後，處理器81還配置為執行：將合併後的第一聚類簇分割為R個第三子簇，並獲取所述R個第三子簇中每個第三子簇的第五聚類中心；所述R為大於或等於1的整數；在所述R小於或等於所述第四閾值的情況下，保留所述R個第三子簇，並用所述R個第三子簇對應的所述第五聚類中心對所述第一聚類中心進行更新；在所述R大於所述第四閾值的情況下，獲取所述R個第三子簇中每個第三子簇中的圖像資料的第四數量；根據所述第四數量從大到小對所述R個第三子簇進行排序得到第四聚類簇序列，選取所述第四聚類簇序列中前P個第三子簇，並用所述P個第三子簇對應的所述第五聚類中心對所述第一聚類中心進行更新；所述P小於或等於所述第四閾值。

再一個實施例中，所述第一聚類簇通過對所述第一圖像資料集中的圖像資料進行聚類得到；處理器81執行所述將所述第一聚類簇分割為M個第一子簇，包括：獲取所述第一聚類簇中的圖像資料之間的第七相似度，得到相似度矩陣；基於所述相似度矩陣將所述第一聚類簇分割為所述M個第一子簇。

再一個實施例中，處理器81執行所述基於所述相似度矩陣將所述第一聚類簇分割為所述M個第一子簇，包括：獲取以所述第一聚類簇中的圖像資料為頂點構成的連通圖；從所述相似度矩陣中查詢得到所述連通圖中的頂點之間的所述第七相似度；將所述第七相似度大於第五閾值的多個頂點分割為一個第一子簇，得到所述M個第一子簇。

示例性的，上述電子設備可以是電腦、電腦主機、伺服器、雲伺服器、伺服器集群等，電子設備可包括但不僅限於處理器81、輸入裝置82、輸出裝置83以及電腦儲存介質84，輸入裝置82可以是鍵盤、觸控螢幕等，輸出裝置83可以是揚聲器、顯示器、射頻發送器等。本領域技術人員可以理解，所述示意圖可以是電子設備的示例，並不構成對電子設備的限定，可以包括比圖示更多或更少的部件，或者組合某些部件，或者不同的部件。

需要說明的是，由於電子設備的處理器81執行電腦程式時實現上述的圖像的增量聚類方法中的步驟，因此上述圖像的增量聚類方法的實施例均適用於該電子設備，且均能達到相同或相似的有益效果。

本發明實施例還提供一種電腦程式產品，該電腦程式產品被處理器執行時實現前述實施例的任意一種方法。該電腦程式產品可以通過硬體、軟體或其結合的方式實現。在本發明的一些實施例中，所述電腦程式產品體現為電腦儲存介質，在本發明的另一些實施例中，電腦程式產品體現為軟體產品，例如軟體發展包（Software Development Kit，SDK）等等。

本發明實施例還提供了一種電腦儲存介質（Memory），所述電腦儲存介質是電子設備中的記憶設備，配置為存放程式和資料。可以理解的是，此處的電腦儲存介質既可以包括終端中的內置儲存介質，當然也可以包括終端所支援的擴展儲存介質。電腦儲存介質提供儲存空間，該儲存空間儲存了終端的作業系統。並且，在該儲存空間中還存放了適於被處理器81載入並執行的一條或多條的指令，這些指令可以是一個或一個以上的電腦程式（包括程式碼）。需要說明的是，此處的電腦儲存介質可以是高速RAM記憶體，也可以是非不穩定的記憶體（Non-Volatile Memory），例如至少一個磁碟記憶體；在本發明的一些實施例中，還可以是至少一個位於遠離前述處理器81的電腦儲存介質。在一個實施例中，可由處理器81載入並執行電腦儲存介質中存放的一條或多條指令，以實現上述有關圖像的增量聚類方法的相應步驟。

示例性的，電腦儲存介質的電腦程式包括電腦程式代碼，所述電腦程式代碼可以為原始程式碼形式、物件代碼形式、可執行檔或某些中間形式等。所述電腦可讀介質可以包括：能夠攜帶所述電腦程式代碼的任何實體或裝置、記錄介質、U盤、移動硬碟、磁碟、光碟、電腦記憶體、唯讀記憶體（ROM，Read-Only Memory）、隨機存取記憶體（RAM，Random Access Memory）、電載波信號、電信信號以及軟體分發介質等。

需要說明的是，由於電腦儲存介質的電腦程式被處理器執行時實現上述的圖像的增量聚類方法中的步驟，因此上述圖像的增量聚類方法的所有實施例均適用於該電腦儲存介質，且均能達到相同或相似的有益效果。

以上對本發明實施例進行了詳細介紹，本文中應用了個例對本發明的原理及實施方式進行了闡述，以上實施例的說明只是用於幫助理解本發明的方法及其核心思想；同時，對於本領域的一般技術人員，依據本發明的思想，在實施方式及應用範圍上均會有改變之處，綜上所述，本說明書內容不應理解為對本發明的限制。

工業實用性本實施例中，將第一聚類簇分割為多個第一子簇，基於第一子簇的第一聚類中心實現第一聚類簇對第二圖像資料集的合併，通過維護多個第一聚類中心來解決隨著圖像資料的增多，聚類中心會受到新增圖像資料的影響而產生漂移的問題，從而有利於使聚類結果更為準確，以提高聚類效果。

101:圖像處理中心 1011:伺服器 1012:視頻雲節點 1013:顯示器 1014:資料庫 102:圖像採集設備 301:第一聚類簇 302:第二聚類中心 303:第一子簇 304:第一聚類中心 401:第二圖像資料集 402:第二聚類簇 403:孤立圖像資料 404:第三聚類中心 405:第一聚類簇A 406:第一聚類簇B 407:第二聚類簇 71:第一獲取模組 72:第一分割模組 73:合併模組 81:處理器 82:輸入裝置 83:輸出裝置 84:電腦儲存介質 S21~S23:步驟 S61~S66:步驟

圖1為本發明實施例提供的一種應用環境的示意圖；圖2為本發明實施例提供的一種圖像的增量聚類方法的流程示意圖；圖3A為本發明實施例提供的一種第一聚類簇的連通圖的示意圖；圖3B為本發明實施例提供的一種將第一聚類簇分割為第一子簇的示意圖；圖4A為本發明實施例提供的一種第二圖像資料集的聚類結果的示意圖；圖4B為本發明實施例提供的一種孤立圖像資料與第一聚類簇合併的示意圖；圖4C為本發明實施例提供的一種第二聚類簇與第一聚類簇合併的示意圖；圖5為本發明實施例提供的一種對第一聚類中心進行更新的流程示意圖；圖6為本發明實施例提供的另一種圖像的增量聚類方法的流程示意圖；圖7為本發明實施例提供的一種圖像的增量聚類裝置的結構示意圖；圖8為本發明實施例提供的一種電子設備的結構示意圖。

S21~S23:步驟

Claims

一種圖像的增量聚類方法，所述方法包括：獲取第一圖像資料集的第一聚類簇；將所述第一聚類簇分割為M個第一子簇，並獲取所述M個第一子簇中每個第一子簇對應的第一聚類中心；所述M為大於或等於1的整數；獲取第二圖像資料集，利用所述第一聚類中心將所述第二圖像資料集與所述第一聚類簇合併。
根據請求項1所述的方法，其中，所述第一聚類簇包括第一聚類簇A、第一聚類簇B和第一聚類簇C；所述利用所述第一聚類中心將所述第二圖像資料集與所述第一聚類簇合併，包括：在所述第二圖像資料集中包括多個圖像資料的情況下，對所述多個圖像資料進行聚類，得到孤立圖像資料和第二聚類簇；利用所述第一聚類中心將所述孤立圖像資料與所述第一聚類簇A合併；以及，利用所述第一聚類中心將所述第二聚類簇與所述第一聚類簇B合併；在所述第二圖像資料集中只存在單個圖像資料的情況下，利用所述第一聚類中心將所述單個圖像資料與所述第一聚類簇C合併。
根據請求項2所述的方法，其中，所述第一聚類簇存在對應的第二聚類中心；在利用所述第一聚類中心將所述第二圖像資料集與所述第一聚類簇合併之前，所述方法還包括：利用所述第二聚類中心從所述第一聚類簇中確定出K個第一聚類簇。
根據請求項3所述的方法，其中，所述第二聚類簇存在對應的第三聚類中心；所述利用所述第二聚類中心從所述第一聚類簇中確定出K個第一聚類簇，包括：獲取所述孤立圖像資料與所述第二聚類中心之間的第一相似度；根據所述第一相似度從高到低對所述第一聚類簇進行排序得到第一聚類簇序列，選取所述第一聚類簇序列中前K個第一聚類簇；以及，獲取所述第三聚類中心與所述第二聚類中心之間的第二相似度；根據所述第二相似度從高到低對所述第一聚類簇進行排序得到第二聚類簇序列，選取所述第二聚類簇序列中前K個第一聚類簇；或者，獲取所述單個圖像資料與所述第二聚類中心之間的第三相似度；根據所述第三相似度從高到低對所述第一聚類簇進行排序得到第三聚類簇序列，選取所述第三聚類簇序列中前K個第一聚類簇。
根據請求項3所述的方法，其中，所述利用所述第一聚類中心將所述孤立圖像資料與所述第一聚類簇A合併，包括：獲取所述孤立圖像資料與第一聚類中心D之間的第四相似度；所述第一聚類中心D為所述K個第一聚類簇中每個第一聚類簇的每個第一子簇對應的所述第一聚類中心；對於所述K個第一聚類簇中的每個第一聚類簇，確定所述每個第一聚類簇中所述第四相似度大於第一閾值的所述第一聚類中心D的第一數量；將所述K個第一聚類簇中所述第一數量最大的第一聚類簇確定為所述第一聚類簇A；將所述孤立圖像資料與所述第一聚類簇A合併。
根據請求項3所述的方法，其中，所述利用所述第一聚類中心將所述第二聚類簇與所述第一聚類簇B合併，包括：將所述第二聚類簇分割為N個第二子簇，並獲取所述N個第二子簇中每個第二子簇對應的第四聚類中心；所述N為大於或等於1的整數；獲取所述第四聚類中心與第一聚類中心E之間的第五相似度；所述第一聚類中心E為K個第一聚類簇中每個第一聚類簇的每個第一子簇對應的所述第一聚類中心；對於所述K個第一聚類簇中的每個第一聚類簇，確定所述每個第一聚類簇中所述第五相似度大於第二閾值的所述第一聚類中心E的第二數量；將所述K個第一聚類簇中所述第二數量最大的第一聚類簇確定為所述第一聚類簇B；將所述第二聚類簇與所述第一聚類簇B合併。
根據請求項3所述的方法，其中，所述利用所述第一聚類中心將所述單個圖像資料與所述第一聚類簇C合併，包括：獲取所述單個圖像資料與第一聚類中心F之間的第六相似度；所述第一聚類中心F為所述K個第一聚類簇中每個第一聚類簇的每個第一子簇對應的所述第一聚類中心；對於所述K個第一聚類簇中的每個第一聚類簇，確定所述每個第一聚類簇中所述第六相似度大於第三閾值的所述第一聚類中心F的第三數量；將所述K個第一聚類簇中所述第三數量最大的第一聚類簇確定為所述第一聚類簇C；將所述單個圖像資料與所述第一聚類簇C合併。
根據請求項1至7任一項所述的方法，其中，所述M小於或等於第四閾值；在利用所述第一聚類中心將所述第二圖像資料集與所述第一聚類簇合併之後，所述方法還包括：將合併後的第一聚類簇分割為R個第三子簇，並獲取所述R個第三子簇中每個第三子簇的第五聚類中心；所述R為大於或等於1的整數；在所述R小於或等於所述第四閾值的情況下，保留所述R個第三子簇，並用所述R個第三子簇對應的所述第五聚類中心對所述第一聚類中心進行更新；在所述R大於所述第四閾值的情況下，獲取所述R個第三子簇中每個第三子簇中的圖像資料的第四數量；根據所述第四數量從大到小對所述R個第三子簇進行排序得到第四聚類簇序列，選取所述第四聚類簇序列中前P個第三子簇，並用所述P個第三子簇對應的所述第五聚類中心對所述第一聚類中心進行更新；所述P小於或等於所述第四閾值。
根據請求項1至7任一項所述的方法，其中，所述第一聚類簇通過對所述第一圖像資料集中的圖像資料進行聚類得到；所述將所述第一聚類簇分割為M個第一子簇，包括：獲取所述第一聚類簇中的圖像資料之間的第七相似度，得到相似度矩陣；基於所述相似度矩陣將所述第一聚類簇分割為所述M個第一子簇。
根據請求項9所述的方法，其中，所述基於所述相似度矩陣將所述第一聚類簇分割為所述M個第一子簇，包括：獲取以所述第一聚類簇中的圖像資料為頂點構成的連通圖；從所述相似度矩陣中查詢得到所述連通圖中的頂點之間的所述第七相似度；將所述第七相似度大於第五閾值的多個頂點分割為一個第一子簇，得到所述M個第一子簇。
一種電子設備，包括輸入裝置和輸出裝置，還包括：處理器，適於實現一條或多條指令；以及，電腦儲存介質，所述電腦儲存介質儲存有一條或多條指令，所述一條或多條指令適於由所述處理器載入並執行如請求項1至10任一項所述的方法。
一種電腦儲存介質，所述電腦儲存介質儲存有一條或多條指令，所述一條或多條指令適於由處理器載入並執行如請求項1至10任一項所述的方法。