KR20220070482A - 이미지 증분 클러스터링 방법, 장치, 전자 기기, 저장 매체 및 프로그램 제품 - Google Patents

이미지 증분 클러스터링 방법, 장치, 전자 기기, 저장 매체 및 프로그램 제품 Download PDF

Info

Publication number
KR20220070482A
KR20220070482A KR1020227013791A KR20227013791A KR20220070482A KR 20220070482 A KR20220070482 A KR 20220070482A KR 1020227013791 A KR1020227013791 A KR 1020227013791A KR 20227013791 A KR20227013791 A KR 20227013791A KR 20220070482 A KR20220070482 A KR 20220070482A
Authority
KR
South Korea
Prior art keywords
cluster
sub
clustering
clusters
image data
Prior art date
Application number
KR1020227013791A
Other languages
English (en)
Inventor
카이지안 리우
시지에 유
하오빈 첸
다펭 첸
루이 자오
Original Assignee
저지앙 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 저지앙 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 filed Critical 저지앙 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Publication of KR20220070482A publication Critical patent/KR20220070482A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 이미지 증분 클러스터링 방법, 장치, 전자 기기, 저장 매체 및 프로그램 제품을 제공하되, 여기서, 상기 방법은, 제1 이미지 데이터 세트의 제1 클러스터를 획득하는 단계; 상기 제1 클러스터를 M개의 제1 서브 클러스터로 분할하고, 상기 M개의 제1 서브 클러스터 중 각각의 제1 서브 클러스터에 대응되는 제1 클러스터링 중심을 획득하는 단계 - 상기 M은 1보다 크거나 같은 정수임 - ; 및 제2 이미지 데이터 세트를 획득하고, 상기 제1 클러스터링 중심을 이용하여 상기 제2 이미지 데이터 세트를 상기 제1 클러스터와 병합하는 단계를 포함한다.

Description

이미지 증분 클러스터링 방법, 장치, 전자 기기, 저장 매체 및 프로그램 제품
관련 출원의 상호 참조
본 발명은 출원번호가 202011185911.8이고 출원일자가 2020년 10월 30일인 중국 특허 출원에 기반하여 제출하였고 상기 중국 특허 출원의 우선권을 주장하는 바, 상기 중국 특허 출원의 모든 내용은 참조로서 본 발명에 인용된다.
본 발명의 실시예는 컴퓨터 비전 기술분야에 관한 것으로, 특히 이미지 증분 클러스터링 방법 및 장치, 전자 기기, 저장 매체 및 프로그램 제품에 관한 것이다.
딥러닝의 발전은 이미지 처리 기술의 진보를 크게 촉진하였으며, 안면 인식을 예로 들면, 지도 학습을 통해 얻은 안면 인식 모델은 인식 정확도에서 질적으로 비약적인 발전을 이루었지만, 라벨이 없는 이미지 데이터의 폭발적인 증가에 직면하였을 때, 어떻게 정확하고 신속하게 분류할 것인가는 여전히 토론과 연구의 가치가 있는 문제이다.
상기 문제에 대해, 본 발명은 증분형 클러스터링에서 클러스터링 중심의 드리프트로 인해 클러스터링 효과에 영향을 미치는 문제를 해결하는데 유리한 이미지 증분 클러스터링 방법, 장치, 전자 기기, 저장 매체 및 프로그램 제품을 제공한다.
상기 목적을 구현하기 위해, 본 발명의 실시예의 제1 양태는 이미지 증분 클러스터링 방법을 제공하되, 상기 방법은,
제1 이미지 데이터 세트의 제1 클러스터를 획득하는 단계; 상기 제1 클러스터를 M개의 제1 서브 클러스터로 분할하고, 상기 M개의 제1 서브 클러스터 중 각각의 제1 서브 클러스터에 대응되는 제1 클러스터링 중심을 획득하는 단계 - 상기 M은 1보다 크거나 같은 정수임 - ; 및 제2 이미지 데이터 세트를 획득하고, 상기 제1 클러스터링 중심을 이용하여 상기 제2 이미지 데이터 세트를 상기 제1 클러스터와 병합하는 단계를 포함한다.
제1 양태를 참조하면, 가능한 실시형태에서, 상기 제1 클러스터는 제1 클러스터 A, 제1 클러스터 B 및 제1 클러스터 C를 포함하고; 상기 제1 클러스터링 중심을 이용하여 상기 제2 이미지 데이터 세트를 상기 제1 클러스터와 병합하는 단계는,
상기 제2 이미지 데이터 세트에 복수 개의 이미지 데이터가 포함되는 경우, 상기 복수 개의 이미지 데이터를 클러스터링하여 고립 이미지 데이터 및 제2 클러스터를 획득하는 단계; 상기 제1 클러스터링 중심을 이용하여 상기 고립 이미지 데이터를 상기 제1 클러스터 A와 병합하고, 상기 제1 클러스터링 중심을 이용하여 상기 제2 클러스터를 상기 제1 클러스터 B와 병합하는 단계; 및 상기 제2 이미지 데이터 세트에 단일 이미지 데이터만 존재하는 경우, 상기 제1 클러스터링 중심을 이용하여 상기 단일 이미지 데이터를 상기 제1 클러스터 C와 병합하는 단계를 포함한다.
따라서, 제2 이미지 데이터 세트 중의 복수 개의 이미지 데이터를 클러스터링하고, 획득된 고립 이미지 데이터 및 제2 클러스터를 이용하여 제1 클러스터에 포함된 제1 클러스터 A, 제1 클러스터 B 및 제1 클러스터 C와 각각 병합함으로써, 클러스터가 단일 샘플을 흡수하는 것 및 클러스터 간의 병합을 구현할 수 있다.
제1 양태를 참조하면, 가능한 실시형태에서, 상기 제1 클러스터에는 대응되는 제2 클러스터링 중심이 존재하고; 상기 제1 클러스터링 중심을 이용하여 상기 제2 이미지 데이터 세트를 상기 제1 클러스터와 병합하는 단계 이전에, 상기 방법은,
상기 제2 클러스터링 중심을 이용하여 상기 제1 클러스터에서 K개의 제1 클러스터를 결정하는 단계를 더 포함한다.
제1 양태를 참조하면, 가능한 실시형태에서, 상기 제2 클러스터에는 대응되는 제3 클러스터링 중심이 존재하고; 상기 제2 클러스터링 중심을 이용하여 상기 제1 클러스터에서 K개의 제1 클러스터를 결정하는 단계는,
상기 고립 이미지 데이터와 상기 제2 클러스터링 중심 사이의 제1 유사도를 획득하는 단계; 상기 제1 유사도에 따라 상기 제1 클러스터를 높은 것에서 낮은 것으로 정렬하여 제1 클러스터 시퀀스를 획득하고, 상기 제1 클러스터 시퀀스에서 처음 K개의 제1 클러스터를 선택하는 단계; 및, 상기 제3 클러스터링 중심과 상기 제2 클러스터링 중심 사이의 제2 유사도를 획득하는 단계; 상기 제2 유사도에 따라 상기 제1 클러스터를 높은 것에서 낮은 것으로 정렬하여 제2 클러스터 시퀀스를 획득하고, 상기 제2 클러스터 시퀀스에서 처음 K개의 제1 클러스터를 선택하는 단계; 또는, 상기 단일 이미지 데이터와 상기 제2 클러스터링 중심 사이의 제3 유사도를 획득하는 단계; 상기 제3 유사도에 따라 상기 제1 클러스터를 높은 것에서 낮은 것으로 정렬하여 제3 클러스터 시퀀스를 획득하고, 상기 제3 클러스터 시퀀스에서 처음 K개의 제1 클러스터를 선택하는 단계를 포함한다.
따라서, 산출하여 획득된 제2 클러스터링 중심과 고립 이미지 데이터, 제3 클러스터링 중심과 단일 이미지 데이터의 유사도를 이용하여 제1 클러스터를 선별함으로써, 제2 이미지 데이터 세트 중의 이미지 데이터 클러스터링 카테고리와 더 유사한 제1 클러스터를 결정하는데 유리하다.
제1 양태를 참조하면, 가능한 실시형태에서, 상기 제1 클러스터링 중심을 이용하여 상기 고립 이미지 데이터를 상기 제1 클러스터 A와 병합하는 단계는,
상기 고립 이미지 데이터와 제1 클러스터링 중심 D 사이의 제4 유사도를 획득하는 단계 - 상기 제1 클러스터링 중심 D는 상기 K개의 제1 클러스터 중 각각의 제1 클러스터의 각각의 제1 서브 클러스터에 대응되는 상기 제1 클러스터링 중심임 - ; 상기 K개의 제1 클러스터 중 각각의 제1 클러스터에 대해, 상기 각각의 제1 클러스터에서 상기 제4 유사도가 제1 임계값보다 큰 상기 제1 클러스터링 중심 D의 제1 개수를 결정하는 단계; 상기 K개의 제1 클러스터에서 상기 제1 개수가 가장 큰 제1 클러스터를 상기 제1 클러스터 A로 결정하는 단계; 및 상기 고립 이미지 데이터를 상기 제1 클러스터 A와 병합하는 단계를 포함한다.
따라서, 제1 클러스터 A에 고립 이미지 데이터와 더 유사한 제1 서브 클러스터가 가장 많이 존재하면, 클러스터링 결과가 더 정확해질 수 있도록, 고립 이미지 데이터를 제1 클러스터 A에 병합한다.
제1 양태를 참조하면, 가능한 실시형태에서, 상기 제1 클러스터링 중심을 이용하여 상기 제2 클러스터를 상기 제1 클러스터 B와 병합하는 단계는,
상기 제2 클러스터를 N개의 제2 서브 클러스터로 분할하고, 상기 N개의 제2 서브 클러스터 중 각각의 제2 서브 클러스터에 대응되는 제4 클러스터링 중심을 획득하는 단계 - 상기 N은 1보다 크거나 같은 정수임 - ; 상기 제4 클러스터링 중심과 제1 클러스터링 중심 E 사이의 제5 유사도를 획득하는 단계 - 상기 제1 클러스터링 중심 E는 K개의 제1 클러스터 중 각각의 제1 클러스터의 각각의 제1 서브 클러스터에 대응되는 상기 제1 클러스터링 중심임 - ; 상기 K개의 제1 클러스터 중 각각의 제1 클러스터에 대해, 상기 각각의 제1 클러스터에서 상기 제5 유사도가 제2 임계값보다 큰 상기 제1 클러스터링 중심 E의 제2 개수를 결정하는 단계; 상기 K개의 제1 클러스터에서 상기 제2 개수가 가장 큰 제1 클러스터를 상기 제1 클러스터 B로 결정하는 단계; 및 상기 제2 클러스터를 상기 제1 클러스터 B와 병합하는 단계를 포함한다.
따라서, 제1 클러스터 K의 개수가 가장 크면, 이를 제1 클러스터 B로 결정하는데, 즉 제1 클러스터 B에 제2 클러스터의 제2 서브 클러스터와 더 유사한 제1 서브 클러스터가 가장 많이 존재하면, 클러스터링 결과가 더 정확해질 수 있도록, 제2 클러스터를 제1 클러스터 B에 병합한다.
제1 양태를 참조하면, 가능한 실시형태에서, 상기 제1 클러스터링 중심을 이용하여 상기 단일 이미지 데이터를 상기 제1 클러스터 C와 병합하는 단계는,
상기 단일 이미지 데이터와 제1 클러스터링 중심 F 사이의 제6 유사도를 획득하는 단계 - 상기 제1 클러스터링 중심 F는 상기 K개의 제1 클러스터 중 각각의 제1 클러스터의 각각의 제1 서브 클러스터에 대응되는 상기 제1 클러스터링 중심임 - ; 상기 K개의 제1 클러스터 중 각각의 제1 클러스터에 대해, 상기 각각의 제1 클러스터에서 상기 제6 유사도가 제3 임계값보다 큰 상기 제1 클러스터링 중심 F의 제3 개수를 결정하는 단계; 상기 K개의 제1 클러스터에서 상기 제3 개수가 가장 큰 제1 클러스터를 상기 제1 클러스터 C로 결정하는 단계; 및 상기 단일 이미지 데이터를 상기 제1 클러스터 C와 병합하는 단계를 포함한다.
따라서, 제1 클러스터 C에 단일 이미지 데이터와 더 유사한 제1 서브 클러스터가 가장 많이 존재하면, 클러스터링 결과가 더 정확해질 수 있도록, 단일 이미지 데이터를 제1 클러스터 C에 병합한다.
제1 양태를 참조하면, 가능한 실시형태에서, 상기 M은 제4 임계값보다 작거나 같고; 상기 제1 클러스터링 중심을 이용하여 상기 제2 이미지 데이터 세트를 상기 제1 클러스터와 병합하는 단계 이후에, 상기 방법은,
병합된 제1 클러스터를 R개의 제3 서브 클러스터로 분할하고, 상기 R개의 제3 서브 클러스터 중 각각의 제3 서브 클러스터의 제5 클러스터링 중심을 획득하는 단계 - 상기 R은 1보다 크거나 같은 정수임 - ; 상기 R이 상기 제4 임계값보다 작거나 같은 경우, 상기 R개의 제3 서브 클러스터를 보류하고, 상기 R개의 제3 서브 클러스터에 대응되는 상기 제5 클러스터링 중심을 이용하여 상기 제1 클러스터링 중심을 업데이트하는 단계; 상기 R이 상기 제4 임계값보다 큰 경우, 상기 R개의 제3 서브 클러스터 중 각각의 제3 서브 클러스터 중의 이미지 데이터의 제4 개수를 획득하는 단계; 및 상기 제4 개수에 따라 상기 R개의 제3 서브 클러스터를 큰 것에서 작은 것으로 정렬하여 제4 클러스터 시퀀스를 획득하고, 상기 제4 클러스터 시퀀스에서 처음 P개의 제3 서브 클러스터를 선택하며, 상기 P개의 제3 서브 클러스터에 대응되는 상기 제5 클러스터링 중심을 이용하여 상기 제1 클러스터링 중심을 업데이트하는 단계 - 상기 P는 상기 제4 임계값보다 작거나 같음 - ;를 더 포함한다.
따라서, 이와 같이 서브 클러스터가 많은 경우, 이미지 데이터가 많은 서브 클러스터를 보류하여 서브 중심의 개수를 제한하고, 이상치 이미지 데이터의 영향을 제거함으로써, 유지가 편리할 뿐만 아니라, 장시간 대규모 증분 클러스터링 장면에서 여전히 우수한 클러스터링 효과를 가질 수 있도록 한다.
제1 양태를 참조하면, 가능한 실시형태에서, 상기 제1 클러스터는 상기 제1 이미지 데이터 세트 중의 이미지 데이터를 클러스터링하여 획득되고; 상기 제1 클러스터를 M개의 제1 서브 클러스터로 분할하는 단계는,
상기 제1 클러스터 중의 이미지 데이터 사이의 제7 유사도를 획득하여 유사도 매트릭스를 획득하는 단계; 및 상기 유사도 매트릭스에 기반하여 상기 제1 클러스터를 상기 M개의 제1 서브 클러스터로 분할하는 단계를 포함한다.
따라서, 유사도 매트릭스를 이용하여 상기 제1 클러스터를 상기 M개의 제1 서브 클러스터로 분할할 수 있다.
제1 양태를 참조하면, 가능한 실시형태에서, 상기 유사도 매트릭스에 기반하여 상기 제1 클러스터를 상기 M개의 제1 서브 클러스터로 분할하는 단계는,
상기 제1 클러스터 중의 이미지 데이터를 정점으로 사용하여 구성된 연결 그래프를 획득하는 단계; 상기 유사도 매트릭스에서 상기 연결 그래프 중의 정점 사이의 상기 제7 유사도를 조회하여 획득하는 단계; 및 상기 제7 유사도가 제5 임계값보다 큰 복수 개의 정점을 하나의 제1 서브 클러스터로 분할하여 상기 M개의 제1 서브 클러스터를 획득하는 단계를 포함한다.
따라서, 연결 그래프를 이용하여 상기 제7 유사도가 제5 임계값보다 큰 복수 개의 정점을 하나의 제1 서브 클러스터로 분할할 수 있다.
본 발명의 실시예의 제2 양태는 이미지 증분 클러스터링 장치를 제공하되, 상기 장치는,
제1 이미지 데이터 세트의 제1 클러스터를 획득하도록 구성되는 제1 획득 모듈; 상기 제1 클러스터를 M개의 제1 서브 클러스터로 분할하고, 상기 M개의 제1 서브 클러스터 중 각각의 제1 서브 클러스터에 대응되는 제1 클러스터링 중심을 획득하도록 구성되는 제1 분할 모듈 - 상기 M은 1보다 크거나 같은 정수임 - ; 및 제2 이미지 데이터 세트를 획득하고, 상기 제1 클러스터링 중심을 이용하여 상기 제2 이미지 데이터 세트를 상기 제1 클러스터와 병합하도록 구성되는 병합 모듈을 포함한다.
본 발명의 실시예의 제3 양태는 전자 기기를 제공하되, 상기 전자 기기는 입력 기기 및 출력 기기를 포함하고, 하나 이상의 명령을 구현하기 위한 프로세서; 및 상기 프로세서에 의해 로딩되고 상기 제1 양태 중 어느 하나의 실시형태에 따른 단계를 수행하기 위한 하나 이상의 명령이 저장된 컴퓨터 저장 매체를 더 포함한다.
본 발명의 실시예의 제4 양태는 프로세서에 의해 로딩되고 상기 제1 양태 중 어느 하나의 실시형태에 따른 단계를 수행하기 위한 하나 이상의 명령이 저장된 컴퓨터 저장 매체를 제공한다.
본 발명의 실시예의 제5 양태는 프로세서에 의해 로딩되고 상기 제1 양태 중 어느 하나의 실시형태에 따른 단계를 수행하기 위한 하나 이상의 명령을 포함하는 컴퓨터 프로그램 제품을 제공한다.
이로부터 알 수 있는 바, 본 발명의 실시예는 제1 이미지 데이터 세트의 제1 클러스터를 획득하는 단계; 상기 제1 클러스터를 M개의 제1 서브 클러스터로 분할하고, 상기 M개의 제1 서브 클러스터 중 각각의 제1 서브 클러스터에 대응되는 제1 클러스터링 중심을 획득하는 단계 - 상기 M은 1보다 크거나 같은 정수임 - ; 및 제2 이미지 데이터 세트를 획득하고, 상기 제1 클러스터링 중심을 이용하여 상기 제2 이미지 데이터 세트를 상기 제1 클러스터와 병합하는 단계를 수행한다. 이로써, 제1 클러스터를 복수 개의 제1 서브 클러스터로 분할하고, 제1 서브 클러스터의 제1 클러스터링 중심에 기반하여 제1 클러스터와 제2 이미지 데이터 세트를 병합하며, 복수 개의 제1 클러스터링 중심(즉, 서브 중심)을 유지하여, 클러스터링 중심(제1 클러스터의 클러스터링 중심, 즉 메인 중심)이 이미지 데이터의 증가에 따라 새로 추가된 이미지 데이터의 영향을 받아 드리프트가 발생하는 문제를 해결함으로써, 클러스터링 결과가 더 정확해지는데 유리하도록 하여, 클러스터링 효과를 향상시킨다. 이 밖에, 클러스터링 과정에서, 제2 이미지 데이터 세트는 제1 이미지 데이터 세트와 전체적으로 유사도 산출을 수행할 필요가 없으므로, 산출 복잡성을 감소시키는데 유리하다.
도 1은 본 발명의 실시예에 의해 제공되는 응용 환경의 모식도이다.
도 2는 본 발명의 실시예에 의해 제공되는 이미지 증분 클러스터링 방법의 흐름 모식도이다.
도 3a는 본 발명의 실시예에 의해 제공되는 제1 클러스터의 연결 그래프의 모식도이다.
도 3b는 본 발명의 실시예에 의해 제공되는 제1 클러스터를 제1 서브 클러스터로 분할하는 모식도이다.
도 4a는 본 발명의 실시예에 의해 제공되는 제2 이미지 데이터 세트의 클러스터링 결과의 모식도이다.
도 4b는 본 발명의 실시예에 의해 제공되는 고립 이미지 데이터와 제1 클러스터를 병합하는 모식도이다.
도 4c는 본 발명의 실시예에 의해 제공되는 제2 클러스터와 제1 클러스터를 병합하는 모식도이다.
도 5는 본 발명의 실시예에 의해 제공되는 제1 클러스터링 중심을 업데이트하는 흐름 모식도이다.
도 6은 본 발명의 실시예에 의해 제공되는 다른 이미지 증분 클러스터링 방법의 흐름 모식도이다.
도 7은 본 발명의 실시예에 의해 제공되는 이미지 증분 클러스터링 장치의 구조 모식도이다.
도 8은 본 발명의 실시예에 의해 제공되는 전자 기기의 구조 모식도이다.
당업자가 본 발명의 해결수단을 더 잘 이해하도록, 아래 본 발명의 실시예의 도면과 결부하여 본 발명의 실시예에 따른 기술적 해결수단을 명확하고 완전하게 설명하되 설명된 실시예는 본 발명의 일부 실시예일 수 있을 뿐 전체 실시예가 아님은 분명하다. 당업자가 본 발명에 따른 실시예에 기반하여 진보성 창출에 힘쓸 필요 없이 얻은 모든 다른 실시예들은 모두 본 발명의 보호 범위에 속해야 한다.
본 발명의 명세서, 특허청구범위 및 도면에서 나타난 용어 “포함”, “구비” 및 다른 임의의 변형은 비배타적인 포함을 포함하도록 의도된다. 예를 들어, 일련의 단계 또는 유닛을 포함한 프로세스, 방법, 시스템, 제품 또는 기기는 나열된 단계 또는 유닛에 제한되지 않고, 본 발명의 일부 실시예는 나열되지 않은 단계 또는 유닛을 더 포함하거나, 또는 본 발명의 일부 실시예는 이러한 프로세스, 방법, 제품 또는 기기에 고유한 다른 단계 도는 유닛을 더 포함한다. 이 밖에, 용어 “제1”, “제2” 및 “제3” 등은 상이한 객체를 구별하기 위한 것일 뿐, 특정된 순서를 설명하기 위한 것이 아니다.
소셜 미디어, 보안 등과 같은 실제 장면에서, 이미지는 흔히 증분적으로 생성되므로, 증분 클러스터링은 분류 문제를 해결하는데 광범위하게 적용되고, 기존의 증분형 클러스터링은 일부 제1 클러스터를 유지해야 하지만, 상이한 클러스터의 희소 정도가 상이하며, 증분형 클러스터링의 지속적인 진행에 따라, 클러스터링 중심이 드리프트되는 가능성이 증가하고, 클러스터링 효과는 오히려 감소된다.
본 발명의 실시예는 도 1에 도시된 응용 환경에 기반하여 수행될 수 있는 이미지 데이터에 대한 증분 클러스터링 방법을 제공하고, 도 1에 도시된 바와 같이, 상기 응용 환경은 주로 이미지 처리 센터(101) 및 이미지 수집 기기(102)를 포함하며, 이미지 처리 센터(101)는 서버(1011), 단말기 및 데이터베이스를 포함하지만 이에 한정되지 않는다. 일부 장면에서, 이미지 수집 기기(102)는 게이트 채널, 쇼핑몰, 커뮤니티 등 장면 하에 배치된, 안면 이미지, 비디오 모니터링 이미지와 같은 이미지를 수집하기 위한 비디오카메라 또는 카메라일 수 있고, 이미지 처리 센터(101)는 모니터링 센터일 수 있으며, 이미지 처리 센터(101)는 비디오 클라우드 노드(Video Cloud Node, VCN)(1012)를 도입하여 비디오 모니터링을 관리할 수 있는데, 예를 들어, 디스플레이(1013)에 이미지를 표시하고, 이미지를 클러스터링한 후 데이터베이스(1014)에 저장할 수 있다. 일부 장면에서, 이미지 수집 기기(102)는 사용자 단말기일 수 있고, 이에 의해 수집된 이미지는 사용자가 소셜 미디어에 공유한 사진과 같은 사용자가 촬영한 사진일 수 있으며, 이미지 처리 센터는 소셜 미디어의 처리 백엔드일 수 있다. 여기서, 이미지 수집 기기(102)는 수집한 이미지를 이미지 처리 센터(101)에 업로드할 수 있고, 이미지 처리 센터(101)는 특징 추출, 클러스터링 분류, 안면 인식 등의 동작을 수행하며, 이미지 수집 기기 측의 이미지는 매일 증분적으로 생성되고, 증분형 클러스터링은 일부 클러스터를 유지해야 하기 때문에, 이미지 데이터가 지속적으로 증가되고 증분형 클러스터링이 지속적으로 진행함에 따라, 원래 유지된 클러스터의 클러스터링 중심이 드리프트되는 위험이 존재하여 클러스터링 효과를 점차적으로 악화시키므로, 서버(1011)는 증분형 클러스터링에서 클러스터링 중심의 드리프트로 인해 클러스터링 효과에 영향을 미치는 문제를 해결하기 위해 본 발명의 실시예에 의해 제공되는 증분 클러스터링 방법을 수행할 수 있다. 여기서, 상기 서버(1011)는 독립된 물리적 서버일 수 있고, 서버 클러스터 또는 분산 시스템일 수도 있으며, 클라우드 서비스, 클라우드 데이터베이스, 클라우드 컴퓨팅, 클라우드 함수, 클라우드 스토리지, 네트워크 서비스, 클라우드 통신, 미들웨어 서비스, 도메인 네임 서비스, 보안 서비스, 및 빅데이터 및 인공지능 플랫폼 등 기본적인 클라우드 컴퓨팅 서비스를 제공하는 클라우드 서버일 수도 있다.
아래 관련 도면과 결부하여 본 발명의 실시예에 의해 제공되는 이미지 증분 클러스터링 방법을 상세하게 설명한다.
도 2는 본 발명의 실시예에 의해 제공되는 이미지 증분 클러스터링 방법의 흐름 모식도이고, 상기 이미지 증분 클러스터링 방법은 서버에 적용되며, 도 2에 도시된 바와 같이, 단계 S21 내지 단계 S23을 포함한다.
단계 S21에서, 제1 이미지 데이터 세트의 제1 클러스터를 획득한다.
제1 이미지 데이터 세트는 현재 배치의 이미지 데이터 이전에 이미 복수 개의 클러스터로 클러스터링된 이미지 데이터 세트를 의미하고, 예를 들어, 이미지 수집 기기가 특정 시점에 대량으로 업로드한 안면 이미지의 데이터(예를 들어, 안면 특징)가 현재 배치의 데이터인 것으로 가정하면, 이전에 이미 서버에 업로드된 안면 이미지의 데이터는 제1 이미지 데이터 세트이다. 제1 클러스터는 상기 제1 이미지 데이터 세트 중의 이미지 데이터를 클러스터링하여 획득한 클러스터이고, 사용한 클러스터링 알고리즘은 K 평균값 클러스터링 알고리즘이며, 각각의 클러스터에는 모두 대응되는 클러스터링 중심, 즉 제2 클러스터링 중심이 존재함을 이해해야 한다.
단계 S22에서, 상기 제1 클러스터를 M개의 제1 서브 클러스터로 분할하고, 상기 M개의 제1 서브 클러스터 중 각각의 제1 서브 클러스터에 대응되는 제1 클러스터링 중심을 획득하며; 상기 M은 1보다 크거나 같은 정수이다.
도 3a는 본 발명의 실시예에 의해 제공되는 제1 클러스터의 연결 그래프의 모식도이고, 도 3a에 도시된 바와 같이, 제1 클러스터의 연결 그래프는 제1 클러스터(301) 및 제2 클러스터링 중심(302)을 포함하며, 여기서, 제1 클러스터(301)는 제1 이미지 데이터 세트 중의 이미지 데이터를 클러스터링하여 획득한 클러스터이고; 제2 클러스터링 중심(302)은 각각의 클러스터에 존재하는 대응되는 클러스터링 중심이다.
도 3b는 본 발명의 실시예에 의해 제공되는 제1 클러스터를 제1 서브 클러스터로 분할하는 모식도이고, 도 3b에 도시된 바와 같이, 제1 클러스터를 제1 클러스터(301), 제2 클러스터링 중심(302), 제1 서브 클러스터(303) 및 제1 클러스터링 중심(304)을 포함하는 제1 서브 클러스터로 분할하고, 여기서, 제1 서브 클러스터(303)는 제1 클러스터(301)를 분할하여 획득한 서브 클러스터이며; 제1 클러스터링 중심(304)은 각각의 제1 서브 클러스터의 클러스터링 중심이다.
제1 서브 클러스터는 제1 클러스터를 분할하여 획득한 서브 클러스터이고, 제1 데이터 세트의 각각의 제1 클러스터에 대해, 제1 클러스터 중 이미지 데이터 사이의 유사도, 즉 제7 유사도를 획득하여 유사도 매트릭스를 획득한 다음, 제1 클러스터 중의 이미지 데이터를 정점으로 사용하여 구성된 연결 그래프를 획득하며, 도 3a에 도시된 바와 같이, 연결 그래프에서 매 2개의 정점에 대해, 유사도 매트릭스에서 그 유사도를 조회하고, 제1 이미지 데이터 세트를 클러스터링할 때 사용한 임계값이 X, 즉 제5 임계값이면, 유사도가 상기 X보다 큰 복수 개의 이미지 데이터를 하나의 더 긴밀한 제1 서브 클러스터로 분할하여, M개의 제1 서브 클러스터를 획득하며, 도 3b에 도시된 바와 같이, 도 3a에 도시된 제1 클러스터는 연결 그래프의 분석을 통해 M개의 제1 서브 클러스터로 분할된다. M개의 제1 서브 클러스터를 획득한 후, M개의 제1 서브 클러스터 중 각각의 제1 서브 클러스터의 클러스터링 중심, 즉 제1 클러스터링 중심을 획득하면, 각각의 제1 클러스터는 하나의 메인 클러스터링 중심 및 M개의 서브 클러스터링 중심으로 설명될 수 있다. 더 긴밀한 서브 클러스터로 제1 클러스터를 설명하면, 단일한 메인 클러스터링 중심이 새로 추가된 이미지 데이터의 통합에 따라 표현 능력이 약화되는 문제를 해결하는데 이롭다.
단계 S23에서, 제2 이미지 데이터 세트를 획득하고, 상기 제1 클러스터링 중심을 이용하여 상기 제2 이미지 데이터 세트를 상기 제1 클러스터와 병합한다.
도 4a는 본 발명의 실시예에 의해 제공되는 제2 이미지 데이터 세트의 클러스터링 결과의 모식도이고, 도 4a에 도시된 바와 같이, 제2 이미지 데이터 세트의 클러스터링 결과는 제2 이미지 데이터 세트(401), 제2 클러스터(402), 고립 이미지 데이터(403) 및 제3 클러스터링 중심(404)을 포함하며, 여기서, 제2 이미지 데이터 세트(401)는 이미지 수집 기기가 업로드한 현재 배치의 이미지의 데이터 세트이고; 제2 클러스터(402)는 제2 이미지 데이터 세트 중의 이미지 데이터를 클러스터링하여 획득한 클러스터이며; 고립 이미지 데이터(403)는 클러스터링되지 않은 고립 이미지 데이터이고; 제3 클러스터링 중심(404)은 각각의 제2 클러스터에 존재하는 클러스터링 중심이다.
도 4b는 본 발명의 실시예에 의해 제공되는 고립 이미지 데이터와 제1 클러스터를 병합하는 모식도이고, 도 4b에 도시된 바와 같이, 고립 이미지 데이터와 제1 클러스터의 병합은 제1 클러스터 A(405) 및 고립 이미지 데이터(403)를 포함하며, 여기서, 제1 클러스터 A(405)는 제1 클러스터에서 결정된 제1 클러스터 A이다.
도 4c는 본 발명의 실시예에 의해 제공되는 제2 클러스터와 제1 클러스터를병합하는 모식도이고, 도 4c에 도시된 바와 같이, 제2 클러스터와 제1 클러스터의 병합은 제1 클러스터 B(406) 및 제2 클러스터(407)를 포함하며, 여기서, 제1 클러스터 B(406)와 상기 제2 클러스터(407)는 동일한 클러스터링 카테고리에 속한다.
제2 이미지 데이터 세트는 이미지 수집 기기가 업로드한 현재 배치의 이미지의 데이터 세트이고, 이미지 수집 기기가 업로드한 이미지에 의해 획득된다. 여기서, 제1 클러스터는 제1 클러스터 A, 제1 클러스터 B 및 제1 클러스터 C를 포함하고, 제2 이미지 데이터 세트에 복수 개의 이미지 데이터가 포함되는 경우, 복수 개의 이미지 데이터를 클러스터링하여 클러스터링 결과를 획득한다. 도 4a를 참조하면, 상기 클러스터링 결과는 클러스터링되지 않은 고립 이미지 데이터 및 복수 개의 제2 클러스터를 포함하고, 복수 개의 제2 클러스터 중 각각의 제2 클러스터에는 모두 대응되는 클러스터링 중심, 즉 제3 클러스터링 중심이 존재한다. 상기 고립 이미지 데이터에 대해, 제1 클러스터에서 제1 클러스터 A를 결정하고, 제1 클러스터링 중심을 이용하여 이를 제1 클러스터 A와 병합하는데, 즉 도 4b에 도시된 바와 같이 고립 이미지 데이터를 제1 클러스터 A에 흡수시키되, 상기 제1 클러스터 A와 상기 고립 이미지 데이터는 동일한 클러스터링 카테고리에 속한다. 각각의 제2 클러스터에 대해, 제1 클러스터에서 제1 클러스터 B를 결정하고, 제1 클러스터링 중심을 이용하여 이를 제1 클러스터 B와 병합하는데, 즉 도 4c에 도시된 바와 같이 클러스터와 클러스터를 병합하되, 상기 제1 클러스터 B와 상기 제2 클러스터는 동일한 클러스터링 카테고리에 속한다. 고립 이미지 데이터와 유사하게, 제2 이미지 데이터 세트에 단일 이미지 데이터만 존재하는 경우, 즉 새로 추가된 이미지 데이터가 하나일 경우, 제2 이미지 데이터 세트에 대해 클러스터링 동작을 수행할 필요없고, 제1 클러스터에서 제1 클러스터 C를 결정하며, 제1 클러스터링 중심을 이용하여 이를 제1 클러스터 C와 병합하되, 상기 제1 클러스터 C와 상기 단일 이미지 데이터는 동일한 클러스터링 카테고리에 속한다.
가능한 실시형태에서, 상기 제1 클러스터링 중심을 이용하여 상기 제2 이미지 데이터 세트를 상기 제1 클러스터와 병합하는 단계 이전에, 상기 방법은,
상기 제2 클러스터링 중심을 이용하여 상기 제1 클러스터에서 K개의 제1 클러스터를 결정하는 단계를 더 포함한다.
여기서, 제2 이미지 데이터 세트를 제1 클러스터와 병합하기 전에, 제1 클러스터의 제2 클러스터링 중심을 이용하여 모든 제1 클러스터를 초보적으로 선별하고, 모든 제1 클러스터에서 K개의 제1 클러스터를 결정한 다음, K개의 클러스터에서 상기 제1 클러스터 A 및 제1 클러스터 B, 또는 제1 클러스터 C를 선택해야 한다. 설명해야 할 것은, 상기 K개의 제1 클러스터는 제2 클러스터링 중심을 이용하여 모든 제1 클러스터링을 정렬한 후의 top K개일 수 있는데, 예를 들어 100개의 제1 클러스터가 정렬된 후의 처음 20개일 수 있고; 상기 K개의 제1 클러스터는 정렬된 후의 모든 제1 클러스터일 수도 있는데, 예를 들어 100개의 제1 클러스터가 정렬된 후에도 여전히 100개가 선택될 수도 있다. 제2 클러스터링 중심을 이용하여 제1 클러스터를 초보적으로 선별하면, 상기 제1 클러스터 A, 제1 클러스터 B 및 제1 클러스터 C와 같은 제2 이미지 데이터 세트 중의 이미지 데이터 클러스터링 카테고리와 더 유사한 제1 클러스터를 결정하는데 유리하다.
가능한 실시형태에서, 상기 제2 클러스터링 중심을 이용하여 상기 제1 클러스터에서 K개의 제1 클러스터를 결정하는 단계는,
상기 고립 이미지 데이터와 상기 제2 클러스터링 중심 사이의 제1 유사도를 획득하는 단계; 상기 제1 유사도에 따라 상기 제1 클러스터를 높은 것에서 낮은 것으로 정렬하여 제1 클러스터 시퀀스를 획득하고, 상기 제1 클러스터 시퀀스에서 처음 K개의 제1 클러스터를 선택하는 단계; 및, 상기 제3 클러스터링 중심과 상기 제2 클러스터링 중심 사이의 제2 유사도를 획득하는 단계; 상기 제2 유사도에 따라 상기 제1 클러스터를 높은 것에서 낮은 것으로 정렬하여 제2 클러스터 시퀀스를 획득하고, 상기 제2 클러스터 시퀀스에서 처음 K개의 제1 클러스터를 선택하는 단계; 또는, 상기 단일 이미지 데이터와 상기 제2 클러스터링 중심 사이의 제3 유사도를 획득하는 단계; 상기 제3 유사도에 따라 상기 제1 클러스터를 높은 것에서 낮은 것으로 정렬하여 제3 클러스터 시퀀스를 획득하고, 상기 제3 클러스터 시퀀스에서 처음 K개의 제1 클러스터를 선택하는 단계를 포함한다.
여기서, 제2 이미지 데이터 세트를 클러스터링하여 고립 이미지 데이터 및 복수 개의 제2 클러스터를 획득할 경우, 고립 샘플 이미지 데이터에 대해, 이와 각각의 제1 클러스터의 제2 클러스터링 중심 사이의 제1 유사도를 산출하고, 제2 클러스터에 대해, 이에 대응되는 제3 클러스터링 중심과 각각의 제1 클러스터의 제2 클러스터링 중심 사이의 제2 유사도를 산출하며, 각각 제1 유사도, 제2 유사도에 따라 모든 제1 클러스터를 높은 것에서 낮은 것으로 정렬하여 대응되는 제1 클러스터 시퀀스 및 제2 클러스터 시퀀스를 획득한 다음, 제1 클러스터 시퀀스 및 제2 클러스터 시퀀스에서 처음 K개의 제1 클러스터를 각각 선택한다. 제2 이미지 데이터 세트에 단일 이미지 데이터만 포함되는 경우, 단일 이미지 데이터와 각각의 제1 클러스터의 제2 클러스터링 중심 사이의 제3 유사도를 산출하고, 제3 유사도에 따라 모든 제1 클러스터를 높은 것에서 낮은 것으로 정렬하여 대응되는 제3 클러스터 시퀀스를 획득한 다음, 제3 클러스터 시퀀스에서 처음 K개의 제1 클러스터를 선택한다.
가능한 실시형태에서, 상기 제1 클러스터링 중심을 이용하여 상기 고립 이미지 데이터를 상기 제1 클러스터 A와 병합하는 단계는,
상기 고립 이미지 데이터와 제1 클러스터링 중심 D 사이의 제4 유사도를 획득하는 단계 - 상기 제1 클러스터링 중심 D는 상기 K개의 제1 클러스터 중 각각의 제1 클러스터의 각각의 제1 서브 클러스터에 대응되는 상기 제1 클러스터링 중심임 - ; 상기 K개의 제1 클러스터 중 각각의 제1 클러스터에 대해, 상기 각각의 제1 클러스터에서 상기 제4 유사도가 제1 임계값보다 큰 상기 제1 클러스터링 중심 D의 제1 개수를 결정하는 단계; 상기 K개의 제1 클러스터에서 상기 제1 개수가 가장 큰 제1 클러스터를 상기 제1 클러스터 A로 결정하는 단계; 및 상기 고립 이미지 데이터를 상기 제1 클러스터 A와 병합하는 단계를 포함한다.
여기서, 고립 샘플 이미지 데이터의 병합에 대해, 선택된 처음 K개의 제1 클러스터에서 제1 클러스터 A를 결정해야 하고, 설명해야 할 것은, 처음 K개의 제1 클러스터는 정렬된 후의 모든 제1 클러스터일 수 있다. 먼저, 고립 이미지 데이터와 K개의 제1 클러스터 중 각각의 제1 클러스터의 각각의 제1 서브 클러스터의 클러스터링 중심(즉 제1 클러스터링 중심 D) 사이의 유사도를 산출하여 제4 유사도로 결정한 다음, K개의 제1 클러스터를 분석하여, 각각의 제1 클러스터에서 제4 유사도가 제1 임계값보다 큰 제1 클러스터링 중심 D의 개수를 제1 개수로 결정하고, 상기 제1 개수가 가장 큰 제1 클러스터를 제1 클러스터 A로 결정하며, 예를 들어, K개의 제1 클러스터에서, 제1 클러스터 1에 20개의 이러한 제1 클러스터링 중심 D가 있고, 제1 클러스터 2에 18개의 이러한 제1 클러스터링 중심 D가 있으며, …, 제1 클러스터 K에 15개의 이러한 제1 클러스터링 중심 D가 있으면, 제1 클러스터 1의 개수가 가장 많으므로, 이를 제1 클러스터 A로 결정하는데, 즉, 제1 클러스터 A에 고립 이미지 데이터와 더 유사한 제1 서브 클러스터가 가장 많이 존재하면, 클러스터링 결과가 더 정확해질 수 있도록, 고립 이미지 데이터를 제1 클러스터 A에 병합한다.
가능한 실시형태에서, 상기 제1 클러스터링 중심을 이용하여 상기 제2 클러스터를 상기 제1 클러스터 B와 병합하는 단계는,
상기 제2 클러스터를 N개의 제2 서브 클러스터로 분할하고, 상기 N개의 제2 서브 클러스터 중 각각의 제2 서브 클러스터에 대응되는 제4 클러스터링 중심을 획득하는 단계 - 상기 N은 1보다 크거나 같은 정수임 - ; 상기 제4 클러스터링 중심과 제1 클러스터링 중심 E 사이의 제5 유사도를 획득하는 단계 - 상기 제1 클러스터링 중심 E는 K개의 제1 클러스터 중 각각의 제1 클러스터의 각각의 제1 서브 클러스터에 대응되는 상기 제1 클러스터링 중심임 - ; 상기 K개의 제1 클러스터 중 각각의 제1 클러스터에 대해, 상기 각각의 제1 클러스터에서 상기 제5 유사도가 제2 임계값보다 큰 상기 제1 클러스터링 중심 E의 제2 개수를 결정하는 단계; 상기 K개의 제1 클러스터에서 상기 제2 개수가 가장 큰 제1 클러스터를 상기 제1 클러스터 B로 결정하는 단계; 상기 제2 클러스터를 상기 제1 클러스터 B와 병합하는 단계를 포함한다.
여기서, 클러스터와 클러스터 사이의 병합에 대해, 선택된 처음 K개의 제1 클러스터에서 제1 클러스터 B를 결정해야 하고, 설명해야 할 것은, 처음 K개의 제1 클러스터는 정렬된 후의 모든 제1 클러스터일 수 있다. 먼저, 제1 클러스터를 분할하는 방식에 따라 각각의 제2 클러스터를 N개의 제2 서브 클러스터로 분할하고, 각각의 제2 서브 클러스터의 클러스터링 중심, 즉 제4 클러스터링 중심을 산출한 다음, 제4 클러스터링 중심과 K개의 제1 클러스터 중 각각의 제1 클러스터의 각각의 제1 서브 클러스터의 클러스터링 중심(즉 제1 클러스터링 중심 E) 사이의 유사도를 산출하여 제5 유사도로 결정한 다음, K개의 제1 클러스터를 분석하여, 각각의 제1 클러스터에서 제5 유사도가 제2 임계값보다 큰 제1 클러스터링 중심 E의 개수를 제2 개수로 결정하고, 상기 제2 개수가 가장 큰 제1 클러스터를 제1 클러스터 B로 결정하며, 예를 들어, K개의 제1 클러스터에서, 제1 클러스터 1에 30개의 이러한 제1 클러스터링 중심 E가 있고, 제1 클러스터 2에 15개의 이러한 제1 클러스터링 중심 E가 있으며, …, 제1 클러스터 K에 40개의 이러한 제1 클러스터링 중심 E가 있으면, 제1 클러스터 K의 개수가 가장 많으므로, 이를 제1 클러스터 B로 결정하는데, 즉, 제1 클러스터 B에 제2 클러스터의 제2 서브 클러스터와 더 유사한 제1 서브 클러스터가 가장 많이 존재하면, 클러스터링 결과가 더 정확해질 수 있도록, 제2 클러스터를 제1 클러스터 B에 병합한다.
가능한 실시형태에서, 상기 제1 클러스터링 중심을 이용하여 상기 단일 이미지 데이터를 상기 제1 클러스터 C와 병합하는 단계는,
상기 단일 이미지 데이터와 제1 클러스터링 중심 F 사이의 제6 유사도를 획득하는 단계 - 상기 제1 클러스터링 중심 F는 상기 K개의 제1 클러스터 중 각각의 제1 클러스터의 각각의 제1 서브 클러스터에 대응되는 상기 제1 클러스터링 중심임 - ; 상기 K개의 제1 클러스터 중 각각의 제1 클러스터에 대해, 상기 각각의 제1 클러스터에서 상기 제6 유사도가 제3 임계값보다 큰 상기 제1 클러스터링 중심 F의 제3 개수를 결정하는 단계; 상기 K개의 제1 클러스터에서 상기 제3 개수가 가장 큰 제1 클러스터를 상기 제1 클러스터 C로 결정하는 단계; 및 상기 단일 이미지 데이터를 상기 제1 클러스터 C와 병합하는 단계를 포함한다.
여기서, 단일 이미지 데이터의 병합에 대해, 선택된 처음 K개의 제1 클러스터에서 제1 클러스터 C를 결정해야 하고, 설명해야 할 것은, 처음 K개의 제1 클러스터는 정렬된 후의 모든 제1 클러스터일 수 있다. 먼저, 단일 이미지 데이터와 K개의 제1 클러스터 중 각각의 제1 클러스터의 각각의 제1 서브 클러스터의 클러스터링 중심(즉 제1 클러스터링 중심 F) 사이의 유사도를 산출하여 제6 유사도로 결정한 다음, K개의 제1 클러스터를 분석하여, 각각의 제1 클러스터에서 제6 유사도가 제3 임계값보다 큰 제1 클러스터링 중심 F의 개수를 제3 개수로 결정하고, 상기 제3 개수가 가장 큰 제1 클러스터를 제1 클러스터 C로 결정하는데, 즉, 제1 클러스터 C에 단일 이미지 데이터와 더 유사한 제1 서브 클러스터가 가장 많이 존재하면, 클러스터링 결과가 더 정확해질 수 있도록, 단일 이미지 데이터를 제1 클러스터 C에 병합한다.
가능한 실시형태에서, 상기 M은 제4 임계값보다 작거나 같고; 상기 제1 클러스터링 중심을 이용하여 상기 제2 이미지 데이터 세트를 상기 제1 클러스터와 병합하는 단계 이후에, 도 5에 도시된 바와 같이, 상기 방법은,
병합된 제1 클러스터를 R개의 제3 서브 클러스터로 분할하고, 상기 R개의 제3 서브 클러스터 중 각각의 제3 서브 클러스터의 제5 클러스터링 중심을 획득하는 단계 S51 - 상기 R은 1보다 크거나 같은 정수임 - ;
상기 R이 상기 제4 임계값보다 작거나 같은 경우, 상기 R개의 제3 서브 클러스터를 보류하고, 상기 R개의 제3 서브 클러스터에 대응되는 상기 제5 클러스터링 중심을 이용하여 상기 제1 클러스터링 중심을 업데이트하는 단계 S52;
상기 R이 상기 제4 임계값보다 큰 경우, 상기 R개의 제3 서브 클러스터 중 각각의 제3 서브 클러스터 중의 이미지 데이터의 제4 개수를 획득하는 단계 S53; 및
상기 제4 개수에 따라 상기 R개의 제3 서브 클러스터를 큰 것에서 작은 것으로 정렬하여 제4 클러스터 시퀀스를 획득하고, 상기 제4 클러스터 시퀀스에서 처음 P개의 제3 서브 클러스터를 선택하며, 상기 P개의 제3 서브 클러스터에 대응되는 상기 제5 클러스터링 중심을 이용하여 상기 제1 클러스터링 중심을 업데이트하는 단계 S54 - 상기 P는 상기 제4 임계값보다 작거나 같음 - ;를 더 포함한다.
여기서, 고립 이미지 데이터 및 제2 클러스터, 또는 단일 이미지 데이터가 특정 제1 클러스터에 병합된 후, 원래 제1 클러스터에 새로운 이미지 데이터가 클러스터링되므로, 원래 제1 클러스터의 서브 중심을 업데이트해야 한다. 구체적으로 다음과 같은 단계를 포함하는 바, 제1 클러스터를 분할하는 방식에 따라 병합된 제1 클러스터를 R개의 제3 서브 클러스터로 분할하고, 각각의 제3 서브 클러스터의 제5 클러스터링 중심을 산출하며, R에 따라 제3 서브 클러스터의 개수를 결정하되, 제3 서브 클러스터의 개수가 제4 임계값, 예를 들어 20개 보다 작거나 같으면, 이 R개의 제3 서브 클러스터를 보류하고, 이 R개의 제3 서브 클러스터의 제5 클러스터링 중심을 병합된 제1 클러스터의 새로운 서브 중심으로 하여, 원래의 제1 클러스터링 중심을 업데이트하면, 병합된 제1 클러스터는 제2 클러스터링 중심 및 R개의 제5 클러스터링 중심으로 설명된다.
이 밖에, 제3 서브 클러스터의 개수가 제4 임계값보다 크면, 각각의 제3 서브 클러스터에서 이미지 데이터의 개수(즉 제4 개수)에 따라 R개의 제3 서브 클러스터를 큰 것에서 작은 것으로 정렬하여 제4 클러스터 시퀀스를 획득하고, 처음 P개의 제3 서브 클러스터를 선택하여 보류하며, 예를 들어, 처음 20개의 제3 서브 클러스터만 보류하고, 나머지 제3 서브 클러스터를 버리며, 이 P개의 제3 서브 클러스터의 제5 클러스터링 중심을 병합된 제1 클러스터의 새로운 서브 중심으로 하여, 원래의 제1 클러스터링 중심을 업데이트하면, 병합된 제1 클러스터는 제2 클러스터링 중심 및 P개의 제5 클러스터링 중심으로 설명된다. 매번 클러스터를 서브 클러스터로 분할할 경우, 기설정 개수의 서브 클러스터만 보류하므로, M 및 N은 모두 제4 임계값보다 작거나 같음으로써, 서브 클러스터가 많은 경우, 이미지 데이터가 많은 서브 클러스터를 보류하여 서브 중심의 개수를 제한하고, 이상치 이미지 데이터의 영향을 제거함으로써, 유지가 편리할 뿐만 아니라, 장시간 대규모 증분 클러스터링 장면에서 여전히 우수한 클러스터링 효과를 가질 수 있도록 함을 이해해야 한다.
이로부터 알 수 있는 바, 본 발명의 실시예는 제1 이미지 데이터 세트의 제1 클러스터를 획득하는 단계; 상기 제1 클러스터를 M개의 제1 서브 클러스터로 분할하고, 상기 M개의 제1 서브 클러스터 중 각각의 제1 서브 클러스터에 대응되는 제1 클러스터링 중심을 획득하는 단계; 상기 M은 1보다 크거나 같은 정수임 - ; 및 제2 이미지 데이터 세트를 획득하고, 상기 제1 클러스터링 중심을 이용하여 상기 제2 이미지 데이터 세트를 상기 제1 클러스터와 병합하는 단계를 수행한다. 이로써, 제1 클러스터를 복수 개의 제1 서브 클러스터로 분할하고, 제1 서브 클러스터의 제1 클러스터링 중심에 기반하여 제1 클러스터와 제2 이미지 데이터 세트를 병합하며, 복수 개의 제1 클러스터링 중심(즉, 서브 중심)을 유지하여, 클러스터링 중심(제1 클러스터의 클러스터링 중심, 즉 메인 중심)이 이미지 데이터의 증가에 따라 새로 추가된 이미지 데이터의 영향을 받아 드리프트가 발생하는 문제를 해결함으로써, 클러스터링 결과가 더 정확해지는데 유리하도록 하여, 클러스터링 효과를 향상시킨다. 이 밖에, 클러스터링 과정에서, 제2 이미지 데이터 세트는 제1 이미지 데이터 세트와 전체적으로 유사도 산출을 수행할 필요가 없으므로, 산출 복잡성을 감소시키는데 유리하다.
도 6을 참조하면, 도 6은 본 발명의 실시예에 의해 제공되는 다른 이미지 증분 클러스터링 방법의 흐름 모식도이고, 도 6에 도시된 바와 같이, 단계 S61 내지 단계 S66을 포함한다.
단계 S61에서, 제1 이미지 데이터 세트의 제1 클러스터를 획득한다.
단계 S62에서, 상기 제1 클러스터를 M개의 제1 서브 클러스터로 분할하고, 상기 M개의 제1 서브 클러스터 중 각각의 제1 서브 클러스터에 대응되는 제1 클러스터링 중심을 획득하며; 상기 M은 1보다 크거나 같은 정수이다.
단계 S63에서, 제2 이미지 데이터 세트를 획득한다.
단계 S64에서, 상기 제2 이미지 데이터 세트에 복수 개의 이미지 데이터가 포함되는 경우, 상기 복수 개의 이미지 데이터를 클러스터링하여 고립 이미지 데이터 및 제2 클러스터를 획득한다.
단계 S65에서, 상기 제1 클러스터링 중심을 이용하여 상기 고립 이미지 데이터를 제1 클러스터 A와 병합하고; 상기 제1 클러스터링 중심을 이용하여 상기 제2 클러스터를 제1 클러스터 B와 병합한다.
단계 S66에서, 상기 제2 이미지 데이터 세트에 단일 이미지 데이터만 존재하는 경우, 상기 제1 클러스터링 중심을 이용하여 상기 단일 이미지 데이터를 제1 클러스터 C와 병합한다.
여기서, 상기 단계 S61 내지 단계 S66의 실시형태에 대한 관련 설명은 도 2 내지 도 5에 도시된 실시예에서 이미 이루어졌으며, 동일하거나 유사한 유리한 효과에 도달할 수 있으므로, 여기서 더 이상 설명하지 않는다.
딥러닝 연구의 돌파는 안면 인식 기술의 발전을 지속적으로 촉진하였으며, 지도 학습을 통해 얻은 안면 인식 모델은 지속적으로 돌파를 이루었지만, 대량의 라벨이 없는 안면 데이터에 직면하였을 때, 어떻게 정확하고 신속하게 분류할 것인가는 경제적, 사회적 가치가 큰 문제이다.
소셜 미디어, 보안 등 분야와 같은 실제 장면에서, 이미지 데이터의 양이 흔히 많고, 데이터는 매일 증분적으로 생성되므로, 증분형 클러스터링 방식의 실제 적용 가치가 더 크다. 증분형 클러스터링 방식은 클러스터링 프로세스에서 일부 클러스터를 유지해야 하고, 기존의 클러스터링 알고리즘은 단일한 클러스터링 중심으로 특정 클러스터를 설명하는데, 예를 들어, 클러스터 내부의 모든 샘플 특징에 대해 평균값을 취하여 클러스터링 중심을 획득하지만, 상이한 클러스터의 희소 정도가 상이하기 때문에, 평균값을 사용하여 단일한 클러스터링 중심을 획득하는 이러한 간단한 방법은 클러스터 내부의 풍부한 샘플 정보를 쉽게 손실될 수 있고, 증분형 클러스터링 프로세스가 지속적으로 진행됨에 따라, 클러스터링 효과는 점차적으로 영향을 받게 된다.
안면 클러스터링의 실제 적용 과정에서, 특징 공간 데이터에서 분포되는 상이한 사람의 안면 특징은 상이하고, 일부 클러스터 내부의 샘플은 비교적 긴밀하며, 일부 클러스터 내부의 샘플은 비교적 느슨할 수 있다. 단일한 중심으로 클러스터를 설명하면, 클러스터의 이러한 내부 정보를 손실할 수 있고, 증분 클러스터링이 지속적으로 진행됨에 따라, 기존 샘플의 영향은 지속적으로 감소되며, 새로운 샘플의 추가에 따라, 클러스터링 중심이 드리프트되는 위험이 증가된다.
본 발명의 실시예에 의해 제공되는 이미지 증분 클러스터링 방법은 하기와 같은 단계를 포함한다.
단계 S67에서, 클러스터 샘플 사이의 유사도를 산출하고, 하나의 클러스터를 복수 개의 더 긴밀한 서브 클러스터로 분할한다.
클러스터 샘플 사이의 유사도를 산출하여 유사도 매트릭스
Figure pct00001
를 획득할 수 있고, 클러스터링에 사용된 임계값이
Figure pct00002
라고 가정하면,
Figure pct00003
를 만족시키는 하나의 더 높은 임계값
Figure pct00004
를 설정하여 하나의 클러스터를 복수 개의 더 긴밀한 서브 클러스터로 분할해야 한다.
연결 그래프 분석 기반의 방식을 사용하여 클러스터를 분석하여 클러스터의 다중 중심을 획득할 수 있다. 클러스터에 대해 유사도 매트릭스를 산출하고, 클러스터링에 사용된 유사도보다 높은 임계값을 사용하여 하나의 클러스터를 복수 개의 더 긴밀한 서브 클러스터로 분할할 수 있음으로써, 복수 개의 서브 클러스터 중심을 획득할 수 있고, 메인 중심인 클러스터의 중심을 추가하여 클러스터의 다중 중심 설명 방식을 구성한다.
여기서, 연결 그래프 분석 기반의 클러스터링 다중 중심 설계 분석을 사용하여 복수 개의 서브 중심을 획득하는 단계는, 먼저 각각의 클러스터에 대해, 더 높은 임계값(클러스터링 임계값보다 높아야 함)을 설정하고, 클러스터를 여러 개의 더 긴밀한 연결 서브 그래프으로 분할하며, 각각의 연결 서브 그래프에 대해 서브 중심을 산출함으로써, 복수 개의 서브 중심을 획득할 수 있고, 메인 중심은 여전히 전체 클러스터에 대해 통상적인 평균값 산출 방식을 사용하여 획득된다.
단계 S68에서, 증분 클러스터링 프로세스에서, 새로운 배치의 데이터가 추가될 때마다 먼저 새로운 데이터를 한 번 클러스터링하여 복수 개의 클러스터 및 클러스터링되지 않은 고립 샘플을 생성한다.
단계 S69에서, 생성된 복수 개의 클러스터 및 클러스터링되지 않은 고립 샘플을 단계 S67에서 획득한 기존의 클러스터링 결과와 클러스터링 및 병합한다.
단일 메인 중심 및 복수 개의 서브 중심 기반의 다중 중심 증분 클러스터링 방법은 다음과 같은 바, 메인 중심 및 복수 개의 서브 중심을 획득하는 것을 기초로, 증분 클러스터링 프로세스에서, 먼저 메인 중심 및 새로 추가된 데이터를 이용하여 TopK 검색 대략적 선별을 수행한 다음, 복수 개의 서브 중심에 따라 새로운 샘플 또는 다른 클러스터를 흡수하는지 여부를 추가적으로 결정한다.
이러한 클러스터링 병합 프로세스는 클러스터 간의 병합, 및 클러스터가 단일 고립 샘플을 흡수하는 것에 관한 것이다. 고립 샘플 포인트의 흡수에 대해, 다중 중심의 설계에 기반하여, 먼저 비교적 낮은 임계값을 설정하고, 메인 중심을 사용하여 TopK를 검색한 다음, 서브 중심과 샘플 포인트가 클러스터링 임계값
Figure pct00005
을 만족시키는지 여부를 기반으로 한다. 이러한 경우, 복수 개의 클러스터 및 고립 샘플 포인트가 이러한 요구를 만족시킬 수 있고, 요구를 만족시키는 서브 중심 개수가 가장 많은 클러스터를 타깃 클러스터로 사용한다. 클러스터 간 병합 시 마찬가지로 비교적 낮은 임계값을 사용하여 TopK를 선별하고 검색한 다음, 클러스터 사이에 임계값 요구를 만족시키는 서브 중심이 있는지 여부에 따라, 복수 개의 클러스터가 요구를 만족시킬 경우, 임계값 요구를 만족시키는 서브 중심 개수가 가장 많은 클러스터를 타깃 클러스터로 사용한다.
다중 중심 기반의 증분 클러스터링 아키텍처를 사용하여, 다중 중심 메커니즘 중의 단일 메인 중심 및 복수 개의 서브 중심을 종합적으로 이용하며, TopK 인접 검색 시 메인 중심을 사용하여 유사도 산출에 참여한 다음, 복수 개의 서브 중심 및 클러스터링할 단일 샘플 또는 클러스터를 통해 유사도를 산출하여 단일 샘플의 흡수 또는 클러스터의 병합을 완성하였는지 여부를 추가적으로 결정한다. 상기 아키텍처는 다중 중심 표현의 장점을 종합적으로 이용하였으므로, 너무 많은 산출 복잡성을 추가하지 않고도 클러스터링 효과를 동시에 향상시킬 수 있다.
클러스터가 병합되거나 새로운 샘플이 추가될 경우, 서브 중심을 업데이트해야 하고, 산출을 간소화하기 위해, 서브 중심의 클러스터링으로 모델링하여 서브 중심의 병합 및 업데이트를 구현할 수 있다. 동시에 서브 중심 데이터가 너무 많은 것을 방지하기 위해, 대표되는 샘플 포인트 개수에 따라 각각의 서브 중심을 큰 것에서 작은 것으로 정렬할 수 있으며, 예를 들어, 최대 처음 20개의 서브 중심만 선택할 수 있다.
클러스터 다중 중심의 증분 업데이트 방식을 사용한다. 실제 장면에서, 데이터의 양이 지속적으로 증가함에 따라, 서브 중심의 병합 및 업데이트, 및 서브 중심 개수의 제한을 통해, 서브 중심 개수가 지속적으로 증가되어 너무 많은 컴퓨팅 및 저장 부담이 발생되는 것을 방지할 수 있고, 동시에 이상치 간섭 포인트의 영향을 감소시킬 수도 있다.
본 발명의 실시예에서, 대규모 데이터에서 안면 클러스터링의 복잡한 상황을 하기와 같이 충분히 고려하였다.
먼저, 안면 클러스터의 단일 메인 중심 및 복수 개의 서브 중심에 대한 설명을 획득하는데 사용될 수 있는 안면 클러스터 다중 중심의 구축 방식을 제안하였다. 이로써, 클러스터의 설명이 하나의 클러스터링 중심을 유지하고 클러스터 내부의 일부 긴밀한 서브 클러스터 정보를 무시하는 문제; 및 데이터의 지속적인 증가에 따라, 단일 클러스터링 중심이 유지되므로, 클러스터링 중심이 새로운 샘플의 영향을 지속적으로 받아 중심이 드리프트되는 위험이 존재하고, 동시에 클러스터 내부의 기존 샘플의 영향이 지속적으로 약화되어 중심의 표현 능력이 감소되는 문제; 및, 단일한 클러스터링 중심이 증분 클러스터링 프로세스에서 클러스터 내부의 샘플 정보를 손실시키고, 증분형 클러스터링 프로세스에서 일반적으로 각각의 클러스터에 대해 단일한 클러스터링 중심을 유지하며, 데이터가 지속적으로 추가되는 프로세스에서, 클러스터링 중심 제거 및 새로운 샘플 또는 클러스터 사이를 통해 유사도를 산출하여 클러스터의 병합 및 업데이트를 수행하고, 동시에 클러스터링 중심이 지속적으로 업데이트되며, 데이터의 지속적인 추가에 따라, 단일한 다중 중심은 클러스터 내부의 풍부한 샘플 정보를 점차적으로 잃고, 동시에 드리프트가 발생하기 쉬어, 시간이 지남에 따라 클러스터링 효과에 영향을 미치는 문제를 해결하였다.
다음, 다중 중심 기반의 증분 클러스터링 아키텍처를 제안하였으며, 상기 아키텍처를 이용하여, 다중 중심 표현을 사용하여 증분 클러스터링을 수행하는 산출 복잡성과 클러스터링 정확도의 균형을 잘 잡을 수 있고, 클러스터가 단일 샘플을 흡수하는 것 및 클러스터 간의 병합을 구현할 수 있음으로써, 선행기술의 다중 중심의 설정이 대규모 데이터 장면에서 클러스터링 산출 속도 및 저장에 큰 영향을 미치는 문제를 해결하였다.
마지막으로, 다중 중심의 증분 업데이트 방식을 제안하였으며, 상기 방법은 서브 중심 간의 병합 및 업데이트, 및 서브 중심 개수의 제한을 통해 장기간의 대규모 클러스터링 장면에서 우수한 클러스터링 효과를 가질 수 있도록 한다. 상기 방식을 기반으로, 다중 중심 개수의 증가를 제한하는 동시에 이상치 포인트의 영향을 제거할 수 있음으로써, 선행기술에서 안면 이미지의 특징이 일반적으로 높은 차원을 가지므로, 복수 개의 다중 중심을 유지하고, 클러스터링 시 내부의 압력이 기하급수적으로 증가하는 문제, 및 TopK 인접 검색 시 산출이 추가적으로 기하급수적으로 증가하는 문제를 해결하였다.
도 2 또는 도 6에 도시된 방법 실시예의 설명에 기반하여, 본 발명의 실시예는 이미지 증분 클러스터링 장치를 더 제공하고, 도 7을 참조하면, 도 7은 본 발명의 실시예에 의해 제공되는 이미지 증분 클러스터링 장치의 구조 모식도이며, 도 7에 도시된 바와 같이, 상기 장치는,
제1 이미지 데이터 세트의 제1 클러스터를 획득하도록 구성되는 제1 획득 모듈(71);
상기 제1 클러스터를 M개의 제1 서브 클러스터로 분할하고, 상기 M개의 제1 서브 클러스터 중 각각의 제1 서브 클러스터에 대응되는 제1 클러스터링 중심을 획득하도록 구성되는 제1 분할 모듈(72) - 상기 M은 1보다 크거나 같은 정수임 - ; 및
제2 이미지 데이터 세트를 획득하고, 상기 제1 클러스터링 중심을 이용하여 상기 제2 이미지 데이터 세트를 상기 제1 클러스터와 병합하도록 구성되는 병합 모듈(73)을 포함한다.
가능한 실시형태에서, 상기 제1 클러스터는 제1 클러스터 A, 제1 클러스터 B 및 제1 클러스터 C를 포함하고; 상기 제1 클러스터링 중심을 이용하여 상기 제2 이미지 데이터 세트를 상기 제1 클러스터와 병합하는 측면에서, 병합 모듈(73)은, 상기 제2 이미지 데이터 세트에 복수 개의 이미지 데이터가 포함되는 경우, 상기 복수 개의 이미지 데이터를 클러스터링하여 고립 이미지 데이터 및 제2 클러스터를 획득하고; 상기 제1 클러스터링 중심을 이용하여 상기 고립 이미지 데이터를 상기 제1 클러스터 A와 병합하며, 상기 제1 클러스터링 중심을 이용하여 상기 제2 클러스터를 상기 제1 클러스터 B와 병합하고; 상기 제2 이미지 데이터 세트에 단일 이미지 데이터만 존재하는 경우, 상기 제1 클러스터링 중심을 이용하여 상기 단일 이미지 데이터를 상기 제1 클러스터 C와 병합하도록 구성된다.
가능한 실시형태에서, 상기 제1 클러스터에는 대응되는 제2 클러스터링 중심이 존재하고; 상기 제1 클러스터링 중심을 이용하여 상기 제2 이미지 데이터 세트를 상기 제1 클러스터와 병합하기 전에, 병합 모듈(73)은 또한, 상기 제2 클러스터링 중심을 이용하여 상기 제1 클러스터에서 K개의 제1 클러스터를 결정하도록 구성된다.
가능한 실시형태에서, 상기 제2 클러스터에는 대응되는 제3 클러스터링 중심이 존재하고; 상기 제2 클러스터링 중심을 이용하여 상기 제1 클러스터에서 K개의 제1 클러스터를 결정하는 측면에서, 병합 모듈(73)은, 상기 고립 이미지 데이터와 상기 제2 클러스터링 중심 사이의 제1 유사도를 획득하고; 상기 제1 유사도에 따라 상기 제1 클러스터를 높은 것에서 낮은 것으로 정렬하여 제1 클러스터 시퀀스를 획득하며, 상기 제1 클러스터 시퀀스에서 처음 K개의 제1 클러스터를 선택하고; 상기 제3 클러스터링 중심과 상기 제2 클러스터링 중심 사이의 제2 유사도를 획득하며; 상기 제2 유사도에 따라 상기 제1 클러스터를 높은 것에서 낮은 것으로 정렬하여 제2 클러스터 시퀀스를 획득하고, 상기 제2 클러스터 시퀀스에서 처음 K개의 제1 클러스터를 선택하거나; 또는, 상기 단일 이미지 데이터와 상기 제2 클러스터링 중심 사이의 제3 유사도를 획득하며; 상기 제3 유사도에 따라 상기 제1 클러스터를 높은 것에서 낮은 것으로 정렬하여 제3 클러스터 시퀀스를 획득하고, 상기 제3 클러스터 시퀀스에서 처음 K개의 제1 클러스터를 선택하도록 구성된다.
가능한 실시형태에서, 상기 제1 클러스터링 중심을 이용하여 상기 고립 이미지 데이터를 상기 제1 클러스터 A와 병합하는 측면에서, 병합 모듈(73)은, 상기 고립 이미지 데이터와 제1 클러스터링 중심 D 사이의 제4 유사도를 획득하고; 상기 제1 클러스터링 중심 D는 상기 K개의 제1 클러스터 중 각각의 제1 클러스터의 각각의 제1 서브 클러스터에 대응되는 상기 제1 클러스터링 중심이며; 상기 K개의 제1 클러스터 중 각각의 제1 클러스터에 대해, 상기 각각의 제1 클러스터에서 상기 제4 유사도가 제1 임계값보다 큰 상기 제1 클러스터링 중심 D의 제1 개수를 결정하고; 상기 K개의 제1 클러스터에서 상기 제1 개수가 가장 큰 제1 클러스터를 상기 제1 클러스터 A로 결정하며; 상기 고립 이미지 데이터를 상기 제1 클러스터 A와 병합하도록 구성된다.
가능한 실시형태에서, 상기 제1 클러스터링 중심을 이용하여 상기 제2 클러스터를 상기 제1 클러스터 B와 병합하는 측면에서, 병합 모듈(73)은, 상기 제2 클러스터를 N개의 제2 서브 클러스터로 분할하고, 상기 N개의 제2 서브 클러스터 중 각각의 제2 서브 클러스터에 대응되는 제4 클러스터링 중심을 획득하며; 상기 N은 1보다 크거나 같은 정수이고; 상기 제4 클러스터링 중심과 제1 클러스터링 중심 E 사이의 제5 유사도를 획득하며; 상기 제1 클러스터링 중심 E는 K개의 제1 클러스터 중 각각의 제1 클러스터의 각각의 제1 서브 클러스터에 대응되는 상기 제1 클러스터링 중심이고; 상기 K개의 제1 클러스터 중 각각의 제1 클러스터에 대해, 상기 각각의 제1 클러스터에서 상기 제5 유사도가 제2 임계값보다 큰 상기 제1 클러스터링 중심 E의 제2 개수를 결정하며; 상기 K개의 제1 클러스터에서 상기 제2 개수가 가장 큰 제1 클러스터를 상기 제1 클러스터 B로 결정하고; 상기 제2 클러스터를 상기 제1 클러스터 B와 병합하도록 구성된다.
가능한 실시형태에서, 상기 제1 클러스터링 중심을 이용하여 상기 단일 이미지 데이터를 상기 제1 클러스터 C와 병합하는 측면에서, 병합 모듈(73)은, 상기 단일 이미지 데이터와 제1 클러스터링 중심 F 사이의 제6 유사도를 획득하고; 상기 제1 클러스터링 중심 F는 상기 K개의 제1 클러스터 중 각각의 제1 클러스터의 각각의 제1 서브 클러스터에 대응되는 상기 제1 클러스터링 중심이며; 상기 K개의 제1 클러스터 중 각각의 제1 클러스터에 대해, 상기 각각의 제1 클러스터에서 상기 제6 유사도가 제3 임계값보다 큰 상기 제1 클러스터링 중심 F의 제3 개수를 결정하고; 상기 K개의 제1 클러스터에서 상기 제3 개수가 가장 큰 제1 클러스터를 상기 제1 클러스터 C로 결정하며; 상기 단일 이미지 데이터를 상기 제1 클러스터 C와 병합하도록 구성된다.
가능한 실시형태에서, 상기 M은 제4 임계값보다 작거나 같고; 제1 분할 모듈(72)은 또한, 병합된 제1 클러스터를 R개의 제3 서브 클러스터로 분할하고, 상기 R개의 제3 서브 클러스터 중 각각의 제3 서브 클러스터의 제5 클러스터링 중심을 획득하며; 상기 R은 1보다 크거나 같은 정수이고; 상기 R이 상기 제4 임계값보다 작거나 같은 경우, 상기 R개의 제3 서브 클러스터를 보류하며, 상기 R개의 제3 서브 클러스터에 대응되는 상기 제5 클러스터링 중심을 이용하여 상기 제1 클러스터링 중심을 업데이트하고; 상기 R이 상기 제4 임계값보다 큰 경우, 상기 R개의 제3 서브 클러스터 중 각각의 제3 서브 클러스터 중의 이미지 데이터의 제4 개수를 획득하며; 상기 제4 개수에 따라 상기 R개의 제3 서브 클러스터를 큰 것에서 작은 것으로 정렬하여 제4 클러스터 시퀀스를 획득하고, 상기 제4 클러스터 시퀀스에서 처음 P개의 제3 서브 클러스터를 선택하며, 상기 P개의 제3 서브 클러스터에 대응되는 상기 제5 클러스터링 중심을 이용하여 상기 제1 클러스터링 중심을 업데이트하고; 상기 P는 상기 제4 임계값보다 작거나 같도록 구성된다.
가능한 실시형태에서, 상기 제1 클러스터를 M개의 제1 서브 클러스터로 분할하는 측면에서, 제1 분할 모듈(72)은, 상기 제1 클러스터 중의 이미지 데이터 사이의 제7 유사도를 획득하여 유사도 매트릭스를 획득하고; 상기 유사도 매트릭스에 기반하여 상기 제1 클러스터를 상기 M개의 제1 서브 클러스터로 분할하도록 구성된다.
가능한 실시형태에서, 상기 유사도 매트릭스에 기반하여 상기 제1 클러스터를 상기 M개의 제1 서브 클러스터로 분할하는 측면에서, 제1 분할 모듈(72)은, 상기 제1 클러스터 중의 이미지 데이터를 정점으로 사용하여 구성된 연결 그래프를 획득하고; 상기 유사도 매트릭스에서 상기 연결 그래프 중의 정점 사이의 상기 제7 유사도를 조회하여 획득하며; 상기 제7 유사도가 제5 임계값보다 큰 복수 개의 정점을 하나의 제1 서브 클러스터로 분할하여 상기 M개의 제1 서브 클러스터를 획득하도록 구성된다.
본 발명의 일 실시예에 따르면, 도 7에 도시된 이미지 증분 클러스터링 장치 중의 각 유닛은 개별적 또는 전체적으로 하나 이상의 다른 유닛으로 통합되어 구성될 수 있거나, 또는 그 중 하나(복수 개)의 유닛은 또한 기능적으로 더 작은 복수 개의 유닛으로 분할되어 구성될 수 있는데, 이는 본 발명의 실시예의 기술적 효과의 구현에 영향을 미치지 않으면서 동일한 동작을 구현할 수 있다. 상기 유닛은 논리적인 기능에 기반하여 구분되는데, 실제 응용에서, 하나의 유닛의 기능은 복수 개의 유닛에 의해 구현될 수 있거나, 또는 복수 개의 유닛의 기능은 하나의 유닛에 의해 구현될 수도 있다. 본 발명의 다른 실시예에서, 이미지 기반의 증분 클러스터링 장치는 다른 유닛을 포함할 수도 있는데, 실제 응용에서, 이러한 기능은 다른 유닛의 도움으로 구현될 수 있고, 복수 개의 유닛의 도움으로 구현될 수도 있다.
본 발명의 다른 실시예에 따르면, 중앙 처리 장치(CPU), 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM) 등 처리 소자 및 저장 소자를 포함하는 예컨대 컴퓨터의 범용 컴퓨팅 기기에서 실행되어 도 2 또는 도 6에 도시된 대응 방법에서 언급된 각 단계를 수행할 수 있는 컴퓨터 프로그램(프로그램 코드를 포함함)을 통해 도 7에 도시된 이미지 증분 클러스터링 장치를 구성하고 본 발명의 실시예의 이미지 증분 클러스터링 방법을 구현할 수 있다. 상기 컴퓨터 프로그램은 예컨대 컴퓨터 판독 가능 기록 매체에 기록되고, 컴퓨터 판독 가능 기록 매체를 통해 상기 컴퓨팅 기기에 로딩되어 실행될 수 있다.
상기 방법 실시예 및 장치 실시예에 기반하여, 본 발명의 실시예는 전자 기기를 더 제공한다. 도 8을 참조하면, 상기 전자 기기는 적어도 프로세서(81), 입력 기기(82), 출력 기기(83) 및 컴퓨터 저장 매체(84)를 포함한다. 여기서, 전자 기기 내 프로세서(81), 입력 기기(82), 출력 기기(83) 및 컴퓨터 저장 매체(84)는 버스 또는 다른 방식을 통해 연결될 수 있다.
컴퓨터 저장 매체(84)는 전자 기기의 메모리에 저장될 수 있고, 상기 컴퓨터 저장 매체(84)는 컴퓨터 프로그램을 저장하도록 구성되며, 상기 컴퓨터 프로그램은 프로그램 명령을 포함하고, 상기 프로세서(81)는 상기 컴퓨터 저장 매체(84)에 저장된 프로그램 명령을 실행하도록 구성된다. 프로세서(81)(또는 CPU(Central Processing Unit, 중앙 처리 장치)라고도 함)는 전자 기기의 컴퓨팅 코어 및 제어 코어로, 하나 이상의 명령을 구현하는데 적합하고, 하나 이상의 명령을 로딩 및 실행하여 대응되는 방법의 프로세스 또는 대응되는 기능을 구현하는데 적합하다.
일 실시예에서, 본 발명의 실시예에 의해 제공되는 전자 기기의 프로세서(81)는 하기와 같은 일련의 이미지 증분 클러스터링 처리를 수행하도록 구성될 수 있다.
제1 이미지 데이터 세트의 제1 클러스터를 획득하고;
상기 제1 클러스터를 M개의 제1 서브 클러스터로 분할하며, 상기 M개의 제1 서브 클러스터 중 각각의 제1 서브 클러스터에 대응되는 제1 클러스터링 중심을 획득하고; 상기 M은 1보다 크거나 같은 정수이며; 제2 이미지 데이터 세트를 획득하고, 상기 제1 클러스터링 중심을 이용하여 상기 제2 이미지 데이터 세트를 상기 제1 클러스터와 병합한다.
다른 실시예에서, 상기 제1 클러스터는 제1 클러스터 A, 제1 클러스터 B 및 제1 클러스터 C를 포함하고; 프로세서(81)는, 상기 제1 클러스터링 중심을 이용하여 상기 제2 이미지 데이터 세트를 상기 제1 클러스터와 병합하는 단계를 수행하며, 상기 단계는, 상기 제2 이미지 데이터 세트에 복수 개의 이미지 데이터가 포함되는 경우, 상기 복수 개의 이미지 데이터를 클러스터링하여 고립 이미지 데이터 및 제2 클러스터를 획득하는 단계; 상기 제1 클러스터링 중심을 이용하여 상기 고립 이미지 데이터를 상기 제1 클러스터 A와 병합하고, 상기 제1 클러스터링 중심을 이용하여 상기 제2 클러스터를 상기 제1 클러스터 B와 병합하는 단계; 및 상기 제2 이미지 데이터 세트에 단일 이미지 데이터만 존재하는 경우, 상기 제1 클러스터링 중심을 이용하여 상기 단일 이미지 데이터를 상기 제1 클러스터 C와 병합하는 단계를 포함한다.
또 다른 실시예에서, 상기 제1 클러스터에는 대응되는 제2 클러스터링 중심이 존재하고; 상기 제1 클러스터링 중심을 이용하여 상기 제2 이미지 데이터 세트를 상기 제1 클러스터와 병합하는 단계 이전에, 프로세서(81)는 또한, 상기 제2 클러스터링 중심을 이용하여 상기 제1 클러스터에서 K개의 제1 클러스터를 결정하는 단계를 수행하도록 구성된다.
또 다른 실시예에서, 상기 제2 클러스터에는 대응되는 제3 클러스터링 중심이 존재하고; 프로세서(81)는, 상기 제2 클러스터링 중심을 이용하여 상기 제1 클러스터에서 K개의 제1 클러스터를 결정하는 단계를 수행하며, 상기 단계는, 상기 고립 이미지 데이터와 상기 제2 클러스터링 중심 사이의 제1 유사도를 획득하는 단계; 상기 제1 유사도에 따라 상기 제1 클러스터를 높은 것에서 낮은 것으로 정렬하여 제1 클러스터 시퀀스를 획득하고, 상기 제1 클러스터 시퀀스에서 처음 K개의 제1 클러스터를 선택하는 단계; 및, 상기 제3 클러스터링 중심과 상기 제2 클러스터링 중심 사이의 제2 유사도를 획득하는 단계; 상기 제2 유사도에 따라 상기 제1 클러스터를 높은 것에서 낮은 것으로 정렬하여 제2 클러스터 시퀀스를 획득하고, 상기 제2 클러스터 시퀀스에서 처음 K개의 제1 클러스터를 선택하는 단계; 또는, 상기 단일 이미지 데이터와 상기 제2 클러스터링 중심 사이의 제3 유사도를 획득하는 단계; 및 상기 제3 유사도에 따라 상기 제1 클러스터를 높은 것에서 낮은 것으로 정렬하여 제3 클러스터 시퀀스를 획득하고, 상기 제3 클러스터 시퀀스에서 처음 K개의 제1 클러스터를 선택하는 단계를 포함한다.
또 다른 실시예에서, 프로세서(81)는, 상기 제1 클러스터링 중심을 이용하여 상기 고립 이미지 데이터를 상기 제1 클러스터 A와 병합하는 단계를 수행하고, 상기 단계는, 상기 고립 이미지 데이터와 제1 클러스터링 중심 D 사이의 제4 유사도를 획득하는 단계 - 상기 제1 클러스터링 중심 D는 상기 K개의 제1 클러스터 중 각각의 제1 클러스터의 각각의 제1 서브 클러스터에 대응되는 상기 제1 클러스터링 중심임 - ; 상기 K개의 제1 클러스터 중 각각의 제1 클러스터에 대해, 상기 각각의 제1 클러스터에서 상기 제4 유사도가 제1 임계값보다 큰 상기 제1 클러스터링 중심 D의 제1 개수를 결정하는 단계; 상기 K개의 제1 클러스터에서 상기 제1 개수가 가장 큰 제1 클러스터를 상기 제1 클러스터 A로 결정하는 단계; 및 상기 고립 이미지 데이터를 상기 제1 클러스터 A와 병합하는 단계를 포함한다.
또 다른 실시예에서, 프로세서(81)는, 상기 제1 클러스터링 중심을 이용하여 상기 제2 클러스터를 상기 제1 클러스터 B와 병합하는 단계를 수행하고, 상기 단계는, 상기 제2 클러스터를 N개의 제2 서브 클러스터로 분할하고, 상기 N개의 제2 서브 클러스터 중 각각의 제2 서브 클러스터에 대응되는 제4 클러스터링 중심을 획득하는 단계 - 상기 N은 1보다 크거나 같은 정수임 - ; 상기 제4 클러스터링 중심과 제1 클러스터링 중심 E 사이의 제5 유사도를 획득하는 단계 - 상기 제1 클러스터링 중심 E는 K개의 제1 클러스터 중 각각의 제1 클러스터의 각각의 제1 서브 클러스터에 대응되는 상기 제1 클러스터링 중심임 - ; 상기 K개의 제1 클러스터 중 각각의 제1 클러스터에 대해, 상기 각각의 제1 클러스터에서 상기 제5 유사도가 제2 임계값보다 큰 상기 제1 클러스터링 중심 E의 제2 개수를 결정하는 단계; 상기 K개의 제1 클러스터에서 상기 제2 개수가 가장 큰 제1 클러스터를 상기 제1 클러스터 B로 결정하는 단계; 및 상기 제2 클러스터를 상기 제1 클러스터 B와 병합하는 단계를 포함한다.
또 다른 실시예에서, 프로세서(81)는, 상기 제1 클러스터링 중심을 이용하여 상기 단일 이미지 데이터를 상기 제1 클러스터 C와 병합하는 단계를 수행하고, 상기 단계는, 상기 단일 이미지 데이터와 제1 클러스터링 중심 F 사이의 제6 유사도를 획득하는 단계 - 상기 제1 클러스터링 중심 F는 상기 K개의 제1 클러스터 중 각각의 제1 클러스터의 각각의 제1 서브 클러스터에 대응되는 상기 제1 클러스터링 중심임 - ; 상기 K개의 제1 클러스터 중 각각의 제1 클러스터에 대해, 상기 각각의 제1 클러스터에서 상기 제6 유사도가 제3 임계값보다 큰 상기 제1 클러스터링 중심 F의 제3 개수를 결정하는 단계; 상기 K개의 제1 클러스터에서 상기 제3 개수가 가장 큰 제1 클러스터를 상기 제1 클러스터 C로 결정하는 단계; 및 상기 단일 이미지 데이터를 상기 제1 클러스터 C와 병합하는 단계를 포함한다.
또 다른 실시예에서, 상기 M은 제4 임계값보다 작거나 같고; 상기 제1 클러스터링 중심을 이용하여 상기 제2 이미지 데이터 세트를 상기 제1 클러스터와 병합하는 단계 이후에, 프로세서(81)는 또한, 병합된 제1 클러스터를 R개의 제3 서브 클러스터로 분할하고, 상기 R개의 제3 서브 클러스터 중 각각의 제3 서브 클러스터의 제5 클러스터링 중심을 획득하는 단계 - 상기 R은 1보다 크거나 같은 정수임 - ; 상기 R이 상기 제4 임계값보다 작거나 같은 경우, 상기 R개의 제3 서브 클러스터를 보류하고, 상기 R개의 제3 서브 클러스터에 대응되는 상기 제5 클러스터링 중심을 이용하여 상기 제1 클러스터링 중심을 업데이트하는 단계; 상기 R이 상기 제4 임계값보다 큰 경우, 상기 R개의 제3 서브 클러스터 중 각각의 제3 서브 클러스터 중의 이미지 데이터의 제4 개수를 획득하는 단계; 및 상기 제4 개수에 따라 상기 R개의 제3 서브 클러스터를 큰 것에서 작은 것으로 정렬하여 제4 클러스터 시퀀스를 획득하고, 상기 제4 클러스터 시퀀스에서 처음 P개의 제3 서브 클러스터를 선택하며, 상기 P개의 제3 서브 클러스터에 대응되는 상기 제5 클러스터링 중심을 이용하여 상기 제1 클러스터링 중심을 업데이트하는 단계 - 상기 P는 상기 제4 임계값보다 작거나 같음 - ;를 수행하도록 구성된다.
또 다른 실시예에서, 상기 제1 클러스터는 상기 제1 이미지 데이터 세트 중의 이미지 데이터를 클러스터링하여 획득되고; 프로세서(81)는, 상기 제1 클러스터를 M개의 제1 서브 클러스터로 분할하는 단계를 수행하며, 상기 단계는, 상기 제1 클러스터 중의 이미지 데이터 사이의 제7 유사도를 획득하여 유사도 매트릭스를 획득하는 단계; 및 상기 유사도 매트릭스에 기반하여 상기 제1 클러스터를 상기 M개의 제1 서브 클러스터로 분할하는 단계를 포함한다.
또 다른 실시예에서, 프로세서(81)는 상기 유사도 매트릭스에 기반하여 상기 제1 클러스터를 상기 M개의 제1 서브 클러스터로 분할하는 단계를 수행하고, 상기 단계는, 상기 제1 클러스터 중의 이미지 데이터를 정점으로 사용하여 구성된 연결 그래프를 획득하는 단계; 상기 유사도 매트릭스에서 상기 연결 그래프 중의 정점 사이의 상기 제7 유사도를 조회하여 획득하는 단계; 및 상기 제7 유사도가 제5 임계값보다 큰 복수 개의 정점을 하나의 제1 서브 클러스터로 분할하여 상기 M개의 제1 서브 클러스터를 획득하는 단계를 포함한다.
예시적으로, 상기 전자 기기는 컴퓨터, 컴퓨터 본체, 서버, 클라우드 서버, 서버 클러스터 등일 수 있고, 전자 기기는 프로세서(81), 입력 기기(82), 출력 기기(83) 및 컴퓨터 저장 매체(84)를 포함할 수 있지만 이에 한정되지 않으며, 입력 기기(82)는 키보드, 터치 스크린 등일 수 있고, 출력 기기(83)는 스피커, 디스플레이, 무선 주파수 송신기 등일 수 있다. 당업자는 상기 모식도는 전자 기기의 예시일 수 있고, 전자 기기를 한정하지 않으며, 도시된 것보다 더 많거나 적은 부재, 또는 특정 부재의 조합, 또는 상이한 부재를 포함할 수 있음을 이해할 수 있다.
설명해야 할 것은, 전자 기기의 프로세서(81)는 컴퓨터 프로그램을 실행할 경우 상기 이미지 증분 클러스터링 방법의 단계를 구현하므로, 상기 이미지 증분 클러스터링 방법의 실시예는 모두 상기 전자 기기에 적용될 수 있고, 모두 동일하거나 유사한 유리한 효과에 도달할 수 있다.
본 발명의 실시예는 컴퓨터 프로그램 제품을 더 제공하고, 상기 컴퓨터 프로그램 제품은 프로세서에 의해 실행될 경우 전술한 실시예의 임의의 방법을 구현한다. 상기 컴퓨터 프로그램 제품은 하드웨어, 소프트웨어 또는 이들의 조합을 통해 구현될 수 있다. 본 발명의 일부 실시예에서, 상기 컴퓨터 프로그램 제품은 컴퓨터 저장 매체로 구현되고, 본 발명의 다른 일부 일부 실시예에서, 컴퓨터 프로그램 제품은 소프트웨어 개발 키트(Software Development Kit, SDK) 등과 같은 소프트웨어 제품으로 구현된다.
본 발명의 실시예는 컴퓨터 저장 매체(Memory)를 더 제공하고, 상기 컴퓨터 저장 매체는 프로그램 및 데이터를 저장하도록 구성되는 전자 기기 중의 기억 기기이다. 여기서의 컴퓨터 저장 매체는 단말기 중의 내장 저장 매체를 포함할 수 있을 뿐만 아니라, 단말기에 의해 지원되는 확장 저장 매체도 포함할 수 있음을 이해할 수 있다. 컴퓨터 저장 매체는 단말기의 운영 체제를 저장하는 저장 공간을 제공한다. 또한, 상기 저장 공간에는 프로세서(81)에 의해 로딩 및 실행되는데 적합한 하나 이상의 명령이 더 저장되고, 이러한 명령은 하나 이상의 컴퓨터 프로그램(프로그램 코드를 포함함)일 수 있다. 설명해야 할 것은, 여기서의 컴퓨터 저장 매체는 고속 RAM메모리일 수 있고, 적어도 하나의 디스크 메모리와 같은 비휘발성 메모리(Non-Volatile Memory)일 수도 있으며; 본 발명의 일부 실시예에서, 전술한 프로세서(81)로부터 멀리 떨어진 적어도 하나의 컴퓨터 저장 매체일 수도 있다. 일 실시예에서, 프로세서(81)는 컴퓨터 저장 매체에 저장된 하나 이상의 명령을 로딩 및 실행하여 상기 관련 이미지 증분 클러스터링 방법의 대응되는 단계를 구현할 수 있다.
예시적으로, 컴퓨터 저장 매체의 컴퓨터 프로그램은 컴퓨터 프로그램 코드를 포함하고, 상기 컴퓨터 프로그램 코드는 소스 코드 형태, 목적 코드 형태, 실행 가능 파일 또는 일부 중간 형태 등일 수 있다. 상기 컴퓨터 판독 가능 매체는 상기 컴퓨터 프로그램 코드를 휴대할 수 있는 임의의 엔티티 또는 장치, 기록 매체, U 디스크, 모바일 하드 디스크, 자기 디스크, CD, 컴퓨터 메모리, 판독 전용 메모리(ROM, Read-Only Memory), 랜덤 액세스 메모리(RAM, Random Access Memory), 전기 반송파 신호, 전기 통신 신호 및 소프트웨어 배포 매체 등을 포함할 수 있다.
설명해야 할 것은, 컴퓨터 저장 매체의 컴퓨터 프로그램은 프로세서에 의해 실행될 경우 상기 이미지 증분 클러스터링 방법의 단계를 구현하므로, 상기 이미지 증분 클러스터링 방법의 모든 실시예는 모두 상기 컴퓨터 저장 매체에 적용될 수 있고, 모두 동일하거나 유사한 유리한 효과에 도달할 수 있다.
위에서 본 발명의 실시예를 상세하게 설명하였고, 본문에서 예를 적용하여 본 발명의 원리 및 실시형태를 설명하였으며, 이상의 실시예의 설명은 본 발명의 방법 및 핵심 사상의 이해를 돕기 위한 것일 뿐이며, 아울러, 당업자는 본 발명의 사상에 따라 실시형태 및 적용 범위 내에서 변경을 진행할 수 있고, 상술한 바와 같이, 본 명세서의 내용은 본 발명을 한정하는 것으로 이해해서는 아니된다.
본 실시예에서, 제1 클러스터를 복수 개의 제1 서브 클러스터로 분할하고, 제1 서브 클러스터의 제1 클러스터링 중심에 기반하여 제1 클러스터와 제2 이미지 데이터 세트를 병합하며, 복수 개의 제1 클러스터링 중심을 유지하여, 클러스터링 중심이 이미지 데이터의 증가에 따라 새로 추가된 이미지 데이터의 영향을 받아 드리프트가 발생하는 문제를 해결함으로써, 클러스터링 결과가 더 정확해지는데 유리하도록 하여, 클러스터링 효과를 향상시킨다.

Claims (23)

  1. 이미지 증분 클러스터링 방법으로서,
    제1 이미지 데이터 세트의 제1 클러스터를 획득하는 단계;
    상기 제1 클러스터를 M개의 제1 서브 클러스터로 분할하고, 상기 M개의 제1 서브 클러스터 중 각각의 제1 서브 클러스터에 대응되는 제1 클러스터링 중심을 획득하는 단계 - 상기 M은 1보다 크거나 같은 정수임 - ; 및
    제2 이미지 데이터 세트를 획득하고, 상기 제1 클러스터링 중심을 이용하여 상기 제2 이미지 데이터 세트를 상기 제1 클러스터와 병합하는 단계를 포함하는 이미지 증분 클러스터링 방법.
  2. 제1항에 있어서,
    상기 제1 클러스터는 제1 클러스터 A, 제1 클러스터 B 및 제1 클러스터 C를 포함하고; 상기 제1 클러스터링 중심을 이용하여 상기 제2 이미지 데이터 세트를 상기 제1 클러스터와 병합하는 단계는,
    상기 제2 이미지 데이터 세트에 복수 개의 이미지 데이터가 포함되는 경우, 상기 복수 개의 이미지 데이터를 클러스터링하여 고립 이미지 데이터 및 제2 클러스터를 획득하는 단계;
    상기 제1 클러스터링 중심을 이용하여 상기 고립 이미지 데이터를 상기 제1 클러스터 A와 병합하고, 상기 제1 클러스터링 중심을 이용하여 상기 제2 클러스터를 상기 제1 클러스터 B와 병합하는 단계; 및
    상기 제2 이미지 데이터 세트에 단일 이미지 데이터만 존재하는 경우, 상기 제1 클러스터링 중심을 이용하여 상기 단일 이미지 데이터를 상기 제1 클러스터 C와 병합하는 단계를 포함하는 이미지 증분 클러스터링 방법.
  3. 제2항에 있어서,
    상기 제1 클러스터에는 대응되는 제2 클러스터링 중심이 존재하고; 상기 제1 클러스터링 중심을 이용하여 상기 제2 이미지 데이터 세트를 상기 제1 클러스터와 병합하는 단계 이전에, 상기 방법은,
    상기 제2 클러스터링 중심을 이용하여 상기 제1 클러스터에서 K개의 제1 클러스터를 결정하는 단계를 더 포함하는 이미지 증분 클러스터링 방법.
  4. 제3항에 있어서,
    상기 제2 클러스터에는 대응되는 제3 클러스터링 중심이 존재하고; 상기 제2 클러스터링 중심을 이용하여 상기 제1 클러스터에서 K개의 제1 클러스터를 결정하는 단계는,
    상기 고립 이미지 데이터와 상기 제2 클러스터링 중심 사이의 제1 유사도를 획득하는 단계;
    상기 제1 유사도에 따라 상기 제1 클러스터를 높은 것에서 낮은 것으로 정렬하여 제1 클러스터 시퀀스를 획득하고, 상기 제1 클러스터 시퀀스에서 처음 K개의 제1 클러스터를 선택하는 단계; 및
    상기 제3 클러스터링 중심과 상기 제2 클러스터링 중심 사이의 제2 유사도를 획득하는 단계;
    상기 제2 유사도에 따라 상기 제1 클러스터를 높은 것에서 낮은 것으로 정렬하여 제2 클러스터 시퀀스를 획득하고, 상기 제2 클러스터 시퀀스에서 처음 K개의 제1 클러스터를 선택하는 단계; 또는,
    상기 단일 이미지 데이터와 상기 제2 클러스터링 중심 사이의 제3 유사도를 획득하는 단계;
    상기 제3 유사도에 따라 상기 제1 클러스터를 높은 것에서 낮은 것으로 정렬하여 제3 클러스터 시퀀스를 획득하고, 상기 제3 클러스터 시퀀스에서 처음 K개의 제1 클러스터를 선택하는 단계를 포함하는 이미지 증분 클러스터링 방법.
  5. 제3항에 있어서,
    상기 제1 클러스터링 중심을 이용하여 상기 고립 이미지 데이터를 상기 제1 클러스터 A와 병합하는 단계는,
    상기 고립 이미지 데이터와 제1 클러스터링 중심 D 사이의 제4 유사도를 획득하는 단계 - 상기 제1 클러스터링 중심 D는 상기 K개의 제1 클러스터 중 각각의 제1 클러스터의 각각의 제1 서브 클러스터에 대응되는 상기 제1 클러스터링 중심임 - ;
    상기 K개의 제1 클러스터 중 각각의 제1 클러스터에 대해, 상기 각각의 제1 클러스터에서 상기 제4 유사도가 제1 임계값보다 큰 상기 제1 클러스터링 중심 D의 제1 개수를 결정하는 단계;
    상기 K개의 제1 클러스터에서 상기 제1 개수가 가장 큰 제1 클러스터를 상기 제1 클러스터 A로 결정하는 단계; 및
    상기 고립 이미지 데이터를 상기 제1 클러스터 A와 병합하는 단계를 포함하는 이미지 증분 클러스터링 방법.
  6. 제3항에 있어서,
    상기 제1 클러스터링 중심을 이용하여 상기 제2 클러스터를 상기 제1 클러스터 B와 병합하는 단계는,
    상기 제2 클러스터를 N개의 제2 서브 클러스터로 분할하고, 상기 N개의 제2 서브 클러스터 중 각각의 제2 서브 클러스터에 대응되는 제4 클러스터링 중심을 획득하는 단계 - 상기 N은 1보다 크거나 같은 정수임 - ;
    상기 제4 클러스터링 중심과 제1 클러스터링 중심 E 사이의 제5 유사도를 획득하는 단계 - 상기 제1 클러스터링 중심 E는 K개의 제1 클러스터 중 각각의 제1 클러스터의 각각의 제1 서브 클러스터에 대응되는 상기 제1 클러스터링 중심임 - ;
    상기 K개의 제1 클러스터 중 각각의 제1 클러스터에 대해, 상기 각각의 제1 클러스터에서 상기 제5 유사도가 제2 임계값보다 큰 상기 제1 클러스터링 중심 E의 제2 개수를 결정하는 단계;
    상기 K개의 제1 클러스터에서 상기 제2 개수가 가장 큰 제1 클러스터를 상기 제1 클러스터 B로 결정하는 단계; 및
    상기 제2 클러스터를 상기 제1 클러스터 B와 병합하는 단계를 포함하는 이미지 증분 클러스터링 방법.
  7. 제3항에 있어서,
    상기 제1 클러스터링 중심을 이용하여 상기 단일 이미지 데이터를 상기 제1 클러스터 C와 병합하는 단계는,
    상기 단일 이미지 데이터와 제1 클러스터링 중심 F 사이의 제6 유사도를 획득하는 단계 - 상기 제1 클러스터링 중심 F는 상기 K개의 제1 클러스터 중 각각의 제1 클러스터의 각각의 제1 서브 클러스터에 대응되는 상기 제1 클러스터링 중심임 - ;
    상기 K개의 제1 클러스터 중 각각의 제1 클러스터에 대해, 상기 각각의 제1 클러스터에서 상기 제6 유사도가 제3 임계값보다 큰 상기 제1 클러스터링 중심 F의 제3 개수를 결정하는 단계;
    상기 K개의 제1 클러스터에서 상기 제3 개수가 가장 큰 제1 클러스터를 상기 제1 클러스터 C로 결정하는 단계; 및
    상기 단일 이미지 데이터를 상기 제1 클러스터 C와 병합하는 단계를 포함하는 이미지 증분 클러스터링 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 M은 제4 임계값보다 작거나 같고; 상기 제1 클러스터링 중심을 이용하여 상기 제2 이미지 데이터 세트를 상기 제1 클러스터와 병합하는 단계 이후에, 상기 방법은,
    병합된 제1 클러스터를 R개의 제3 서브 클러스터로 분할하고, 상기 R개의 제3 서브 클러스터 중 각각의 제3 서브 클러스터의 제5 클러스터링 중심을 획득하는 단계 - 상기 R은 1보다 크거나 같은 정수임 - ;
    상기 R이 상기 제4 임계값보다 작거나 같은 경우, 상기 R개의 제3 서브 클러스터를 보류하고, 상기 R개의 제3 서브 클러스터에 대응되는 상기 제5 클러스터링 중심을 이용하여 상기 제1 클러스터링 중심을 업데이트하는 단계;
    상기 R이 상기 제4 임계값보다 큰 경우, 상기 R개의 제3 서브 클러스터 중 각각의 제3 서브 클러스터 중의 이미지 데이터의 제4 개수를 획득하는 단계; 및
    상기 제4 개수에 따라 상기 R개의 제3 서브 클러스터를 큰 것에서 작은 것으로 정렬하여 제4 클러스터 시퀀스를 획득하고, 상기 제4 클러스터 시퀀스에서 처음 P개의 제3 서브 클러스터를 선택하며, 상기 P개의 제3 서브 클러스터에 대응되는 상기 제5 클러스터링 중심을 이용하여 상기 제1 클러스터링 중심을 업데이트하는 단계 - 상기 P는 상기 제4 임계값보다 작거나 같음 - ;를 더 포함하는 이미지 증분 클러스터링 방법.
  9. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 제1 클러스터는 상기 제1 이미지 데이터 세트 중의 이미지 데이터를 클러스터링하여 획득되고; 상기 제1 클러스터를 M개의 제1 서브 클러스터로 분할하는 단계는,
    상기 제1 클러스터 중의 이미지 데이터 사이의 제7 유사도를 획득하여 유사도 매트릭스를 획득하는 단계; 및
    상기 유사도 매트릭스에 기반하여 상기 제1 클러스터를 상기 M개의 제1 서브 클러스터로 분할하는 단계를 포함하는 이미지 증분 클러스터링 방법.
  10. 제9항에 있어서,
    상기 유사도 매트릭스에 기반하여 상기 제1 클러스터를 상기 M개의 제1 서브 클러스터로 분할하는 단계는,
    상기 제1 클러스터 중의 이미지 데이터를 정점으로 사용하여 구성된 연결 그래프를 획득하는 단계;
    상기 유사도 매트릭스에서 상기 연결 그래프 중의 정점 사이의 상기 제7 유사도를 조회하여 획득하는 단계; 및
    상기 제7 유사도가 제5 임계값보다 큰 복수 개의 정점을 하나의 제1 서브 클러스터로 분할하여 상기 M개의 제1 서브 클러스터를 획득하는 단계를 포함하는 이미지 증분 클러스터링 방법.
  11. 이미지 증분 클러스터링 장치로서,
    제1 이미지 데이터 세트의 제1 클러스터를 획득하도록 구성되는 제1 획득 모듈;
    상기 제1 클러스터를 M개의 제1 서브 클러스터로 분할하고, 상기 M개의 제1 서브 클러스터 중 각각의 제1 서브 클러스터에 대응되는 제1 클러스터링 중심을 획득하도록 구성되는 제1 분할 모듈 - 상기 M은 1보다 크거나 같은 정수임 - ; 및
    제2 이미지 데이터 세트를 획득하고, 상기 제1 클러스터링 중심을 이용하여 상기 제2 이미지 데이터 세트를 상기 제1 클러스터와 병합하도록 구성되는 병합 모듈을 포함하는 이미지 증분 클러스터링 장치.
  12. 제11항에 있어서,
    상기 제1 클러스터는 제1 클러스터 A, 제1 클러스터 B 및 제1 클러스터 C를 포함하고; 상기 병합 모듈은,
    상기 제2 이미지 데이터 세트에 복수 개의 이미지 데이터가 포함되는 경우, 상기 복수 개의 이미지 데이터를 클러스터링하여 고립 이미지 데이터 및 제2 클러스터를 획득하도록 구성되는 클러스터링 서브 모듈;
    상기 제1 클러스터링 중심을 이용하여 상기 고립 이미지 데이터를 상기 제1 클러스터 A와 병합하도록 구성되는 제1 병합 서브 모듈;
    상기 제1 클러스터링 중심을 이용하여 상기 제2 클러스터를 상기 제1 클러스터 B와 병합하도록 구성되는 제2 병합 서브 모듈; 및
    상기 제2 이미지 데이터 세트에 단일 이미지 데이터만 존재하는 경우, 상기 제1 클러스터링 중심을 이용하여 상기 단일 이미지 데이터를 상기 제1 클러스터 C와 병합하도록 구성되는 제3 병합 서브 모듈을 포함하는 이미지 증분 클러스터링 장치.
  13. 제12항에 있어서,
    상기 제1 클러스터에는 대응되는 제2 클러스터링 중심이 존재하고; 상기 병합 모듈은,
    상기 제2 클러스터링 중심을 이용하여 상기 제1 클러스터에서 K개의 제1 클러스터를 결정하도록 구성되는 제1 결정 서브 모듈을 더 포함하는 이미지 증분 클러스터링 장치.
  14. 제13항에 있어서,
    상기 제2 클러스터에는 대응되는 제3 클러스터링 중심이 존재하고; 상기 제1 결정 서브 모듈은,
    상기 고립 이미지 데이터와 상기 제2 클러스터링 중심 사이의 제1 유사도를 획득하도록 구성되는 제1 획득 유닛;
    상기 제1 유사도에 따라 상기 제1 클러스터를 높은 것에서 낮은 것으로 정렬하여 제1 클러스터 시퀀스를 획득하고, 상기 제1 클러스터 시퀀스에서 처음 K개의 제1 클러스터를 선택하도록 구성되는 제1 정렬 유닛; 및
    상기 제3 클러스터링 중심과 상기 제2 클러스터링 중심 사이의 제2 유사도를 획득하도록 구성되는 제2 획득 유닛;
    상기 제2 유사도에 따라 상기 제1 클러스터를 높은 것에서 낮은 것으로 정렬하여 제2 클러스터 시퀀스를 획득하고, 상기 제2 클러스터 시퀀스에서 처음 K개의 제1 클러스터를 선택하도록 구성되는 제2 정렬 유닛; 또는,
    상기 단일 이미지 데이터와 상기 제2 클러스터링 중심 사이의 제3 유사도를 획득하도록 구성되는 제3 획득 유닛;
    상기 제3 유사도에 따라 상기 제1 클러스터를 높은 것에서 낮은 것으로 정렬하여 제3 클러스터 시퀀스를 획득하고, 상기 제3 클러스터 시퀀스에서 처음 K개의 제1 클러스터를 선택하도록 구성되는 제3 정렬 유닛을 포함하는 이미지 증분 클러스터링 장치.
  15. 제13항에 있어서,
    상기 제1 병합 서브 모듈은,
    상기 고립 이미지 데이터와 제1 클러스터링 중심 D 사이의 제4 유사도를 획득하도록 구성되는 제4 획득 유닛 - 상기 제1 클러스터링 중심 D는 상기 K개의 제1 클러스터 중 각각의 제1 클러스터의 각각의 제1 서브 클러스터에 대응되는 상기 제1 클러스터링 중심임 - ;
    상기 K개의 제1 클러스터 중 각각의 제1 클러스터에 대해, 상기 각각의 제1 클러스터에서 상기 제4 유사도가 제1 임계값보다 큰 상기 제1 클러스터링 중심 D의 제1 개수를 결정하도록 구성되는 제1 결정 유닛;
    상기 K개의 제1 클러스터에서 상기 제1 개수가 가장 큰 제1 클러스터를 상기 제1 클러스터 A로 결정하도록 구성되는 제2 결정 유닛; 및
    상기 고립 이미지 데이터를 상기 제1 클러스터 A와 병합하도록 구성되는 제1 병합 유닛을 포함하는 이미지 증분 클러스터링 장치.
  16. 제13항에 있어서,
    상기 제2 병합 서브 모듈은,
    상기 제2 클러스터를 N개의 제2 서브 클러스터로 분할하고, 상기 N개의 제2 서브 클러스터 중 각각의 제2 서브 클러스터에 대응되는 제4 클러스터링 중심을 획득하도록 구성되는 제1 분할 유닛 - 상기 N은 1보다 크거나 같은 정수임 - ;
    상기 제4 클러스터링 중심과 제1 클러스터링 중심 E 사이의 제5 유사도를 획득하도록 구성되는 제5 획득 유닛 - 상기 제1 클러스터링 중심 E는 K개의 제1 클러스터 중 각각의 제1 클러스터의 각각의 제1 서브 클러스터에 대응되는 상기 제1 클러스터링 중심임 - ;
    상기 K개의 제1 클러스터 중 각각의 제1 클러스터에 대해, 상기 각각의 제1 클러스터에서 상기 제5 유사도가 제2 임계값보다 큰 상기 제1 클러스터링 중심 E의 제2 개수를 결정하도록 구성되는 제3 결정 유닛;
    상기 K개의 제1 클러스터에서 상기 제2 개수가 가장 큰 제1 클러스터를 상기 제1 클러스터 B로 결정하도록 구성되는 제4 결정 유닛; 및
    상기 제2 클러스터를 상기 제1 클러스터 B와 병합하도록 구성되는 제2 병합 유닛을 포함하는 이미지 증분 클러스터링 장치.
  17. 제13항에 있어서,
    상기 제3 병합 서브 모듈은,
    상기 단일 이미지 데이터와 제1 클러스터링 중심 F 사이의 제6 유사도를 획득하도록 구성되는 제6 획득 유닛 - 상기 제1 클러스터링 중심 F는 상기 K개의 제1 클러스터 중 각각의 제1 클러스터의 각각의 제1 서브 클러스터에 대응되는 상기 제1 클러스터링 중심임 - ;
    상기 K개의 제1 클러스터 중 각각의 제1 클러스터에 대해, 상기 각각의 제1 클러스터에서 상기 제6 유사도가 제3 임계값보다 큰 상기 제1 클러스터링 중심 F의 제3 개수를 결정하도록 구성되는 제5 결정 유닛;
    상기 K개의 제1 클러스터에서 상기 제3 개수가 가장 큰 제1 클러스터를 상기 제1 클러스터 C로 결정하도록 구성되는 제6 결정 유닛; 및
    상기 단일 이미지 데이터를 상기 제1 클러스터 C와 병합하는 제3 병합 유닛을 포함하는 이미지 증분 클러스터링 장치.
  18. 제11항 내지 제17항 중 어느 한 항에 있어서,
    상기 M은 제4 임계값보다 작거나 같고; 상기 장치는,
    병합된 제1 클러스터를 R개의 제3 서브 클러스터로 분할하고, 상기 R개의 제3 서브 클러스터 중 각각의 제3 서브 클러스터의 제5 클러스터링 중심을 획득하도록 구성되는 제2 분할 모듈 - 상기 R은 1보다 크거나 같은 정수임 - ;
    상기 R이 상기 제4 임계값보다 작거나 같은 경우, 상기 R개의 제3 서브 클러스터를 보류하고, 상기 R개의 제3 서브 클러스터에 대응되는 상기 제5 클러스터링 중심을 이용하여 상기 제1 클러스터링 중심을 업데이트하도록 구성되는 제1 업데이트 모듈;
    상기 R이 상기 제4 임계값보다 큰 경우, 상기 R개의 제3 서브 클러스터 중 각각의 제3 서브 클러스터 중의 이미지 데이터의 제4 개수를 획득하도록 구성되는 제2 획득 모듈; 및
    상기 제4 개수에 따라 상기 R개의 제3 서브 클러스터를 큰 것에서 작은 것으로 정렬하여 제4 클러스터 시퀀스를 획득하고, 상기 제4 클러스터 시퀀스에서 처음 P개의 제3 서브 클러스터를 선택하며, 상기 P개의 제3 서브 클러스터에 대응되는 상기 제5 클러스터링 중심을 이용하여 상기 제1 클러스터링 중심을 업데이트하도록 구성되는 제2 업데이트 모듈 - 상기 P는 상기 제4 임계값보다 작거나 같음 - ;을 더 포함하는 이미지 증분 클러스터링 장치.
  19. 제11항 내지 제17항 중 어느 한 항에 있어서,
    상기 제1 클러스터는 상기 제1 이미지 데이터 세트 중의 이미지 데이터를 클러스터링하여 획득되고; 상기 제1 분할 모듈은,
    상기 제1 클러스터 중의 이미지 데이터 사이의 제7 유사도를 획득하여 유사도 매트릭스를 획득하도록 구성되는 획득 서브 모듈; 및
    상기 유사도 매트릭스에 기반하여 상기 제1 클러스터를 상기 M개의 제1 서브 클러스터로 분할하도록 구성되는 분할 서브 모듈을 포함하는 이미지 증분 클러스터링 장치.
  20. 제19항에 있어서,
    상기 분할 서브 모듈은,
    상기 제1 클러스터 중의 이미지 데이터를 정점으로 사용하여 구성된 연결 그래프를 획득하도록 구성되는 제7 획득 유닛;
    상기 유사도 매트릭스에서 상기 연결 그래프 중의 정점 사이의 상기 제7 유사도를 조회하여 획득하도록 구성되는 조회 유닛; 및
    상기 제7 유사도가 제5 임계값보다 큰 복수 개의 정점을 하나의 제1 서브 클러스터로 분할하여 상기 M개의 제1 서브 클러스터를 획득하도록 구성되는 제2 분할 유닛을 포함하는 이미지 증분 클러스터링 장치.
  21. 전자 기기로서,
    입력 기기 및 출력 기기를 포함하고,
    하나 이상의 명령을 구현하기 위한 프로세서; 및
    상기 프로세서에 의해 로딩되고 제1항 내지 제10항 중 어느 한 항에 따른 방법을 수행하기 위한 하나 이상의 명령이 저장된 컴퓨터 저장 매체를 더 포함하는 전자 기기.
  22. 컴퓨터 저장 매체로서,
    프로세서에 의해 로딩되고 제1항 내지 제10항 중 어느 한 항에 따른 방법을 수행하기 위한 하나 이상의 명령이 저장된 컴퓨터 저장 매체.
  23. 컴퓨터 프로그램 제품으로서,
    프로세서에 의해 로딩되고 제1항 내지 제10항 중 어느 한 항에 따른 방법을 수행하기 위한 하나 이상의 명령을 포함하는 컴퓨터 프로그램 제품.
KR1020227013791A 2020-10-30 2020-12-04 이미지 증분 클러스터링 방법, 장치, 전자 기기, 저장 매체 및 프로그램 제품 KR20220070482A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202011185911.8 2020-10-30
CN202011185911.8A CN112257801B (zh) 2020-10-30 2020-10-30 图像的增量聚类方法、装置、电子设备及存储介质
PCT/CN2020/134074 WO2022088390A1 (zh) 2020-10-30 2020-12-04 图像的增量聚类方法、装置、电子设备、存储介质及程序产品

Publications (1)

Publication Number Publication Date
KR20220070482A true KR20220070482A (ko) 2022-05-31

Family

ID=74268958

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227013791A KR20220070482A (ko) 2020-10-30 2020-12-04 이미지 증분 클러스터링 방법, 장치, 전자 기기, 저장 매체 및 프로그램 제품

Country Status (5)

Country Link
JP (1) JP2023502863A (ko)
KR (1) KR20220070482A (ko)
CN (1) CN112257801B (ko)
TW (1) TW202217597A (ko)
WO (1) WO2022088390A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113327195A (zh) * 2021-04-09 2021-08-31 中科创达软件股份有限公司 图像处理、图像处理模型训练、图像模式识别方法和装置
CN113743533B (zh) * 2021-09-17 2023-08-01 重庆紫光华山智安科技有限公司 一种图片聚类方法、装置及存储介质
CN117333926B (zh) * 2023-11-30 2024-03-15 深圳须弥云图空间科技有限公司 一种图片聚合方法、装置、电子设备及可读存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5229744B2 (ja) * 2007-12-03 2013-07-03 国立大学法人北海道大学 画像分類装置および画像分類プログラム
CN102129451B (zh) * 2011-02-17 2013-05-01 上海交通大学 图像检索系统中数据聚类方法
WO2012140315A1 (en) * 2011-04-15 2012-10-18 Nokia Corporation Method, apparatus and computer program product for providing incremental clustering of faces in digital images
US9239967B2 (en) * 2011-07-29 2016-01-19 Hewlett-Packard Development Company, L.P. Incremental image clustering
CN103886048B (zh) * 2014-03-13 2017-04-26 浙江大学 一种基于聚类的增量数字图书推荐方法
US11176206B2 (en) * 2015-12-01 2021-11-16 International Business Machines Corporation Incremental generation of models with dynamic clustering
CN107798354B (zh) * 2017-11-16 2022-11-01 腾讯科技(深圳)有限公司 一种基于人脸图像的图片聚类方法、装置及存储设备
CN109886311B (zh) * 2019-01-25 2021-08-20 北京奇艺世纪科技有限公司 增量聚类方法、装置、电子设备和计算机可读介质
CN111062407B (zh) * 2019-10-15 2023-12-19 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN110781957B (zh) * 2019-10-24 2023-05-30 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN110866555A (zh) * 2019-11-11 2020-03-06 广州国音智能科技有限公司 增量数据的聚类方法、装置、设备及可读存储介质
CN111242040B (zh) * 2020-01-15 2022-08-02 佳都科技集团股份有限公司 一种动态人脸聚类方法、装置、设备和存储介质
CN111460153B (zh) * 2020-03-27 2023-09-22 深圳价值在线信息科技股份有限公司 热点话题提取方法、装置、终端设备及存储介质

Also Published As

Publication number Publication date
JP2023502863A (ja) 2023-01-26
CN112257801B (zh) 2022-04-29
WO2022088390A1 (zh) 2022-05-05
TW202217597A (zh) 2022-05-01
CN112257801A (zh) 2021-01-22

Similar Documents

Publication Publication Date Title
Wu et al. A novel clustering method for static video summarization
CN106682116B (zh) 基于Spark内存计算大数据平台的OPTICS点排序聚类方法
KR20220070482A (ko) 이미지 증분 클러스터링 방법, 장치, 전자 기기, 저장 매체 및 프로그램 제품
Wang et al. Fast approximate k-means via cluster closures
Mousavi et al. Data stream clustering algorithms: A review
Xu et al. The big data analytics and applications of the surveillance system using video structured description technology
Yagoubi et al. Dpisax: Massively distributed partitioned isax
CN106528874B (zh) 基于Spark内存计算大数据平台的CLR多标签数据分类方法
CN109189876B (zh) 一种数据处理方法及装置
CN110188210B (zh) 一种基于图正则化与模态独立的跨模态数据检索方法及系统
CN106780639B (zh) 基于显著性特征稀疏嵌入和极限学习机的哈希编码方法
CN109635069B (zh) 一种基于信息熵的地理空间数据自组织方法
WO2023108995A1 (zh) 向量相似度计算方法、装置、设备及存储介质
CN108549696B (zh) 一种基于内存计算的时间序列数据相似性查询方法
Tang et al. Efficient Processing of Hamming-Distance-Based Similarity-Search Queries Over MapReduce.
CN107315984B (zh) 一种行人检索的方法及装置
Yao et al. Spatio-temporal information for human action recognition
Etezadifar et al. Scalable video summarization via sparse dictionary learning and selection simultaneously
CN110888880A (zh) 基于空间索引的邻近分析方法、装置、设备及介质
CN113821657A (zh) 基于人工智能的图像处理模型训练方法及图像处理方法
CN110209895B (zh) 向量检索方法、装置和设备
CN112800138B (zh) 大数据分类方法及系统
CN112148942A (zh) 基于数据聚类的业务指标数据分类方法及装置
CN106776654B (zh) 一种数据搜索方法及装置
Pappula A Novel Binary Search Tree Method to Find an Item Using Scaling.

Legal Events

Date Code Title Description
A201 Request for examination