WO2012159320A1 - 一种大规模图像数据的聚类方法及装置 - Google Patents

一种大规模图像数据的聚类方法及装置 Download PDF

Info

Publication number
WO2012159320A1
WO2012159320A1 PCT/CN2011/076950 CN2011076950W WO2012159320A1 WO 2012159320 A1 WO2012159320 A1 WO 2012159320A1 CN 2011076950 W CN2011076950 W CN 2011076950W WO 2012159320 A1 WO2012159320 A1 WO 2012159320A1
Authority
WO
WIPO (PCT)
Prior art keywords
image data
clustering
sample
samples
sample set
Prior art date
Application number
PCT/CN2011/076950
Other languages
English (en)
French (fr)
Inventor
顾王一
杨杰
张翼
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Priority to PCT/CN2011/076950 priority Critical patent/WO2012159320A1/zh
Priority to CN201180001121.2A priority patent/CN103119606B/zh
Publication of WO2012159320A1 publication Critical patent/WO2012159320A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Definitions

  • the present invention relates to the field of data retrieval, and in particular to a clustering method and apparatus for large-scale image data. Background technique
  • the prior art proposes an approximate K-means based on the traditional K-means (KM) algorithm and the idea of approximating nearest neighbors (Approx ima te K- means , AKM Algorithm, which accelerates the process of finding the nearest center of sample points of image data in each iteration. Compared with KM algorithm, the computational efficiency of AKM algorithm is significantly improved.
  • Embodiments of the present invention provide a clustering method and apparatus for large-scale image data, which can effectively remove representative not strong in the clustering process when using the initial class center of clustering of randomly selected image data. Class center, obtain the class center of clustering image data with strong representativeness.
  • a clustering method for large-scale image data including:
  • the class center of the cluster of image data whose actual number of samples is not less than the minimum number of samples is updated and the next iteration is performed.
  • a clustering device for large-scale image data comprising:
  • a setting module configured to set a minimum number of samples included in a class center of each image data cluster in the memory or the database
  • a dividing module configured to divide, by the central processing unit, a sample in a sample set of image data into a class center of each image data cluster;
  • a statistics module configured to count, by the central processor, the actual number of samples included in the class center of each image data cluster after the completion of the iteration
  • a comparison module configured to compare, by the central processor, the actual sample number included in the class center of each image data cluster with the minimum sample number
  • a removing module configured to remove, by the central processor, a class center of clustering image data whose actual sample number is smaller than the minimum sample number, and perform a next iteration
  • an update module configured to update, by the central processor, a class center of clustering image data whose actual sample number is not less than a minimum number of samples, and perform the next iteration.
  • a clustering method and apparatus for large-scale image data provided by an embodiment of the present invention, setting a minimum number of samples included in a class center of each image data cluster, and an actual sample included in a class center of each image data cluster The number is compared with the minimum number of samples, and the class center of the image data cluster whose actual sample number is smaller than the minimum sample number is removed, and the class center of the image data cluster whose actual sample number is not less than the minimum sample number is updated.
  • the clustering method and device for large-scale image data proposed by the embodiments of the present invention can effectively remove representative center centers in the clustering process, and obtain image data with strong representativeness.
  • the class center of the cluster can effectively remove representative center centers in the clustering process, and obtain image data with strong representativeness.
  • Embodiment 1 is a flowchart of a method according to Embodiment 1 of the present invention.
  • FIG. 3 is a flowchart of a method according to Embodiment 2 of the present invention.
  • FIG. 5 is a schematic structural diagram of a device according to Embodiment 3 of the present invention.
  • FIG. 6 is a schematic structural diagram of a device according to Embodiment 3 of the present invention. detailed description
  • This embodiment provides a clustering method for large-scale image data. As shown in FIG. 1, the method includes:
  • a clustering method for large-scale image data provided by an embodiment of the present invention, the actual number of samples included in the class center of each image data clustered by setting a minimum number of samples included in a class center of each image data cluster Compared with the minimum number of samples, the class center of the image data cluster whose actual sample number is smaller than the minimum sample number is removed, and the class center of the image data cluster whose actual sample number is not less than the minimum sample number is updated.
  • the clustering method for large-scale image data provided by the embodiments of the present invention can effectively remove the representative class center in the clustering process, and obtain the image data cluster with strong representativeness. Class center.
  • This embodiment provides a clustering method for large-scale image data. As shown in FIG. 2, the method includes:
  • the samples in the sample set of the image data may be grouped by dividing the sample number ⁇ of the image data included in the sample set of the image data into ⁇ groups, if the sample number ⁇ of the image data can be ⁇ Divisible, the samples in the sample set of the image data are equally divided into groups in the order; if the ⁇ cannot be divisible by ⁇ , the samples of the first - 1) image data are equally divided into groups ⁇ -1, and the remaining The samples of the image data are grouped together.
  • the number of samples included in the sample set of the image data is ⁇ , and the samples in the sample set of the image data are first divided into ⁇ groups.
  • represents the number of samples of each group in the sample set of image data
  • w represents the rounding.
  • the method of dividing the order that is, the sample of the previous image of "" image belongs to the next image data belongs to g 2 , and so on, the number of samples of the image data of the last group (when n cannot be divisible by p) In the vicinity of L «/p", such a division mode has two main advantages: First, the number of samples of image data of each group is approximately the same, and load balancing between multiple processors can be achieved when performing parallel operations; Secondly, since the sequential division is used, the samples of the last group of image data can be regarded as samples of the newly added image data, so that the cluster integration method in the embodiment of the present invention can be appropriately modified to be able to process the newly added image. The case of a sample of data.
  • each set of samples in the sample set of image data can be clustered as follows: Setting a minimum number of samples included in the class center of each image data cluster, a number of initial class centers of the image data clustering, and a maximum number of iterations, and randomly selecting an initial class center of at least one image data cluster;
  • the samples of each image data are divided into class centers of image data clusters closest to the samples of the image data, and 1 is added to the current iteration number;
  • the initial clustering result of the image data cluster is saved, and the initial clustering result of the image data clustering includes the actual number of class centers of the image data clustering, and each image data The category attribute of the sample, the actual number of samples included in the class center of each image data cluster, and the distance from the class to the class center of the cluster of image data to which it belongs;
  • the class center of the i-th image data cluster in the sample set of the image data includes an actual sample number SzOfCen t , which is compared with a preset minimum sample number MinSzOfCen, and if SzOfCen is less than MinSzOfCm, the And classifying the class center of the i-th image data cluster in the sample set of the image data, and putting the sample of the image data included in the class center of the i-th image data cluster in the sample set of the image data into the image data
  • the next iteration is performed, wherein the sample center value of the class center update of the i-th image data cluster, SzOfCen, is the i-th
  • the number of samples of the image data obtained by the class center division of the image data cluster is the sample value of the sample of the jth image data.
  • the process of dividing each sample in the sample set of image data due to the original K-means According to the principle of nearest neighbor, the sample of image data in each database is found in the set class center to find the most near-center of the class.
  • the time complexity required for a single iteration is 0 (service), AKM and IAKM (Improved).
  • the Approx imate K-means, IAKM algorithm uses a method of establishing a random kd-tree to approximate the nearest neighbor search.
  • the time complexity of a single iteration is 0 (Nlo g ). Experiments show that this method of precision-changing time is completely applicable in the application of image retrieval.
  • the distance between the samples x, y defining the two image data is the Euclidean distance. It is also a distance criterion commonly used in many algorithms based on K-means, ie
  • (1) integrating the initial clustering result according to the method of serial clustering integration, and the specific method is as follows: selecting the initial clustering result of the two sets of samples to be aggregated according to the grouping order of the sample sets of the image data. Class integration, obtaining cluster integration results of the initial clustering results of the two sets of samples;
  • the clustering integration result of the initial clustering result of the two sets of samples is clustered and integrated with the initial clustering result of the remaining grouping one by one to obtain a clustering integration result of the sample set of the image data.
  • the cluster integration results are further clustered and integrated until the number of packets p ⁇ 4, and the remaining 2
  • the clustering integration result of the grouping is clustered one by one to obtain clustering of the sample set of the image data. Integration result
  • the sample of the image number 2 is concentrated: a sample of each of the two sets of samples of the two sets of image data
  • the initial clustering results are grouped into groups, and the initial clustering results of the two groups of samples are clustered and integrated to obtain clustering integration results; and the clustering integration results are further clustered and integrated. Up to the grouping number p ⁇ 4, clustering one of the initial clustering results of the remaining groupings with the clustering of the two groups of image data
  • the clustering integration results are clustered and integrated one by one to obtain clustering integration results of the sample sets of the image data.
  • the clustering integration method in the serial clustering integration method or the parallel clustering integration method is specifically: setting the ith sample in the sample of the second group of image data to the sample of the first group of image data
  • the distance from the class center of the jth image data cluster is the closest, the i th sample in the sample of the second set of image data to the j th image data in the sample of the first set of image data
  • the distance from the center of the cluster Described as di ⁇ , the i-th sample in the sample of the second group of image data is closest to the class center of the k-th image data cluster in the second group, and the second The distance from the i-th sample in the sample of the group image data to the class center of the k-th image data cluster in the sample of the second group image data is recorded as dist; k , comparing whether the ⁇ & ⁇ is smaller than If yes, dividing the i-th sample in the samples of the second group of image data into a class center of the j-th image data cluster in the
  • class center of the j-th image data cluster in the sample where O ⁇ rNe ⁇ is the class center of the j-th image data cluster in the sample of the updated first group image data, CmterOldj is an update
  • the class center of the jth image data cluster in the sample of the first group of image data, SzOfCerij is the number of samples obtained by classifying the center of the jth image data cluster in the sample of the first group of image data , data, is the sample value of the i-th sample in the sample of the second group of image data;
  • the class center of the k-th image data cluster in the sample of the group image data wherein C terNew is the class center of the k-th image data cluster in the sample of the second group of image data, C terOld is ⁇
  • the class center of the kth image data cluster in the sample of the second group of image data before M, SzOfCm is the sample obtained by classifying the center of the kth image data cluster in the sample of the second group of image data a number; if the greater than or equal to the 4, the i-th sample in the samples of the second set of image data still belongs to the k-th image data cluster in the samples of the second set of image data Class center, there is no need to update the class center of the jth image data cluster in the sample of the first set of image data and the class center of the kth image data cluster in the sample of the second set of image data .
  • a cluster integration result of the sample set of the image data merging a class center whose distance between class centers of the image data clusters is less than a certain threshold;
  • the minimum distance threshold between the class centers of the image data clusters in the sample set of the image data is di s tMin, and the sample set of the image data currently includes a class center of C image data clusters,
  • the class centers of the w image data clusters are randomly selected in the class center of the C image data clusters, and the class including the w image data clusters is searched in the class center of the remaining C-w image data clusters.
  • the center of each image data cluster in the sample set of the image data of the center is the nearest to the center of the class, and the image of the Cw image data found by the i-th class center in the class center of the w image data clusters is set.
  • the distance from the nearest class center in the class center of the class is, then the value of the minimum distance threshold distMin is set to m dist i ); determining the clustering of the jth image data in the sample set of the image data
  • the distance between the class center and its nearest class center k is ⁇ is less than or equal to the minimum threshold distance di s tMin, and if so, the class center and the cluster of the jth image data in the sample set of the image data k image data Clustering class centers are merged;
  • the class center of the j-th image data cluster in the sample set of the image data, the class center of the k-th image data cluster, and the class center of the t-th image data cluster all need to be merged
  • c k is a sample value of a class center of a k-th image data cluster in a sample set of the image data
  • c t is a t-th image data in a sample set of the image data The sample value of the class center of the cluster
  • dist jt is the distance between the class center of the jth image data cluster and the class center of the kth image data cluster in the sample set of the image data, and is the sample set of the image data The distance between the class center of the kth image data cluster and the class center of the t-th image data cluster.
  • the clustering integration result of the sample set of the image data is obtained, when the sample set of the newly added image data is clustered with the sample set of the image data, the added image data is added.
  • the clustering integration result of the sample set is clustered and integrated with the clustering integration result of the sample set of the image data, and the clustering integration result of the sample set of the newly added image data and the sample set of the image data is obtained.
  • the sample set with the added image data is clustered with the sample set of the image data, if the sample set of the newly added image data includes a sample number less than or equal to Clustering the samples included in the sample set of the newly added image data as a group;
  • a method for clustering large-scale image data grouping sample sets of image data, and clustering each set of samples, and storing the initial clustering result of each set of samples,
  • the clustering integration method or the parallel clustering integration manner performs clustering integration on the initial clustering result of each group of samples, and obtains clustering integration result of the sample set of the image data, when there is new image data
  • clustering integration result of the sample set of the newly added image data and clustering integration result of the sample set of the image data are clustered and integrated to obtain the newly added image data.
  • the clustering integration result of the sample set and the sample set of the image data are clustered and integrated to obtain the newly added image data.
  • the clustering method for large-scale image data provided by the embodiments of the present invention can effectively remove the class center which is not representative in the clustering process, and obtain a class center with strong representativeness. Moreover, the data clustering efficiency is greatly improved, and the clustering of sample sets for large-scale image data and the incremental clustering integration of new image libraries can be handled.
  • This embodiment provides a clustering device for large-scale image data. As shown in FIG. 5, the device includes:
  • a setting module 301 configured to set a minimum number of samples included in a class center of each image data cluster in the memory or the database;
  • a dividing module 302 configured to divide, by the central processing unit, samples in a sample set of image data into a class center of each image data cluster;
  • the dividing module is configured to acquire, from the memory or a database, a sample in a sample set of the image data and a class center of the cluster of each image data, and collect samples of the sample data of the image data.
  • a class center of each of the image data clusters, and a partitioning instruction for indicating that the samples in the sample set of the image data are divided into class centers of the respective image data clusters are sent to the central processor, the central processor is After receiving the sample of the sample set of the image data and the class center of each image data cluster, and the dividing instruction for indicating that the sample of the sample set of the image data is divided into the class center of each image data cluster, According to the division instruction The samples in the sample set of the image data are divided into class centers of the respective image data clusters, and the samples in the sample set of the image data are divided into the class center of the respective image data clusters. And for the memory or the database, the memory or the database stores the sample of the sample set of the image data divided into the classifying results of the class centers of the
  • the statistics module 303 is configured to collect, by the central processor, the actual number of samples included in the class center of each image data cluster after the completion of the current iteration;
  • the statistic module is configured to: after the completion of the iteration, acquire, from the memory or the database, an actual sample included in a class center of each image data cluster after the iteration, and gather each of the image data
  • the actual sample included in the class center of the class and the statistical instruction for indicating the actual number of samples included in the class center of each image data cluster are sent to the central processor, and the central processor receives the After the actual sample included in the class center of each image data cluster and the statistical instruction for indicating the actual number of samples included in the class center of each of the image data clusters, according to the statistical instruction statistics
  • a comparison module 304 configured to compare, by the central processor, the actual number of samples included in the class center of each image data cluster with the minimum number of samples;
  • the comparison module is configured to acquire, from the memory or a database, an actual sample number and a minimum sample number included in a class center of each image data cluster, and classify each of the image data clusters.
  • a comparison instruction including the actual number of samples included in the center and the minimum number of samples and a comparison between the actual number of samples included in the class center for indicating the clustering of each image data and the minimum number of samples is sent to the central processing
  • the central processor receives the actual number of samples and the minimum number of samples included in the class center of each image data cluster and the class center for indicating clustering of each image data Comparing the number of actual samples included with the comparison of the minimum number of samples, comparing the class centers of each of the image data clusters according to the comparison instructions And comparing the actual sample number to the minimum sample number, and returning the result of comparing the actual sample number included in the class center of each image data cluster with the minimum sample number to the memory or database,
  • the memory or database stores the result of comparing the actual number of samples included in the class center of each
  • the removing module 305 is configured to remove, by the central processor, a class center of clustering image data whose actual sample number is smaller than the minimum sample number, and perform a next iteration;
  • the removing module is configured to obtain, from the memory or the database, a class center of an image data cluster whose actual sample number is smaller than the minimum sample number, and the actual sample number is smaller than the image data of the minimum sample number.
  • a class center of the cluster and a class center removal instruction for indicating that the actual sample number is less than the minimum sample number is sent to the central processor, the central processor receiving the actual a class center of image data clusters whose sample number is smaller than the minimum number of samples and a class center removal instruction for indicating that the actual sample number is smaller than the minimum sample number, and according to the removal instruction
  • removing a class center of the image data cluster in which the actual sample number is smaller than the minimum sample number and returning an execution result of the class center of the image data cluster in which the actual sample number is smaller than the minimum sample number to the a memory or a database, wherein the memory or database saves the removal of the actual number of samples smaller than the minimum number of samples Class execution result of the center of the image data clustering.
  • the update module 306 is configured to update, by the central processor, a class center of clustering image data whose actual sample number is not less than the minimum number of samples, and perform the next iteration.
  • the update module is configured to obtain, from the memory or the database, a class center of an image data cluster whose actual sample number is not less than the minimum sample number, and the actual sample number is not less than the minimum sample number a class center of image data clustering and an update instruction for updating the class center of the image data cluster indicating that the actual sample number is not less than the minimum number of samples is sent to the central processor, the central processor Receiving an update of the class center of the image data cluster in which the actual sample number is not less than the minimum sample number, and updating the class center of the image data cluster indicating that the actual sample number is not less than the minimum sample number After the instruction, according to the update, The class center of the image data cluster in which the actual sample number is not less than the minimum sample number is updated, and the update result is returned to the memory or database, and the memory or database saves the update result.
  • the dividing module 302 is further configured to: after the center processor removes the class center of the image data whose actual sample number is smaller than the minimum sample number, the actual number of samples is smaller than The sample center included in the cluster of the image data clustering of the minimum sample number is placed in the sample set of the image data, and is re-divided in the next iteration process.
  • the clustering device of the large-scale image data may further include: a selecting module 307, configured to randomly select, by the central processor, an initial class center of at least one image data cluster;
  • the setting module 301 is further configured to set a number of initial class centers and a maximum number of iterations of image data clustering in the memory or the database;
  • the dividing module 302 is configured to: when the current number of iterations is less than or equal to the maximum number of iterations, divide, by the central processing unit, samples of each image data into image data that is closest to samples of the image data. In the class center of the class;
  • the accumulating module 308 is configured to add 1 to the current iteration number by the central processing unit;
  • a saving module 309 configured to save, by using the memory or the database, an initial clustering result when the current number of iterations is greater than the maximum number of iterations, where the initial clustering result includes an actual number of class centers of image data clusters, each The category attribute of the sample of the image data, the actual number of samples included in the class center of each image data cluster, and the distance from the class to the class center of the cluster of image data to which it belongs.
  • the clustering device of the large-scale image data may further include:
  • a grouping module 31 configured to divide, by the central processor, a sample number n of image data included in a sample set of the image data into p groups, and if the sample number n of the image data can be divisible by p, Each sample in the sample set of the image data is equally divided into p groups in order; If the number of samples n of the image data cannot be divisible by p, the first (P-1) image data will be
  • SzOfCen i updating, by the central processor, a class center of image data clustering in which the actual number of samples is not less than the minimum number of samples, wherein "the class center of the i-th image data cluster is updated
  • the sample value, SzOfCen is the number of samples obtained by classifying the class center of the i-th image data cluster, and x is the sample value of the sample of the j-th image data.
  • the clustering device of the large-scale image data may further include:
  • the serial clustering integration module 311 is configured to perform clustering integration by using the initial clustering result of the two sets of samples by the central processor according to a grouping order of the sample sets of the image data, to obtain the two sets of samples. Clustering integration results of the initial clustering results;
  • the clustering integration result of the initial clustering result of the two sets of samples is clustered and integrated with the clustering integration result of the remaining grouping to obtain a clustering integration result of the sample set of the image data.
  • the clustering device of the large-scale image data may further include:
  • the parallel clustering integration module 312 is configured to: if the number of packets p of the sample set of the image data is an even number, and the number of the packets is p ⁇ 4, each of the sample sets of the image data is used by the central processor The initial clustering results of the group samples are grouped into a group, and the initial clustering results of the two groups of samples are clustered and integrated to obtain clustering integration results;
  • the clustering integration results of the grouping are clustered and integrated one by one, and the clustering integration result of the sample set of the image data is obtained.
  • the parallel clustering integration module is further configured to: if the sample set of the image data The number of packets P is an odd number, and the number of packets p ⁇ 4, the sample set of the image data is collected by the central processor: the initial clustering results of each two sets of samples in the two samples are grouped into one group, And will
  • the initial clustering result of each two sets of samples is clustered and integrated, and a clustering integration result is obtained; the clustering integration result is further clustered and integrated until the number of packets p ⁇ 4, and the remaining grouping is performed.
  • One of the initial clustering integration results is clustered and integrated by the clustering integration results of the two sets of image data clustering, and the clustering integration result of the sample set of the image data is obtained.
  • the parallel clustering integration module 312 is further configured to: if the number of packets P of the sample set of the image data is an odd number, and the number of the packets is ⁇ 4, the central processor is configured by the
  • the clustering integration results of the residual group are clustered and integrated one by one, and the clustering integration result of the sample set of the image data is obtained.
  • the clustering device of the large-scale image data may further include:
  • a clustering module 31 3 is configured, when the sample set with the added image data is clustered with the sample set of the image data, if the sample set of the newly added image data includes a smaller number of samples Or equal to, the sample P of the newly added image data is included by the central processor.
  • the clustering is performed as a group to obtain a clustering result of the sample set of the newly added image data
  • the clustering apparatus for large-scale image data provided by the embodiment of the present invention, the grouping module groups the sample sets of the image data, clusters each set of samples in the sample set of the image data, and saves the cluster of each set of samples.
  • the clustering result of each set of samples is clustered and integrated by a serial clustering integration module or a parallel clustering integration module to obtain a clustering result of the sample set of the image data, when there is new image data
  • the clustering integration result of the sample set of the newly added image data is clustered and integrated with the clustering result of the sample set of the image data by adding a clustering integration module.
  • a cluster integration result of the sample set of the new image data and the sample set of the image data is obtained.
  • Clustering devices like data can effectively remove representative centers that are not strong in the clustering process, obtain class centers with strong representations, and greatly improve data clustering efficiency, and can process large-scale image data.
  • the method for the clustering of the large-scale image data provided by the embodiment of the present invention can implement the method of the method provided above.
  • the clustering method and apparatus for large-scale image data provided by the embodiments of the present invention can be applied to the field of data retrieval, but is not limited thereto.
  • the storage medium may be a magnetic disk, an optical disk, a read-only memory (ROM), or a random access memory (RAM).

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种大规模图像数据的聚类方法及装置,所述方法包括:设定每个图像数据聚类的类中心包括的最小样本数;将图像数据的样本集中的样本划分至各个图像数据聚类的类中心,在当次迭代完成后,统计每个图像数据聚类的类中心包括的实际样本数;将所述每个图像数据聚类的类中心包括的实际样本数与最小样本数进行比较;将实际样本数小于所述最小样本数的图像数据聚类的类中心去除,并进行下一次迭代;将实际样本数不小于所述最小样本数的图像数据聚类的类中心进行更新,并进行下一次迭代。本发明适用于在数据检索领域中的数据聚类,在采用随机选择初始中心的情况下,能够有效的在聚类过程中去除代表性不强的类中心,获得具有较强代表性的类中心。

Description

一种大 ^莫图像数据的聚类方法及装置 技术领域
本发明涉及数据检索领域, 特别涉及一种大规模图像数据的聚类方法及 装置。 背景技术
早期的图像检索系统一般采用颜色、 纹理、 形状等信息来描述图像特征, 但是图像特征数量非常庞大, 直接利用原始的特征进行检索是非常低效的, 将图像检索转化为一定形式上的文本检索是目前主要的研究思路。 通常, 该 方法需要将来自所有图像库的特征聚类成一定数目的码字, 这些码字的数目 要小于图像库所提取的特征数目, 再利用这些码字对每幅图像的特征进行编 码, 这样每幅图像就可以用一个描述码字的特征向量来表示, 从而可以有效 地进行图像检索。
在图像检索系统中, 在设计聚类算法时, 有两个问题值得关注: 第一, 对于大型图像库能够提取的特征数目往往^ ί艮庞大, 而且每个特征的维数也比 较高, 对这样大规模的数据进行聚类, 传统的聚类算法(如经典的 Κ- means算 法), 由于没有良好的可扩展性, 不能有效的处理大规模数据的聚类问题, 同 时, 将大量的特征数据进行聚类, 有时也会遇到内存空间不足的问题; 第二, 实际应用中图像数据库是需要不断更新的, 这样就有可能使得从新图像中提 取的特征与原聚类分析得到的聚类不匹配。
针对大规模数据的聚类问题, 现有技术在传统 K均值 (K-means, KM ) 算 法的基础上, 结合近似最邻近搜索的思想, 提出了近似 K均值 (Approx ima te K- means , AKM ) 算法, 该算法在每次迭代过程中加速了图像数据的样本点寻 找最近中心的过程, 与 KM算法相比, AKM算法的计算效率得到了明显的提高。
在实现本发明的过程中, 发明人发现现有技术中至少存在如下问题: 由于 AKM算法采用随机选择中心的缘故, 在迭代过程中部分中心只能获得 较少图像数据的样本, 甚至没有获得图像数据的样本, 图像数据聚类的类中 心的代表性不强。 发明内容
本发明的实施例提供一种大规模图像数据的聚类方法及装置, 在釆用随 机选择图像数据聚类的初始类中心的情况下, 能够有效的在聚类过程中去除 代表性不强的类中心, 获得具有较强代表性的图像数据聚类的类中心。
本发明实施例釆用的技术方案为:
一种大规模图像数据的聚类方法, 包括:
设定每个图像数据聚类的类中心包括的最小样本数;
将图像数据的样本集中的样本划分至各个图像数据聚类的类中心, 在当 次迭代完成后, 统计每个图像数据聚类的类中心包括的实际样本数;
将所述每个图像数据聚类的类中心包括的实际样本数与所述最小样本数 进行比较;
将实际样本数小于所述最小样本数的图像数据聚类的类中心去除, 并进 行下一次迭代;
将实际样本数不小于所述最小样本数的图像数据聚类的类中心进行更 新, 并进行下一次迭代。
一种大规模图像数据的聚类装置, 包括:
设定模块, 用于设定存储器或数据库中每个图像数据聚类的类中心包括 的最小样本数;
划分模块, 用于通过中央处理器将图像数据的样本集中的样本划分至各 个图像数据聚类的类中心;
统计模块, 用于在当次迭代完成后, 通过所迷中央处理器统计每个图像 数据聚类的类中心包括的实际样本数;
比较模块, 用于通过所述中央处理器将所述每个图像数据聚类的类中心 包括的实际样本数与所述最小样本数进行比较; 去除模块, 用于通过所述中央处理器将实际样本数小于所述最小样本数 的图像数据聚类的类中心去除, 并进行下一次迭代;
更新模块, 用于通过所述中央处理器将实际样本数不小于最小样本数的 图像数据聚类的类中心进行更新, 并进行下一次迭代。
本发明实施例提供的一种大规模图像数据的聚类方法及装置, 设定每个 图像数据聚类的类中心包括的最小样本数, 将每个图像数据聚类的类中心包 括的实际样本数与最小样本数进行比较, 将实际样本数小于所述最小样本数 的图像数据聚类的类中心去除, 将实际样本数不小于最小样本数的图像数据 聚类的类中心进行更新。 与现有技术相比, 本发明实施例提出的大规模图像 数据的聚类方法及装置, 能够有效的在聚类过程中去除代表性不强的类中心, 获得具有较强代表性的图像数据聚类的类中心。 附图说明
为了更清楚地说明本发明实施例中的技术方案, 下面将对实施例或现有 技术描述中所需要使用的附图作简单地介绍, 显而易见地, 下面描述中的附 图仅仅是本发明的一些实施例, 对于本领域普通技术人员来讲, 在不付出创 造性劳动的前提下, 还可以根据这些附图获得其它的附图。
图 1为本发明实施例一提供的方法流程图;
图 2为本发明实施例二提供的方法流程图;
图 3为本发明实施例二提供的方法流程图;
图 4为本发明实施例二提供的方法流程图;
图 5为本发明实施例三提供的装置结构示意图;
图 6为本发明实施例三提供的装置结构示意图。 具体实施方式
下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行 清楚、 完整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而 不是全部的实施例。 基于本发明中的实施例, 本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其它实施例, 都属于本发明保护的范围。 为使本发明技术方案的优点更加清楚, 下面结合附图和实施例对本发明 作详细说明。
实施例一
本实施例提供一种大规模图像数据的聚类方法, 如图 1所示, 所述方法包 括:
101、 设定每个图像数据聚类的类中心包括的最小样本数;
102、 将图像数据的样本集中的样本划分至各个图像数据聚类的类中心, 在当次迭代完成后, 统计每个图像数据聚类的类中心包括的实际样本数;
103、 将所述每个图像数据聚类的类中心包括的实际样本数与所述最小样 本数进行比较;
104、 将实际样本数小于所述最小样本数的图像数据聚类的类中心去除, 并进行下一次迭代;
105、 将实际样本数不小于所述最小样本数的图像数据聚类的类中心进行 更新, 并进行下一次迭代。
本发明实施例提供的一种大规模图像数据的聚类方法, 通过设定每个图 像数据聚类的类中心包括的最小样本数, 将每个图像数据聚类的类中心包括 的实际样本数与最小样本数进行比较, 将实际样本数小于所述最小样本数的 图像数据聚类的类中心去除, 将实际样本数不小于最小样本数的图像数据聚 类的类中心进行更新。 与现有技术相比, 本发明实施例提供的大规模图像数 据的聚类方法, 能够有效的在聚类过程中去除代表性不强的类中心, 获得具 有较强代表性的图像数据聚类的类中心。
实施例二
本实施例提供一种大规模图像数据的聚类方法, 如图 2所示, 所述方法包 括:
201、 将图像数据的样本集中的样本进行分组; 具体地, 可以采用如下方式对图像数据的样本集中的样本进行分组: 将所述图像数据的样本集中包括的图像数据的样本数 η分成 ρ组, 如果所 述图像数据的样本数 η能够被 ρ整除, 则将所述图像数据的样本集中的各样本 按顺序平均分成 Ρ组; 如果所述 η不能被 ρ整除, 则将前 - 1)个图像数据的样本平均分成 ρ-1组, 将剩余的图像数据的样本分成一组。
例如, 在处理大规模图像数据的样本集 G时, 设所述图像数据的样本集中 包括的样本数量为 η , 首先将所迷图像数据的样本集中的样本分成 ρ组
( S^ gi ,-, gP ), 满足
l≤i≤p 这里卜|表示图像数据的样本集中每组样本的个数, w表示下取整。 釆用 顺序划分的方式, 即前【《 」个图像数据的样本属于 接着的 图像数 据的样本属于 g2 , 以此类推, 最后一组的图像数据的样本数目 (在 n不能被 p 整除时)会在 L«/p」附近, 这样的划分模式主要有两个好处: 第一, 每组的图 像数据的样本数近似相同, 在进行并行运算时, 能达到多处理器之间的负载 平衡; 第二, 由于是采用顺序划分, 最后的几组图像数据的样本可以看作是 新增的图像数据的样本, 这样可以适当修改本发明实施例中的聚类集成方法 就可以能够处理新增图像数据的样本的情况。
202、 将所述图像数据的样本集中的每组样本进行聚类, 并保存所述每组 样本的初始聚类结果;
如图 3所示, 可以采用如下方式对图像数据的样本集中的每组样本进行聚 类: 设定每个图像数据聚类的类中心包括的最小样本数、 图像数据聚类的初 始类中心的个数和最大迭代次数, 并随机选取至少一个图像数据聚类的初始 类中心;
在当前迭代次数小于或等于所述最大迭代次数时, 将各图像数据的样本 划分到距离所述各图像数据的样本最近的图像数据聚类的类中心中, 并对当 前迭代次数加 1 ;
在当前迭代次数大于所述最大迭代次数时, 保存图像数据聚类的初始聚 类结果, 所述图像数据聚类的初始聚类结果包括图像数据聚类的类中心的实 际个数, 各图像数据的样本的类别属性, 各图像数据聚类的类中心包括的实 际样本数, 以及所述各样本到其所属的图像数据聚类的类中心的距离;
在当次迭代完成后, 统计每个图像数据聚类的类中心包括的实际样本数; 将所述每个图像数据聚类的类中心包括的实际样本数与所述最小样本数 进行比较, 具体方法如下:
设所述图像数据的样本集中的第 i个图像数据聚类的类中心包括的实际 样本数为 SzOfCent , 与预先设定的最小样本数 MinSzOfCen进行比较, 如果 SzOfCen,小于 MinSzOfCm , 则将所述图像数据的样本集中的第 i个图像数据聚类 的类中心去除, 并将所述图像数据的样本集中的第 i个图像数据聚类的类中心 包括的图像数据的样本放入所述图像数据的样本集中, 在下一次迭代过程中 进行重新划分, 并进行下一次迭代; 如 SzOfCer^ > MinSzOfCen, 则根据公式 C;, ^ - ^ fx. , 将所述图像数
SzOfCeni ~[
据的样本集中的第 i个图像数据聚类的类中心进行更新, 并进行下一次迭代, 其中 为第 i个图像数据聚类的类中心更新后的样本值 , SzOfCen,为所述第 i个 图像数据聚类的类中心划分得到的图像数据的样本数 , 为第 j个图像数据的 样本的样本值。
对于图像数据的样本集中的各样本进行划分的过程, 由于原始的 K- means 是按照最近邻的原则, 对每个数据库中的图像数据的样本在设定的类中心中 寻找最的类近中心, 单次迭代需要的时间复杂度是 0(服) , AKM和 IAKM ( Improved Approx imate K- means , IAKM ) 算法都是采用建立随机 kd- tree的 方式,进行近似最近邻搜索,单次迭代的时间复杂度是 0(Nlog ) 。 实验表明, 这种以精度换时间的方式, 在图像检索的应用中是完全适用的。
另外, 本发明实施例提出的对所述图像数据的样本集中的每组样本进行 聚类的方法中, 定义两个图像数据的样本 x,y之间的距离都是釆用了欧式距 离, 它也是在基于 K-means的诸多算法中普遍采用的距离准则, 即
C Z5/I( , ') = ||x - j||2
203、 将所述图像数据聚类的初始聚类结果进行聚类集成, 得到所述图像 数据的样本集的聚类集成结果;
如图 4所示, 具体方法如下:
( 1 )按照串行聚类集成的方式对所述初始聚类结果进行集成, 具体方法 如下: 按照所述图像数据的样本集的分组顺序, 选择两组样本的所述初始聚 类结果进行聚类集成, 得到所述两组样本的所述初始聚类结果的聚类集成结 果;
将所述两组样本的所述初始聚类结果的聚类集成结果与剩余分组的初始 聚类结果逐一进行聚类集成, 得到所述图像数据的样本集的聚类集成结果。
( 2 )按照并行聚类集成的方式对所述图像数据的样本集进行聚类集成, 具体方法如下: 如果所述图像数据的样本集的分组数 p为偶数, 且所述分组数 p≥4 , 将所述图像数据的样本集的每两组样本的所述初始聚类结果分成一组, 并将所述每两组样本的所述初始聚类结果进行聚类集成, 得到 个聚类集成
2
结果;
将所述 个聚类集成结果再进行聚类集成, 直到所述分组数 p<4 , 将剩余 2
分组的聚类集成结果逐个进行聚类集成, 得到所述图像数据的样本集的聚类 集成结果;
或者,如果所述图像数据的样本集的分组数 p为奇数,且所述分组数 p≥4 将所述图像数 2据的样本集中 : 2组图像数据的样本中每两组样本的所述初 始聚类结果分成一组, 并将所述每两组样本的所述初始聚类结果进行聚类集 成, 得到 个聚类集成结果; 将所述 个聚类集成结果再进行聚类集成, 直到所述分组数 p<4, 将剩 余分组的一个所述初始聚类结果与所述 : 2组图像数据聚类集成后的聚类
| ¾ 2
集成结果逐个进行聚类集成, 得到所述图像数据的样本集的聚类集成结果; 或者,如果所述图像数据的样本集的分组数 p为奇数,且所述分组数 p≥4 : 将所述图像数据的样本集中 : 2组样本中每两组样本的所述初始聚类结果 分成一组, 并将所述每两组样本的所述初始聚类结果进行聚类集成, 得到 个聚类集成结果; 将剩余分组的一个初始聚类结果与所述 个聚类集成结果中的任何| ¾ 2一 个聚类集成结果进行聚类集成, 得到 个聚类集成结果;
2
将所述 l个聚类集成结果再进行聚类集成, 直到所述分组数 <4 , 将剩
2
余的聚类集成结果逐个进行聚类集成, 得到所述图像数据的样本集的聚类集 成结果。
所述串行聚类集成方法或所述并行聚类集成方法中的聚类集成方法具体 为: 设第二组图像数据的样本中的第 i个样本到第一组图像数据的样本中的第 j个图像数据聚类的类中心的距离最近 , 将所述第二组图像数据的样本中的第 i个样本到所述第一组图像数据的样本中的第 j个图像数据聚类的类中心的距 离记为 di^ , 设所述第二组图像数据的样本中的第 i个样本到所述第二组中的 第 k个图像数据聚类的类中心的距离最近, 将所述第二组图像数据的样本中的 第 i个样本到所述第二组图像数据的样本中的第 k个图像数据聚类的类中心的 距离记为 dist;k, 比较所述 ί&^是否小于所述 , 如果是, 则将所述第二组图 像数据的样本中的第 i个样本划分到所述第一组图像数据的样本中第 j个图像 数据聚类的类中心中;
根据公式 C^erN^ = C; x琴 nJ + datai, 更新所述第一组图像数
1 SzOfCerij + 1
据的样本中的第 j个图像数据聚类的类中心,其中, O^rNe^为更新后的第一 组图像数据的样本中的第 j个图像数据聚类的类中心, CmterOldj为更新前的第 一组图像数据的样本中的第 j个图像数据聚类的类中心, SzOfCerij为第一组图 像数据的样本中的第 j个图像数据聚类的类中心划分得到的样本数, data,为第 二组图像数据的样本中的第 i个样本的样本值;
CenterOld' x SzOfCenk - datat
SzOfCenk≠ 1
才艮据公式 CenterNew, SzOfCenk - \ J k , 更新第二 保持不变 , SzOfCen = 1
组图像数据的样本中的第 k个图像数据聚类的类中心, 其中, C terNew为 后的第二组图像数据的样本中第 k个图像数据聚类的类中心, C terOld为^ M 前的第二组图像数据的样本的中第 k个图像数据聚类的类中心, SzOfCm 为第 二组图像数据的样本中的第 k个图像数据聚类的类中心划分得到的样本数; 如果所述 大于或等于所述 4 ,则所述第二组图像数据的样本中的第 i个样本仍属于所述第二组图像数据的样本中的第 k个图像数据聚类的类中 心, 不需要更新所述第一组图像数据的样本中的第 j个图像数据聚类的类中心 和第二组图像数据的样本中的第 k个图像数据聚类的类中心。
204、 在所述图像数据的样本集的聚类集成结果中, 合并所述图像数据聚 类的类中心之间距离小于一定阈值的类中心; 设所述图像数据的样本集中各图像数据聚类的类中心之间的最小距离阈 值为 di s tMin, 设所述图像数据的样本集中当前包括 C个图像数据聚类的类中 心 , 从所述 C个图像数据聚类的类中心中随机选择 w个图像数据聚类的类中心 , 在剩余的 C- w个图像数据聚类的类中心中查找与所述包括 w个图像数据聚类的 类中心的图像数据的样本集合中的各图像数据聚类的类中心距离最近的类中 心, 设所述 w个图像数据聚类的类中心中第 i个类中心查找到的在 C-w个图像数 据聚类的类中心中与之最近的类中心的距离为 ,则设定所述最小距离阈值 distMin的取值为 m disti ); 判断所述图像数据的样本集中的第 j个图像数据聚类的类中心与其最近 的类中心 k的距离为 ^ 是否小于或等于所述最小阈值距离 di s tMin, 如果是, 则将所述图像数据的样本集中的第 j个图像数据聚类的类中心和第 k个图像数 据聚类的类中心进行合并;
当所述图像数据的样本集中的第 j个图像数据聚类的类中心、 第 k个图像 数据聚类的类中心和第 t个图像数据聚类的类中心都需要合并时 , 判断所述第 j个图像数据聚类的类中心与所述第 t个图像数据聚类的类中心的距离 distjt是 否小于或等于所述最小阈值距离 di s tMin , 如果是, 则将所述第 j个图像数据 聚类的类中心, 所述第 k个图像数据聚类的类中心和所述第 t个图像数据聚类 的类中心合并为一个图像数据聚类的类中心 , 则所述图像数据聚类的类中 心 c* , 其中 为所述图像数据的样本集中的第 j个图像数据
Figure imgf000012_0001
聚类的类中心的样本值, ck为所述图像数据的样本集中的第 k个图像数据聚类 的类中心的样本值, ct为所述图像数据的样本集中的第 t个图像数据聚类的类 中心的样本值;
如果所述第 j个图像数据聚类的类中心与所述第 t个图像数据聚类的类中 心的距离 distjt大于所述 d i s tMin, 则将满足 mm(c& , 的两个图像数据聚类 的类中心进行合并, 其中 distjk为所述图像数据的样本集中的第 j个图像数据聚 类的类中心和第 k个图像数据聚类的类中心的距离, 为所述图像数据的样 本集中的第 k个图像数据聚类的类中心和第 t个图像数据聚类的类中心的距 离。
205、 在所述得到所述图像数据的样本集的聚类集成结果之后, 当有新增 的图像数据的样本集与所述图像数据的样本集进行聚类时, 将新增的图像数 据的样本集的聚类集成结果与所述图像数据的样本集的聚类集成结果进行聚 类集成, 得到新增的图像数据的样本集与所述图像数据的样本集的聚类集成 结果。
具体地, 当有新增的图像数据的样本集与所述图像数据的样本集进行聚 类时, 如果所述新增的图像数据的样本集包括的样本数目小于或等于
Figure imgf000013_0001
将所述新增的图像数据的样本集包括的样本作为一组进行聚类;
将所述新增的图像数据的样本集的所述初始聚类结果与所述图像数据的 样本集的聚类结果进行聚类集成, 得到新增的图像数据的样本集与所述图像 数据的样本集的聚类集成结果; 如果所述新增的图像数据的样本集包括的样本数目大于 ,将所述新增 的图像数据的样本集进行分组, 得到所述新增的图像数据的样本集的各组样 本;
将所述新增的各组样本进行聚类, 并保存所述新增的图像数据的样本集 的各组样本的初始聚类结果;
将所述新增的图像数据的样本集的各组样本的初始聚类结果进行聚类集 成, 获得所述新增的图像数据的样本集的聚类集成结果;
将所述新增的图像数据的样本集的聚类集成结果与所述图像数据的样本 集的聚类结果进行聚类集成, 得到新增的图像数据的样本集与所述图像数据 的样本集的聚类集成结果。
本发明实施例提供的一种大规模图像数据的聚类方法, 将图像数据的样 本集进行分组, 并将每组样本进行聚类, 保存所述每组样本的所述初始聚类 结果, 通过串行聚类集成方式或并行聚类集成方式将所述每组样本的所述初 始聚类结果进行聚类集成, 获得所述图像数据的样本集的聚类集成结果, 当 有新增图像数据的样本集进行聚类集成时, 将所述新增图像数据的样本集的 聚类集成结果与所述图像数据的样本集的聚类集成结果再进行聚类集成, 得 到所述新增图像数据的样本集和所述图像数据的样本集的聚类集成结果。 与 现有技术相比, 本发明实施例提供的一种大规模图像数据的聚类方法, 能够 有效的在聚类过程中去除代表性不强的类中心, 获得具有较强代表性的类中 心, 而且大大提高了数据聚类效率, 能够处理对于大规模图像数据的样本集 的聚类和新增图像库的增量聚类集成的问题。
实施例三
本实施例提供一种大规模图像数据的聚类装置, 如图 5所示, 所述装置包 括:
设定模块 301 , 用于设定存储器或数据库中每个图像数据聚类的类中心包 括的最小样本数;
划分模块 302 , 用于通过中央处理器将图像数据的样本集中的样本划分至 各个图像数据聚类的类中心;
具体地, 所述划分模块用于从所述存储器或数据库中获取所述图像数据 的样本集中的样本和所述各个图像数据聚类的类中心, 并将所述图像数据的 样本集中的样本和所述各个图像数据聚类的类中心, 以及用于指示将图像数 据的样本集中的样本划分至各个图像数据聚类的类中心的划分指令发送到所 述中央处理器, 所述中央处理器在接收到所述图像数据的样本集中的样本和 各个图像数据聚类的类中心、 以及所述用于指示将图像数据的样本集中的样 本划分至各个图像数据聚类的类中心的划分指令之后, 根据所述划分指令将 所述图像数据的样本集中的样本划分至所述各个图像数据聚类的类中心, 并 将对所述图像数据的样本集中的样本划分至所述各个图像数据聚类的类中心 的划分结果返回给所述存储器或数据库, 所述存储器或数据库保存所述图像 数据的样本集中的样本划分至所述各个图像数据聚类的类中心的划分结果。
统计模块 303, 用于在当次迭代完成后, 通过所述中央处理器统计每个图 像数据聚类的类中心包括的实际样本数;
具体地, 所述统计模块用于在当次迭代完成后, 从所述存储器或数据库 中获取当次迭代后每个图像数据聚类的类中心包括的实际样本, 将所述每个 图像数据聚类的类中心包括的实际样本和用于指示统计所述每个图像数据聚 类的类中心包括的实际样本数的统计指令发送给所述中央处理器, 所述中央 处理器在收到所述每个图像数据聚类的类中心包括的实际样本和所述用于指 示统计所述每个图像数据聚类的类中心包括的实际样本数的统计指令后, 根 据所述统计指令统计所述每个图像数据聚类的类中心包括的实际样本的数 量, 并将所述每个图像数据聚类的类中心包括的实际样本的数量返回给所述 存储器或数据库, 所述存储器或数据库保存所述每个图像数据聚类的类中心 包括的实际样本的数量。
比较模块 304 , 用于通过所述中央处理器将所述每个图像数据聚类的类中 心包括的实际样本数与所述最小样本数进行比较;
具体地, 所述比较模块用于从所述存储器或数据库中获取每个图像数据 聚类的类中心包括的实际样本数和所述最小样本数, 并将所述每个图像数据 聚类的类中心包括的实际样本数和所述最小样本数以及用于指示将所述每个 图像数据聚类的类中心包括的实际样本数与所述最小样本数进行比较的比较 指令发送给所述中央处理器, 所述中央处理器在接收到所述每个图像数据聚 类的类中心包括的实际样本数和所述最小样本数以及所述用于指示将所述每 个图像数据聚类的类中心包括的实际样本数与所述最小样本数进行比较的比 较指令之后, 根据所述比较指令比较所述每个图像数据聚类的类中心包括的 实际样本数与所述最小样本数的大小, 并将所述每个图像数据聚类的类中心 包括的实际样本数与所述最小样本数比较后的结果返回给所述存储器或数据 库, 所述存储器或数据库保存所述每个图像数据聚类的类中心包括的实际样 本数与所述最小样本数比较后的结果。
去除模块 305, 用于通过所述中央处理器将实际样本数小于所述最小样本 数的图像数据聚类的类中心去除, 并进行下一次迭代;
具体地, 所述去除模块用于从所述存储器或数据库中获取实际样本数小 于所述最小样本数的图像数据聚类的类中心, 将所述实际样本数小于所述最 小样本数的图像数据聚类的类中心以及用于指示去除所述实际样本数小于所 述最小样本数的图像数据聚类的类中心的去除指令发送给所述中央处理器, 所述中央处理器接收到所述实际样本数小于所述最小样本数的图像数据聚类 的类中心以及用于指示去除所述实际样本数小于所述最小样本数的图像数据 聚类的类中心的去除指令之后, 根据所述去除指令去除所述实际样本数小于 所述最小样本数的图像数据聚类的类中心, 并将去除所述实际样本数小于所 述最小样本数的图像数据聚类的类中心的执行结果返回给所述存储器或数据 库, 所述存储器或数据库保存所述去除所述实际样本数小于所述最小样本数 的图像数据聚类的类中心的执行结果。
更新模块 306 , 用于通过所述中央处理器将实际样本数不小于所述最小样 本数的图像数据聚类的类中心进行更新, 并进行下一次迭代。
具体地, 所述更新模块用于从所述存储器或数据库中获取实际样本数不 小于所述最小样本数的图像数据聚类的类中心, 并将所述实际样本数不小于 所述最小样本数的图像数据聚类的类中心以及用于指示所述实际样本数不小 于所述最小样本数的图像数据聚类的类中心进行更新的更新指令发送给所述 中央处理器, 所述中央处理器接收到所述实际样本数不小于所述最小样本数 的图像数据聚类的类中心以及用于指示所述实际样本数不小于所述最小样本 数的图像数据聚类的类中心进行更新的更新指令之后, 根据所述更新执行, 将所述实际样本数不小于所述最小样本数的图像数据聚类的类中心进行更 新, 并将更新结果返回给所述存储器或数据库, 所述存储器或数据库保存所 述更新结果。
进一步的, 所述划分模块 302 , 还用于通过所述中央处理器在所述将实际 样本数小于所述最小样本数的图像数据聚类的类中心去除之后, 将所述实际 样本数小于所述最小样本数的图像数据聚类的类中心包括的样本放入图像数 据的样本集中, 在下一次迭代过程中进行重新划分。
进一步的, 如图 6所示, 所述大规模图像数据的聚类装置还可以包括: 选取模块 307, 用于通过所述中央处理器随机选取至少一个图像数据聚类 的初始类中心;
所述设定模块 301 , 还用于设定所述存储器或数据库中的图像数据聚类的 初始类中心的个数和最大迭代次数;
所述划分模块 302 , 具体用于在当前迭代次数小于或等于所述最大迭代次 数时, 通过所述中央处理器将各图像数据的样本划分到距离所述各图像数据 的样本最近的图像数据聚类的类中心中;
累加模块 308 , 用于通过所述中央处理器对当前迭代次数加 1;
保存模块 309 , 用于在当前迭代次数大于所述最大迭代次数时, 通过所述 存储器或数据库保存初始聚类结果, 所述初始聚类结果包括图像数据聚类的 类中心的实际个数, 各图像数据的样本的类别属性, 各图像数据聚类的类中 心包括的实际样本数, 以及所述各样本到其所属的图像数据聚类的类中心的 距离。
进一步的, 所述大规模图像数据的聚类装置, 还可以包括:
分组模块 31 0 , 用于通过所述中央处理器将所述图像数据的样本集中包括 的图像数据的样本数 n分成 p组, 如果所述图像数据的样本数 n能够被 p整除, 则将所述图像数据的样本集中的各样本按顺序平均分成 p组; 如果所述图像数据的样本数 n不能被 p整除, 则将前 (P-1)个图像数据
—P.
的样本平均分成 P-1组, 将剩余的图像数据的样本分成一组 t 进一步的, 所述更新模块 306 , 具体用于根据公式 = ^ - ^ Υ ,. , 通
SzOfCeni ~t 过所述中央处理器对所述实际样本数不小于所述最小样本数的图像数据聚类 的类中心进行更新, 其中 "为第 i个图像数据聚类的类中心更新后的样本值, SzOfCen,为所述第 i个图像数据聚类的类中心划分得到的样本数, x为第 j个图 像数据的样本的样本值。
进一步的, 所述大规模图像数据的聚类装置, 还可以包括:
串行聚类集成模块 311 , 用于按照所述图像数据的样本集的分组顺序, 通 过所述中央处理器选择两组样本的所述初始聚类结果进行聚类集成, 得到所 述两组样本的所述初始聚类结果的聚类集成结果;
将所述两组样本的所述初始聚类结果的聚类集成结果与剩余分组的所述 聚类集成结果逐一进行聚类集成, 得到所述图像数据的样本集的聚类集成结 果。
进一步的, 所述大规模图像数据的聚类装置, 还可以包括:
并行聚类集成模块 312 , 用于如果所述图像数据的样本集的分组数 p为偶 数, 且所述分组数 p≥4 , 通过所述中央处理器将所述图像数据的样本集的每 两组样本的所述初始聚类结果分成一组, 并将所述每两组样本的所述初始聚 类结果进行聚类集成, 得到 个聚类集成结果;
2
将所述 个聚类集成结果再进行聚类集成, 直到所述分组数 p<4 , 将剩余
2
分组的聚类集成结果逐个进行聚类集成, 得到所述图像数据的样本集的聚类 集成结果。
进一步的, 所述并行聚类集成模块, 还用于如果所述图像数据的样本集 的分组数 P为奇数, 且所述分组数 p≥4 ,通过所述中央处理器将所述图像数据 的样本集中 : 2个样本中每两组样本的所述初始聚类结果分成一组,并将所
2
迷每两组样本的所述初始聚类结果进行聚类集成, 得到 个聚类集成结果; 将所述 个聚类集成结果再进行聚类集成, 直到所述分组数 p<4 , 将剩 余分组的一个所述初始聚类集成结果与所述 : 2组图像数据聚类集成后的 聚类集成结果逐个进行聚类集成, 得到所述图像数据的样本集的聚类集成结 果。
进一步的, 所述并行聚类集成模块 312 , 还用于如果所述图像数据的样本 集的分组数 P为奇数, 且所述分组数 ≥ 4,通过所述| ¾ 2中央处理器将所述图像数 据的样本集中 : 2组样本中每两组样本的所述初始聚类结果分成一组,并将 所述每两组样本的所述初始聚类结果进行聚类集成, 得到 个聚类集成 '士 果; 将剩余分组的一个所述初始聚类结果与所述 个聚类集成结果中的任 何一个聚类集成结果进行聚类集成, 得到 ϋ个聚类集成结果;
2
将所述 l个聚类集成结果再进行聚类集成, 直到所述分组数 <4 , 将剩
2
余分组的聚类集成结果逐个进行聚类集成, 得到所述图像数据的样本集的聚 类集成结果。
进一步的, 所述大规模图像数据的聚类装置, 还可以包括:
新增聚类模块 31 3, 用于当有新增的图像数据的样本集与所述图像数据的 样本集进行聚类时, 如果所述新增的图像数据的样本集包括的样本数目小于 或等于 ,则通过所述中央处理器将所述新增的图像数据的样本集包括的样 P
本作为一组进行聚类, 得到所述新增的图像数据的样本集的聚类结果;
将所述新增的图像数据的样本集的聚类结果与所述图像数据的样本集的 聚类结果进行聚类集成, 得到所述新增的图像数据的样本集与所述图像数据 的样本集的聚类集成结果; 如果所述新增的图像数据的样本集包括的样本数目大于 通过所述中 央处理器将所述新增的图像数据的样本集进行分组, 得到所述新增的图像数 据的样本集的各组样本;
通过所述中央处理器将所述新增的各组样本进行聚类, 并通过所述存储 器或数据库保存所述新增的图像数据的样本集的各组样本的所述初始聚类结 果;
通过所述中央处理器将所述新增的图像数据的样本集的各组样本的所述 初始聚类结果进行聚类集成, 获得所述新增的图像数据的样本集的聚类集成 结果;
通过所述中央处理器将所述新增的图像数据的样本集的聚类结果与所述 图像数据的样本集的聚类结果进行聚类集成, 得到新增的图像数据的样本集 与所述图像数据的样本集的聚类集成结果。
本发明实施例提供的大规模图像数据的聚类装置, 分组模块将图像数据 的样本集进行分组, 将所述图像数据的样本集中的每组样本进行聚类, 保存 所述每组样本的聚类结果, 通过串行聚类集成模块或并行聚类集成模块将所 述每组样本的聚类结果进行聚类集成, 获得所述图像数据的样本集的聚类结 果, 当有新增图像数据的样本集进行聚类集成时, 通过新增聚类集成模块将 所述新增图像数据的样本集的聚类集成结果与所述图像数据的样本集的聚类 集成结果再进行聚类集成, 得到所述新增图像数据的样本集和所述图像数据 的样本集的聚类集成结果。 与现有技术相比, 本发明实施例提供的大规模图 像数据的聚类装置, 能够有效的在聚类过程中去除代表性不强的中心, 获得 具有较强代表性的类中心, 而且大大提高了数据聚类效率, 能够处理对于大 规模图像数据的样本集的聚类和新增图像库的增量聚类集成的问题。
本发明实施例提供的大规模图像数据的聚类装置可以实现上述提供的方 法实施例, 具体功能实现请参见方法实施例中的说明, 在此不再赘述。 本发 明实施例提供的大规模图像数据的聚类方法及装置可以适用于数据检索领 域, 但不仅限于此。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流 程, 是可以通过计算机程序来指令相关的硬件来完成, 所述的程序可存储于 一计算机可读取存储介质中, 该程序在执行时 , 可包括如上述各方法的实施 例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体( Read-Only Memory, ROM ) 或随机存储记忆体 ( Random Access Memory, RAM ) 等。
以上所述, 仅为本发明的具体实施方式, 但本发明的保护范围并不局限 于此, 任何熟悉本技术领域的技术人员在本发明揭露的技术范围内, 可轻易 想到的变化或替换, 都应涵盖在本发明的保护范围之内。 因此, 本发明的保 护范围应该以权利要求的保护范围为准。

Claims

权利 要求 书
1、 一种大规模图像数据的聚类方法, 其特征在于, 包括:
设定每个图像数据聚类的类中心包括的最小样本数;
将图像数据的样本集中的样本划分至各个图像数据聚类的类中心, 在当次 迭代完成后, 统计每个图像数据聚类的类中心包括的实际样本数;
将所述每个图像数据聚类的类中心包括的实际样本数与所述最小样本数进 行比较;
将实际样本数小于所述最小样本数的图像数据聚类的类中心去除, 并进行 下一次迭代;
将实际样本数不小于所述最小样本数的图像数据聚类的类中心进行更新, 并进行下一次迭代。
2、 根据权利要求 1所述的方法, 其特征在于, 在所述将实际样本数小于所 述最小样本数的图像数据聚类的类中心去除之后, 还包括:
将所述实际样本数小于所述最小样本数的图像数据聚类的类中心包括的样 本放入所述图像数据的样本集中, 在下一次迭代过程中进行重新划分。
3、 根据权利要求 1所述的方法, 其特征在于, 还包括:
设定图像数据聚类的初始类中心的个数和最大迭代次数, 并随机选取至少 一个图像数据聚类的初始类中心;
在当前迭代次数小于或等于所述最大迭代次数时, 将各图像数据的样本划 分到距离所述各图像数据的样本最近的图像数据聚类的类中心中, 并对当前迭 代次数加 1 ;
在当前迭代次数大于所述最大迭代次数时, 保存图像数据聚类的初始聚类 结果, 所述图像数据聚类的初始聚类结果包括图像数据聚类的类中心的实际个 数, 各图像数据的样本的类别属性, 各图像数据聚类的类中心包括的实际样本 数, 以及所述各样本到其所属的图像数据聚类的类中心的距离。
4、 根据权利要求 3所述的方法, 其特征在于, 在所述随机选取至少一个图 像数据聚类的初始类中心之前, 还包括:
将所述图像数据的样本集中包括的图像数据的样本数 n分成 p组, 如果所述 图像数据的样本数 n能够被 p整除, 则将所述图像数据的样本集中的各样本按顺 序平均分成 P组; 如果所述图像数据的样本数 n不能被 p整除, 则将前 (P - 1)个图像数据的 样本平均分成 P-1组, 将剩余的图像数据的样本分成一组。
5、 根据权利要求 1所述的方法, 其特征在于, 所述将实际样本数不小于所 迷最小样本数的图像数据聚类的类中心进行更新, 包括: 根据公式 C; = ^ - ^ f xf ,对所述实际样本数不小于所述最小样本数的图
SzOfCe^
像数据聚类的类中心进行更新,其中 为第 i个图像数据聚类的类中心更新后的 样本值, feO/C^为所述第 i个图像数据聚类的类中心划分得到的样本数, ^为 第 j个图像数据的样本的样本值。
6、 根据权利要求 4所述的方法, 其特征在于, 在所述保存图像数据聚类的 初始聚类结果之后, 还包括:
按照所述图像数据的样本集的分组顺序, 选择两组样本的所述初始聚类结 果进行聚类集成, 得到所述两组样本的所述初始聚类结果的聚类集成结果; 将所述两组样本的所述初始聚类结果的聚类集成结果与剩余分组的所述初 始聚类结果逐一进行聚类集成, 得到所述图像数据的样本集的聚类集成结果。
7、 根据权利要求 4所述的方法, 其特征在于, 在所述保存图像数据聚类的 初始聚类结果之后, 还包括:
如果所述图像数据的样本集的分组数 p为偶数, 且所述分组数;≥4 , 将所述 图像数据的样本集的每两组样本的所述初始聚类结果分成一组, 并将所述每两 组样本的所述初始聚类结果进行聚类集成, 得到 个聚类集成结果; 将所述 个聚类集成结果再进行聚类集成, 直到所述分组数 p<4 , 将剩余分 2
组的聚类集成结果逐个进行聚类集成, 得到所述图像数据的样本集的聚类集成
2
结果。
8、 根据权利要求 4所述的方法, 其特征在于, 在所述保存图像数据聚类的 初始聚类结果之后, 包括:
如果所述图像数据的样本集的分组数 p为奇数, 且所述分组数 ≥4,将所述 图像数据的样本集中 2组样本中每两组样本的所述初始聚类结果分成一组 , 并将所述每两组样本的所述初始聚类结果进行聚类集成,得到 个聚类集成
将所述 个聚类集成结果再进行聚类集成, 直到所述分组数 p<4 , 将剩余 分组的一个所述初始聚类结果与所述 : 2组图像数据聚类集成后的聚类集成 结果逐个进行聚类集成, 得到所述图像数据的样本集的聚类集成结果。
9、 根据权利要求 4所述的方法, 其特征在于, 在所述保存图像数据聚类的 初始聚类结果之后, 包括:
如果所述图像数据的样本集的分组数 p为奇数, 且所述分组数 p≥ 4 ,将所述 图像数据的样本集中 2组样本中每两组样本的所述初始聚类结果分成一组 , 并将所述每两组样本的所述初始聚类结果进行聚类集成,得到 个聚类集成
将剩余分组的一个所述初始聚类结果与所述 个聚类集成结果中的任何 一个聚类集成结果进行聚类集成, 得到 i个聚类集成结果; 将所述 l个聚类集成结果再进行聚类集成, 直到所述分组数 p<4 , 将剩余 2
分组的聚类集成结果逐个进行聚类集成, 得到所述图像数据的样本集的聚类集 成结果。
10、 根据权利要求 6至 9中任一项所述的方法, 其特征在于, 所述进行聚类 集成, 包括:
设第二组图像数据的样本中的第 i个样本到第一组图像数据的样本中的第 j 个图像数据聚类的类中心的距离最近, 将所述第二组图像数据的样本中的第 i个 样本到所述第一组图像数据的样本中的第 j个图像数据聚类的类中心的距离记 为 distij , 设所述第二组图像数据的样本中的第 i个样本到所述第二组图像数据的 样本中的第 k个图像数据聚类的类中心的距离最近, 将所述第二组图像数据的样 本中的第 i个样本到所述第二组图像数据的样本中的第 k个图像数据聚类的类中 心的距离记为 , 比较所述 是否小于所述 如果是, 则将所述第二组 图像数据的样本中的第 i个样本划分到所述第一组图像数据的样本中第 j个图像 数据聚类的类中心中;
更新所述第一组图像数据的样本中的第 j个图像数据聚类的类中心, 以及第 二组图像数据的样本中的第 k个图像数据聚类的类中心。
11、 根据权利要求 6- 9中任一项所述的方法, 其特征在于, 在所述得到所述 图像数据的样本集的聚类集成结果之后, 还包括:
当有新增的图像数据的样本集与所述图像数据的样本集进行聚类时, 如果 所述新增的图像数据的样本集包括的样本数目小于或等于 ,则将所述新增的 图像数据的样本集包括的样本作为一组进行聚类, 得到所述新增的图像数据的 样本集的聚类结果;
将所述新增的图像数据的样本集的聚类结果与所述图像数据的样本集的聚 类集成结果进行聚类集成, 得到所述新增的图像数据的样本集与所述图像数据 的样本集的聚类集成结果。
12、 根据权利要求 6- 9中任一所述的方法, 其特征在于, 在所述得到所述图 像数据的样本集的聚类集成结果之后, 还包括:
当有新增的图像数据的样本集与所述图像数据的样本集进行聚类时, 如果 所述新增的图像数据的样本集包括的样本数目大于 ,将所述新增的图像数据 的样本集进行分组, 得到所述新增的图像数据的样本集的各组样本;
将所述新增的图像数据的样本集中的各组样本进行聚类, 并保存所述新增 的图像数据的样本集的各组样本的所述初始聚类结果;
将所述新增的图像数据的样本集的各组样本的所述初始聚类结果进行聚类 集成, 获得所述新增的图像数据的样本集的聚类集成结果;
将所述新增的图像数据的样本集的聚类集成结果与所述图像数据的样本集 的聚类结果进行聚类集成, 得到新增的图像数据的样本集与所述图像数据的样 本集的聚类集成结果。
1 3、 一种大规模图像数据的聚类装置, 其特征在于, 包括:
设定模块, 用于设定存储器或数据库中每个图像数据聚类的类中心包括的 最小样本数;
划分模块, 用于通过中央处理器将图像数据的样本集中的样本划分至各个 图像数据聚类的类中心;
统计模块, 用于在当次迭代完成后, 通过所述中央处理器统计每个图像数 据聚类的类中心包括的实际样本数;
比较模块, 用于通过所述中央处理器将所述每个图像数据聚类的类中心包 括的实际样本数与所述最小样本数进行比较;
去除模块, 用于通过所述中央处理器将实际样本数小于所述最小样本数的 图像数据聚类的类中心去除, 并进行下一次迭代;
更新模块, 用于通过所述中央处理器将实际样本数不小于最小样本数的图 像数据聚类的类中心进行更新, 并进行下一次迭代。
14、 根据权利要求 1 3所述的装置, 其特征在于, 所述划分模块, 还用于通 过所述中央处理器在所述将实际样本数小于所述最小样本数的图像数据聚类的 类中心去除之后, 将所述实际样本数小于所述最小样本数的图像数据聚类的类 中心包括的样本放入所述图像数据的样本集中, 在下一次迭代过程中进行重新 划分。
15、 根据权利要求 1 3所述的装置, 其特征在于, 还包括:
选取模块, 用于通过所述中央处理器随机选取至少一个图像数据聚类的初 始类中心;
所述设定模块, 还用于设定所述存储器或数据库中图像数据聚类的初始类 中心的个数和最大迭代次数;
所述划分模块, 具体用于在当前迭代次数小于或等于所述最大迭代次数时, 通过所述中央处理器将各图像数据的样本划分到距离所述各图像数据的样本最 近的图像数据聚类的类中心中;
累加模块, 用于通过所述中央处理器对当前迭代次数加 1;
保存模块, 用于在当前迭代次数大于所述最大迭代次数时, 通过所述存储 器或数据库保存初始聚类结果, 所述初始聚类结果包括图像数据聚类的类中心 的实际个数, 各图像数据的样本的类别属性, 各图像数据聚类的类中心包括的 实际样本数, 以及所述各样本到其所属的图像数据聚类的类中心的距离。
16、 根据权利要求 15所述的装置, 其特征在于, 还包括:
分组模块, 用于通过所述中央处理器将所述图像数据的样本集中包括的图 像数据的样本数 n分成 p组, 如果所述图像数据的样本数 n能够被 p整除, 则将所 述图像数据的样本集中的各样本按顺序平均分成 p组; 如果所述图像数据的样本数 n不能被 p整除, 则将前 (P-1)个图像数据的 样本平均分成 p-1组, 将剩余的图像数据的样本分成一组。
17、 根据权利要求 1 3所述的装置, 其特征在于, 所述更新模块, 具体用于 根据公式 C = ^ - ^ £ x, ,通过所述中央处理器对所述实际样本数不小于所述 SzOfCent ~
最小样本数的图像数据聚类的类中心进行更新, 其中 C为第 i个图像数据聚类的 类中心更新后的样本值, SzOfCeni为所述第 i个图像数据聚类的类中心划分得到 的样本数, ^为第 j个图像数据的样本的样本值。
18、 根据权利要求 16所述的装置, 其特征在于, 还包括:
串行聚类集成模块, 用于按照所述图像数据的样本集的分组顺序, 通过所 述中央处理器选择两组样本的所述初始聚类结果进行聚类集成, 得到所述两组 样本的所述初始聚类结果的聚类集成结果;
将所述两组样本的所述初始聚类结果的聚类集成结果与剩余分组的所述初 始聚类结果逐一进行聚类集成, 得到所述图像数据的样本集的聚类集成结果。
19、 根据权利要求 16所述的装置, 其特征在于, 还包括:
并行聚类集成模块, 用于当所述图像数据的样本集的分组数 P为偶数, 且所 述分组 时, 通过所述中央处理器将所述图像数据的样本集的每两组样本 的所述初始聚类结果分成一组, 并将所述每两组样本的所述初始聚类结果进行 聚类集成, 得到 个聚类集成结果;
2
将所述 个聚类集成结果再进行聚类集成, 直到所述分组数 < 4, 将剩余分 2
组的聚类集成结果逐个进行聚类集成, 得到所述图像数据的样本集的聚类集成 结果。
20、 根据权利要求 19所述的装置, 其特征在于, 所述并行聚类集成模块, 还用于当所述图像数据的样本集的分组数 p为奇数, 且所述分组数 p≥4时,通过 所述中央处理器将所述图像数据的样本集中 : 2组样本中每两组样本的所述 初始聚类结果分成一组, 并将所述每两组样本的所迷初始聚类结果进行聚类集 成, 得到 个聚类集成结果; 将所述 个聚类集成结果再进行聚类集成, 直到所述分组数 p<4 , 将剩余 分组的一个所述初始聚类集成结果与所述
2 : 2组图像数据聚类集成后的聚类 集成结果逐个进行聚类集成, 得到所述图像数据的样本集的聚类集成结果。
21、 根据权利要求 19所述的装置, 其特征在于, 所述并行聚类集成模块, 还用于当所述图像数据的样本集的分组数 p为奇数, 且所述分組数 p≥4时,通过 所述中央处理器将所述图像数据的样本集中 组样本中每两组样本的所述 初始聚类结果分成一组, 并将所述每两组样本的所述初始聚类结果进行聚类集 成, 得到 个聚类集成结果; 将剩余分组的一个所述聚类集成结果与所述 个聚类集成结果中的任何 一个聚类集成结果进行聚类集成, 得到^ ^个聚类集成结果;
2
将所述 个聚类集成结果再进行聚类集成, 直到所述分组数 p<4 , 将剩余
2
分组的聚类集成结果逐个进行聚类集成, 得到所述图像数据的样本集的聚类集 成结果。
22、 根据权利要求 18- 21中所述任一的装置, 其特征在于, 还包括: 增量聚类模块, 用于当有新增的图像数据的样本集与所述图像数据的样本 集进行聚类时, 如果所述新增的图像数据的样本集包括的样本数目小于或等于
,则通过所述中央处理器将所述新增的图像数据的样本集包括的样本作为一 组进行聚类, 得到所述新增的图像数据的样本集的聚类结果;
将所述新增的图像数据的样本集的聚类结果与所述图像数据的样本集的聚 类集成结果进行聚类集成, 得到所述新增的图像数据的样本集与所述图像数据 的样本集的聚类集成结果。
23、 根据权利要求 18-21中任一所迷的装置, 其特征在于, 所述增量聚类模 块, 还用于当所述新增的图像数据的样本集包括的样本数目大于 时, 通过所 述中央处理器将所述新增的图像数据的样本集进行分组, 得到所述新增的图像 数据的样本集的各组样本;
通过所述中央处理器将所述新增的各组样本进行聚类, 并通过所述存储器 或所述数据库保存所述新增的图像数据的样本集的各组样本的所述初始聚类结 果;
通过所述中央处理器将所述新增的图像数据的样本集的各组样本的所述初 始聚类结果进行聚类集成 , 获得所述新增的图像数据的样本集的聚类集成结果; 通过所述中央处理器将所述新增的图像数据的样本集的聚类集成结果与所 述图像数据的样本集的聚类结果进行聚类集成, 得到新增的图像数据的样本集 与所述图像数据的样本集的聚类集成结果。
PCT/CN2011/076950 2011-07-07 2011-07-07 一种大规模图像数据的聚类方法及装置 WO2012159320A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/CN2011/076950 WO2012159320A1 (zh) 2011-07-07 2011-07-07 一种大规模图像数据的聚类方法及装置
CN201180001121.2A CN103119606B (zh) 2011-07-07 2011-07-07 一种大规模图像数据的聚类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2011/076950 WO2012159320A1 (zh) 2011-07-07 2011-07-07 一种大规模图像数据的聚类方法及装置

Publications (1)

Publication Number Publication Date
WO2012159320A1 true WO2012159320A1 (zh) 2012-11-29

Family

ID=47216558

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2011/076950 WO2012159320A1 (zh) 2011-07-07 2011-07-07 一种大规模图像数据的聚类方法及装置

Country Status (2)

Country Link
CN (1) CN103119606B (zh)
WO (1) WO2012159320A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778951A (zh) * 2015-04-07 2015-07-15 华为技术有限公司 语音增强的方法和装置
CN104794497A (zh) * 2015-05-06 2015-07-22 山东大学 一种高光谱图像分类中多中心拟合方法
CN109165097A (zh) * 2018-08-23 2019-01-08 北京九狐时代智能科技有限公司 一种数据处理方法以及数据处理装置
CN111428767A (zh) * 2020-03-17 2020-07-17 深圳市商汤科技有限公司 数据处理方法及装置、处理器、电子设备及存储介质
CN117953252A (zh) * 2024-03-26 2024-04-30 贵州道坦坦科技股份有限公司 高速公路资产数据自动化采集方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948701B (zh) * 2019-03-19 2022-08-16 太原科技大学 一种基于轨迹间时空关联性的数据聚类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101359368A (zh) * 2008-09-09 2009-02-04 华为技术有限公司 一种视频图像聚类方法及系统
CN102004917A (zh) * 2010-12-17 2011-04-06 南方医科大学 一种图像边缘近邻描述特征算子的提取方法
JP2011103082A (ja) * 2009-11-11 2011-05-26 Denso It Laboratory Inc マルチメディア検索システム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996197B (zh) * 2009-08-31 2012-12-26 中国移动通信集团公司 聚类实现方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101359368A (zh) * 2008-09-09 2009-02-04 华为技术有限公司 一种视频图像聚类方法及系统
JP2011103082A (ja) * 2009-11-11 2011-05-26 Denso It Laboratory Inc マルチメディア検索システム
CN102004917A (zh) * 2010-12-17 2011-04-06 南方医科大学 一种图像边缘近邻描述特征算子的提取方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778951A (zh) * 2015-04-07 2015-07-15 华为技术有限公司 语音增强的方法和装置
CN104794497A (zh) * 2015-05-06 2015-07-22 山东大学 一种高光谱图像分类中多中心拟合方法
CN104794497B (zh) * 2015-05-06 2016-04-13 山东大学 一种高光谱图像分类中多中心拟合方法
CN109165097A (zh) * 2018-08-23 2019-01-08 北京九狐时代智能科技有限公司 一种数据处理方法以及数据处理装置
CN109165097B (zh) * 2018-08-23 2021-06-08 北京九狐时代智能科技有限公司 一种数据处理方法以及数据处理装置
CN111428767A (zh) * 2020-03-17 2020-07-17 深圳市商汤科技有限公司 数据处理方法及装置、处理器、电子设备及存储介质
CN111428767B (zh) * 2020-03-17 2024-03-08 深圳市商汤科技有限公司 数据处理方法及装置、处理器、电子设备及存储介质
CN117953252A (zh) * 2024-03-26 2024-04-30 贵州道坦坦科技股份有限公司 高速公路资产数据自动化采集方法及系统
CN117953252B (zh) * 2024-03-26 2024-05-31 贵州道坦坦科技股份有限公司 高速公路资产数据自动化采集方法及系统

Also Published As

Publication number Publication date
CN103119606A (zh) 2013-05-22
CN103119606B (zh) 2016-01-20

Similar Documents

Publication Publication Date Title
CN106295250B (zh) 二代测序短序列快速比对分析方法及装置
Hayashi et al. Fully dynamic betweenness centrality maintenance on massive networks
WO2012159320A1 (zh) 一种大规模图像数据的聚类方法及装置
CN108549696B (zh) 一种基于内存计算的时间序列数据相似性查询方法
CN111553215B (zh) 人员关联方法及其装置、图卷积网络训练方法及其装置
US8706711B2 (en) Descriptor storage and searches of k-dimensional trees
CN111444363B (zh) 一种图片检索方法、装置、终端设备及存储介质
CN104679887B (zh) 基于emd距离的大规模图像数据相似性搜索方法
Ramezani et al. Gcn meets gpu: Decoupling “when to sample” from “how to sample”
WO2020134819A1 (zh) 一种搜索人脸的方法及相关装置
US20220005546A1 (en) Non-redundant gene set clustering method and system, and electronic device
CN110888880A (zh) 基于空间索引的邻近分析方法、装置、设备及介质
CN108052535B (zh) 基于多处理器平台的视觉特征并行快速匹配方法和系统
CN110021345B (zh) 基于spark平台的基因数据分析方法
CN115878824B (zh) 图像检索系统、方法和装置
CN113536020A (zh) 数据查询的方法、存储介质和计算机程序产品
CN110209895B (zh) 向量检索方法、装置和设备
US11748255B1 (en) Method for searching free blocks in bitmap data, and related components
CN112906824B (zh) 车辆聚类方法、系统、设备及存储介质
US20210248142A1 (en) Dual filter histogram optimization
CN111984812B (zh) 一种特征提取模型生成方法、图像检索方法、装置及设备
CN113641705A (zh) 一种基于计算引擎的营销处置规则引擎方法
Rafailidis et al. Indexing media storms on flink
CN113672751B (zh) 一种背景相似图片的聚类方法、装置及电子设备、存储介质
CN112965890B (zh) 一种数据处理方法及相关设备

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201180001121.2

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11866208

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11866208

Country of ref document: EP

Kind code of ref document: A1