WO2012159320A1

WO2012159320A1 - 一种大规模图像数据的聚类方法及装置

Info

Publication number: WO2012159320A1
Application number: PCT/CN2011/076950
Authority: WO
Inventors: 顾王一; 杨杰; 张翼
Original assignee: 华为技术有限公司
Priority date: 2011-07-07
Filing date: 2011-07-07
Publication date: 2012-11-29
Also published as: CN103119606A; CN103119606B

Abstract

本发明实施例公开了一种大规模图像数据的聚类方法及装置，所述方法包括：设定每个图像数据聚类的类中心包括的最小样本数；将图像数据的样本集中的样本划分至各个图像数据聚类的类中心，在当次迭代完成后，统计每个图像数据聚类的类中心包括的实际样本数；将所述每个图像数据聚类的类中心包括的实际样本数与最小样本数进行比较；将实际样本数小于所述最小样本数的图像数据聚类的类中心去除，并进行下一次迭代；将实际样本数不小于所述最小样本数的图像数据聚类的类中心进行更新，并进行下一次迭代。本发明适用于在数据检索领域中的数据聚类，在采用随机选择初始中心的情况下，能够有效的在聚类过程中去除代表性不强的类中心，获得具有较强代表性的类中心。

Description

一种大 ^莫图像数据的聚类方法及装置技术领域

本发明涉及数据检索领域，特别涉及一种大规模图像数据的聚类方法及装置。背景技术

早期的图像检索系统一般采用颜色、纹理、形状等信息来描述图像特征，但是图像特征数量非常庞大，直接利用原始的特征进行检索是非常低效的，将图像检索转化为一定形式上的文本检索是目前主要的研究思路。通常，该方法需要将来自所有图像库的特征聚类成一定数目的码字，这些码字的数目要小于图像库所提取的特征数目，再利用这些码字对每幅图像的特征进行编码，这样每幅图像就可以用一个描述码字的特征向量来表示，从而可以有效地进行图像检索。

在图像检索系统中，在设计聚类算法时，有两个问题值得关注：第一，对于大型图像库能够提取的特征数目往往^ ί艮庞大，而且每个特征的维数也比较高，对这样大规模的数据进行聚类，传统的聚类算法（如经典的 Κ- means算法），由于没有良好的可扩展性，不能有效的处理大规模数据的聚类问题，同时，将大量的特征数据进行聚类，有时也会遇到内存空间不足的问题；第二，实际应用中图像数据库是需要不断更新的，这样就有可能使得从新图像中提取的特征与原聚类分析得到的聚类不匹配。

针对大规模数据的聚类问题，现有技术在传统 K均值（K-means， KM ) 算法的基础上，结合近似最邻近搜索的思想，提出了近似 K均值（Approx ima te K- means , AKM ) 算法，该算法在每次迭代过程中加速了图像数据的样本点寻找最近中心的过程，与 KM算法相比， AKM算法的计算效率得到了明显的提高。

在实现本发明的过程中，发明人发现现有技术中至少存在如下问题：由于 AKM算法采用随机选择中心的缘故，在迭代过程中部分中心只能获得较少图像数据的样本，甚至没有获得图像数据的样本，图像数据聚类的类中心的代表性不强。发明内容

本发明的实施例提供一种大规模图像数据的聚类方法及装置，在釆用随机选择图像数据聚类的初始类中心的情况下，能够有效的在聚类过程中去除代表性不强的类中心，获得具有较强代表性的图像数据聚类的类中心。

本发明实施例釆用的技术方案为：

一种大规模图像数据的聚类方法，包括：

设定每个图像数据聚类的类中心包括的最小样本数；

将图像数据的样本集中的样本划分至各个图像数据聚类的类中心，在当次迭代完成后，统计每个图像数据聚类的类中心包括的实际样本数；

将所述每个图像数据聚类的类中心包括的实际样本数与所述最小样本数进行比较；

将实际样本数小于所述最小样本数的图像数据聚类的类中心去除，并进行下一次迭代；

将实际样本数不小于所述最小样本数的图像数据聚类的类中心进行更新，并进行下一次迭代。

一种大规模图像数据的聚类装置，包括：

设定模块，用于设定存储器或数据库中每个图像数据聚类的类中心包括的最小样本数；

划分模块，用于通过中央处理器将图像数据的样本集中的样本划分至各个图像数据聚类的类中心；

统计模块，用于在当次迭代完成后，通过所迷中央处理器统计每个图像数据聚类的类中心包括的实际样本数；

比较模块，用于通过所述中央处理器将所述每个图像数据聚类的类中心包括的实际样本数与所述最小样本数进行比较；去除模块，用于通过所述中央处理器将实际样本数小于所述最小样本数的图像数据聚类的类中心去除，并进行下一次迭代；

更新模块，用于通过所述中央处理器将实际样本数不小于最小样本数的图像数据聚类的类中心进行更新，并进行下一次迭代。

本发明实施例提供的一种大规模图像数据的聚类方法及装置，设定每个图像数据聚类的类中心包括的最小样本数，将每个图像数据聚类的类中心包括的实际样本数与最小样本数进行比较，将实际样本数小于所述最小样本数的图像数据聚类的类中心去除，将实际样本数不小于最小样本数的图像数据聚类的类中心进行更新。与现有技术相比，本发明实施例提出的大规模图像数据的聚类方法及装置，能够有效的在聚类过程中去除代表性不强的类中心，获得具有较强代表性的图像数据聚类的类中心。附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图 1为本发明实施例一提供的方法流程图；

图 2为本发明实施例二提供的方法流程图；

图 3为本发明实施例二提供的方法流程图；

图 4为本发明实施例二提供的方法流程图；

图 5为本发明实施例三提供的装置结构示意图；

图 6为本发明实施例三提供的装置结构示意图。具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。为使本发明技术方案的优点更加清楚，下面结合附图和实施例对本发明作详细说明。

实施例一

本实施例提供一种大规模图像数据的聚类方法，如图 1所示，所述方法包括：

101、设定每个图像数据聚类的类中心包括的最小样本数；

102、将图像数据的样本集中的样本划分至各个图像数据聚类的类中心，在当次迭代完成后，统计每个图像数据聚类的类中心包括的实际样本数；

103、将所述每个图像数据聚类的类中心包括的实际样本数与所述最小样本数进行比较；

104、将实际样本数小于所述最小样本数的图像数据聚类的类中心去除，并进行下一次迭代；

105、将实际样本数不小于所述最小样本数的图像数据聚类的类中心进行更新，并进行下一次迭代。

本发明实施例提供的一种大规模图像数据的聚类方法，通过设定每个图像数据聚类的类中心包括的最小样本数，将每个图像数据聚类的类中心包括的实际样本数与最小样本数进行比较，将实际样本数小于所述最小样本数的图像数据聚类的类中心去除，将实际样本数不小于最小样本数的图像数据聚类的类中心进行更新。与现有技术相比，本发明实施例提供的大规模图像数据的聚类方法，能够有效的在聚类过程中去除代表性不强的类中心，获得具有较强代表性的图像数据聚类的类中心。

实施例二

本实施例提供一种大规模图像数据的聚类方法，如图 2所示，所述方法包括：

201、将图像数据的样本集中的样本进行分组；具体地，可以采用如下方式对图像数据的样本集中的样本进行分组：将所述图像数据的样本集中包括的图像数据的样本数 η分成 ρ组，如果所述图像数据的样本数 η能够被 ρ整除，则将所述图像数据的样本集中的各样本按顺序平均分成 Ρ组；如果所述 η不能被 ρ整除，则将前 - 1)个图像数据的样本平均分成 ρ-1组，将剩余的图像数据的样本分成一组。

例如，在处理大规模图像数据的样本集 G时，设所述图像数据的样本集中包括的样本数量为 η , 首先将所迷图像数据的样本集中的样本分成 ρ组

( S^ gi ,-, g_P )，满足

l≤i≤p 这里卜|表示图像数据的样本集中每组样本的个数， w表示下取整。釆用顺序划分的方式，即前【《」个图像数据的样本属于接着的图像数据的样本属于 g₂ , 以此类推，最后一组的图像数据的样本数目（在 n不能被 p 整除时）会在 L«/p」附近，这样的划分模式主要有两个好处：第一，每组的图像数据的样本数近似相同，在进行并行运算时，能达到多处理器之间的负载平衡；第二，由于是采用顺序划分，最后的几组图像数据的样本可以看作是新增的图像数据的样本，这样可以适当修改本发明实施例中的聚类集成方法就可以能够处理新增图像数据的样本的情况。

202、将所述图像数据的样本集中的每组样本进行聚类，并保存所述每组样本的初始聚类结果；

如图 3所示，可以采用如下方式对图像数据的样本集中的每组样本进行聚类：设定每个图像数据聚类的类中心包括的最小样本数、图像数据聚类的初始类中心的个数和最大迭代次数，并随机选取至少一个图像数据聚类的初始类中心；

在当前迭代次数小于或等于所述最大迭代次数时，将各图像数据的样本划分到距离所述各图像数据的样本最近的图像数据聚类的类中心中，并对当前迭代次数加 1 ;

在当前迭代次数大于所述最大迭代次数时，保存图像数据聚类的初始聚类结果，所述图像数据聚类的初始聚类结果包括图像数据聚类的类中心的实际个数，各图像数据的样本的类别属性，各图像数据聚类的类中心包括的实际样本数，以及所述各样本到其所属的图像数据聚类的类中心的距离；

在当次迭代完成后，统计每个图像数据聚类的类中心包括的实际样本数；将所述每个图像数据聚类的类中心包括的实际样本数与所述最小样本数进行比较，具体方法如下：

设所述图像数据的样本集中的第 i个图像数据聚类的类中心包括的实际样本数为 SzOfCen_t , 与预先设定的最小样本数 MinSzOfCen进行比较，如果 SzOfCen,小于 MinSzOfCm , 则将所述图像数据的样本集中的第 i个图像数据聚类的类中心去除，并将所述图像数据的样本集中的第 i个图像数据聚类的类中心包括的图像数据的样本放入所述图像数据的样本集中，在下一次迭代过程中进行重新划分，并进行下一次迭代；如 SzOfCer^ > MinSzOfCen，则根据公式 C;， ^ - ^ fx. , 将所述图像数

SzOfCen_i ~[

据的样本集中的第 i个图像数据聚类的类中心进行更新，并进行下一次迭代，其中为第 i个图像数据聚类的类中心更新后的样本值 , SzOfCen,为所述第 i个图像数据聚类的类中心划分得到的图像数据的样本数 , 为第 j个图像数据的样本的样本值。

对于图像数据的样本集中的各样本进行划分的过程，由于原始的 K- means 是按照最近邻的原则，对每个数据库中的图像数据的样本在设定的类中心中寻找最的类近中心，单次迭代需要的时间复杂度是 0(服）， AKM和 IAKM ( Improved Approx imate K- means , IAKM ) 算法都是采用建立随机 kd- tree的方式，进行近似最近邻搜索，单次迭代的时间复杂度是 0(Nlo_g ) 。实验表明，这种以精度换时间的方式, 在图像检索的应用中是完全适用的。

另外，本发明实施例提出的对所述图像数据的样本集中的每组样本进行聚类的方法中，定义两个图像数据的样本 x，y之间的距离都是釆用了欧式距离，它也是在基于 K-means的诸多算法中普遍采用的距离准则，即

C Z5/^I( , ') = ||x - j||₂。

203、将所述图像数据聚类的初始聚类结果进行聚类集成，得到所述图像数据的样本集的聚类集成结果；

如图 4所示，具体方法如下：

( 1 )按照串行聚类集成的方式对所述初始聚类结果进行集成，具体方法如下：按照所述图像数据的样本集的分组顺序，选择两组样本的所述初始聚类结果进行聚类集成，得到所述两组样本的所述初始聚类结果的聚类集成结果；

将所述两组样本的所述初始聚类结果的聚类集成结果与剩余分组的初始聚类结果逐一进行聚类集成，得到所述图像数据的样本集的聚类集成结果。

( 2 )按照并行聚类集成的方式对所述图像数据的样本集进行聚类集成，具体方法如下：如果所述图像数据的样本集的分组数 p为偶数，且所述分组数 p≥4 , 将所述图像数据的样本集的每两组样本的所述初始聚类结果分成一组，并将所述每两组样本的所述初始聚类结果进行聚类集成，得到个聚类集成

2

结果；

将所述个聚类集成结果再进行聚类集成，直到所述分组数 p<4 , 将剩余 2

分组的聚类集成结果逐个进行聚类集成，得到所述图像数据的样本集的聚类集成结果；

或者，如果所述图像数据的样本集的分组数 p为奇数，且所述分组数 p≥4 将所述图像数 2据的样本集中： 2组图像数据的样本中每两组样本的所述初始聚类结果分成一组，并将所述每两组样本的所述初始聚类结果进行聚类集成，得到个聚类集成结果; 将所述个聚类集成结果再进行聚类集成，直到所述分组数 p<4，将剩余分组的一个所述初始聚类结果与所述： 2组图像数据聚类集成后的聚类

| ¾ 2

集成结果逐个进行聚类集成，得到所述图像数据的样本集的聚类集成结果；或者，如果所述图像数据的样本集的分组数 p为奇数，且所述分组数 p≥4 : 将所述图像数据的样本集中： 2组样本中每两组样本的所述初始聚类结果分成一组，并将所述每两组样本的所述初始聚类结果进行聚类集成，得到个聚类集成结果；将剩余分组的一个初始聚类结果与所述个聚类集成结果中的任何| ¾ 2一个聚类集成结果进行聚类集成，得到个聚类集成结果；

2

将所述 l个聚类集成结果再进行聚类集成，直到所述分组数 <4 , 将剩

2

余的聚类集成结果逐个进行聚类集成，得到所述图像数据的样本集的聚类集成结果。

所述串行聚类集成方法或所述并行聚类集成方法中的聚类集成方法具体为：设第二组图像数据的样本中的第 i个样本到第一组图像数据的样本中的第 j个图像数据聚类的类中心的距离最近 , 将所述第二组图像数据的样本中的第 i个样本到所述第一组图像数据的样本中的第 j个图像数据聚类的类中心的距离记为 di^ , 设所述第二组图像数据的样本中的第 i个样本到所述第二组中的第 k个图像数据聚类的类中心的距离最近，将所述第二组图像数据的样本中的第 i个样本到所述第二组图像数据的样本中的第 k个图像数据聚类的类中心的距离记为 dist;_k，比较所述 ί&^是否小于所述，如果是，则将所述第二组图像数据的样本中的第 i个样本划分到所述第一组图像数据的样本中第 j个图像数据聚类的类中心中；

根据公式 C^erN^ ₌ C; x琴 n_{J +} da_tai，更新所述第一组图像数

1 SzOfCerij + 1

据的样本中的第 j个图像数据聚类的类中心，其中， O^rNe^为更新后的第一组图像数据的样本中的第 j个图像数据聚类的类中心， CmterOldj为更新前的第一组图像数据的样本中的第 j个图像数据聚类的类中心， SzOfCerij为第一组图像数据的样本中的第 j个图像数据聚类的类中心划分得到的样本数， data,为第二组图像数据的样本中的第 i个样本的样本值；

CenterOld' x SzOfCen_k - data_t

SzOfCen_k≠ 1

才艮据公式 CenterNew, SzOfCen_k - \ ^{J k} ，更新第二保持不变， SzOfCen = 1

组图像数据的样本中的第 k个图像数据聚类的类中心，其中， C terNew为后的第二组图像数据的样本中第 k个图像数据聚类的类中心， C terOld为^ M 前的第二组图像数据的样本的中第 k个图像数据聚类的类中心， SzOfCm 为第二组图像数据的样本中的第 k个图像数据聚类的类中心划分得到的样本数；如果所述大于或等于所述 4 ,则所述第二组图像数据的样本中的第 i个样本仍属于所述第二组图像数据的样本中的第 k个图像数据聚类的类中心，不需要更新所述第一组图像数据的样本中的第 j个图像数据聚类的类中心和第二组图像数据的样本中的第 k个图像数据聚类的类中心。

204、在所述图像数据的样本集的聚类集成结果中，合并所述图像数据聚类的类中心之间距离小于一定阈值的类中心；设所述图像数据的样本集中各图像数据聚类的类中心之间的最小距离阈值为 di s tMin，设所述图像数据的样本集中当前包括 C个图像数据聚类的类中心 , 从所述 C个图像数据聚类的类中心中随机选择 w个图像数据聚类的类中心 , 在剩余的 C- w个图像数据聚类的类中心中查找与所述包括 w个图像数据聚类的类中心的图像数据的样本集合中的各图像数据聚类的类中心距离最近的类中心，设所述 w个图像数据聚类的类中心中第 i个类中心查找到的在 C-w个图像数据聚类的类中心中与之最近的类中心的距离为 ,则设定所述最小距离阈值 distMin的取值为 m dist_i )；判断所述图像数据的样本集中的第 j个图像数据聚类的类中心与其最近的类中心 k的距离为 ^ 是否小于或等于所述最小阈值距离 di s tMin, 如果是，则将所述图像数据的样本集中的第 j个图像数据聚类的类中心和第 k个图像数据聚类的类中心进行合并；

当所述图像数据的样本集中的第 j个图像数据聚类的类中心、第 k个图像数据聚类的类中心和第 t个图像数据聚类的类中心都需要合并时 , 判断所述第 j个图像数据聚类的类中心与所述第 t个图像数据聚类的类中心的距离 dist_jt是否小于或等于所述最小阈值距离 di s tMin , 如果是，则将所述第 j个图像数据聚类的类中心，所述第 k个图像数据聚类的类中心和所述第 t个图像数据聚类的类中心合并为一个图像数据聚类的类中心，则所述图像数据聚类的类中心 _c* ，其中为所述图像数据的样本集中的第 j个图像数据

聚类的类中心的样本值， c_k为所述图像数据的样本集中的第 k个图像数据聚类的类中心的样本值， c_t为所述图像数据的样本集中的第 t个图像数据聚类的类中心的样本值；

如果所述第 j个图像数据聚类的类中心与所述第 t个图像数据聚类的类中心的距离 dist_jt大于所述 d i s tMin, 则将满足 mm(c& , 的两个图像数据聚类的类中心进行合并，其中 dist_jk为所述图像数据的样本集中的第 j个图像数据聚类的类中心和第 k个图像数据聚类的类中心的距离，为所述图像数据的样本集中的第 k个图像数据聚类的类中心和第 t个图像数据聚类的类中心的距离。

205、在所述得到所述图像数据的样本集的聚类集成结果之后，当有新增的图像数据的样本集与所述图像数据的样本集进行聚类时，将新增的图像数据的样本集的聚类集成结果与所述图像数据的样本集的聚类集成结果进行聚类集成，得到新增的图像数据的样本集与所述图像数据的样本集的聚类集成结果。

具体地，当有新增的图像数据的样本集与所述图像数据的样本集进行聚类时，如果所述新增的图像数据的样本集包括的样本数目小于或等于

将所述新增的图像数据的样本集包括的样本作为一组进行聚类；

将所述新增的图像数据的样本集的所述初始聚类结果与所述图像数据的样本集的聚类结果进行聚类集成，得到新增的图像数据的样本集与所述图像数据的样本集的聚类集成结果；如果所述新增的图像数据的样本集包括的样本数目大于，将所述新增的图像数据的样本集进行分组，得到所述新增的图像数据的样本集的各组样本；

将所述新增的各组样本进行聚类，并保存所述新增的图像数据的样本集的各组样本的初始聚类结果；

将所述新增的图像数据的样本集的各组样本的初始聚类结果进行聚类集成，获得所述新增的图像数据的样本集的聚类集成结果；

将所述新增的图像数据的样本集的聚类集成结果与所述图像数据的样本集的聚类结果进行聚类集成，得到新增的图像数据的样本集与所述图像数据的样本集的聚类集成结果。

本发明实施例提供的一种大规模图像数据的聚类方法，将图像数据的样本集进行分组，并将每组样本进行聚类，保存所述每组样本的所述初始聚类结果，通过串行聚类集成方式或并行聚类集成方式将所述每组样本的所述初始聚类结果进行聚类集成，获得所述图像数据的样本集的聚类集成结果，当有新增图像数据的样本集进行聚类集成时，将所述新增图像数据的样本集的聚类集成结果与所述图像数据的样本集的聚类集成结果再进行聚类集成，得到所述新增图像数据的样本集和所述图像数据的样本集的聚类集成结果。与现有技术相比，本发明实施例提供的一种大规模图像数据的聚类方法，能够有效的在聚类过程中去除代表性不强的类中心，获得具有较强代表性的类中心，而且大大提高了数据聚类效率，能够处理对于大规模图像数据的样本集的聚类和新增图像库的增量聚类集成的问题。

实施例三

本实施例提供一种大规模图像数据的聚类装置，如图 5所示，所述装置包括：

设定模块 301 , 用于设定存储器或数据库中每个图像数据聚类的类中心包括的最小样本数；

划分模块 302 , 用于通过中央处理器将图像数据的样本集中的样本划分至各个图像数据聚类的类中心；

具体地，所述划分模块用于从所述存储器或数据库中获取所述图像数据的样本集中的样本和所述各个图像数据聚类的类中心，并将所述图像数据的样本集中的样本和所述各个图像数据聚类的类中心，以及用于指示将图像数据的样本集中的样本划分至各个图像数据聚类的类中心的划分指令发送到所述中央处理器，所述中央处理器在接收到所述图像数据的样本集中的样本和各个图像数据聚类的类中心、以及所述用于指示将图像数据的样本集中的样本划分至各个图像数据聚类的类中心的划分指令之后，根据所述划分指令将所述图像数据的样本集中的样本划分至所述各个图像数据聚类的类中心，并将对所述图像数据的样本集中的样本划分至所述各个图像数据聚类的类中心的划分结果返回给所述存储器或数据库，所述存储器或数据库保存所述图像数据的样本集中的样本划分至所述各个图像数据聚类的类中心的划分结果。

统计模块 303，用于在当次迭代完成后，通过所述中央处理器统计每个图像数据聚类的类中心包括的实际样本数；

具体地，所述统计模块用于在当次迭代完成后，从所述存储器或数据库中获取当次迭代后每个图像数据聚类的类中心包括的实际样本，将所述每个图像数据聚类的类中心包括的实际样本和用于指示统计所述每个图像数据聚类的类中心包括的实际样本数的统计指令发送给所述中央处理器，所述中央处理器在收到所述每个图像数据聚类的类中心包括的实际样本和所述用于指示统计所述每个图像数据聚类的类中心包括的实际样本数的统计指令后，根据所述统计指令统计所述每个图像数据聚类的类中心包括的实际样本的数量，并将所述每个图像数据聚类的类中心包括的实际样本的数量返回给所述存储器或数据库，所述存储器或数据库保存所述每个图像数据聚类的类中心包括的实际样本的数量。

比较模块 304 , 用于通过所述中央处理器将所述每个图像数据聚类的类中心包括的实际样本数与所述最小样本数进行比较；

具体地，所述比较模块用于从所述存储器或数据库中获取每个图像数据聚类的类中心包括的实际样本数和所述最小样本数，并将所述每个图像数据聚类的类中心包括的实际样本数和所述最小样本数以及用于指示将所述每个图像数据聚类的类中心包括的实际样本数与所述最小样本数进行比较的比较指令发送给所述中央处理器，所述中央处理器在接收到所述每个图像数据聚类的类中心包括的实际样本数和所述最小样本数以及所述用于指示将所述每个图像数据聚类的类中心包括的实际样本数与所述最小样本数进行比较的比较指令之后，根据所述比较指令比较所述每个图像数据聚类的类中心包括的实际样本数与所述最小样本数的大小，并将所述每个图像数据聚类的类中心包括的实际样本数与所述最小样本数比较后的结果返回给所述存储器或数据库，所述存储器或数据库保存所述每个图像数据聚类的类中心包括的实际样本数与所述最小样本数比较后的结果。

去除模块 305，用于通过所述中央处理器将实际样本数小于所述最小样本数的图像数据聚类的类中心去除，并进行下一次迭代；

具体地，所述去除模块用于从所述存储器或数据库中获取实际样本数小于所述最小样本数的图像数据聚类的类中心，将所述实际样本数小于所述最小样本数的图像数据聚类的类中心以及用于指示去除所述实际样本数小于所述最小样本数的图像数据聚类的类中心的去除指令发送给所述中央处理器，所述中央处理器接收到所述实际样本数小于所述最小样本数的图像数据聚类的类中心以及用于指示去除所述实际样本数小于所述最小样本数的图像数据聚类的类中心的去除指令之后，根据所述去除指令去除所述实际样本数小于所述最小样本数的图像数据聚类的类中心，并将去除所述实际样本数小于所述最小样本数的图像数据聚类的类中心的执行结果返回给所述存储器或数据库，所述存储器或数据库保存所述去除所述实际样本数小于所述最小样本数的图像数据聚类的类中心的执行结果。

更新模块 306 , 用于通过所述中央处理器将实际样本数不小于所述最小样本数的图像数据聚类的类中心进行更新，并进行下一次迭代。

具体地，所述更新模块用于从所述存储器或数据库中获取实际样本数不小于所述最小样本数的图像数据聚类的类中心，并将所述实际样本数不小于所述最小样本数的图像数据聚类的类中心以及用于指示所述实际样本数不小于所述最小样本数的图像数据聚类的类中心进行更新的更新指令发送给所述中央处理器，所述中央处理器接收到所述实际样本数不小于所述最小样本数的图像数据聚类的类中心以及用于指示所述实际样本数不小于所述最小样本数的图像数据聚类的类中心进行更新的更新指令之后，根据所述更新执行，将所述实际样本数不小于所述最小样本数的图像数据聚类的类中心进行更新，并将更新结果返回给所述存储器或数据库，所述存储器或数据库保存所述更新结果。

进一步的，所述划分模块 302 , 还用于通过所述中央处理器在所述将实际样本数小于所述最小样本数的图像数据聚类的类中心去除之后，将所述实际样本数小于所述最小样本数的图像数据聚类的类中心包括的样本放入图像数据的样本集中，在下一次迭代过程中进行重新划分。

进一步的，如图 6所示，所述大规模图像数据的聚类装置还可以包括：选取模块 307，用于通过所述中央处理器随机选取至少一个图像数据聚类的初始类中心；

所述设定模块 301 , 还用于设定所述存储器或数据库中的图像数据聚类的初始类中心的个数和最大迭代次数；

所述划分模块 302 , 具体用于在当前迭代次数小于或等于所述最大迭代次数时，通过所述中央处理器将各图像数据的样本划分到距离所述各图像数据的样本最近的图像数据聚类的类中心中；

累加模块 308 , 用于通过所述中央处理器对当前迭代次数加 1；

保存模块 309 , 用于在当前迭代次数大于所述最大迭代次数时，通过所述存储器或数据库保存初始聚类结果，所述初始聚类结果包括图像数据聚类的类中心的实际个数，各图像数据的样本的类别属性，各图像数据聚类的类中心包括的实际样本数，以及所述各样本到其所属的图像数据聚类的类中心的距离。

进一步的，所述大规模图像数据的聚类装置，还可以包括：

分组模块 31 0 , 用于通过所述中央处理器将所述图像数据的样本集中包括的图像数据的样本数 n分成 p组，如果所述图像数据的样本数 n能够被 p整除，则将所述图像数据的样本集中的各样本按顺序平均分成 p组；如果所述图像数据的样本数 n不能被 p整除，则将前 (P-1)个图像数据

—P.

的样本平均分成 P-1组，将剩余的图像数据的样本分成一组 _t 进一步的，所述更新模块 306 , 具体用于根据公式 = ^ - ^ Υ ,. , 通

SzOfCen_i ~t 过所述中央处理器对所述实际样本数不小于所述最小样本数的图像数据聚类的类中心进行更新，其中 "为第 i个图像数据聚类的类中心更新后的样本值， SzOfCen,为所述第 i个图像数据聚类的类中心划分得到的样本数， x为第 j个图像数据的样本的样本值。

进一步的，所述大规模图像数据的聚类装置，还可以包括：

串行聚类集成模块 311 , 用于按照所述图像数据的样本集的分组顺序，通过所述中央处理器选择两组样本的所述初始聚类结果进行聚类集成，得到所述两组样本的所述初始聚类结果的聚类集成结果；

将所述两组样本的所述初始聚类结果的聚类集成结果与剩余分组的所述聚类集成结果逐一进行聚类集成，得到所述图像数据的样本集的聚类集成结果。

进一步的，所述大规模图像数据的聚类装置，还可以包括：

并行聚类集成模块 312 , 用于如果所述图像数据的样本集的分组数 p为偶数，且所述分组数 p≥4 , 通过所述中央处理器将所述图像数据的样本集的每两组样本的所述初始聚类结果分成一组，并将所述每两组样本的所述初始聚类结果进行聚类集成，得到个聚类集成结果；

2

将所述个聚类集成结果再进行聚类集成，直到所述分组数 p<4 , 将剩余

2

分组的聚类集成结果逐个进行聚类集成，得到所述图像数据的样本集的聚类集成结果。

进一步的，所述并行聚类集成模块，还用于如果所述图像数据的样本集的分组数 P为奇数，且所述分组数 p≥4 ,通过所述中央处理器将所述图像数据的样本集中 : 2个样本中每两组样本的所述初始聚类结果分成一组，并将所

2

迷每两组样本的所述初始聚类结果进行聚类集成，得到个聚类集成结果; 将所述个聚类集成结果再进行聚类集成，直到所述分组数 p<4 , 将剩余分组的一个所述初始聚类集成结果与所述： 2组图像数据聚类集成后的聚类集成结果逐个进行聚类集成，得到所述图像数据的样本集的聚类集成结果。

进一步的，所述并行聚类集成模块 312 , 还用于如果所述图像数据的样本集的分组数 P为奇数，且所述分组数 ≥ 4，通过所述| ¾ 2中央处理器将所述图像数据的样本集中： 2组样本中每两组样本的所述初始聚类结果分成一组，并将所述每两组样本的所述初始聚类结果进行聚类集成，得到个聚类集成 '士果；将剩余分组的一个所述初始聚类结果与所述个聚类集成结果中的任何一个聚类集成结果进行聚类集成，得到 ϋ个聚类集成结果；

2

余分组的聚类集成结果逐个进行聚类集成，得到所述图像数据的样本集的聚类集成结果。

进一步的，所述大规模图像数据的聚类装置，还可以包括：

新增聚类模块 31 3，用于当有新增的图像数据的样本集与所述图像数据的样本集进行聚类时，如果所述新增的图像数据的样本集包括的样本数目小于或等于 ,则通过所述中央处理器将所述新增的图像数据的样本集包括的样 P

本作为一组进行聚类，得到所述新增的图像数据的样本集的聚类结果；

将所述新增的图像数据的样本集的聚类结果与所述图像数据的样本集的聚类结果进行聚类集成，得到所述新增的图像数据的样本集与所述图像数据的样本集的聚类集成结果；如果所述新增的图像数据的样本集包括的样本数目大于通过所述中央处理器将所述新增的图像数据的样本集进行分组，得到所述新增的图像数据的样本集的各组样本；

通过所述中央处理器将所述新增的各组样本进行聚类，并通过所述存储器或数据库保存所述新增的图像数据的样本集的各组样本的所述初始聚类结果；

通过所述中央处理器将所述新增的图像数据的样本集的各组样本的所述初始聚类结果进行聚类集成，获得所述新增的图像数据的样本集的聚类集成结果；

通过所述中央处理器将所述新增的图像数据的样本集的聚类结果与所述图像数据的样本集的聚类结果进行聚类集成，得到新增的图像数据的样本集与所述图像数据的样本集的聚类集成结果。

本发明实施例提供的大规模图像数据的聚类装置，分组模块将图像数据的样本集进行分组，将所述图像数据的样本集中的每组样本进行聚类，保存所述每组样本的聚类结果，通过串行聚类集成模块或并行聚类集成模块将所述每组样本的聚类结果进行聚类集成，获得所述图像数据的样本集的聚类结果，当有新增图像数据的样本集进行聚类集成时，通过新增聚类集成模块将所述新增图像数据的样本集的聚类集成结果与所述图像数据的样本集的聚类集成结果再进行聚类集成，得到所述新增图像数据的样本集和所述图像数据的样本集的聚类集成结果。与现有技术相比，本发明实施例提供的大规模图像数据的聚类装置，能够有效的在聚类过程中去除代表性不强的中心，获得具有较强代表性的类中心，而且大大提高了数据聚类效率，能够处理对于大规模图像数据的样本集的聚类和新增图像库的增量聚类集成的问题。

本发明实施例提供的大规模图像数据的聚类装置可以实现上述提供的方法实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。本发明实施例提供的大规模图像数据的聚类方法及装置可以适用于数据检索领域，但不仅限于此。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时 , 可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（ Read-Only Memory, ROM ) 或随机存储记忆体 ( Random Access Memory, RAM ) 等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

权利要求书

1、一种大规模图像数据的聚类方法，其特征在于，包括：

设定每个图像数据聚类的类中心包括的最小样本数；

2、根据权利要求 1所述的方法，其特征在于，在所述将实际样本数小于所述最小样本数的图像数据聚类的类中心去除之后，还包括：

将所述实际样本数小于所述最小样本数的图像数据聚类的类中心包括的样本放入所述图像数据的样本集中，在下一次迭代过程中进行重新划分。

3、根据权利要求 1所述的方法，其特征在于，还包括：

设定图像数据聚类的初始类中心的个数和最大迭代次数，并随机选取至少一个图像数据聚类的初始类中心；

在当前迭代次数大于所述最大迭代次数时，保存图像数据聚类的初始聚类结果，所述图像数据聚类的初始聚类结果包括图像数据聚类的类中心的实际个数，各图像数据的样本的类别属性，各图像数据聚类的类中心包括的实际样本数，以及所述各样本到其所属的图像数据聚类的类中心的距离。

4、根据权利要求 3所述的方法，其特征在于，在所述随机选取至少一个图像数据聚类的初始类中心之前，还包括：

将所述图像数据的样本集中包括的图像数据的样本数 n分成 p组，如果所述图像数据的样本数 n能够被 p整除，则将所述图像数据的样本集中的各样本按顺序平均分成 P组；如果所述图像数据的样本数 n不能被 p整除，则将前 (P - 1)个图像数据的样本平均分成 P-1组，将剩余的图像数据的样本分成一组。

5、根据权利要求 1所述的方法，其特征在于，所述将实际样本数不小于所迷最小样本数的图像数据聚类的类中心进行更新，包括：根据公式 C; = ^ - ^ f x_f ，对所述实际样本数不小于所述最小样本数的图

SzOfCe^

像数据聚类的类中心进行更新，其中为第 i个图像数据聚类的类中心更新后的样本值， feO/C^为所述第 i个图像数据聚类的类中心划分得到的样本数， ^为第 j个图像数据的样本的样本值。

6、根据权利要求 4所述的方法，其特征在于，在所述保存图像数据聚类的初始聚类结果之后，还包括：

按照所述图像数据的样本集的分组顺序，选择两组样本的所述初始聚类结果进行聚类集成，得到所述两组样本的所述初始聚类结果的聚类集成结果；将所述两组样本的所述初始聚类结果的聚类集成结果与剩余分组的所述初始聚类结果逐一进行聚类集成，得到所述图像数据的样本集的聚类集成结果。

7、根据权利要求 4所述的方法，其特征在于，在所述保存图像数据聚类的初始聚类结果之后，还包括：

如果所述图像数据的样本集的分组数 p为偶数，且所述分组数；≥4 , 将所述图像数据的样本集的每两组样本的所述初始聚类结果分成一组，并将所述每两组样本的所述初始聚类结果进行聚类集成，得到个聚类集成结果；将所述个聚类集成结果再进行聚类集成，直到所述分组数 p<4 , 将剩余分 2

组的聚类集成结果逐个进行聚类集成，得到所述图像数据的样本集的聚类集成

2

结果。

8、根据权利要求 4所述的方法，其特征在于，在所述保存图像数据聚类的初始聚类结果之后，包括：

如果所述图像数据的样本集的分组数 p为奇数，且所述分组数 ≥4，将所述图像数据的样本集中 2组样本中每两组样本的所述初始聚类结果分成一组 , 并将所述每两组样本的所述初始聚类结果进行聚类集成，得到个聚类集成

将所述个聚类集成结果再进行聚类集成，直到所述分组数 p<4 , 将剩余分组的一个所述初始聚类结果与所述 : 2组图像数据聚类集成后的聚类集成结果逐个进行聚类集成，得到所述图像数据的样本集的聚类集成结果。

9、根据权利要求 4所述的方法，其特征在于，在所述保存图像数据聚类的初始聚类结果之后，包括：

如果所述图像数据的样本集的分组数 p为奇数，且所述分组数 p≥ 4 ,将所述图像数据的样本集中 2组样本中每两组样本的所述初始聚类结果分成一组 , 并将所述每两组样本的所述初始聚类结果进行聚类集成，得到个聚类集成

将剩余分组的一个所述初始聚类结果与所述个聚类集成结果中的任何一个聚类集成结果进行聚类集成，得到 i个聚类集成结果; 将所述 l个聚类集成结果再进行聚类集成，直到所述分组数 p<4 , 将剩余 2

10、根据权利要求 6至 9中任一项所述的方法，其特征在于，所述进行聚类集成，包括：

设第二组图像数据的样本中的第 i个样本到第一组图像数据的样本中的第 j 个图像数据聚类的类中心的距离最近，将所述第二组图像数据的样本中的第 i个样本到所述第一组图像数据的样本中的第 j个图像数据聚类的类中心的距离记为 dis_tij , 设所述第二组图像数据的样本中的第 i个样本到所述第二组图像数据的样本中的第 k个图像数据聚类的类中心的距离最近，将所述第二组图像数据的样本中的第 i个样本到所述第二组图像数据的样本中的第 k个图像数据聚类的类中心的距离记为，比较所述是否小于所述如果是，则将所述第二组图像数据的样本中的第 i个样本划分到所述第一组图像数据的样本中第 j个图像数据聚类的类中心中；

更新所述第一组图像数据的样本中的第 j个图像数据聚类的类中心，以及第二组图像数据的样本中的第 k个图像数据聚类的类中心。

11、根据权利要求 6- 9中任一项所述的方法，其特征在于，在所述得到所述图像数据的样本集的聚类集成结果之后，还包括：

当有新增的图像数据的样本集与所述图像数据的样本集进行聚类时，如果所述新增的图像数据的样本集包括的样本数目小于或等于，则将所述新增的图像数据的样本集包括的样本作为一组进行聚类，得到所述新增的图像数据的样本集的聚类结果；

将所述新增的图像数据的样本集的聚类结果与所述图像数据的样本集的聚类集成结果进行聚类集成，得到所述新增的图像数据的样本集与所述图像数据的样本集的聚类集成结果。

12、根据权利要求 6- 9中任一所述的方法，其特征在于，在所述得到所述图像数据的样本集的聚类集成结果之后，还包括：

当有新增的图像数据的样本集与所述图像数据的样本集进行聚类时，如果所述新增的图像数据的样本集包括的样本数目大于，将所述新增的图像数据的样本集进行分组，得到所述新增的图像数据的样本集的各组样本；

将所述新增的图像数据的样本集中的各组样本进行聚类，并保存所述新增的图像数据的样本集的各组样本的所述初始聚类结果；

将所述新增的图像数据的样本集的各组样本的所述初始聚类结果进行聚类集成，获得所述新增的图像数据的样本集的聚类集成结果；

1 3、一种大规模图像数据的聚类装置，其特征在于，包括：

统计模块，用于在当次迭代完成后，通过所述中央处理器统计每个图像数据聚类的类中心包括的实际样本数；

比较模块，用于通过所述中央处理器将所述每个图像数据聚类的类中心包括的实际样本数与所述最小样本数进行比较；

去除模块，用于通过所述中央处理器将实际样本数小于所述最小样本数的图像数据聚类的类中心去除，并进行下一次迭代；

14、根据权利要求 1 3所述的装置，其特征在于，所述划分模块，还用于通过所述中央处理器在所述将实际样本数小于所述最小样本数的图像数据聚类的类中心去除之后，将所述实际样本数小于所述最小样本数的图像数据聚类的类中心包括的样本放入所述图像数据的样本集中，在下一次迭代过程中进行重新划分。

15、根据权利要求 1 3所述的装置，其特征在于，还包括：

选取模块，用于通过所述中央处理器随机选取至少一个图像数据聚类的初始类中心；

所述设定模块，还用于设定所述存储器或数据库中图像数据聚类的初始类中心的个数和最大迭代次数；

所述划分模块，具体用于在当前迭代次数小于或等于所述最大迭代次数时，通过所述中央处理器将各图像数据的样本划分到距离所述各图像数据的样本最近的图像数据聚类的类中心中；

累加模块，用于通过所述中央处理器对当前迭代次数加 1；

保存模块，用于在当前迭代次数大于所述最大迭代次数时，通过所述存储器或数据库保存初始聚类结果，所述初始聚类结果包括图像数据聚类的类中心的实际个数，各图像数据的样本的类别属性，各图像数据聚类的类中心包括的实际样本数，以及所述各样本到其所属的图像数据聚类的类中心的距离。

16、根据权利要求 15所述的装置，其特征在于，还包括：

分组模块，用于通过所述中央处理器将所述图像数据的样本集中包括的图像数据的样本数 n分成 p组，如果所述图像数据的样本数 n能够被 p整除，则将所述图像数据的样本集中的各样本按顺序平均分成 p组；如果所述图像数据的样本数 n不能被 p整除，则将前 (P-1)个图像数据的样本平均分成 p-1组，将剩余的图像数据的样本分成一组。

17、根据权利要求 1 3所述的装置，其特征在于，所述更新模块，具体用于根据公式 C = ^ - ^ £ x, ,通过所述中央处理器对所述实际样本数不小于所述 SzOfCen_t ~

最小样本数的图像数据聚类的类中心进行更新，其中 C为第 i个图像数据聚类的类中心更新后的样本值， SzOfC_eni为所述第 i个图像数据聚类的类中心划分得到的样本数， ^为第 j个图像数据的样本的样本值。

18、根据权利要求 16所述的装置，其特征在于，还包括：

串行聚类集成模块，用于按照所述图像数据的样本集的分组顺序，通过所述中央处理器选择两组样本的所述初始聚类结果进行聚类集成，得到所述两组样本的所述初始聚类结果的聚类集成结果；

将所述两组样本的所述初始聚类结果的聚类集成结果与剩余分组的所述初始聚类结果逐一进行聚类集成，得到所述图像数据的样本集的聚类集成结果。

19、根据权利要求 16所述的装置，其特征在于，还包括：

并行聚类集成模块，用于当所述图像数据的样本集的分组数 P为偶数，且所述分组时，通过所述中央处理器将所述图像数据的样本集的每两组样本的所述初始聚类结果分成一组，并将所述每两组样本的所述初始聚类结果进行聚类集成, 得到个聚类集成结果；

2

将所述个聚类集成结果再进行聚类集成，直到所述分组数 < 4，将剩余分 2

组的聚类集成结果逐个进行聚类集成，得到所述图像数据的样本集的聚类集成结果。

20、根据权利要求 19所述的装置，其特征在于，所述并行聚类集成模块，还用于当所述图像数据的样本集的分组数 p为奇数，且所述分组数 p≥4时，通过所述中央处理器将所述图像数据的样本集中： 2组样本中每两组样本的所述初始聚类结果分成一组，并将所述每两组样本的所迷初始聚类结果进行聚类集成，得到个聚类集成结果; 将所述个聚类集成结果再进行聚类集成，直到所述分组数 p<4 , 将剩余分组的一个所述初始聚类集成结果与所述

2 ： 2组图像数据聚类集成后的聚类集成结果逐个进行聚类集成，得到所述图像数据的样本集的聚类集成结果。

21、根据权利要求 19所述的装置，其特征在于，所述并行聚类集成模块，还用于当所述图像数据的样本集的分组数 p为奇数，且所述分組数 p≥4时，通过所述中央处理器将所述图像数据的样本集中组样本中每两组样本的所述初始聚类结果分成一组，并将所述每两组样本的所述初始聚类结果进行聚类集成，得到个聚类集成结果; 将剩余分组的一个所述聚类集成结果与所述个聚类集成结果中的任何一个聚类集成结果进行聚类集成，得到^ ^个聚类集成结果；

2

22、根据权利要求 18- 21中所述任一的装置，其特征在于，还包括：增量聚类模块，用于当有新增的图像数据的样本集与所述图像数据的样本集进行聚类时，如果所述新增的图像数据的样本集包括的样本数目小于或等于

，则通过所述中央处理器将所述新增的图像数据的样本集包括的样本作为一组进行聚类，得到所述新增的图像数据的样本集的聚类结果；

23、根据权利要求 18-21中任一所迷的装置，其特征在于，所述增量聚类模块，还用于当所述新增的图像数据的样本集包括的样本数目大于时，通过所述中央处理器将所述新增的图像数据的样本集进行分组，得到所述新增的图像数据的样本集的各组样本；

通过所述中央处理器将所述新增的各组样本进行聚类，并通过所述存储器或所述数据库保存所述新增的图像数据的样本集的各组样本的所述初始聚类结果；

通过所述中央处理器将所述新增的图像数据的样本集的各组样本的所述初始聚类结果进行聚类集成 , 获得所述新增的图像数据的样本集的聚类集成结果；通过所述中央处理器将所述新增的图像数据的样本集的聚类集成结果与所述图像数据的样本集的聚类结果进行聚类集成，得到新增的图像数据的样本集与所述图像数据的样本集的聚类集成结果。