WO2023050461A1

WO2023050461A1 - 一种数据的聚类方法、系统及存储介质

Info

Publication number: WO2023050461A1
Application number: PCT/CN2021/123007
Authority: WO
Inventors: 邓少冬; 盛龙
Original assignee: 西安米克斯智能技术有限公司
Priority date: 2021-09-30
Filing date: 2021-10-11
Publication date: 2023-04-06
Also published as: CN113806610A

Abstract

本发明公开了一种数据的聚类方法、系统及存储介质，包括如下步骤：确定数据聚类条件；根据数据聚类条件对数据进行聚类得到至少一个第一聚类结果，并计算每一个第一聚类结果的熵载；所述熵载表示其对应的第一聚类结果所承载的平均信息量的大小；取各熵载中的最大熵载，其对应的第一聚类结果为数据聚类结果。本发明从整体数据出发进行聚类，实现了数据聚类的整体性，得到的聚类结果更加完整、准确；且聚类过程中不存在对任何特殊数据的依赖与处理、不限制任何数据种类，因此普遍适用于任何数据的聚类；采用最大承载平均信息量作为确定聚类结果的依据，对于存储空间一定的计算机系统，其所能存储的信息量也越大，提高了信息的表达效率。

Description

一种数据的聚类方法、系统及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种数据的聚类方法、系统及存储介质。

背景技术

近年来随着互联网的发展和普及，图像、视频、文本等数据的数量和表征数据的维度越来越多，为了利用这些海量数据，就需要对这些高维数据进行快速且有效的聚类，因此衍生了大量聚类算法。

聚类算法作为机器学习领域的重要研究课题之一，已经被广泛应用于数据挖掘、人脸识别、医学影像分析、图像分割等重要领域。图像聚类是将完全未知标签的目标数据分割并归入不同的簇，属于通过数据特征进行分组的探索性技术，通常可用于图像信息的整理，或者用于生成训练样本标注等，属于一种常见的图像处理手段。

现有的图像聚类方法，一般是基于图像提取出的图像特征，通过传统聚类算法进行图像聚类，例如，通过K均值聚类算法(K-Means clustering algorithm)或密度的含噪空间聚类方法(Density-Based Spatial Clustering of Applications with Noise，DBSCAN)等算法进行聚类。

以K-Means算法为例，传统的K-Means算法需要输入样本集、聚类的簇树K，最大迭代次数N，最后输出簇划分，大致过程为：从数据中选择K个对象作为初始聚类中心；计算每个聚类对象到聚类中心的距离来划分；再次计算每个聚类中心；计算标准测度函数，直至达到最大迭代次数，则停止，否则，继续操作。

但是，基于以上算法过程，K-Means算法存在以下主要缺点：

a.K值很难确定，因为事先无法确定给定的样本集应该被分成什么类别才为最优；

b.K-Means采用以上迭代方法，得到的结果只是局部最优的聚类结果，缺乏整体性；

c.对于离群点和孤立点敏感；

d.需样本集存在均值，这限定了数据种类；

e.聚类效果依赖于聚类中心的初始化，而初始聚类中心是随机选择的。

申请人对其他聚类算法也进行了充分的研究，发现除K-Means算法外，其他传统聚类算法也包含太多对特殊数据的依赖与处理，因此这些算法对数据的聚类并不具备普遍适用性和整体性，而数据聚类领域对克服缺乏普遍适用性和整体性缺点的聚类方法缺乏充分的探索。

发明内容

本发明的目的是提供一种数据的聚类方法、系统及存储介质，解决了本领域现有技术中的传统聚类算法缺乏整体性和普遍适用性的技术问题。

为实现上述发明目的，本发明实施例提供一种数据的聚类方法，其特征在于，所述方法包括：

确定数据聚类条件；

根据所述数据聚类条件对数据进行聚类得到至少一个第一聚类结果，所述至少一个第一聚类结果中的每一个第一聚类结果包含至少一个数据集合；计算所述每一个第一聚类结果对应的熵载，所述熵载表示其对应的第一聚类结果所承载的平均信息量的大小；

取所述每一个第一聚类结果对应的熵载中的最大熵载，所述最大熵载对应的第一聚类结果为数据聚类结果。

优选地，所述数据聚类条件的确定依据为数据之间的相似性。

优选地，根据所述数据聚类条件对数据进行聚类包括：根据不同维度数据的组合关系对数据进行聚类。

进一步地优选地，所述不同维度数据的组合关系根据数据聚类所关注的维度决定，包括：固定不关注的维度数据，组合遍历所关注的维度数据。

进一步地优选地，所述根据不同维度数据的组合关系对数据进行聚类具体为：

(v ₁,v ₂,v ₃,L L,v _j)，

v _j＝{a _mj}＝a _1j,a _2j,L L,a _mj；

其中，v _j为第j个维度的数据，数据v _j之间的差值按照从小到大的顺序排列为序列{a _mj}，a _mj为序列{a _mj}中的第m个项，a _mj代表数据v _j之间的最大差值，a _1j代表数据v _j之间的最小差值；当v _j为数据聚类不关注的维度数据，则v _j的取值为序列{a _mj}中的任意至少一项；当v _j为数据聚类所关注的维度数据，则v _j的取值为按序列{a _mj}中项的先后顺序遍历每个项，并且v _j取后一个项聚类时基于v _j取前一个项所得的第一聚类结果进一步聚类。

优选地，所述熵载的计算方法为：

其中，a _mj为序列{a _mj}中的第m个项，{a _mj}为第j个维度的数据v _j之间的差值按照从小到大的顺序排列而成的序列，a为对数函数的底数，a>1，熵载

表示v _j取序列{a _mj}中第m个项a _mj进行聚类所得第一聚类结果所承载的平均信息量的大小；n为v _j取序列{a _mj}中第m个项a _mj进行聚类所得第一聚类结果包含的数据集合数；k _i为第i个数据集合中元素的个数，N为数据的总个数，p _i为第i个数据集合中元素的个数与数据的总个数的比值。

进一步地优选地，a＝2，由此计算得出的熵载代表比特，比特为二进制，代表平均信息量的度量单位。

优选地，所述方法包括形成信息结构树的步骤，包括：

重新确定数据聚类条件，按新的数据聚类条件执行所述聚类方法对所述数据聚类结果中的某个数据集合进一步聚类得到新的最大熵载，新的最大熵载所对应的聚类结果包括若干个分集合，所述若干个分集合所对应的信息为所述某个数据集合的细分信息，将所述某个数据集合作为父节点，将所述若干个分集合作为子节点，以此逐步形成信息结构树。

优选地，所述方法包括形成聚类过程树的步骤，包括：

当所述v _j的取值为按序列{a _mj}中项的先后顺序遍历每个项进行聚类时，v _j取a _qj进行聚类得到的第一聚类结果置于聚类过程树的第q层次，1≤q≤m，v _j取a _mj进行聚类得到的第一聚类结果为聚类过程树的根节点，v _j取a _1j进行聚类得到的第一聚类结果为聚类过程树的叶节点，叶节点的度为零；第q层次的集合作为父节点，第q-1层次聚类形成该集合的所有元素为该集合的子节点，以此逐步形成聚类过程树。

为实现上述发明目的，本发明另一实施例提供一种数据的聚类系统，其特征在于，所述系统包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现上述一种数据的聚类方法的步骤。

为实现上述发明目的，本发明另一实施例提供一种计算机可读存储介质，其特征在于：所述的存储介质存储有至少一个程序，所述至少一个程序可被至少一个处理器执行，所述至少一个程序被所述至少一个处理器执行时实现上述一种数据的聚类方法的步骤。

本发明提供的一种数据的聚类方法、系统及存储介质具有如下有益效果：

(1)本发明提供的一种数据的聚类方法、系统及存储介质根据数据聚类条件从整体数据出发进行聚类得到至少一个第一聚类结果，通过其中承载平均信息量最大的第一聚类结果得到数据聚类结果，实现了数据聚类的整体性，因此得到的聚类结果更加完整、准确；且聚类过程中不存在对任何特殊数据的依赖与处理、不限制任何数据种类，因此普遍适用于任何数据的聚类，实用性非常高；采用最大承载平均信息量作为确定聚类结果的依据，对于存储空间一定的计算机系统，其所能存储的信息量也越大，提高了信息的表达效率；

(2)本发明提供的一种数据的聚类方法、系统及存储介质基于至少一个第一聚类结果，对至少一个第一聚类结果再次聚类得到至少一个第一聚类结果的局部性细分信息，实现了数据聚类整体性与局部性的协调与统一；

(3)本发明提供的一种数据的聚类方法、系统及存储介质形成信息结构树，信息结构树的每个分叉对应的熵载都为一定聚类条件下的最大熵载，则对于存储空间一定的计算机系统，其所能存储的信息量最大，因此其对信息的表达效率也最高；

(4)本发明提供的一种数据的聚类方法、系统及存储介质在聚类过程中还形成聚类过程树，聚类过程树根据所关注维度数据的粒度的粗细对数据进行由粗到细地、持续地聚类与辨别，能直观地反映出单个数据点逐步聚类的所有信息，实现了数据的所有聚类信息都有迹可循，有源可溯。

附图说明

图1为本发明实施例一种数据的聚类方法的流程示意图；

图2为本发明实施例二一种数据的聚类方法、系统及存储介质中12个数据点的应用场景示意图；

图3为本发明实施例二一种数据的聚类方法、系统及存储介质中以数据值相差为1聚类的结果示意图；

图4为本发明实施例二一种数据的聚类方法、系统及存储介质中以数据值相差为2聚类的结果示意图；

图5为本发明实施例二一种数据的聚类方法、系统及存储介质中以数据值相差为3聚类的结果示意图；

图6为本发明实施例二一种数据的聚类方法、系统及存储介质中以数据值相差为4聚类的结果示意图；

图7为本发明实施例三一种数据的聚类方法、系统及存储介质中11个有序数据点的应用场景示意图；

图8为本发明实施例三一种数据的聚类方法、系统及存储介质的聚类过程树的结构示意图；

图9为本发明实施例三一种数据的聚类方法、系统及存储介质中以数据值相差为1聚类的结果示意图；

图10为本发明实施例三一种数据的聚类方法、系统及存储介质中以数据值相差为2聚类的结果示意图；

图11为本发明实施例三一种数据的聚类方法、系统及存储介质中以数据值相差为3聚类的结果示意图；

图12为本发明实施例三一种数据的聚类方法、系统及存储介质中以数据值相差为4聚类的结果示意图；

图13为本发明实施例四一种数据的聚类方法、系统及存储介质的应用场景示意图；

图14为本发明实施例四一种数据的聚类方法、系统及存储介质中156个有序数据点的应用场景示意图；

图15为本发明实施例四一种数据的聚类方法、系统及存储介质的聚类过程树的结构示意图；

图16为本发明实施例四一种数据的聚类方法、系统及存储介质中以数据值相差为0聚类的结果示意图；

图17为本发明实施例四一种数据的聚类方法、系统及存储介质中以数据值相差为1聚类的结果示意图；

图18为本发明实施例四一种数据的聚类方法、系统及存储介质中以数据值相差为2聚类的结果示意图；

图19为本发明实施例四一种数据的聚类方法、系统及存储介质中以数据值相差为3聚类的结果示意图；

图20为本发明实施例四一种数据的聚类方法、系统及存储介质中以数据值相差为4聚类的结果示意图；

图21为本发明实施例四一种数据的聚类方法、系统及存储介质中“水杯”集合的数据以数据值相差为0聚类的结果示意图；

图22为本发明实施例四一种数据的聚类方法、系统及存储介质中“水杯”集合的数据以数据值相差为2聚类的结果示意图；

图23为本发明实施例四一种数据的聚类方法、系统及存储介质中“水杯”集合的数据以数据值相差为4聚类的结果示意图；

图24为本发明实施例四一种数据的聚类方法、系统及存储介质的信息结构树的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明技术方案作进一步详细的描述，以下内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

实施例一

本发明实施例一提供一种数据的聚类方法，如图1所示，包括如下步骤：

(1)确定数据聚类条件，包括如下步骤：

确定影响数据之间相似性的因素；

从众多因素中确定数据聚类所关注的数据维度；

确定不同维度数据的组合关系；

根据各维度数据的组合关系确定数据的聚类条件。

数据聚类条件的确定依据为数据之间的相似性，而数据之间的相似性往往受多个维度的因素共同影响，因此本发明实施例一数据聚类的条件根据以下不同维度数据的组合关系对数据进行聚类，具体如下：

(v ₁,v ₂,v ₃,L L,v _j)，

v _j＝{a _mj}＝a _1j,a _2j,L L,a _mj；

组合关系根据数据聚类所关注的维度决定，包括：固定不关注的维度数据，组合遍历所关注的维度数据。

(2)根据数据聚类条件对数据进行聚类得到至少一个第一聚类结果，每一个第一聚类结果包含至少一个数据集合。计算每一个第一聚类结果对应的熵载，所述熵载表示其对应的第一聚类结果所承载的平均信息量的大小。熵载的计算方法为：

[根据细则91更正 26.10.2021]　
其中，a _mj为序列{a _mj}中的第m个项，{a _mj}为第j个维度的数据v _j=Δh之间的差值按照从小到大的顺序排列而成的序列，a为对数函数的底数，a>1，熵载

本发明实施例一a的优选取值为a＝2，由此计算得出的熵载代表比特，比特为二进制，代表平均信息量的度量单位。

每一次聚类得到的结果为若干个数据集合，每个数据集合都对应一个数据类别，计算机系统在存储聚类结果时，每个数据类别都有与其对应的一个固定长度的编码，每个编码所能存储的平均信息量是一定的，对应地，每个编码的信息表达效率也是一定的，我们期望固定长度的编码可以存储最多的平均信息量，从而信息表达效率最高。

熵载

表示本次聚类所得聚类结果所承载的平均信息量的大小，

越大表示本次聚类结果中每个数据类别的平均信息量越大，则每个数据类别所对应的编码所能存储的平均信息量越大，每个数据类别所对应的编码的信息表达效率也越高，那么，对于存储空间一定的计算机系统，其所能存储的信息量也越大，因此其对信息的表达效率也越高。

(3)取步骤(2)中计算所得各第一聚类结果的熵载中的最大熵载I _max，根据最大熵载I _max得到数据聚类结果，具体为：

其中，I _max为最大熵载，表示按照所述聚类条件进行聚类所得聚类结果所承载的最大平均信息量，则对于存储空间一定的计算机系统，其所能存储的信息量最大，其对信息的表达效率也最高，因此最大熵载I _max所对应的聚类结果是我们期望得到的。

执行步骤(1)、步骤(2)和步骤(3)完成一次聚类后，本发明实施例一的一种数据的聚类方法还可以包括形成信息结构树的步骤，具体包括：

信息结构树的每个分叉对应的熵载都为一定聚类条件下的最大熵载，则对于存储空间一定的计算机系统，其所能存储的信息量最大，因此其对信息的表达效率也最高。

本发明实施例一的一种数据的聚类方法还可以包括形成聚类过程树的步骤，具体包括：

当v _j的取值按序列{a _mj}中项的先后顺序遍历每个项进行聚类时，v _j取a _qj进行聚类得到的第一聚类结果置于聚类过程树的第q层次，1≤q≤m，v _j取a _mj进行聚类得到的第一聚类结果为聚类过程树的根节点，v _j取a _1j进行聚类得到的第一聚类结果为聚类过程树的叶节点，叶节点的度为零；第q层次的集合作为父节点，第q-1层次聚类形成该集合的所有元素为该集合的子节点，以此逐步形成聚类过程树。当v _j的取值按序列{a _mj}中项的先后顺序遍历每个项进行聚类时，体现了聚类过程树根据所关注维度数据v _j的粒度的粗细对数据进行由粗到细地、持续地聚类与辨别的过程，聚类过程树能直观地反映出单个数据点逐步聚类的所有信息，实现了数据的所有聚类信息都有迹可循，有源可溯。

实施例二

HSV是根据颜色的直观特性创建的一种颜色空间，也称六角锥体模型，这个模型中颜色的参数分别是：色调(h)，饱和度(s)，明度(v)，取值范围分别为：H:0～180，S:0～255，V:0～255，图像由若干个数据点构成，每个数据点均有h值、s值、v值。

如图2所示，本发明实施例二提供一种数据的聚类方法，针对12个散乱无序的数据点的数据：色调h值，通过以下方法进行聚类，包括如下步骤：

(1)确定数据聚类的条件，具体为：

本实施例数据之间的相似性仅受一个维度的因素影响：色调h值之间的差值Δh，因此本实施例数据聚类的条件为，根据Δh对数据进行聚类：

v ₁＝Δh＝{a _m1}＝a ₁₁,a ₂₁,L L,a _m1＝1,2,3,4,5,6,7,8,10,11,12,13,14,15,16,17,18,19,20,21,22,23,25；

其中，v ₁为第1个维度的数据：Δh，数据v ₁＝Δh之间的差值按照从小到大的顺序排列为序列{a _m1}，a _m1为序列{a _m1}中的第m个项，a _m1＝25代表数据h之间的最大差值为25，a ₁₁＝1代表数据h之间的最小差值为1。Δh是本发明实施例二数据聚类所关注的维度数据，则Δh的取值为按序列{a _m1}中项的先后顺序遍历每个项，并且Δh取后一个项聚类时基于Δh取前一个项所得的聚类结果进一步聚类。

因此，本发明实施例二数据聚类的条件为：根据各数据点的色调h值之间的差值Δh序列Δh＝{a _m1}＝1,2,3,4,5,6,7,8,10,11,12,13,14,15,16,17,18,19,20,21,22,23,25中项的先后顺序遍历每个项，并且Δh取后一个项聚类时基于Δh取前一个项所得的聚类结果进一步聚类。

(2)根据数据聚类的条件对数据进行聚类，并计算聚类后的熵载

其中，a _m1为序列{a _m1}中的第m个项，{a _m1}为第1个维度的数据v ₁＝Vh之间的差值按照从小到大的顺序排列而成的序列；a为对数函数的底数，a>1；熵载

表示v ₁取序列{a _m1}中以第m个项a _m1进行聚类所得第一聚类结果所承载的平均信息量的大小；n为v ₁取序列{a _m1}中以第m个项a _m1进行聚类所得第一聚类结果包含的数据集合数；k _i为第i个数据集合中元素的个数，N为数据的总个数，p _i为第i个数据集合中元素的个数与数据的总个数的比值。

本发明实施例二a的优选取值为a＝2，由此计算得出的熵载代表比特，比特为二进制，代表平均信息量的度量单位。

熵载

表示本次聚类所得聚类结果所承载的平均信息量的大小，

本发明实施例二根据数据聚类条件对数据聚类具体为：

S201.在Δh＝1时聚类，代表色调h值相差为1的数据点聚在一个集合，聚类后得到第一聚类结果，该第一聚类结果中包含五个数据集合，如图3所示，n＝5，N＝12，计算此时的熵载I ₁：

S202.基于Δh＝1的聚类结果，在Δh＝2时聚类，代表色调h值相差为2的数据点聚在一个集合，聚类后得到第一聚类结果，该第一聚类结果中包含三个数据集合，如图4所示，n＝3，N＝12，计算此时的熵载I ₂：

S203.基于Δh＝2的聚类结果，在Δh＝3时聚类，代表色调h值相差为3的数据点聚在一个集合，聚类后得到第一聚类结果，该第一聚类结果中包含两个数据集合，如图5所示，n＝2，N＝12，计算此时的熵载I ₃：

S204.基于Δh＝3的聚类结果，在Δh＝4时聚类，代表色调h值相差为4的数据点聚在一个集合，聚类后得到第一聚类结果，该第一聚类结果中包含一个数据集合，如图6所示，可见所有数据点全部聚为一个集合，计算此时的熵载I ₄：

本实施例中以Δh＝5～25聚类的结果与步骤S204中以Δh＝4聚类的结果相同，熵载也相同，因此不再赘述。

其中，I _max为最大熵载，表示按照所述聚类条件进行聚类所得聚类结果所承载的最大平均信息量。I ₃表示以“Δh＝3”方法聚类所得的熵载最大，则对于存储空间一定的计算机系统，使用I ₃所对应的聚类方法其所能存储的信息量最大，其对信息的表达效率也最高，因此最大熵载I ₃所对应的聚类结果是我们期望得到的。

本发明实施例二仅以数据点的色调h值之间的差值Δh示例性说明一维数据的聚类方法，实质上本发明一种数据的聚类方法、系统及存储介质适用于任何一维数据的聚类。

实施例三

如图7所示，本发明实施例三提供一种数据的聚类方法，针对直角坐标系中11个有序的数据点的数据：色调h值、x坐标值、y坐标值，通过以下方法进行聚类，包括如下步骤：

(1)确定数据聚类的条件，具体为：

本发明实施例三数据之间的相似性受两个维度的因素共同影响：色调h值之间的差值Δh、x坐标值之间的差值Δx，因此本发明实施例三数据聚类的条件为，根据Δh和Δx的组合关系对数据进行聚类：

(v ₁,v ₂)，

v ₁＝Δh，

v ₂＝Δx；

本发明实施例三数据聚类所关注的维度数据为Δh，不关注的维度数据为Δx，因此组合关系为固定Δx，遍历数据Δh聚类，对于Δh：

v ₁＝Δh＝{a _m1}＝a ₁₁,a ₂₁,L L,a _m1＝0,1,2,3,4,5,6,7；

其中，v ₁为第1个维度的数据：Δh，数据v ₁＝Δh之间的差值按照从小到大的顺序排列为序列{a _m1}，a _m1为序列{a _m1}中的第m个项，a _m1＝7代表数据h之间的最大差值为7，a ₁₁＝0代表数据h之间的最小差值为0。Δh为本发明实施例三数据聚类所关注的维度数据，则Δh的取值为按序列{a _m1}中项的先后顺序遍历每个项，并且Δh取后一个项聚类时基于Δh取前一个项所得的聚类结果进一步聚类。

对于Δx：

v ₂＝Δx＝{a _m2}＝a ₁₂,a ₂₂,L L,a _m2＝1,2,3,4,5,6,7,8,9,10；

其中，v ₂为第2个维度的数据：Δx，数据v ₂＝Δx之间的差值按照从小到大的顺序排列为序列{a _m2}，a _m2为序列{a _m2}中的第m个项，a _m2＝10代表数据Δx之间的最大差值为10，a ₁₂＝1代表数据Δx之间的最小差值为1。Δx为本发明实施例三数据聚类不关注的维度数据，则Δx的取值为序列{a _m2}中的任意至少一项，本发明实施例三取序列{a _m2}中的第一个项，故Δx＝1。

因此，本发明实施例三数据聚类的条件为：固定Δx＝1，根据各数据点的色调h值之间的差值Δh序列Δh＝{a _m1}＝0,1,2,3,4,5,6,7中项的先后顺序遍历每个项，并且Δh取后一个项聚类时基于Δh取前一个项所得的聚类结果进一步聚类。

Δh的取值为按序列{a _m1}中项的先后顺序遍历每个项进行聚类，Δh取a ₈₁＝7进行聚类得到的聚类结果置于聚类过程树的第7层次，聚类得到的聚类结果为聚类过程树的根节点；Δh取a ₁₁＝0进行聚类得到的聚类结果置于聚类过程树的第1层次，聚类得到的结果为聚类过程树的叶节点，叶节点的度为零；第2层次的某个集合作为父节点，则第1层次组成该集合的所有元素作为该集合的子节点，以此逐步形成聚类过程树，如图8所示，当Δh的取值为按序列{a _m1}中项的先后顺序遍历每个项进行聚类时，体现了聚类过程树根据所关注维度数据Δh的粒度的粗细对数据进行由粗到细地、持续地聚类与辨别的过程，聚类过程树能直观地反映出单个数据点逐步聚类的所有信息，实现了数据的所有聚类信息都有迹可循，有源可溯。

其中，a _m1为序列{a _m1}中的第m个项，{a _m1}为第1个维度的数据v ₁＝Δh之间的差值按照从小到大的顺序排列而成的序列，a为对数函数的底数，a>1；熵载

本发明实施例三a的优选取值为a＝2，由此计算得出的熵载代表比特，比特为二进制，代表平均信息量的度量单位。

熵载

表示本次聚类所得聚类结果所承载的平均信息量的大小，

本发明实施例三根据数据聚类的条件对数据聚类具体为：

S301.固定Δx＝1，在Δh＝0时聚类，代表色调h值相同的数据点聚在一个集合，因为没有满足该聚类条件的数据点，数据点不发生任何聚类，因此此时的熵载I ₀＝0。

S302.固定Δx＝1，在Δh＝1时聚类，代表色调h值相差为1的数据点聚在一个集合，聚类后得到第一聚类结果，该第一聚类结果中包含八个数据集合，如图9所示，n＝8，N＝11，计算此时的熵载I ₁：

S303.固定Δx＝1，基于Δh＝1的聚类结果，在Δh＝2时聚类，代表色调h值相差为2的数据点聚在一个集合，聚类后得到第一聚类结果，该第一聚类结果中包含四个数据集合，如图10所示，n＝4，N＝11，计算此时的熵载I ₂：

S304.固定Δx＝1，基于Δh＝2的聚类结果，在Δh＝3时聚类，代表色调h值相差为3的数据点聚在一个集合，聚类后得到第一聚类结果，该第一聚类结果中包含两个数据集合，如图11所示，n＝2，N＝11，计算此时的熵载I ₃：

S305.固定Δx＝1，基于Δh＝3的聚类结果，在Δh＝4时聚类，代表色调h值相差为4的数据点聚在一个集合，聚类后得到第一聚类结果，该第一聚类结果中包含一个数据集合，如图12所示，n＝1，N＝11，计算此时的熵载I ₄：

本发明实施例三中以Δh＝5～7聚类的结果与步骤S305中以Δh＝4聚类的结果相同，熵载也相同，因此不再赘述。

其中，I _max为最大熵载，表示按照所述聚类条件进行聚类所得聚类结果所承载的最大平均信息量。I ₂表示以“固定Δx＝1，Δh＝2”方法聚类所得的熵载最大，则对于存储空间一定的计算机系统，其所能存储的信息量最大，其对信息的表达效率也最高，因此最大熵载I ₂所对应的聚类结果是我们期望得到的。

本发明实施例三仅以色调h值之间的差值Δh和x坐标值之间的差值Δx示例性说明二维数据的聚类方法，实质上本发明一种数据的聚类方法、系统及存储介质适用于任何二维数据的聚类。

实施例四

本发明实施例四以图像分割领域为例说明本发明一种数据的聚类方法，图像分割的应用场景如图13所示。

如图14所示，本实施例四为一张图像，针对图像中156个有序的数据点的数据：色调h值、x坐标值、y坐标值，通过以下方法进行聚类，具体为：

(1)确定数据聚类的条件，具体为：

本发明实施例四数据之间的相似性仅受三个维度的因素影响：色调h值之间的差值Δh、x坐标值之间的差值Δx、y坐标值之间的差值Δy，因此本发明实施例四数据聚类的条件为，根据Δh、Δx和Δy的组合关系对数据进行聚类：

(v ₁,v ₂,v ₃)，

v ₁＝Δh，

v ₂＝Δx，

v ₃＝Δy；

本发明实施例四数据聚类所关注的维度数据为Δh，不关注的维度数据为Δx和Δy，因此组合关系为固定Δx和Δy，遍历数据Δh聚类，对于Δh：

v ₁＝Δh＝{a _m1}＝a ₁₁,a ₂₁,L L,a _m1＝0,1,2,3,4,5,158,159,160,161,162,163；

其中，v ₁为第1个维度的数据：Δh，数据v ₁＝Δh之间的差值按照从小到大的顺序排列为序列{a _m1}，a _m1为序列{a _m1}中的第m个项，a _m1＝163代表数据h之间的最大差值为163，a ₁₁＝0代表数据h之间的最小差值为0。Δh是本发明实施类四数据聚类所关注的维度数据，因此Δh的取值为按序列{a _m1}中项的先后顺序遍历每个项，并且Δh取后一个项聚类时基于Δh取前一个项所得的聚类结果进一步聚类。

对于Δx：

v ₂＝Δx＝{a _m2}＝a ₁₂,a ₂₂,L L,a _m2＝1,2,3,4,5,6,7,8,9,10,11；

其中，v ₂为第2个维度的数据：Δx，数据v ₂＝Δx之间的差值按照从小到大的顺序排列为序列{a _m2}，a _m2为序列{a _m2}中的第m个项，a _m2＝11代表数据Δx之间的最大差值为11，a ₁₂＝1代表数据Δx之间的最小差值为1。Δx为本发明实施例四数据聚类不关注的维度数据，则Δx的取值为序列{a _m2}中的任意至少一项，本发明实施例四取序列{a _m2}中的第一个项，故Δx＝1。

对于Δy：

v ₃＝Δy＝{a _m3}＝a ₁₃,a ₂₃,L L,a _m3＝1,2,3,4,5,6,7,8,9,10,11,12；

其中，v ₃为第3个维度的数据：Δy，数据v ₃＝Δy之间的差值按照从小到大的顺序排列为序列{a _m3}，a _m3为序列{a _m3}中的第m个项，a _m3＝12代表数据Δy之间的最大差值为12，a ₁₃＝1代表数据Δy之间的最小差值为1。Δy为本发明实施例四数据聚类不关注的维度数据，则Δy的取值为序列{a _m3}中的任意至少一项，本发明实施例四取序列{a _m3}中的第一个项，故Δy＝1。

因此，本发明实施例四数据聚类的条件为：固定Δx＝1，固定Δy＝1，根据各数据点的色调h值之间的差值Δh序列Δh＝{a _m1}＝0,1,2,3,4,5,158,159,160,161,162,163中项的先后顺序遍历每个项，并且Δh取后一个项聚类时基于Δh取前一个项所得的聚类结果进一步聚类。

Δh的取值为按序列a _m1中项的先后顺序遍历每个项进行聚类，Δh取163进行聚类得到的聚类结果置于聚类过程树的第163层次，聚类得到的聚类结果为聚类过程树的根节点；Δh取0进行聚类得到的聚类结果置于聚类过程树的第1层次，聚类得到的结果为聚类过程树的叶节点，叶节点的度为零；第2层次的某个集合作为父节点，则第1层次组成该集合的所有元素作为该集合的子节点，以此逐步形成聚类过程树，如图15所示，当Δh的取值为按序列a _m1中项的先后顺序遍历每个项进行聚类时，体现了聚类过程树根据所关注维度数据Δh的粒度的粗细对数据进行由粗到细地、持续地聚类与辨别，能直观地反映出单个图像数据点逐步聚类形成可区分的物体，进一步聚类形成整副图像的所有信息，实现了数据的所有聚类信息都有迹可循，有源可溯。

(2)根据数据聚类的条件对数据进行聚类，并计算数据每次聚类后的熵载

本发明实施例四中取a＝2，由此计算得出的熵载代表比特，比特为二进制，代表平均信息量的度量单位，因此取a＝2更合适。

熵载

表示本次聚类所得聚类结果所承载的平均信息量的大小，

本发明实施例四根据数据聚类的条件对数据聚类具体为：

S401.固定Δx＝1，固定Δy＝1，在Δh＝0时聚类，代表色调h值相同的数据点聚在一个集合，聚类后得到第一聚类结果，该第一聚类结果中包含十八个数据集合，如图16所示，n＝18，N＝156，计算此时的熵载I ₀：

S402.固定Δx＝1，固定Δy＝1，基于Δh＝0的聚类结果，在Δh＝1时聚类，代表色调h值相差为1的数据点聚在一个集合，聚类后得到第一聚类结果，该第一聚类结果中包含十五个数据集合，如图17所示，n＝15，N＝156，计算此时的熵载I ₁：

S403.固定Δx＝1，固定Δy＝1，基于Δh＝1的聚类结果，在Δh＝2时聚类，代表色调h值相差为2的数据点聚在一个集合，聚类后得到第一聚类结果，该第一聚类结果中包含九个数据集合，如图18所示，n＝9，N＝156，计算此时的熵载I ₂：

S404.固定Δx＝1，固定Δy＝1，基于Δh＝2的聚类结果，在Δh＝3时聚类，代表色调h值相差为3的数据点聚在一个集合，聚类后得到第一聚类结果，该第一聚类结果中包含六个数据集合，如图19所示，n＝6，N＝156，计算此时的熵载I ₃：

S405.固定Δx＝1，固定Δy＝1，基于Δh＝3的聚类结果，在Δh＝4时聚类，代表色调h值相差为4的数据点聚在一个集合，聚类后得到第一聚类结果，该第一聚类结果中包含四个数据集合，如图20所示，n＝4，N＝156，计算此时的熵载I ₄：

S406.固定Δx＝1，固定Δy＝1，基于Δh＝4的聚类结果，在Δh＝158时聚类，代表色调h值相差为158的数据点聚在一个集合，聚类后得到第一聚类结果，该第一聚类结果中包含一个数据集合：聚类后图像的背景与图像上的其他集合形成一个集合，该集合对应于整副图像，如图14所示，n＝1，N＝156，计算此时的熵载I ₁₅₈：

本实施例中以Δh＝5聚类的结果与步骤S405中以Δh＝4聚类的结果相同，以Δh＝159～163聚类的结果与步骤S406中以Δh＝158聚类的结果相同，因此不再赘述。

其中，I _max为最大熵载，表示按照所述聚类条件进行聚类所得聚类结果所承载的最大平均信息量。I ₄表示以“固定Δx＝1，固定Δy＝1，Δh＝4”方法聚类所得的平均信息量最大，则对于存储空间一定的计算机系统，其所能存储的信息量最大，其对信息的表达效率也最高，因此最大熵载I ₄所对应的数据聚类结果是我们期望得到的。

本发明实施例四仅以色调h值之间的差值Δh、x坐标值之间的差值Δx、y坐标值之间的差值Δy示例性说明三维数据的聚类方法，实质上本发明一种数据的聚类方法、系统及存储介质适用于任何三维及三维以上数据的聚类；另，由图20可见，Δh＝4聚类后图像上已经聚集形成明显可区分的四个物体：“安全帽”、“水杯”、“手套”和“图像背景”四个集合，从而准确地实现了图像分割。

执行步骤(1)、步骤(2)和步骤(3)完成一次聚类，由相应的附图可见每次聚类可得至少一个第一聚类结果，且每一个第一聚类结果包含至少一个集合，如图20所示，最大熵载I ₄对应的聚类结果为四个集合：“安全帽”、“水杯”、“手套”和“图像背景”，假定本发明实施例四需了解“水杯”集合数据的细分信息，并且期望得到的熵载最大，则重新确定数据聚类条件，按新的数据聚类条件重复执行步骤(1)、步骤(2)和步骤(3)对“水杯”集合数据进一步聚类得到新的最大熵载，新的最大熵载所对应的聚类结果包括两个分集合：“杯盖”和“杯体”，这两个分集合所对应的信息为“水杯”集合数据的细分信息。将“水杯”集合作为父节点，将其分集合“杯盖”和“杯体”作为子节点，以此逐步形成信息结构树。信息结构树的每个分叉对应的熵载都为一定聚类条件下的最大熵载，则对于存储空间一定的计算机系统，其所能存储的信息量最大，因此其对信息的表达效率也最高，具体为：

本发明实施例四针对“水杯”集合中6个有序数据点的数据值：色调h值、x坐标值、y坐标值，确定新的数据聚类的条件，然后重复执行步骤(1)、步骤(2)和步骤(3)进一步聚类，具体为：

(1)确定新的数据聚类的条件，具体为：

这6个有序的数据点之间的相似性仅受两个维度的因素影响：色调h值之间的差值Δh、y坐标值之间的差值Δy，因此对“水杯”集合中数据聚类的条件为，根据Δh和Δy的组合关系对数据进行聚类：

(v ₁,v ₂)，

v ₁＝Δh，

v ₂＝Δy；

本发明实施例四对“水杯”集合中数据聚类所关注的维度数据为Δh，不关注的维度数据为Δy，因此组合关系为固定Δy，遍历数据Δh聚类，对于Δh：

v ₁＝Δh＝{a _m1}＝a ₁₁,a ₂₁,L L,a _m1＝0,2,4；

其中，v ₁为第1个维度的数据：Δh，数据v ₁＝Δh之间的差值按照从小到大的顺序排列为序列{a _m1}，a _m1为序列{a _m1}中的第m个项，a _m1＝4代表数据h之间的最大差值为4，a ₁₁＝0代表数据h之间的最小差值为0。Δh是本发明实施例四对“水杯”集合数据聚类所关注的维度数据，因此Δh的取值为按序列{a _m1}中项的先后顺序遍历每个项，并且Δh取后一个项聚类时基于Δh取前一个项所得的聚类结果进一步聚类。

对于Δy：

v ₂＝Δy＝{a _m2}＝a ₁₂,a ₂₂,L L,a _m2＝1,2,3,4,5；

其中，v ₂为第2个维度的数据：Δy，数据v ₂＝Δy之间的差值按照从小到大的顺序排列为序列{a _m2}，a _m2为序列{a _m2}中的第m个项，a _m2＝5代表数据Δy之间的最大差值为5，a ₁₂＝1代表数据Δy之间的最小差值为1。Δy为本发明实施例四对“水杯”集合数据聚类不关注的维度数据，则Δy的取值为序列{a _m2}中的任意至少一项，本发明实施例四对“水杯”集合数据聚类取序列{a _m2}中的第一个项，故Δy＝1。

因此，本发明实施例四对“水杯”集合数据聚类的条件为：固定Δy＝1，根据各数据点的色调h值之间的差值Δh序列Δh＝{a _m1}＝0,2,4中项的先后顺序遍历每个项，并且Δh取后一个项聚类时基于Δh取前一个项所得的聚类结果进一步聚类。

(2)根据数据聚类条件对数据进行聚类，并计算数据每次聚类后的熵载

熵载

表示本次聚类所得聚类结果所承载的平均信息量的大小，

本发明实施例四根据新的数据聚类条件对“水杯”集合数据进一步聚类具体为：

S407.固定Δy＝1，在Δh＝0时聚类，代表“水杯”集合中色调h值相同的数据点聚在一个集合，聚类后得到第一聚类结果，该第一聚类结果中包含五个数据集合，如图21所示，n＝5，N＝6，计算此时的熵载I ₀：

S408.固定Δy＝1，基于Δh＝0的聚类结果，在Δh＝2时聚类，代表“水杯”集合中色调h值相差为2的数据点聚在一个集合，聚类后得到第一聚类结果，该第一聚类结果中包含两个数据集合，如图22所示，n＝2，N＝6，计算此时的熵载I ₂：

S409.固定Δy＝1，基于Δh＝2的聚类结果，在Δh＝4时聚类，代表“水杯”集合中色调h值相差为4的数据点聚在一个集合，聚类后得到第一聚类结果，该第一聚类结果中包含一个数据集合，如图23所示，n＝1，N＝6，计算此时的熵载I ₄：

(3)取步骤(2)中计算所得各第一聚类结果的熵载中的最大熵载I _max，根据最大熵载I _max得到数据聚类结果，I _max表示每次聚类结束从聚类结果中所能获取的最大熵载，具体为：

其中，最大熵载I _max表示按照聚类条件进行聚类所得聚类结果所承载的最大平均信息量。I ₂表示以“固定Δy＝1，Δh＝2”方法对“水杯”集合数据聚类所得的熵载最大，则对于存储空间一定的计算机系统，其所能存储的信息量最大，其对信息的表达效率也最高，因此最大熵载I ₄所对应的聚类结果是我们期望得到的。

首先，由图22可见通过新的聚类条件进一步聚类得到“水杯”集合数据的细分信息：“杯盖”和“杯体”，并且对于存储空间一定的计算机系统，其所能存储的信息量最大，其对信息的表达效率也最高，因此最大熵载I ₂所对应的聚类结果是我们期望得到的“水杯”集合数据的细分信息。

其次，将“水杯”集合作为父节点，将其分集合“杯盖”和“杯体”作为子节点，以此逐步形成信息结构树，如图24所示，信息结构树体现了根据Δh值粒度的大小将原图像数据粗粒度地聚类为“安全帽”集合、“水杯”集合和“手套”集合，并进一步将“水杯”集合数据细粒度地聚类与辨别的信息。可见，信息结构树的每个分叉对应的熵载都为一定聚类条件下的最大熵载，则对于存储空间一定的计算机系统，其所能存储的信息量最大，因此其对信息的表达效率也最高。

最后，本发明实施例四中如果从“水杯”集合数据出发进一步聚类得到“杯盖”与“杯体”显然是分开的，如图24所示；而相比于“水杯”，“杯盖”与“杯体”对于整张图像数据只是局部数据，局部数据对整张图像是不完整、不准确的聚类信息，所以我们期望首先得到整张图像的整体聚类数据，对于整体数据的聚类结果进一步聚类得到局部的细分信息，如图20所示，因此本发明从整体数据出发进行聚类得到至少一个第一聚类结果，根据每一个第一聚类结果得到数据聚类结果，实现了数据聚类的整体性；并且基于至少一个第一聚类结果，对至少一个第一聚类结果再次聚类得到至少一个第一聚类结果的局部性细分信息，实现了数据聚类整体性与局部性的协调与统一，实现了数据聚类整体性与局部性的协调与统一，所以得到的聚类结果更加完整、准确。

以上四个实施例仅以x坐标值、y坐标值、色调h值作为数据进行示范性地聚类，以此说明本发明的具体实施方法，对于其他种类的数据、各种维度数据的各种组合关系本发明不作穷举，因为本发明不存在对任何特殊数据的依赖与处理，普遍适用于任何数据的聚类。

实施例五

本发明实施例五提供一种数据的聚类系统，该系统包括：存储器、处理器及存储在存储器上并可在处理器上运行的程序，该程序被处理器执行时实现一种数据的聚类方法，该数据的聚类方法包括以下步骤：

(1)确定数据聚类条件，具体为：

数据聚类条件的确定依据为数据之间的相似性，而数据之间的相似性往往受多个维度的因素共同影响，因此本发明实施例五数据聚类的条件根据以下不同维度数据的组合关系对数据进行聚类：

(v ₁,v ₂,v ₃,L L,v _j)，

v _j＝{a _mj}＝a _1j,a _2j,L L,a _mj；

表示v _j取序列{a _mj}中第m个项a _mj进行聚类所得第一聚类结果所承载的平均信息量的大小；n为v _j取序列{a _mj}中第m 个项a _mj进行聚类所得第一聚类结果包含的数据集合数；k _i为第i个数据集合中元素的个数，N为数据的总个数，p _i为第i个数据集合中元素的个数与数据的总个数的比值。

本发明实施例五a的优选取值为a＝2，由此计算得出的熵载代表比特，比特为二进制，代表平均信息量的度量单位。

熵载

表示本次聚类所得聚类结果所承载的平均信息量的大小，

执行步骤(1)、步骤(2)和步骤(3)完成一次聚类后，本发明实施例五的一种数据的聚类方法还可以包括形成信息结构树的步骤，具体包括：

本发明实施例五的一种数据的聚类方法还可以包括形成聚类过程树的步骤，具体包括：

实施例六

本发明实施例六还提供一种计算机可读存储介质，所述的存储介质存储有至少一个程序，该程序可被至少一个处理器执行，该至少一个程序被该至少一个处理器执行时实现一种数据的聚类方法，该数据的聚类方法包括以下步骤：

(1)确定数据聚类条件，具体为：

(v ₁,v ₂,v ₃,L L,v _j)，

v _j＝{a _mj}＝a _1j,a _2j,L L,a _mj；

本发明实施例六a的优选取值为a＝2，由此计算得出的熵载代表比特，比特为二进制，代表平均信息量的度量单位。

熵载

表示本次聚类所得聚类结果所承载的平均信息量的大小，

执行步骤(1)、步骤(2)和步骤(3)完成一次聚类后，本发明实施例六的一种数据的聚类方法还可以包括形成信息结构树的步骤，具体包括：

本发明实施例六的一种数据的聚类方法还可以包括形成聚类过程树的步骤，具体包括：

综上，本发明提供的一种数据的聚类方法、系统及存储介质根据数据聚类条件从整体数据出发进行聚类得到至少一个第一聚类结果，通过其中承载平均信息量最大的第一聚类结果得到数据聚类结果，实现了数据聚类的整体性，因此得到的聚类结果更加完整、准确；且聚类过程中不存在对任何特殊数据的依赖与处理、不限制任何数据种类，因此普遍适用于任何数据的聚类，实用性非常高；采用最大承载平均信息量作为确定聚类结果的依据，对于存储空间一定的计算机系统，其所能存储的信息量也越大，提高了信息的表达效率；

本发明提供的一种数据的聚类方法、系统及存储介质基于至少一个第一聚类结果，对至少一个第一聚类结果再次聚类得到至少一个第一聚类结果的局部性细分信息，实现了数据聚类整体性与局部性的协调与统一；

本发明提供的一种数据的聚类方法、系统及存储介质形成信息结构树，信息结构树的每个分叉对应的熵载都为一定聚类条件下的最大熵载，则对于存储空间一定的计算机系统，其所能存储的信息量最大，因此其对信息的表达效率也最高；

本发明提供的一种数据的聚类方法、系统及存储介质在聚类过程中还形成聚类过程树，聚类过程树根据所关注维度数据的粒度的粗细对数据进行由粗到细地、持续地聚类与辨别，能直观地反映出单个数据点逐步聚类的所有信息，实现了数据的所有聚类信息都有迹可循，有源可溯。

Claims

一种数据的聚类方法，其特征在于，所述方法包括：

确定数据聚类条件；

根据所述数据聚类条件对数据进行聚类得到至少一个第一聚类结果，所述至少一个第一聚类结果中的每一个第一聚类结果包含至少一个数据集合；计算所述每一个第一聚类结果对应的熵载，所述熵载表示其对应的第一聚类结果所承载的平均信息量的大小；

取所述每一个第一聚类结果对应的熵载中的最大熵载，所述最大熵载对应的第一聚类结果为数据聚类结果。
根据权利要求1所述的一种数据的聚类方法，其特征在于，所述数据聚类条件的确定依据为数据之间的相似性。
根据权利要求1所述的一种数据的聚类方法，其特征在于，根据所述数据聚类条件对数据进行聚类包括：根据不同维度数据的组合关系对数据进行聚类。
根据权利要求3所述的一种数据的聚类方法，其特征在于，所述不同维度数据的组合关系根据数据聚类所关注的维度决定，包括：固定不关注的维度数据，组合遍历所关注的维度数据。
根据权利要求3所述的一种数据的聚类方法，其特征在于，所述根据不同维度数据的组合关系对数据进行聚类具体为：

(v ₁,v ₂,v ₃,L L,v _j)，

v _j＝{a _mj}＝a _1j,a _2j,L L,a _mj；

其中，v _j为第j个维度的数据，数据v _j之间的差值按照从小到大的顺序排列为序列{a _mj}，a _mj为序列{a _mj}中的第m个项，a _mj代表数据v _j之间的最大差值，a _1j代表数据v _j之间的最小差值；当v _j为数据聚类不关注的维度数据，则v _j的取值为序列{a _mj}中的任意至少一项；当v _j为数据聚类所关注的维度数据，则v _j的取值为按序列{a _mj}中项的先后顺序遍历每个项，并且v _j取后一个项聚类时基于v _j取前一个项所得的第一聚类结果进一步聚类。
根据权利要求1所述的一种数据的聚类方法，其特征在于，所述熵载的计算方法为：

其中，a _mj为序列{a _mj}中的第m个项，{a _mj}为第j个维度的数据v _j之间的差值按照从小到大的顺序排列而成的序列，a为对数函数的底数，a>1，熵载
表示v _j取序列{a _mj}中第m个项a _mj进行聚类所得第一聚类结果所承载的平均信息量的大小；n为v _j取序列{a _mj}中第m个项a _mj进行聚类所得第一聚类结果包含的数据集合数；k _i为第i个数据集合中元素的个数，N为数据的总个数，p _i为第i个数据集合中元素的个数与数据的总个数的比值。
根据权利要求6所述的一种数据的聚类方法，其特征在于，a＝2，由此计算得出的熵载代表比特，比特为二进制，代表平均信息量的度量单位。
根据权利要求1所述的一种数据的聚类方法，其特征在于，所述方法包括形成信息结构树的步骤，包括：

重新确定数据聚类条件，按新的数据聚类条件执行所述聚类方法对所述数据聚类结果中的某个数据集合进一步聚类得到新的最大熵载，新的最大熵载所对应的聚类结果包括若干个分集合，所述若干个分集合所对应的信息为所述某个数据集合的细分信息，将所述某个数据集合作为父节点，将所述若干个分集合作为子节点，以此逐步形成信息结构树。
根据权利要求5所述的一种数据的聚类方法，其特征在于，所述方法包括形成聚类过程树的步骤，包括：

当所述v _j的取值为按序列{a _mj}中项的先后顺序遍历每个项进行聚类时，v _j取a _qj进行聚类得到的第一聚类结果置于聚类过程树的第q层次，1≤q≤m，v _j取a _mj进行聚类得到的第一聚类结果为聚类过程树的根节点，v _j取a _1j进行聚类得到的第一聚类结果为聚类过程树的叶节点，叶节点的度为零；第q层次的集合作为父节点，第q-1层次聚类形成该集合的所有元素为该集合的子节点，以此逐步形成聚类过程树。
一种数据的聚类系统，其特征在于，所述系统包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现权利要求1-9任一项所述的数据的聚类方法的步骤。
一种计算机可读存储介质，其特征在于：所述的存储介质存储有至少一个程序，所述至少一个程序可被至少一个处理器执行，所述至少一个程序被所述至少一个处理器执行时实现权利要求1-9任一项所述的数据的聚类方法的步骤。