WO2021042844A1

WO2021042844A1 - 大规模数据聚类方法、装置、计算机设备及计算机可读存储介质

Info

Publication number: WO2021042844A1
Application number: PCT/CN2020/098957
Authority: WO
Inventors: 陈善彪; 尹浩
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-09-06
Filing date: 2020-06-29
Publication date: 2021-03-11
Also published as: CN110705602A

Abstract

一种人工智能技术，揭露了一种大规模数据聚类方法，装置、计算机设备以及一种计算机可读存储介质，可以实现精准的大规模数据聚类功能。所述方法包括：接收用户输入的数据样本集，根据所述数据样本集计算簇心数K值的平均轮廓系数，并选取出平均轮廓系数最大的K值，随机确定K个簇心（S1），将所述K个簇心和所述数据样本集，按照行优先存储形式存储至数据库（S2）；根据最小化平方误差算法，计算所述K个簇心和所述数据样本集的损失值，并判断所述损失值与预设阈值的大小关系（S3）；当所述损失值小于所述阈值时，输出所述K个簇心，完成聚类结果（S5）。

Description

大规模数据聚类方法、装置、计算机设备及计算机可读存储介质

本申请要求于2019年9月6日提交中国专利局、申请号为201910846891.5，发明名称为“大规模数据聚类方法、装置及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于大数据输入后，智能化的进行大规模数据聚类的方法、装置、计算机设备及计算机可读存储介质。

背景技术

聚类作为一种典型的数据分类方法，其核心是从大规模数据集中发现相似的类别，将样本划分为多个不重合的子集。K-means聚类算法是一种最为广泛的划分聚类方法，以各类样本的质量中心代表该类进行迭代，通过动态调整各类中心进行聚类。但发明人意识到K-means算法对初始的k个中心依赖性很大，初始中心选择不当，容易造成局部最优解，增加迭代次数，降低执行效率；此外，K-means聚类过程中，需要计算数据点与类中心点之间的欧式距离，而要计算欧式距离，就需要计算数据点与类中心的点积。在海量数据参与聚类的情况下，需要计算的点积则非常多，耗时较长，效率较低。所以，传统的聚类算法在处理大规模数据时无论从系统资源还是从实时性效率的角度，都不能提供很好的解决方案。

发明内容

本申请实施例提供一种大规模数据聚类方法、装置、计算机设备及计算机可读存储介质。

本申请实施例提供的一种大规模数据聚类方法，包括：

步骤A：簇心数计算层接收用户输入的数据样本集，根据所述数据样本集计算簇心数K值的平均轮廓系数，并选取出平均轮廓系数最大的K值，随机确定K个簇心，将所述数据样本集、所述K值与所述K个簇心输入至簇心存储层；

步骤B：所述簇心存储层将所述K个簇心和所述数据样本集，按照行优先存储形式存储至数据库；

步骤C：簇心更新层从所述数据库中依次读取所述K个簇心和所述数据样本集，并根据最小化平方误差算法，计算所述K个簇心和所述数据样本集的损失值，并判断所述损失值与预设阈值的大小关系；

步骤D：当所述损失值大于所述预设阈值时，计算所述数据样本集与所述K个簇心的距离，并根据所述数据样本集与所述K个簇心的距离重新确定所述K个簇心，并返回步骤B，当所述损失值小于所述阈值时，输出所述K个簇心，完成聚类结果。

本申请实施例还提供一种计算机设备，该计算机设备包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的大规模数据聚类程序，所述大规模数据聚类程序被所述处理器执行时实现如下步骤：

本申请实施例还提供一种大规模数据聚类装置，其中，所述装置包括：

数据接收模块，用于接收用户输入的数据样本集，根据所述数据样本集计算簇心数K值的平均轮廓系数，并选取出平均轮廓系数最大的K值，将所述数据样本集与所述K值输入至数据存储模块，所述数据存储模块根据所述K值，随机确定K个簇心；

数据存储模块，用于将所述K个簇心和所述数据样本集，按照行优先存储形式存储至数据库；

聚类训练模块，用于从所述数据库中依次读取所述K个簇心和所述数据样本集，并根据最小化平方误差算法，并根据所述数据样本集与所述K个簇心的距离计算所述K个簇心和所述数据样本集的损失值，并判断所述损失值与预设阈值的大小关系；

聚类结果输出模块，用于当所述损失值大于所述预设阈值时，计算所述数据样本集与所述K个簇心的距离，重新确定所述K个簇心，并返回数据存储模块，当所述损失值小于所述阈值时，输出所述K个簇心，完成聚类结果。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有大规模数据聚类程序，所述大规模数据聚类程序可被一个或者多个处理器执行，以实现如下步骤：

附图说明

图1为本申请一实施例提供的大规模数据聚类方法的流程示意图；

图2为本申请一实施例提供的计算机设备的内部结构示意图；

图3为本申请一实施例提供的大规模数据聚类装置的模块示意图。

本申请功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供一种大规模数据聚类方法。参照图1所示，为本申请一实施例提供的大规模数据聚类方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，大规模数据聚类方法包括：

S1、K值计算层接收用户输入的数据样本集，根据所述数据样本集计算平均轮廓系数，并选取出平均轮廓系数最大的K值，随机确定K个簇心，将所述数据样本集、所述K值与所述K个簇心输入至簇心计算层。

本申请较佳实施例，所述数据样本集包括数据样本集的坐标位置。例如，所述数据样本集在二维平面坐标内，则所述数据样本集的坐标位置可用(x,y)表示，当所述数据样本集在三维平面坐标，则所述数据样本集的坐标位置可用(x,y,z)表示。

本申请较佳实施例中，初始化K值，并依次根据所述数据样本集确定的[K _min,K _max]范围内的值代替所述K值，根据所述K值随机确定K个簇心；对于所述数据样本集内每个数据x _i，计算所述数据x _i与所述数据x _i在同一簇心的其他所有数据之间的凝聚度a(x _i)；同时，进一步地，遍历其他簇心的所有数据，并计算所述其他簇心的所有数据与所述数据x _i的分离度，并排序得到分离度最小值b(x _i)；

本申请较佳实施例中，根据所述凝聚度a(x _i)与所述分离度最小值b(x _i)计算得出所述平均轮廓系数s(x _i)：

对所述平均轮廓系数s(x _i)的值进行排序，并选择所述平均轮廓系数s(x _i)最大的值所对应的K值。

S2、所述簇心存储层将所述K个簇心和所述数据样本集，按照行优先存储形式存储至数据库。

本申请较佳实施例中，所述行优先存储形式是转置所述K个簇心和所述数据样本集的数据，将存储规则通过行进行定义，因此整个数据存储是自动索引化的。所述按行优先存储转置的数据，在后续模型训练层读取所述K个簇心和所述数据样本集时，只需索引少数几个字段就可读取出数据，减少索引过程的时间。

S3、簇心更新层从所述数据库中依次读取所述K个簇心和所述数据样本集，并根据最小化平方误差算法，计算所述K个簇心和所述n个数据样本集的损失值，并判断所述损失值与预设阈值的大小关系。

本申请较佳实施例，将所述K个簇心的质心向量与所述n个数据样本集的坐标位置输入至所述最小化平方误差算法，所述最小化平方误差算法计算出损失值E。

本申请较佳实施例所述最小化平方误差算法为：

其中，x _t为所述n个数据样本内的数据，且所述x _t一定在所述K个簇心样本数内，所述阈值一般设定为0.01。

S4、当所述损失值大于所述预设阈值时，计算所述数据样本集与所述K个簇心的距离，并根据所述数据样本集与所述K个簇心的距离重新确定所述K个簇心，并返回S2。

本申请较佳实施例，当所述损失值大于所述阈值时，根据距离公式计算所述n个数据样本集内的数据x _t与所述K个簇心的质心向量μ _i的距离，所述距离公式为：

d _ti＝|x _t-μ _i| ²

其中d _ti表示第t个数据样本集内的数据x _t与第i个簇心的质心向量μ _i的距离。

本申请较佳实施例选取距离d _ti最小的质心向量所对应的样本数c _i，并将所述数据样本集内的数据x _t添加进所述质心向量所对应的样本数c _i内，直至μ ₁到μ _K全部计算完毕，重新确定完所述K个簇心。

S5、当所述损失值小于所述阈值时，输出所述K个簇心，完成聚类结果。

本申请还提供一种计算机设备。参照图2所示，为本申请一实施例提供的计算机设备的内部结构示意图。

在本实施例中，所述计算机设备1可以是PC(Personal Computer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。该计算机设备1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是计算机设备1的内部存储单元，例如该计算机设备1的硬盘。存储器11在另一些实施例中也可以是计算机设备1的外部存储设备，例如计算机设备1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括计算机设备1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于计算机设备1的应用软件及各类数据，例如大规模数据聚类程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行大规模数据聚类程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该计算机设备1与其他电子设备之间建立通信连接。

可选地，该计算机设备1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在计算机设备1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及大规模数据聚类程序01的计算机设备1，本领域技术人员可以理解的是，图1示出的结构并不构成对计算机设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的计算机设备1实施例中，存储器11中存储有大规模数据聚类程序01；处理器12执行存储器11中存储的大规模数据聚类程序01时实现如下步骤：

步骤一、K值计算层接收用户输入的数据样本集，根据所述数据样本集计算平均轮廓系数，并选取出平均轮廓系数最大的K值，并随机确定K个簇心，将所述数据样本集、所述K值与所述K个簇心输入至簇心计算层。

步骤二、所述簇心存储层将所述K个簇心和所述数据样本集，按照行优先存储形式存储至数据库。

步骤三、簇心更新层从所述数据库中依次读取所述K个簇心和所述数据样本集，并根据最小化平方误差算法，计算所述K个簇心和所述n个数据样本集的损失值，并判断所述损失值与预设阈值的大小关系。

本申请较佳实施例所述最小化平方误差算法为：

步骤四、当所述损失值大于所述预设阈值时，计算所述数据样本集与所述K个簇心的距离，并根据所述数据样本集与所述K个簇心的距离重新确定所述K个簇心，并返回步骤二。

d _ti＝|x _t-μ _i| ²

步骤五、当所述损失值小于所述阈值时，输出所述K个簇心，完成聚类结果。

例如，参照图3所示，为本申请大规模数据聚类装置一实施例的模块示意图，该实施例中，大规模数据聚类装置包括数据接收模块10、数据存储模块20、聚类训练模块30、聚类结果输出模块40示例性地：

所述数据接收模块10用于：接收用户输入的数据样本集，根据所述数据样本集计算簇心数K值的平均轮廓系数，并选取出平均轮廓系数最大的K值，将所述数据样本集与所述K值输入至数据存储模块20，所述数据存储模块20根据所述K值，随机确定K个簇心。

所述数据存储模块20用于：将所述K个簇心和所述数据样本集，按照行优先存储形式存储至数据库。

所述聚类训练模块30用于：从所述数据库中依次读取所述K个簇心和所述数据样本集，并根据最小化平方误差算法，并根据所述数据样本集与所述K个簇心的距离计算所述K个簇心和所述数据样本集的损失值，并判断所述损失值与预设阈值的大小关系。

所述聚类结果输出模块40用于：当所述损失值大于所述预设阈值时，计算所述数据样本集与所述K个簇心的距离，重新确定所述K个簇心，并返回数据存储模块20，当所述损失值小于所述阈值时，输出所述K个簇心，完成聚类结果。

上述数据接收模块10、数据存储模块20、聚类训练模块30、聚类结果输出模块40 等模块被执行时所实现的功能或操作步骤与上述大规模数据聚类方法各实施例大体相同，在此不再赘述。

此外，本申请实施例还提出一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性，所述计算机可读存储介质上存储有大规模数据聚类程序，所述大规模数据聚类程序可被一个或多个处理器执行，以实现如下操作：

接收用户输入的数据样本集，根据所述数据样本集计算簇心数K值的平均轮廓系数，并选取出平均轮廓系数最大的K值，将所述数据样本集与所述K值输入至数据存储模块，所述数据存储模块根据所述K值，随机确定K个簇心。

将所述K个簇心和所述数据样本集，按照行优先存储形式存储至数据库。

从所述数据库中依次读取所述K个簇心和所述数据样本集，并根据最小化平方误差算法，计算所述K个簇心和所述数据样本集的损失值，并判断所述损失值与预设阈值的大小关系。

当所述损失值大于所述预设阈值时，计算所述数据样本集与所述K个簇心的距离，并根据所述数据样本集与所述K个簇心的距离重新确定所述K个簇心，并返回数据存储模块，当所述损失值小于所述阈值时，输出所述K个簇心，完成聚类结果。本申请计算机可读存储介质具体实施方式与上述大规模数据聚类方法各实施例基本相同，在此不作累述。

需要说明的是，上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种大规模数据聚类方法，其中，所述方法包括：

步骤A：簇心数计算层接收用户输入的数据样本集，根据所述数据样本集计算簇心数K值的平均轮廓系数，并选取出平均轮廓系数最大的K值，随机确定K个簇心，将所述数据样本集、所述K值与所述K个簇心输入至簇心存储层；

步骤B：所述簇心存储层将所述K个簇心和所述数据样本集，按照行优先存储形式存储至数据库；

步骤C：簇心更新层从所述数据库中依次读取所述K个簇心和所述数据样本集，并根据最小化平方误差算法，计算所述K个簇心和所述数据样本集的损失值，并判断所述损失值与预设阈值的大小关系；

步骤D：当所述损失值大于所述预设阈值时，计算所述数据样本集与所述K个簇心的距离，并根据所述数据样本集与所述K个簇心的距离重新确定所述K个簇心，并返回步骤B，当所述损失值小于所述阈值时，输出所述K个簇心，完成聚类结果。
如权利要求1所述的大规模数据聚类方法，其中，所述根据所述数据样本集计算簇心数K值的平均轮廓系数，并选取出平均轮廓系数最大的K值，包括：

初始化K值，依次用根据所述数据样本集确定的[K _min,K _max]范围内的值代替所述K值，根据所述K值随机确定K个簇心；

对于所述数据样本集内每个数据x _i，计算所述数据x _i与所述数据x _i在同一簇心的其他所有数据之间的凝聚度a(x _i)；

遍历其他簇心的所有数据，并计算所述其他簇心的所有数据与所述数据x _i的分离度，并排序得到分离度最小值b(x _i)；

根据所述凝聚度a(x _i)与所述分离度最小值b(x _i)计算得出所述平均轮廓系数s(x _i)：

对所述平均轮廓系数s(x _i)的值进行排序，并选择所述平均轮廓系数s(x _i)最大的值所对应的K值。
如权利要求2所述的大规模数据聚类方法，其中，所述随机确定K个簇心包括：随机确定所述K个簇心的样本数{c ₁,c ₂,c ₃,..c _i..,c _K}和K个簇心的质心向量{μ ₁,μ ₂,μ ₃,..μ _i..,μ _K}，其中，所述质心向量μ _i的确定方法为：

其中，x _t为所述n个数据样本集内的数据。
如权利要求3中的大规模数据聚类方法，其中，所述根据最小化平方误差算法，计算所述K个簇心和所述数据样本集的损失值，包括：

将所述K个簇心的质心向量与所述n个数据样本集的坐标位置输入至所述最小化平方误差算法，利用所述最小化平方误差算法计算出损失值E：

其中，x _t为所述n个数据样本集内的数据，且所述x _t在所述K个簇心样本数内。
如权利要求4所述的大规模数据聚类方法，其中，所述计算所述数据样本集与所述K个簇心的距离，并根据所述数据样本集与所述K个簇心的距离重新确定所述K个簇心，包括：

根据预设距离公式计算所述n个数据样本集内的数据x _t与所述K个簇心的质心向量μ _i的距离d _ti，其中，所述距离公式为：

d _ti＝|x _t-μ _i| ²

其中d _ti表示第t个数据样本集内的数据x _t与第i个簇心的质心向量μ _i的距离；

选取所述距离d _ti最小的质心向量所对应的样本数c _i，并将所述第t个数据样本集内的数据x _t添加进所述质心向量所对应的样本数c _i内，直至μ ₁到μ _K全部计算完毕，重新确定完所述K个簇心。
如权利要求1所述的大规模数据聚类方法，其中，所述数据样本集包括数据样本集的坐标位置。
如权利要求1所述的大规模数据聚类方法，其中，所述行优先存储形式是转置所述K个簇心和所述数据样本集的数据，将存储规则通过行进行定义。
一种计算机设备，其中，所述计算机设备包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的大规模数据聚类程序，所述大规模数据聚类程序被所述处理器执行时实现如下步骤：

步骤A：簇心数计算层接收用户输入的数据样本集，根据所述数据样本集计算簇心数K值的平均轮廓系数，并选取出平均轮廓系数最大的K值，随机确定K个簇心，将所述数据样本集、所述K值与所述K个簇心输入至簇心存储层；

步骤B：所述簇心存储层将所述K个簇心和所述数据样本集，按照行优先存储形式存储至数据库；

步骤C：簇心更新层从所述数据库中依次读取所述K个簇心和所述数据样本集，并根据最小化平方误差算法，计算所述K个簇心和所述数据样本集的损失值，并判断所述损失值与预设阈值的大小关系；

步骤D：当所述损失值大于所述预设阈值时，计算所述数据样本集与所述K个簇心的距离，并根据所述数据样本集与所述K个簇心的距离重新确定所述K个簇心，并返回步骤B，当所述损失值小于所述阈值时，输出所述K个簇心，完成聚类结果。
如权利要求8所述的计算机设备，其中，所述根据所述数据样本集计算簇心数K值的平均轮廓系数，并选取出平均轮廓系数最大的K值，包括：

初始化K值，依次用根据所述数据样本集确定的[K _min,K _max]范围内的值代替所述K值，根据所述K值随机确定K个簇心；

对于所述数据样本集内每个数据x _i，计算所述数据x _i与所述数据x _i在同一簇心的其他所有数据之间的凝聚度a(x _i)；

遍历其他簇心的所有数据，并计算所述其他簇心的所有数据与所述数据x _i的分离度，并排序得到分离度最小值b(x _i)；

根据所述凝聚度a(x _i)与所述分离度最小值b(x _i)计算得出所述平均轮廓系数s(x _i)：

对所述平均轮廓系数s(x _i)的值进行排序，并选择所述平均轮廓系数s(x _i)最大的值所对应的K值。
如权利要求9所述的计算机设备，其中，所述随机确定K个簇心包括：随机确定所述K个簇心的样本数{c ₁,c ₂,c ₃,..c _i..,c _K}和K个簇心的质心向量{μ ₁,μ ₂,μ ₃,..μ _i..,μ _K}，其中，，所述质心向量μ _i的确定方法为：

其中，x _t为所述n个数据样本集内的数据。
如权利要求10中的计算机设备，其中，所述根据最小化平方误差算法，计算所述K个簇心和所述数据样本集的损失值，包括：

将所述K个簇心的质心向量与所述n个数据样本集的坐标位置输入至所述最小化平方误差算法，利用所述最小化平方误差算法计算出损失值E：

其中，x _t为所述n个数据样本集内的数据，且所述x _t在所述K个簇心样本数内。
如权利要求11所述的计算机设备，其中，所述计算所述数据样本集与所述K个簇心的距离，并根据所述数据样本集与所述K个簇心的距离重新确定所述K个簇心，包括：

根据预设距离公式计算所述n个数据样本集内的数据x _t与所述K个簇心的质心向量μ _i的距离d _ti，其中，所述距离公式为：

d _ti＝|x _t-μ _i| ²

其中d _ti表示第t个数据样本集内的数据x _t与第i个簇心的质心向量μ _i的距离；

选取所述距离d _ti最小的质心向量所对应的样本数c _i，并将所述第t个数据样本集内的数据x _t添加进所述质心向量所对应的样本数c _i内，直至μ ₁到μ _K全部计算完毕，重新确定完所述K个簇心。
如权利要求8所述的计算机设备，其中，所述行优先存储形式是转置所述K个簇心和所述数据样本集的数据，将存储规则通过行进行定义。
一种大规模数据聚类装置，其中，所述装置包括：

数据接收模块，用于接收用户输入的数据样本集，根据所述数据样本集计算簇心数K值的平均轮廓系数，并选取出平均轮廓系数最大的K值，将所述数据样本集与所述K值输入至数据存储模块，所述数据存储模块根据所述K值，随机确定K个簇心；

数据存储模块，用于将所述K个簇心和所述数据样本集，按照行优先存储形式存储至数据库；

聚类训练模块，用于从所述数据库中依次读取所述K个簇心和所述数据样本集，并根据最小化平方误差算法，并根据所述数据样本集与所述K个簇心的距离计算所述K个簇心和所述数据样本集的损失值，并判断所述损失值与预设阈值的大小关系；

聚类结果输出模块，用于当所述损失值大于所述预设阈值时，计算所述数据样本集与所述K个簇心的距离，重新确定所述K个簇心，并返回数据存储模块，当所述损失值小于所述阈值时，输出所述K个簇心，完成聚类结果。
一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有大规模数据聚类程序，所述大规模数据聚类程序可被一个或者多个处理器执行，以实现如下步骤：

步骤A：簇心数计算层接收用户输入的数据样本集，根据所述数据样本集计算簇心数K值的平均轮廓系数，并选取出平均轮廓系数最大的K值，随机确定K个簇心，将所述数据样本集、所述K值与所述K个簇心输入至簇心存储层；

步骤B：所述簇心存储层将所述K个簇心和所述数据样本集，按照行优先存储形式存储至数据库；

步骤C：簇心更新层从所述数据库中依次读取所述K个簇心和所述数据样本集，并根据最小化平方误差算法，计算所述K个簇心和所述数据样本集的损失值，并判断所述损失值与预设阈值的大小关系；

步骤D：当所述损失值大于所述预设阈值时，计算所述数据样本集与所述K个簇心的距离，并根据所述数据样本集与所述K个簇心的距离重新确定所述K个簇心，并返回步骤B，当所述损失值小于所述阈值时，输出所述K个簇心，完成聚类结果。
如权利要求15所述的计算机可读存储介质，其中，所述根据所述数据样本集计算簇心数K值的平均轮廓系数，并选取出平均轮廓系数最大的K值，包括：

初始化K值，依次用根据所述数据样本集确定的[K _min,K _max]范围内的值代替所述K值，根据所述K值随机确定K个簇心；

对于所述数据样本集内每个数据x _i，计算所述数据x _i与所述数据x _i在同一簇心的其他所有数据之间的凝聚度a(x _i)；

遍历其他簇心的所有数据，并计算所述其他簇心的所有数据与所述数据x _i的分离度，并排序得到分离度最小值b(x _i)；

根据所述凝聚度a(x _i)与所述分离度最小值b(x _i)计算得出所述平均轮廓系数s(x _i)：

对所述平均轮廓系数s(x _i)的值进行排序，并选择所述平均轮廓系数s(x _i)最大的值所对应的K值。
如权利要求16所述的计算机可读存储介质，其中，所述随机确定K个簇心包括：随机确定所述K个簇心的样本数{c ₁,c ₂,c ₃,..c _i..,c _K}和K个簇心的质心向量{μ ₁,μ ₂,μ ₃,..μ _i..,μ _K}，其中，所述质心向量μ _i的确定方法为：

其中，x _t为所述n个数据样本集内的数据。
如权利要求17中的计算机可读存储介质，其中，所述根据最小化平方误差算法，计算所述K个簇心和所述数据样本集的损失值，包括：

将所述K个簇心的质心向量与所述n个数据样本集的坐标位置输入至所述最小化平方误差算法，利用所述最小化平方误差算法计算出损失值E：

其中，x _t为所述n个数据样本集内的数据，且所述x _t在所述K个簇心样本数内。
如权利要求18所述的计算机可读存储介质，其中，所述计算所述数据样本集与所述K个簇心的距离，并根据所述数据样本集与所述K个簇心的距离重新确定所述K个簇心，包括：

根据预设距离公式计算所述n个数据样本集内的数据x _t与所述K个簇心的质心向量μ _i的距离d _ti，其中，所述距离公式为：

d _ti＝|x _t-μ _i| ²

其中d _ti表示第t个数据样本集内的数据x _t与第i个簇心的质心向量μ _i的距离；

选取所述距离d _ti最小的质心向量所对应的样本数c _i，并将所述第t个数据样本集内的数据x _t添加进所述质心向量所对应的样本数c _i内，直至μ ₁到μ _K全部计算完毕，重新确定完所述K个簇心。
如权利要求15所述的计算机可读存储介质，其中，所述行优先存储形式是转置所述K个簇心和所述数据样本集的数据，将存储规则通过行进行定义。