WO2024007580A1

WO2024007580A1 - 一种基于混合聚类的电力设备并行故障诊断方法及装置

Info

Publication number: WO2024007580A1
Application number: PCT/CN2023/074751
Authority: WO
Inventors: 刘少伟; 戴必翔; 秦昌嵩; 董贝; 经周
Original assignee: 南京国电南自电网自动化有限公司
Priority date: 2022-07-07
Filing date: 2023-02-07
Publication date: 2024-01-11
Also published as: CN115293236A

Abstract

本发明提供一种基于混合聚类的电力设备并行故障诊断方法及装置，能够实时的完成相应流式数据的并行诊断，实时满足监测数据的故障诊断，及时发现电力设备的故障。本方法包括以下步骤：根据历史电网数据自适应配置storm平台中各个组件的并行度和相关进程数；通过IRichSpout接口将实时电网数据接入到storm平台的Spout源组件中，形成待处理数据流；按照时间顺序将待处理数据流封装到多个Tuple元组中，并为每个Tuple元组生成唯一的ID；利用PreBolt组件接收Tuple元组，并通过标准分数法对Tuple元组中的数据集进行预处理，得到标准化样本；利用故障诊断模型处理标准化样本，获得电力设备的故障诊断结果。

Description

一种基于混合聚类的电力设备并行故障诊断方法及装置

技术领域

本发明属于电网电力行业多元数据监测诊断领域，涉及一种基于混合聚类的电力设备并行故障诊断方法及装置。

背景技术

随着电力系统的发展，电力设备故障对人们生活造成重大影响，因此亟需对设备的状态进行持续监测。而传感器技术和通信技术的不断进步，导致电网数据以指数级增长，同时这些数据呈实时性、易失性和无限性，是需要持续监测的流式数据。原有平台Hadoop可以处理批量数据，但实时性较差，而Storm是开源的分布式实时计算架构，可以快速处理海量数据流，弥补了Hadoop实时性处理的不足。

当前，随着Storm的兴起，其在电力行业领域出现一些应用成果。在Storm上实现基于时间的滑动窗口处理方法，并通过阈值判断实现电网数据流的异常检测。对电网设备中报警数据进行快速处理，通过聚类算法实现相关数据流的处理。

减法聚类算法和K-means算法属于机器学习算法，机器学习算法可以分为有监督学习和无监督学习两种。在现实世界中，大部分样本是不带标签的，因此无监督学习比监督学习应用更加广泛。K-means算法属于典型的无监督学习聚类算法，其初始聚类中心的选择为随机初始化，因此其聚类结果的准确性不稳定。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种基于混合聚类的电力设备并行故障诊断方法，能够实时的完成相应流式数据的并行诊断，实时满足监测数据的故障诊断，及时发现电力设备的故障。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种基于混合聚类的电力设备并行故障诊断方法，包括以下步骤：

根据历史电网数据自适应配置storm平台中各个组件的并行度和相关进程数；

通过IRichSpout接口将实时电网数据接入到storm平台的Spout源组件中，形成待处理数据流；

按照时间顺序将待处理数据流封装到多个Tuple元组中，并为每个Tuple元组生成唯一的ID；

利用PreBolt组件接收Tuple元组，并通过标准分数法对Tuple元组中的数据集进行预处理，得到标准化样本；

利用故障诊断模型处理标准化样本，获得电力设备的故障诊断结果。

进一步的，自适应配置storm平台中各个组件的并行度和相关进程数的方法为：

利用历史电网数据模拟实时电网数据流，其中，历史电网数据的流量大于实时电网数据的预期流量；

根据历史电网数据计算storm平台中各个组件在不同并行度和不同进程数下的数据吞吐量；

在数据吞吐量满足预期吞吐量的情况下，自适应配置开销最低的组件并行度和进程数。

进一步的，通过标准分数法对Tuple元组中的数据集进行预处理，得到标准化样本，包括：

按照下述公式对其进行归一化，公式如下：

上式中，x`(x`∈[0,1])为归一化后的数据值；x_min为元组数据中某一维数据的最小值；x_max为这一维度数据的最大值。

进一步的，所述故障诊断模型的构建方法包括：

将减法聚类算法和K-means聚类算法分别部署SCMBolt组件和K-meansBolt组件中，将SCMBolt组件和K-meansBolt组件连接起来，设置组件的并行度，得到故障诊断模型。

进一步的，利用故障诊断模型处理标准化样本，获得电力设备的故障诊断结果，包括：

将标准化样本通过减法聚类算法确定较优的初始聚类中心；

将减法聚类处理所得的较优的初始聚类中心作为K-means算法的初始聚类中心，再进行聚类，从而实现该样本数据的故障诊断结果。

进一步的，将标准化样本通过减法聚类算法确定较优的初始聚类中心，包括：

SCMBolt组件接收PreBolt组件传递的元组，对元组中数据进行减法聚类，通过密度值确定聚类中心，得到的聚类中心为原数据中的点；

当减法聚类算法完成后，得到初始聚类中心，将其与相应Id编号及此编号对应的标准化待聚类样本封装为一个元组，传递给下游组件K-meansBolt。

减法聚类的方法包括：

样本维度为M，样本点个数为n，分别为(x₁,x₂,...,x_n)。当维度较高时所有样本点归一到一个超立方体中。在此，每个样本点都可为聚类中心的候选者。则样本点xi的密度指标定义为

上式中，r_a为一个正数。r_a的取值为该点的一个邻域半径，而半径以外的样本点对该点的密度指标有很小的贡献。

当每一个样本点的密度指标计算完后，选择密度指标最高的样本点作为第一个聚类中心，x_c1为选中的点，D_c1是此点的密度指标。则选择下一个聚类中心时，每个样本点x_i的密度指标可通过下式修正。

上式中，r_b为一个正数。

当修正完所有样本点的密度指标后，选择出新的聚类中心x_c2，再次修正所有样本点的密度指标，不断的重复该过程，直到足够多的聚类中心出现，得到较优的初始聚类中心。

进一步的，将减法聚类处理所得的较优的初始聚类中心作为K-means算法的初始聚类中心，再进行聚类，包括：

K-meansBolt组件对上游SCMBolt组件传来的标准化待聚类样本进行K-means聚类，在聚类过程中将上游SCMBolt组件传来的聚类中心作为K-means聚类的初始聚类中心，通过迭代实现聚类中心的更新，最终得到相关聚类结果。

进一步的，在聚类过程中将上游SCMBolt组件传来的聚类中心作为K-means聚类的初始聚类中心，通过迭代实现聚类中心的更新，包括：

a)将上游SCMBolt组件传来的聚类中心作为K-means聚类的初始聚类中心。

b)计算样本集中所有样本到各个聚类中心的矢量距离，从中选择矢量距离最小的并将此样本划分到其对应的类中。

c)更新聚类中心，即计算每一类中所有样本数据的平均值，将这些均值作为k类别中新的聚类中心。

d)不断执行步骤b)和步骤c)，直到新得到的聚类中心不再变化或与上次得到的聚类中心相差的偏移值小于指定阈值，或算法执行的迭代次数达到指定要求，满足以上三个条件之一则停止聚类。

5)计算结果保存与汇总。

进一步的，计算结果保存与汇总，包括：

通过DatabaseBolt实现模型诊断结果到数据库的存储操作，从而便于电力及相关行业对诊断结果的查询与检索，或者通过FileBolt组件将诊断结果存储到数据文件中，此文件可以进行灵活的复制和迁移。

第二方面，本发明提供一种基于混合聚类的电力设备并行故障诊断装置，包括：

平台部署模块，用于搭建storm平台，并在storm平台部署机器学习网络结构，得到故障诊断模型；

自适应配置模块，用于根据历史电网数据自适应配置storm平台中各个组件的并行度和相关进程数；

数据接入模块，用于通过IRichSpout接口将实时电网数据接入到storm平台的Spout源组件中，形成待处理数据流；

数据封装模块，用于按照时间顺序将待处理数据流封装到多个Tuple元组中，并为每个Tuple元组生成唯一的ID；

预处理模块，用于利用PreBolt组件接收Tuple元组，并通过标准分数法对Tuple元组中的数据集进行预处理，得到标准化样本；

故障诊断模块，用于利用故障诊断模型处理标准化样本，获得电力设备的故障诊断结果。

与现有技术相比，本发明所达到的有益效果：

1、本发明提出一种基于storm平台的混合聚类结构。即在storm平台上游部署减法聚类算法组件，用来确定初始聚类中心，此算法的聚类速度很快，得到的聚类中心为原数据中的点，且各个聚类中心相距尽可能远，从而较大程度上避免后续聚类算法K-means陷入局部最优并减少其迭代次数，从而提高了分类的准确性和效率。该算法的分类准确率较常规K-means算法较高，能够对电网设备流式数据进行较为准确的分类。

2、适合于电力设备流式数据，因为这些数据基本上是无标签数据，而本算法为聚类算法，能够较好处理相关样本数据。

3、对电网设备流式数据处理的高效性，即将分类模型部署于storm平台上，通过自适应配置进程数、元组件和处理组件的并行度来提高故障处理的诊断效率。

4、该方法对电力设备故障类型的监测，能够保证电力设备的安全运行，减少对居民生产和生活所造成的损失，能够及早发现设备的各种故障，避免灾难性事故发生。

附图说明

图1是本发明数据处理过程示意图。

图2是数据接入流程图。

图3混合聚类算法的单机实现流程。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

本实施例提供一种基于混合聚类的电力设备并行故障诊断方法，能够实时的完成相应流式数据的并行诊断。能够较为准确给出样本数据的故障类型。并且在storm平台上部署的分类算法，通过设置任务数、集群节点数、源组件和处理组件的个数，从而实现流式数据的高吞吐量和低延时处理。能够实时满足监测数据的故障诊断，及时发现电力设备的故障。

本发明提出的基于storm平台的电网电力设备在线并行诊断方法。主要解决了以下问题：

(1)电网电力设备监测领域电力设备故障类型的监测，能够保证电力设备的安全运行，减少对居民生产和生活所造成的损失，能够需要及时对电力设备进行状态监测和故障诊断，从而及早发现设备的各种故障，避免灾难性事故发生。

(2)在电力系统大数据中，各种电力设备监测数据隐含着巨大的商业价值和社会价值，通过本方法对这些高价值数据的分类挖掘，从而可以得到更多有价值的东西。

(3)当电力设备处于极端恶劣环境下，如大雾、冰雨、风暴和雷暴等，电力设备由于监测值越限而频繁的向监测中心发送报警数据，从而在监测中心出现监测数据的井喷现象，现有平台对数据的接收和处理无法满足实际要求，实时性得不到满足，进而导致数据的丢失和覆盖。基于storm平台的在线并行故障诊断方法可以对井喷数据及时处理。

本发明的方法包括如下步骤：

1)数据源数据接入

Spout组件作为整个拓扑的源头，通过IRichSpout接口实现数据的接入，所接入的电网特征向量数据是没有间隔的数据流，这些特征向量数据被不断的发送到Spout源组件中，形成了待处理的数据流。Tuple为组件之间数据流的元组，每一个Tuple元组应封装适当数量的数据，这里每一个元组封装1000个数据，称为一个数据集，即每一个元组中封装一个数据集，之后将此元组发送到待处理队列。在后续处理过程中，为了便于处理诊断结果，保证处理元组的顺序性，对发送的每一个元组即对每一个元组中相应的数据集标记一个唯一的Id， Id表明了元组或元组中数据集在数据流中的位置。

2)样本数据标准化预处理

下游预处理组件接收到上游组件Spout发来的tuple元组，元组内封装要诊断的样本，每个元组内含有1000条特征向量数据。预处理组件对接收到的元组内特征向量数据进行预处理。以变压器故障诊断油色谱数据为例，选取H₂、CH₄、C₂H₆、C₂H₂、C₂H₄五种气体含量作为输入并进行预处理，这些数据值分布区间较大，且同类型数据之间差异也较大，为减少其相互之间量值差异所造成的影响，在对输入特征量聚类前，要按照下述公式对其进行归一化，归一化也可以减少诊断模型过程中聚类主体迭代的次数，并提高聚类的准确率。

公式如下：

上式中，x`(x`∈[0,1])为归一化后的数据值；x_min为元组数据中某一维数据的最小值；x_max为这一维度数据的最大值。分别将输入特征向量集中各维特征归一化后的值作为诊断模型的输入样本，DGA数据输入向量模式为[x₁,x₂,x₃,x₄,x₅]^T。

当预处理组件中每个元组数据预处理完后，下游组件接收来自预处理组件PreBolt传递的元组，此元组中数据为传入PreBolt组件的元组中相应Id编号对应的数据集的标准化变形，称之为标准化待分类样本，这些样本参加后续的故障诊断处理，并按编号进行最终的汇总

3)较优的初始聚类中心选择

下游组件接收到预处理组件PreBolt发来的元组后，对该元组内包含的标准化待分类样本进行减法聚类处理，从而得到较优的初始聚类中心。

这里将减法聚类处理封装为一个组件，即SCMBolt组件。该组件接收上游组件传递的元组，对元组中数据进行聚类，通过密度值确定聚类中心，此算法的聚类速度很快，得到的聚类中心为原数据中的点，且各个聚类中心相距尽可能远，从而较大程度上避免后续聚类算法陷入局部最优，当减法聚类算法完成后，得到初始聚类中心，将其与相应Id编号及此编号对应的标准化待聚类样本封装为一个元组，传递给下游组件K-meansBolt。

减法聚类理论基础如下：

减法聚类(Subtrative Clustering Method，SCM)是一种密度聚类算法。

上式中，r_b为一个正数。从中可以看出，与第一个聚类中心x_c1相靠近的样本点的密度指标明显减少，所以这些临近点成为新的聚类中心的可能性不大。而常数r_b定义了一个邻域，其密度指标函数显著减小。通常r_b大于r_a，从而防止相聚很近的聚类中心的出现，一般情况下，取r_b＝1.5r_a。

当修正完所有样本点的密度指标后，选择出新的聚类中心x_c2，再次修正所有样本点的密度指标。不断的重复该过程，直到足够多的聚类中心出现，当然也可根据条件自动确定聚类中心的数目。

4)标准化待分类样本分类处理

上游组件SCMBolt将元组传递给下游组件K-meansBolt，K-meansBolt组件为故障诊断模型的主体部分，组件内部实现了硬聚类K-means算法，即对上游组件SCMBolt传来的标准化待聚类样本进行K-means聚类，在此聚类过程中将上游组件传来的聚类中心作为K-means聚类的初始聚类中心，算法通过迭代实现聚类中心的更新，最终得到相关聚类结果。

K-meansBolt组件和SCMBolt组件结合，其总体聚类效果相比于单一的 K-meansBolt组件，在对电网设备的特征向量数据的诊断问题上，不仅减少了K-means算法主体的迭代运行次数，还增强了其鲁棒能力。

K-means原始算法的步骤如下：

a)从N个样本数据中随机选择k个不同的样本作为初始聚类中心。

b)计算样本集中所有样本到各个聚类中心的矢量距离，从中选择矢量距离最小的并将此样本划分到其对应的类中。K-means算法通常使用欧式距离来实现样本的归类问题。其公式如下：

d_ij表示点x_i和点y_j间的欧氏距离，x_i点的坐标为(x_i1，x_i2，x_i3，…,x_in)，y_j点的坐标为(y_j1，y_j2，y_j3，…，y_jn)。

5)计算结果保存与汇总

Storm框架本身不负责计算结果的保存，这里可以通过实现Bolt来完成计算结果的存储和汇总，即可以直接写入数据文件中，或持久化存储到数据库中。根据需要，故障诊断模型的结果处理方式有DatabaseBolt和FileBolt。DatabaseBolt实现模型诊断结果到数据库的存储操作，从而便于电力及相关行业对诊断结果的查询与检索；而FileBolt组件将诊断结果存储到数据文件中，此文件可以进行灵活的复制和迁移。

本方法具有以下特点和功能：

(1)该算法的分类准确率较常规K-means算法较高，能够对电网设备流式数据进行较为准确的分类。

(2)适合于电力设备流式数据，因为这些数据基本上是无标签数据，而本算法为聚类算法，能够较好处理相关样本数据。

(3)对电网设备流式数据处理的高效性，即将分类模型部署于storm平台上，通过自适应配置进程数、元组件和处理组件的并行度来提高故障处理的诊断效率。

本发明能够实时诊断电网设备电力数据在线故障，通过在storm平台上部署聚类算法，从而实现电网设备流式数据的高效分类处理，另外本算法引入减法聚类算法来获取初始聚类中心，避免后续聚类算法陷入局部最优，进而实现准确分类。另外，该方法对电力设备故障类型的监测，能够保证电力设备的安全运行，减少对居民生产和生活所造成的损失，能够及早发现设备的各种故障，避免灾难性事故发生。

下面是本发明的一个优选实施案例，包含了采用本发明方法的电网设备故障在线诊断，它的特征、目的和优点可以从实施例的说明中看出。

这里以变压器故障诊断为例，通过采集变压器油色谱数据，选取油中溶解气体H₂，CH₄，C₂H₆，C₂H₄，C₂H₂这5种气体的含量(uL/L)构成特征向量。并将这些特征向量数据不断的发送到storm平台上的故障诊断模型中，从而实现对变压器的在线诊断。

在数据处理之前，首先搭建storm云平台，分别为一个主节点和若干个从节点。这里用五台服务器组成物理集群，服务器之间用千兆交换机连接。

在正式电网流式数据处理之前，通过历史数据模拟在线电网监测数据流，并且该历史数据流量大于正式数据，从而通过吞吐量计算自适应配置出最优的进程数、源组件和逻辑处理组件的并发度，能够最大限度的处理后续正式电网流式数据。

相关自适应配置完成后，开始处理正式电网流式数据。首先是数据接入，Spout源组件连接外部数据源，在数据选取中，为了防止数据集偏斜，在采集数据时通常选取多个工程现场的相同型号变压器发生故障前后的油色谱检测数据。这些数据包含正常数据以及故障类数据，是无标签样本。之后读取这些元数据到缓存区，当元数据个数满足tuple要求时即当个数满足1000时，封装这些元数据为1个tuple，并发送tuple到待处理队列，从而进行数据的后续处理。这里合适的源组件的并行度能够提高处理效率.

之后是数据预处理，Spout组件发送元组到下游预处理组件PreBolt。PreBolt通过归一化对接收到的元组进行处理，归一化也可以减少诊断模型过程中聚类主体迭代的次数，并提高聚类的准确率。PreBolt对数据进行预处理后将相关数据组成新的元组，发送到下游组件SCMBolt。

整个分类模块包含两个组件，分别为SCMBolt和K-meansBolt，SCMBolt组件实现减法聚类算法，接收上游组件传来的元组，对元组中数据进行聚类，通过密度值确定聚类中心，此算法的聚类速度很快，得到的聚类中心为原数据中的点，且各个聚类中心相距尽可能远，从而较大程度上避免后续聚类算法陷入局部最优，当减法聚类算法完成后，得到初始聚类中心，将其与相应Id编号及此编号对应的标准化待聚类样本封装为一个元组，传递给下游组件K-meansBolt，此组件实现了硬聚类K-means算法，即对上游组件SCMBolt传来的标准化待聚类样本进行K-means聚类，在此聚类过程中初始聚类中心是从上游组件SCMBolt中获取，随后通过迭代计算得到聚类结果。K-meansBolt组件和SubBolt组件结合，其总体聚类效果相比于单一的K-meansBolt组件，在对电网设备的特征向量数据的诊断问题上，不仅减少了K-means算法主体的迭代运行次数，还增强了其鲁棒能力。

最终进行结果保存与汇总，将诊断的结果直接写入数据文件中，或持久化存储到数据库中，即根据需要，故障诊断模型的结果处理方式有DatabaseBolt和FileBolt。DatabaseBolt实现模型诊断结果到数据库的存储操作，从而便于电力及相关行业对诊断结果的查询与检索；而FileBolt组件将诊断结果存储到数据文件中，此文件可以进行灵活的复制和迁移。

实施例二：

本实施例提供一种基于混合聚类的电力设备并行故障诊断系统，包括：

本实施例的系统可用于实现实施例一所述的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

一种基于混合聚类的电力设备并行故障诊断方法，其特征在于，包括以下步骤：

根据历史电网数据自适应配置storm平台中各个组件的并行度和相关进程数；

通过IRichSpout接口将实时电网数据接入到storm平台的Spout源组件中，形成待处理数据流；

按照时间顺序将待处理数据流封装到多个Tuple元组中，并为每个Tuple元组生成唯一的ID；

利用PreBolt组件接收Tuple元组，并通过标准分数法对Tuple元组中的数据集进行预处理，得到标准化样本；

利用故障诊断模型处理标准化样本，获得电力设备的故障诊断结果。
根据权利要求1所述的基于混合聚类的电力设备并行故障诊断方法，其特征在于，自适应配置storm平台中各个组件的并行度和相关进程数的方法为：

利用历史电网数据模拟实时电网数据流，其中，历史电网数据的流量大于实时电网数据的预期流量；

根据历史电网数据计算storm平台中各个组件在不同并行度和不同进程数下的数据吞吐量；

在数据吞吐量满足预期吞吐量的情况下，自适应配置开销最低的组件并行度和进程数。
根据权利要求1所述的基于混合聚类的电力设备并行故障诊断方法，其特征在于，通过标准分数法对Tuple元组中的数据集进行预处理，得到标准化样本，包括：

按照下述公式对其进行归一化，公式如下：

上式中，x`(x`∈[0,1])为归一化后的数据值；x_min为元组数据中某一维数据的最小值；x_max为这一维度数据的最大值。
根据权利要求1所述的基于混合聚类的电力设备并行故障诊断方法，其特征在于，所述故障诊断模型的构建方法包括：

将减法聚类算法和K-means聚类算法分别部署SCMBolt组件和K-meansBolt组件中，将SCMBolt组件和K-meansBolt组件连接起来，设置组件的并行度，得到故障诊断模型。
根据权利要求4所述的基于混合聚类的电力设备并行故障诊断方法，其特征在于，利用故障诊断模型处理标准化样本，获得电力设备的故障诊断结果，包括：

将标准化样本通过减法聚类算法确定较优的初始聚类中心；

将减法聚类处理所得的较优的初始聚类中心作为K-means算法的初始聚类中心，再进行聚类，从而实现该样本数据的故障诊断结果。
根据权利要求5所述的基于混合聚类的电力设备并行故障诊断方法，其特征在于，将标准化样本通过减法聚类算法确定较优的初始聚类中心，包括：

SCMBolt组件接收PreBolt组件传递的元组，对元组中数据进行减法聚类，通过密度值确定聚类中心，得到的聚类中心为原数据中的点；

当减法聚类算法完成后，得到初始聚类中心，将其与相应Id编号及此编号对应的标准化待聚类样本封装为一个元组，传递给下游组件K-meansBolt；

减法聚类的方法包括：

样本维度为M，样本点个数为n，分别为(x₁,x₂,...,x_n)；当维度较高时所有样本点归一到一个超立方体中；在此，每个样本点都可为聚类中心的候选者；则样本点xi的密度指标定义为

上式中，r_a为一个正数；r_a的取值为该点的一个邻域半径，

当每一个样本点的密度指标计算完后，选择密度指标最高的样本点作为第一个聚类中心，x_c1为选中的点，D_c1是此点的密度指标；则选择下一个聚类中心时，每个样本点x_i的密度指标可通过下式修正；

上式中，r_b为一个正数；

当修正完所有样本点的密度指标后，选择出新的聚类中心x_c2，再次修正所有样本点的密度指标，不断的重复该过程，直到足够多的聚类中心出现，得到较优的初始聚类中心。
根据权利要求5所述的基于混合聚类的电力设备并行故障诊断方法，其特征在于，将减法聚类处理所得的较优的初始聚类中心作为K-means算法的初始聚类中心，再进行聚类，包括：

K-meansBolt组件对上游SCMBolt组件传来的标准化待聚类样本进行K-means聚类，在聚类过程中将上游SCMBolt组件传来的聚类中心作为K-means聚类的初始聚类中心，通过迭代实现聚类中心的更新，最终得到相关聚类结果。
根据权利要求7所述的基于混合聚类的电力设备并行故障诊断方法，其特征在于，在聚类过程中将上游SCMBolt组件传来的聚类中心作为K-means聚类的初始聚类中心，通过迭代实现聚类中心的更新，包括：

a)将上游SCMBolt组件传来的聚类中心作为K-means聚类的初始聚类中心；

b)计算标准样本集中所有样本到各个初始聚类中心的矢量距离，从中选择矢量距离最小的并将此样本划分到其对应的类中；

c)更新聚类中心，即计算每一类中所有样本数据的平均值，将这些均值作为k类别中新的聚类中心；

d)不断执行步骤b)和步骤c)，直到新得到的聚类中心不再变化或与上次得到的聚类中心相差的偏移值小于指定阈值，或算法执行的迭代次数达到指定要求，满足以上三个条件之一则停止聚类；

e)计算结果保存与汇总。
根据权利要求8所述的基于混合聚类的电力设备并行故障诊断方法，其特征在于，计算结果保存与汇总，包括：

通过DatabaseBolt组件实现模型诊断结果到数据库的存储操作，从而便于电力及相关行业对诊断结果的查询与检索，或者通过FileBolt组件将诊断结果存储到数据文件中，此文件可以进行灵活的复制和迁移。
一种基于混合聚类的电力设备并行故障诊断装置，其特征在于，包括：

平台部署模块，用于搭建storm平台，并在storm平台部署机器学习网络结构，得到故障诊断模型；

自适应配置模块，用于根据历史电网数据自适应配置storm平台中各个组件的并行度和相关进程数；

数据接入模块，用于通过IRichSpout接口将实时电网数据接入到storm平台的Spout源组件中，形成待处理数据流；

数据封装模块，用于按照时间顺序将待处理数据流封装到多个Tuple元组中，并为每个Tuple元组生成唯一的ID；

预处理模块，用于利用PreBolt组件接收Tuple元组，并通过标准分数法对Tuple元组中的数据集进行预处理，得到标准化样本；

故障诊断模块，用于利用故障诊断模型处理标准化样本，获得电力设备的故障诊断结果。