WO2022012137A1

WO2022012137A1 - 风力发电机组的监控方法、系统及计算机可读存储介质

Info

Publication number: WO2022012137A1
Application number: PCT/CN2021/093632
Authority: WO
Inventors: 成骁彬; 许移庆; 赵大文
Original assignee: 上海电气风电集团股份有限公司
Priority date: 2020-07-15
Filing date: 2021-05-13
Publication date: 2022-01-20
Also published as: KR20230038281A; CN111878320A; EP4184007A1; CN111878320B; EP4184007A4

Abstract

一种风力发电机组的监控方法、系统及计算机可读存储介质。风力发电机组的监控方法，包括：S101、获取所述风力发电机组的内部环境温度数据和外部环境温度数据，以及所述风力发电机组的零部件温度数据；S102、根据所述零部件温度数据与所述内部环境温度数据的差值确定第一统计量，根据所述零部件温度数据与所述外部环境温度数据的差值确定第二统计量；S103、根据所述第一统计量和所述第二统计量，判断所述零部件温度数据是否满足设定要求。本监控方法可以减少环境因素对风力发电机组的零部件温度的影响而降低监测的准确性的情况，从而提高通过零部件温度判断风力发电机组的运行健康状态的准确性。

Description

风力发电机组的监控方法、系统及计算机可读存储介质

技术领域

本申请涉及风力发电机领域，尤其涉及一种风力发电机组的监控方法、系统及计算机可读存储介质。

背景技术

随着时代的进步和人类环保意识的提升，对可再生清洁能源的开发和利用越来越受到国际社会的重视。为世界范围内技术最成熟、最具规模化商业开发潜力的新能源之一，风能具有蕴藏量丰富、可再生、分布广、无污染等特性，具备规模化开发利用价值。风能作为一种储量丰富、可再生、零排放的清洁能源，风力发电技术已经成为各国争相发展的重要领域，并且已经被提升到了国家战略的高度。

风电机组的状态监测技术通过温度、转速、振动等传感器对机组的叶轮、齿轮箱、发电机、偏航与变桨机构等关键位置进行实时数据采集、监控和相关数据分析，了解机组的运行健康状态，及时发现故障征兆，提前进行相关故障的处理及发电运行的合理安排，从而提高运营效率，降低运维成本，使效益最大化。

由于风电机组在不同工作环境中，受到环境影响零部件的温度所反映出的情况是不同的，现有相关技术中不能有效监测到环境因素对风力发电机组的零部件的温度的影响会降低监测的准确性，容易造成虚假警报，增加了运维成本。

发明内容

本申请提供一种风力发电机组的监控方法、系统及计算机可读存储介质。

根据本申请实施例的第一方面，提供一种风力发电机组的监控方法，包括：获取所述风力发电机组的内部环境温度数据和外部环境温度数据，以及所述风力发电机组的零部件温度数据；根据所述零部件温度数据与所述内部环境温度数据的差值确定第一统计量，根据所述零部件温度数据与所述外部环境温度数据的差值确定第二统计量；根据所述第一统计量和所述第二统计量，判断所述零部件温度数据是否满足设定要求。

可选地，所述根据所述第一统计量和所述第二统计量，判断所述零部件温度数据是否满足设定要求，进一步包括：采用多变量检验方法对所述第一统计量和所述第二统计量进行检验分析，确定所述第一统计量和所述第二统计量之间的检验值和所述检验值的上限值；监控所述检验值是否超出所述上限值，以判断所述零部件温度数据是否满足设定要求。

可选地，所述多变量检验方法包括霍特林T平方分布检验方法，所述采用多变量检验方法对所述第一统计量和所述第二统计量进行检验分析，进一步包括：采用霍特林T平方分布检验方法对所述第一统计量和所述第二统计量进行检验分析。

可选地，所述获取所述风力发电机组的内部环境温度数据和外部环境温度数据，以及所述风力发电机组的零部件温度数据，包括：获取设定数量的所述内部环境温度数据、所述外部环境温度数据以及所述零部件温度数据。所述采用多变量检验方法对所述第一统计量和所述第二统计量进行检验分析，确定所述第一统计量和所述第二统计量之间的检验值和所述检验值的上限值，进一步包括：根据所述第一统计量、所述第二统计量、所述设定数量个所述第一统计量的均值、以及所述设定数量个所述第二统计量的均值，确定所述第一统计量和所述第二统计量之间的检验值；根据所述内部环境温度数据、所述外部环境温度数据以及所述零部件温度数所确定的统计量的个数值和所述设定数量，经过卡方分布确定所述上限值。

可选地，所述监控所述检验值是否超出所述上限值，以判断所述零部件温度数据是否满足设定要求，进一步包括：若连续监测到第一设定个数的所述检验值大于所述上限值，确定所述零部件温度数据不满足设定要求。

可选地，所述监控所述检验值是否超出所述上限值，以判断所述零部件温度数据是否满足设定要求，进一步包括：若连续监测到第二设定个数的所述检验值不大于所述上限值，确定所述零部件温度数据满足设定要求。

可选地，所述零部件温度数据包括轴承温度。

可选地，通过SCADA系统采集所述风力发电机组的SCADA数据集，所述获取所述风力发电机组的内部环境温度数据和外部环境温度数据以及所述风力发电机组的零部件温度数据，包括：获取所述SCADA数据集中的至少部分数据，作为待处理数据集，所述待处理数据集包括多个数据组，每个数据组包括同一时刻下的表征不同信息的多种数据，所述多种数据包括内部环境温度待处理数据、外部环境温度待处理数据以及零部件温度待处理数据；通过至少一个数据筛选步骤对所述待处理数据集进行数据筛选处理，得到筛选数据集，所述筛选数据集包括所述内部环境温度数据、所述外部环境温度数据以及所述零部件温度数据；自所述筛选数据集中获取所述内部环境温度数据、所述外部环境温度数据以及所述零部件温度数据。

可选地，所述获取所述SCADA数据集中的至少部分数据，作为待处理数据集，包括：获取所述SCADA数据集中设定时间维度的至少部分数据，作为所述待处理数据集。

可选地，所述数据筛选步骤包括：采用聚类算法将所述待处理数据集中的数据划分为多个聚类；及去除每个所述聚类中的奇异值及包括该奇异值的数据组的其他数据。

可选地，所述聚类算法包括模糊C均值聚类算法，所述采用聚类算法将所述待处理数据集中的数据划分为多个聚类，包括：采用模糊C均值聚类算法将所述待处理数据集中的数据划分为多个聚类。

可选地，所述去除每个所述聚类中的奇异值及包括该奇异值的数据组的其他数据，包括：采用模糊C均值聚类算法确定每个所述聚类的中心；确定至少一个所述聚类中的数据与对应的所述聚类的中心的欧氏距离；及采用拉依达准则去除至少一个所述聚类中的所述欧氏距离的距离异常值，并去除所述距离异常值对应的所述奇异值。

可选地，所述数据筛选步骤包括：采用四分位数法确定所述待处理数据集中的异常数据；去除所述异常数据和包括该异常数据的数据组的其他数据。

可选地，所述采用聚类算法将所述待处理数据集中的数据划分为多个聚类之前，还包括：对所述待处理数据集中的数据进行标准化处理，得到标准化数据。所述采用聚类算法将所述待处理数据集中的数据划分为多个聚类，包括：采用聚类算法将所述标准化数据划分为多个聚类。

可选地，所述去除每个所述聚类中的奇异值及包括该奇异值的数据组的其他数据之后，还包括：对去除每个所述聚类中的奇异值及包括该奇异值的数据组的其他数据后的所述标准化数据进行逆标准化处理。

可选地，所述采用聚类算法将所述待处理数据集中的数据划分为多个聚类，包括：采用聚类算法将所述待处理数据集中的每种数据分别划分为多个聚类。

可选地，对所述待处理数据集进行数据筛选处理之后，还包括：若所述筛选数据集的数据的时间序列不连续，在时间序列非连续的数据之间，回填所缺失时刻的数据。

可选地，所述在时间序列非连续的数据之间，回填所缺失时刻的数据，包括：若所述时间序列非连续的数据之前的连续多个数据的数量大于2，确定所述时间序列非连续的数据之前的连续多个数据的残差均值及方差，并基于所述残差均值和方差生成随机数，作为所缺失时刻的数据。

可选地，所述在时间序列非连续的数据之间，回填所缺失时刻的数据，包括：若所述时间序列非连续的数据之前的连续多个数据的数量不大于2，选取时间序列非连续的数据之前的时刻所对应的数据，作为所缺失时刻的数据。

根据本申请实施例的第二方面，提供一种应用于风力发电机组的监控系统，包括一个或多个处理器，用于实现如上任一实施例所述的监控方法。

根据本申请实施例的第三方面，提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现如上任一实施例所述的监控方法。

根据本申请实施例提供的技术方案，结合环境温度和风力发电机组的零部件温度建立两个变量，根据两个变量判断零部件温度是否满足设定要求，可以减少环境因素对风力发电机组的零部件温度的影响而降低监测的准确性的情况，从而提高通过零部件温度判断风力发电机组的运行健康状态的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请一示例性实施例示出的一种风力发电机组的监控方法的流程示意图。

图2和图3是图1所示的监控方法的部分细化流程示意图。

图4是本申请一示例性实施例示出的一种数据处理方法的流程示意图。

图5是本申请一示例性实施例示出的一种数据处理方法的数据筛选步骤的流程示意图。

图6是图5所示的数据筛选步骤的部分细化流程示意图。

图7是本申请另一示例性实施例示出的一种数据处理方法的数据筛选步骤的流程示意图。

图8是本申请一示例性实施例示出的一种风力发电机组的监控系统的系统框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

由于风力发电机组在不同工作环境中，受到环境因素的影响零部件温度所反映出的情况是不同的。以轴承温度为例，风力发电机组在夏天和冬天所处的环境是不一致，假设轴承温度报警线为80°，在夏天由于室外温度普遍较高，轴承温度常年为60°左右均可视为是正常状态。但在冬天若轴承温度依旧为60°，即使离报警线80°还有一定差距，但这个温度值还是需要警戒注意的。而现有相关技术中不能有效监测到环境因素对风力发电机组的零部件的温度的影响会降低监测的准确性，容易造成虚假警报，增加了运维成本。

本申请提供一种风力发电机组的监控方法、系统及计算机可读存储介质，可以减少环境因素对风力发电机组的零部件温度的影响而降低监测的准确性的情况，从而提高通过零部件温度判断风力发电机组的运行健康状态的准确性。下面结合附图，对本申请的风力发电机组的监控方法、系统及计算机可读存储介质进行详细说明。在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

参见图1所示，本申请实施例提供一种风力发电机组的监控方法，包括以下步骤S101-S103：

步骤S101：获取所述风力发电机组的内部环境温度数据和外部环境温度数据，以及所述风力发电机组的零部件温度数据。可选地，所述零部件可以是风力发电机组的轴承，所述零部件温度数据可以包括轴承温度。所述零部件也可以是其他部件，例如齿轮箱，所述零部件温度数据例如齿轮箱油温，本申请对比不作限制。

其中，所述内部环境温度数据可以是指风力发电机组的机舱的内部环境温度，所述外部环境温度可以是指风力发电机组的机舱的外部环境温度。可以通过在风机发电机组的机舱内外分别设置温度传感器，以及在风力发电机组的零部件上设置温度传感器，来获取所述风力发电机组的内部环境温度数据和外部环境温度数据，以及所述风力发电机组的零部件温度数据。

步骤S102：根据所述零部件温度数据与所述内部环境温度数据的差值确定第一统计量，根据所述零部件温度数据与所述外部环境温度数据的差值确定第二统计量。

其中，结合所述风力发电机组的内部环境温度数据、外部环境温度数据以及零部件温度数据，可以采用式(1)和式(2)建立新的变量第一统计量t ₁和第二统计量t ₂。

t ₁＝t _b-t _out (1)；

t ₂＝t _b-t _in (2)；

其中，t _b为零部件温度，例如轴承温度。t _out为风力发电机组的外部环境温度，t _in为风力发电机组的内部环境温度。

步骤S103：根据所述第一统计量和所述第二统计量，判断所述零部件温度数据是否满足设定要求。

本申请结合环境温度和风力发电机组的零部件温度建立两个变量，根据两个变量，判断零部件温度数据是否满足设定要求，可以减少变工况下环境因素对零部件温度数据的影响会降低监测的准确性的情况，从而提高通过零部件温度判断风力发电机组的运行健康状态的准确性。

参见图2所示，在一些可选的实施例中，所述根据所述第一统计量和所述第二统计量，判断所述零部件温度数据是否满足设定要求的步骤S103，可以进一步包括子步骤S1031-S1032：

步骤S1031：采用多变量检验方法对所述第一统计量和所述第二统计量进行检验分析，确定所述第一统计量和所述第二统计量之间的检验值和所述检验值的上限值。

需要说明的是，监测的两个变量第一统计量和第二统计量其本质是残差领域，根据合理的假设可以假设这两个变量分布符合正态分布，因此可以利用其优良且可控的性质，采用多变量检验方法对两个变量进行检验分析及监控，提高监控分析的准确性。

步骤S1032：监控所述检验值是否超出所述上限值，以判断所述零部件温度数据是否满足设定要求。

通过上述方法，本申请结合环境温度和风力发电机组的零部件温度建立两个变量进行检验分析，采用多变量检验方法对两个变量进行检验分析，通过比较检验分析得到的检验值和上限值，判断所述零部件温度数据是否满足设定要求，可以减少变工况下环境因素对零部件温度数据的影响会降低监测的准确性的情况，从而提高通过零部件温度判断风力发电机组的运行健康状态的准确性。

在一些可选的实施例中，所述多变量检验方法包括霍特林T平方分布检验方法(即Hotelling T ²)。在步骤S1031中，所述采用多变量检验方法对所述第一统计量和所述第二统计量进行检验分析，可以是采用霍特林T平方分布检验方法对所述第一统计量和所述第二统计量进行检验分析。需要说明的是，在其他例子中，所述多变量检验方法也可以包括其他检验方法，只要能够实现将两个数据样本结合分析即可，本申请对此不作限制。

可以理解的，结合环境温度和风力发电机组的零部件温度建立两个与轴承温度相关的变量，采用霍特林T平方分布检验方法可以对上述两个变量进行合并为一个变量构造监控图(control chart)并进行检验分析，可以将环境温度对风力发电机组的零部件温度的影响也考虑在内进行分析，从而提高通过零部件温度判断风力发电机组的运行健康状态的准确性。

在一些可选的实施例中，在步骤S101中，所述获取所述风力发电机组的内部环境温度数据和外部环境温度数据，以及所述风力发电机组的零部件温度数据，可以获取设定数量的所述内部环境温度数据、所述外部环境温度数据以及所述零部件温度数据。由于所采集的温度数据的数量是根据时间区段进行划分的，因此通过上述方法可以对零部件温度以划分时间区段的方式地进行监控及监测，减少数据量过大造成的数据误差，提高监控的准确性。

参见图3所示，所述采用多变量检验方法对所述第一统计量和所述第二统计量进行检验分析，确定所述第一统计量和所述第二统计量之间的检验值和所述检验值的上限值的步骤S1031，可以包括子步骤S10311-S10312：

步骤S10311：根据所述第一统计量、所述第二统计量、所述设定数量个所述第一统计量的均值、以及所述设定数量个所述第二统计量的均值，采用式(3)确定所述第一统计量和所述第二统计量之间的检验值。

其中，T ²为所述检验值，x为第一统计量和第二统计量的数值，

为设定数量个第一统计量的均值和设定数量个第二统计量的均值，S ^-1是第一统计量t ₁和第二统计量t ₂的协方差的矩阵的逆。

步骤S10312：根据所述内部环境温度数据、所述外部环境温度数据以及所述零部件温度数所确定的统计量的个数值和所述设定数量，采用式(4)和式(5)经过卡方分布确定所述上限值：

LCL＝0 (5)；

其中，UCL是上限值，LCL是下限值。p是用于检验分析的变量的个数。m是用于作为健康状态的初始值数量级。F是说明这个式子属于卡方分布(chi-square distribution)。a是卡方分布的上位点。

在本实施例中，用于检验分析的变量为第一统计量和第二统计量，即p＝2。m的取值为1000，即第一统计量和第二统计量的设定个数均为1000，则m-p＝998。a的取值为0.001，则根据卡布分布可以自行计算得出F _a,p,m-p的值。当然，在其他例子中，可以根据实际情况设定m的取值，本申请对此不作限制。

可以理解的，假设m的取值为2，第一统计量和第二统计量的数值为[t1,t2]:[1,10]和[3,30]，那么

分别是[1,10]-[2,20]＝[-1,-10]以及[3,30]-[2,20]＝[1,10]。

通常可以通过SCADA系统采集得到风力发电机组的SCADA数据，SCADA数据可以包括用于表征风力发电机组性能的温度、风速、功率等监测数据。所述风力发电机组的内部环境温度数据和外部环境温度数据，以及所述风力发电机组的零部件温度数据也属于SCADA数据中的一类数据。SCADA系统即数据采集监控系统(Supervisory Control And Data Acquisition)，SCADA系统可以对现场的风机进行监视和控制，以实现数据采集、设备控制、测量、参数调节以及各类信号报警等各项功能，并以适当的形式如声音、图形、图象等方式显示给用户，最终达到实时感知设备各种参数状态的效果。

采用上述多变量检验方法对两个变量进行检验分析，可以得到基于两个变量的检验值和上限值。但由于SCADA数据本身的缓变特性，数据容易造成波动，可理解为是当前监测的某一两个数据值超出标准指标线，但后续很多数据值均符合标准指标线(即报警点)，就会造成所谓的虚假报警。为了减少这类情况的发生，上述步骤S1032中，可以采用“滞后”规则的报警方式，监控所述检验值是否超出所述上限值，以判断所述零部件温度数据是否满足设定要求，若连续监测到第一设定个数的所述检验值大于所述上限值，则确定所述零部件温度数据不满足设定要求，即可认为是超过了报警点。

可选地，所述第一设定个数为5。风力发电机组内可以设置计数器和警报器。可以理解的，当基于当前采集的温度数据，采用上述多变量检验方法检验分析得到的检验值超出上限值，计数器开始计数N＝N+1，N为超出上限值的检验值的数量。当N≥5，即连续监测到5个检验值大于上限值时，通过警报器发出报警信号。通过上述“滞后”规则的报警方式，可以减少虚假报警的情况，提高报警的准确性，降低运维成本。

进一步地，回到图2，步骤S1032中，监控所述检验值是否超出所述上限值，以判断所述零部件温度数据是否满足设定要求，若连续监测到第二设定个数的所述检验值不大于所述上限值，则确定所述零部件温度数据满足设定要求，即可认为是未超过报警点。

可选地，所述第二设定个数为50。在警报器发出报警信号后，计数器开始重置。可以理解的，警报器发出一次报警信号后，当之后连续监测到50个检验值不大于上限值时，则表示这部分监测的零部件温度数据均满足设定要求，此时可以将计数器开始重置，重新开始下一轮的监测。通过上述方法，可以有效提高监测的准确性，减少虚假报警的情况，提高报警的准确性，降低运维成本。

在一些可选的实施例中，为了提高采集的温度数据的质量及检验分析的准确性，本申请可以提供一种数据处理方法，用于对SCADA数据进行数据前处理，可以去除SCADA数据中的异常温度数据以及不良温度数据。

参见图4所示，所述数据处理方法，用于处理SCADA系统采集的风力发电机组的SCADA数据集，所述方法包括以下步骤S11-S12：

步骤S11：获取所述SCADA数据集中的至少部分数据，作为待处理数据集，所述待处理数据集包括多个数据组，每个数据组包括同一时刻下的表征不同信息的多种数据，所述多种数据包括内部环境温度待处理数据、外部环境温度待处理数据以及零部件温度待处理数据。可以理解的，SCADA数据可以包括温度、风速、功率等监测数据。所述风力发电机组的内部环境温度数据和外部环境温度数据，以及所述风力发电机组的零部件温度数据也属于SCADA数据中的一类数据。同一时刻内SCADA系统采集到的全部上述数据，可以划分在同一个数据组内。SCADA系统即数据采集监控系统(Supervisory Control And Data Acquisition)，SCADA系统可以对现场的风机进行监视和控制，以实现数据采集、设备控制、测量、参数调节以及各类信号报警等各项功能，并以适当的形式如声音、图形、图象等方式显示给用户，最终达到实时感知设备各种参数状态的效果。

步骤S12：通过至少一个数据筛选步骤对所述待处理数据集进行数据筛选处理，得到筛选数据集(可理解为是已处理数据集)。所述筛选数据集包括所述内部环境温度数据、所述外部环境温度数据以及所述零部件温度数据。自所述筛选数据集中获取所述内部环境温度数据、所述外部环境温度数据以及所述零部件温度数据。

参见图5所示，其中，所述数据筛选步骤包括聚类筛选步骤,聚类筛选步骤包括步骤S121-S122：

步骤S121：采用聚类算法将所述待处理数据集中的数据划分为多个聚类。聚类算法又称群分析，它是研究(样品或指标)分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法，具有速度快，计算简便、分析准确性高等优点。在本实施例中，采用聚类算法将待处理数据集中的每笔数据分别划分为多个聚类，可以提高数据处理的准确性，进一步提高SCADA数据的质量。

步骤S122：去除每个所述聚类中的奇异值及包括该奇异值的数据组的其他数据。此数据筛选步骤以下简称为聚类筛选步骤。

通过聚类算法对SCADA数据进行分类，再对分类后的数据进行数据筛选处理，将 SCADA数据中的奇异值去除，以及包括该奇异值的同一时刻的其他数据，可以减少SCADA数据中质量较差的数据，提升SCADA数据的质量。自经过数据筛选步骤后得到的筛选数据集中获取所述内部环境温度数据、所述外部环境温度数据以及所述零部件温度数据，可以去除SCADA数据中的异常温度数据以及不良温度数据，从而提高采集的温度数据的质量及检验分析的准确性。

在一些可选的实施例中，所述聚类算法包括模糊C均值聚类算法，在步骤S121中，所述采用聚类算法将所述待处理数据集中的数据划分为多个聚类，包括：采用模糊C均值聚类算法将所述待处理数据集中的数据划分为多个聚类。模糊C均值聚类算法是基于对目标函数的优化基础上的一种数据聚类方法。该算法是一种无监督的模糊聚类方法，在算法实现过程中不需要人为的干预。同时，由于增加模糊技术(fuzzy)，同一笔SCADA数据并不单独属于一个分类，同一个SCADA数据可能同时属于几个分类。因此采用这样的算法，适合风机SCADA数据的多样性的特点。

可以理解的，采用模糊C均值聚类算法将待处理数据集中的数据进行聚类划分，再去除每个所述聚类中的奇异值及包括该奇异值的数据组的其他数据，即包括该奇异值的同一时刻的其他数据，如此可以减少SCADA数据的波动，提升SCADA数据的质量。

参见图6所示，在一些可选的实施例中，在步骤S122中，所述去除每个所述聚类中的奇异值及包括该奇异值的数据组的其他数据，包括以下子步骤S1221-S1223：

步骤S1221：采用模糊C均值聚类算法确定每个所述聚类的中心。

其中，上述获取的SCADA数据以给定的数据集X＝{X ₁,X ₂,…,X _n}表示，聚类数目为k，m _j(j＝1,2,…,k)为每个聚类的中心，μ _j(X _i)是第i个样本对应第J类的隶属度函数，表示权重矩阵(可理解为是权重)，则基于隶属度函数的聚类损失函数可以参见下式6：

其中，

表示某个数据属于各个聚类的中心的概率，这些概率之和等于1。b表示加权指数，也称为平滑因子，控制模式在模糊类间的分享程度，通常情况下b的取值为2。

令J _f对m _j和μ _j(X _i)的偏导为0，求得式6极小值的必要条件。参见下式7和式8：

采用迭代的方法求解式7和式8，直至满足收敛条件，得到最优解。

在一些实施例中，可以先随机给出一组聚类中心的值，再采用迭代的方法求解式7和式8，直至满足收敛条件，得到最优解。或是先随机给出一组权重矩阵的值，采用迭代的方法求解式7和式8，直至满足收敛条件，得到最优解。

本实施例中，假设在该算法中有10个分类，即k＝10。则通过上述方法，可以最终得到10个分类的中心点，即m ₁,m ₂,…,m ₁₀。X ₁,X ₂,…,X ₁₀表示为训练算法时，不同时间下获取的SCADA数据。μ就是权重，如μ ₅(x ₃)＝0.8，表明x ₃数据属于第5个分类群的权重为0.8。需要说明的是，权重的取值一般在(0，1)范围，权重的值越大，说明该数据属于越贴近于对应分类群。J _f为目标，即算法迭代的目标函数。本实施例中，以先随机给出一组初始权重矩阵为例，并满足权重总和为1，代表每个数据属于各个聚类中心的概率之和等于1。根据初始权重矩阵通过式7求出各个中心点m，再根据求出的各个中心点m通过式8求出权重μ，如此迭代计算直到满足收敛条件。

步骤S1222：确定至少一个所述聚类中的数据与对应的所述聚类的中心的欧氏距离。

通过上述方法，可以得到多个(例如10个)模糊C均值聚类算法的中心，并且根据模糊C均值聚类算法的规则每个SCADA数据均会被进行分组。确定至少一个聚类中的数据与对应的聚类的中心的欧氏距离。在本实施例中，确定每个聚类中的数据与对应的聚类的中心的欧氏距离。可以确定所有聚类中的数据与对应的聚类的中心的欧式距离的均值和均方差。例如，确定全部的10个聚类中的数据与对应的聚类的中心的欧式距离的均值和均方差。

步骤S1223：采用拉依达准则去除至少一个所述聚类中的所述欧氏距离的距离异常值，并去除所述距离异常值对应的所述奇异值。

拉依达准则又称3-sigma准则，由于每个聚类中的数据与对应的聚类的中心的欧式距离的均值和均方差符合正态分布，采用拉依达准则通常可以将每个聚类中的数据与对应的聚类的中心的欧式距离的均值和均方差划分为三个区间，其中位于第二区间的数据可以理解为是符合要求的，位于第一区间和第三区间的数据可以理解为是不符合要求的，其中第二区间位于第一区间和第三区间之间。在本实施例中，将位于第一区间(可理解为是不超过下限的范围)的均值和均方差所对应的SCADA数据和位于第三区间(可理解为是上限以上的范围)的均值和均方差所对应的SCADA数据作为所述距离异常值，再将该距离异常值对应的SCADA数据中的奇异值去除，以及包括该奇异值的同一时刻的其他数据，可以去除数据偏差、噪声、奇异点，减少SCADA数据的波动，提升SCADA数据的质量及数据分析的准确性。可选地，第二区间的百分比为68.27％，第一区间和第三区间的百分比均为15.865％。

在一些可选的实施例中，在步骤S121采用聚类算法将所述待处理数据集中的数据划分为多个聚类之前，还可以对所述待处理数据集中的数据进行标准化处理，得到标准化数据。

通过将数据进行标准化处理，能够提高采用模糊C均值聚类算法对数据进行处理的精度。在本实施例中，通过下式9对数据进行标准化处理：

其中，data表示SCADA数据的原始数据，np.min(data)表示同类SCADA数据中的最小值，np.max(data)表示同类SCADA数据中的最大值。在步骤S121中，采用聚类算法将所述待处理数据集中的数据划分为多个聚类，包括：采用聚类算法将所述标准化数据划分为多个聚类。可选地，可以采用例如归一化等方式将待处理数据集中的数据进行标准化处理，得到标准化数据。

进一步地，采用模糊C均值聚类算法对标准化处理的数据进行处理，采用模糊C均值聚类算法对SCADA数据进行分类，再对分类后的数据进行数据筛选处理，去除每个聚类中的奇异值及包括该奇异值的数据组的其他数据之后，还可以对去除每个聚类中的奇异值及包括该奇异值的数据组的其他数据后的标准化数据进行逆标准化处理，可以理解为将经过模糊C均值聚类算法等处理后的标准化数据还原到初始格式的数据，便于后续对数据进行统计及分析评估。

在一些可选的实施例中，步骤S11中，所述获取所述SCADA数据集中的至少部分数据，作为待处理数据集，包括：获取所述SCADA数据集中设定时间维度的至少部分数据，作为所述待处理数据集。SCADA数据可以分为10min数据和30s数据两种维度的数据。其中10min数据是多个30s数据的均值。考虑到SCADA系统所监测的数据由于风速变动、风机变转速等因素所造成的缓变特性，30s数据的波动较大，可选地，本申请选用10min数据，即设定时间维度是10min，可以减小风机变转速所带来的数据波动，减小对数据分析处理的影响。此外，由于SCADA数据的种类繁多，本申请可以获取全部种类的全部数据进行数据处理，也可以获取其中一部分种类的数据进行数据处理，例如对风机影响较大的几类数据，如风速、温度、功率等数据。

在一些可选的实施例中，所述数据筛选步骤还可以包括：去除所述待处理数据集中的为缺省值的数据及包括为缺省值的所述数据的数据组的其他数据。此数据筛选步骤以下简称为去除NA步骤，NA表示缺省值。自经过数据筛选步骤后得到的筛选数据集中获取所述内部环境温度数据、所述外部环境温度数据以及所述零部件温度数据，可以去除SCADA数据中的异常温度数据以及不良温度数据，从而提高采集的温度数据的质量及检验分析的准确性。

在实际风机运行中，由于风机的地理位置可能通讯信号不佳，因此时常有信号中断的状态发生，在SCADA系统中将信号中断时的数据记录为缺省值，此数据筛选步骤的目的是去除待处理数据集中的为缺省值的数据及包括为缺省值的数据的数据组中同一时刻的其他数据，可以减少SCADA数据的波动，提升SCADA数据的质量及数据分析的准确性。

在一些可选的实施例中，所述待处理数据集包括表征所述风力发电机组的输出功率的功率数据，所述数据筛选步骤还可以包括：去除所述待处理数据集中表征所述输出功率为负数的功率数据及包括该功率数据的数据组的其他数据。此数据筛选步骤以下简称为去除负数步骤。自经过数据筛选步骤后得到的筛选数据集中获取所述内部环境温度数据、所述外部环境温度数据以及所述零部件温度数据，可以去除SCADA数据中的异常温度数据以及不良温度数据，从而提高采集的温度数据的质量及检验分析的准确性。

可以理解的，风机的切入风速是针对并网型风机而言的，是指风机达到并网条件的风速，也就是可以发电的最低风速，低于此风速风机会自动停机。风机的切出风速指风机并网发电的最大风速，超过此风速风机将切出电网，也即风机会停机，停止发电。当风机达到切入风速时，风机的发电机可以持续稳定的发电。

在实际风机运行中，由于风机检修、停机或者风速为小风天等因素，当风机没有达到切出风速时，SCADA系统中记录的SCADA数据对应的功率值即为负数，这些数据不利于后续的数据分析，此数据筛选步骤的目的是去除所述待处理数据集中表征所述输出功率为负数的功率数据及包括该功率数据的数据组中同一时刻的其他数据，可以减少SCADA数据的波动，提升SCADA数据的质量及数据分析的准确性。

在一些可选的实施例中，所述数据筛选步骤还可以包括：去除所述待处理数据集中超出报警值的数据及包括该超出报警值的数据的数据组的其他数据。此数据筛选步骤以下简称为去除超差步骤。自经过数据筛选步骤后得到的筛选数据集中获取所述内部环境温度数据、所述外部环境温度数据以及所述零部件温度数据，可以去除SCADA数据中的异常温度数据以及不良温度数据，从而提高采集的温度数据的质量及检验分析的准确性。

在实际风机运行中，每个对应的SCADA数据点位皆可有报警值设定，当监测的数据超过报警值即说明该时间段的数据为超差数据，不是正常的风机状态，不利于后续的数据分析。例如轴承温度的报警值是60°，当监测到的实际轴承温度高于60°时即判断风机状态异常，发出报警。此数据筛选步骤的目的是去除待处理数据集中超出报警值的数据及包括该超出报警值的数据的数据组中同一时刻的其他数据，可以减少SCADA数据的波动，提升SCADA数据的质量及数据分析的准确性。

参见图7所示，在一些可选的实施例中，所述数据筛选步骤还可以包括四分位数筛选步骤，四分位数筛选步骤包括步骤S131-S132：

步骤S131：采用四分位数法确定所述待处理数据集中的异常数据。四分位数(Quartile)也称四分位点，是指在统计学中把所有数值由小到大排列并分成四等份，处于三个分割点位置的数值。其中第1四分位数Q1，即第25百分位数。第2四分位数Q2，即第50百分位数。第3四分位数Q3，即第75百分位数。可以结合Q1和Q3比较分析数据变量的趋势。

步骤S132：去除所述异常数据和包括该异常数据的数据组的其他数据。采用四分位数法确定所述待处理数据集中的异常数据，可以提高数据分析的准确性。此数据筛选步骤以下简称为四分位数筛选步骤。自经过数据筛选步骤后得到的筛选数据集中获取所述内部环境温度数据、所述外部环境温度数据以及所述零部件温度数据，可以去除SCADA数据中的异常温度数据以及不良温度数据，从而提高采集的温度数据的质量及检验分析的准确性。

在一些可选的实施例中，对所述待处理数据集进行数据筛选处理之后，若所述已处理数据集的数据的时间序列非连续，在时间序列非连续的数据之间，回填所缺失时刻的数据。可以理解的，在经过上述一个或多个数据筛选步骤对待处理数据集进行数据筛选处理之后，可以过滤和去除掉全部或大部分异常和不良数据，剩下质量相对较高的数据。但是剩下的数据的时间序列可能不会是连续的，此步骤的目的是对数据进行填充，得到时间序列连续的数据，便于后续对数据进行统计及分析评估。

在本实施例中，以已处理数据集中的第一条SCADA数据的时间作为基准，向后查看后续SCADA数据是否为连续，以连续间隔为10min为例，若第一条SCADA数据的时间为2020-01-01-14:00:00，第二条SCADA数据的时间为2020-01-01-14:10:00，则该条数据判为时间序列连续。若第二条SCADA数据的时间为2020-01-01-14:20:00，即超过10min，则该条数据判为时间序列非连续。

在确定了时间序列非连续的数据后，在时间序列非连续的数据之间，回填所缺失时刻的数据，可以包括以下两种情况：

若所述时间序列非连续的数据之前的连续多个数据的数量大于2，那么通过确定所述时间序列非连续的数据之前的连续多个数据的残差均值及方差，并基于随机方程生成随机数，作为所缺失时刻的数据。

若所述时间序列非连续的数据之前的连续多个数据的数量不大于2，那么选取时间序列非连续的数据之前的时刻所对应的数据，作为所缺失时刻的数据。例如，时间为2020-01-01-14:20:00的数据被判断为非连续的，该数据前只有一个时间为2020-01-01-14:00:00的数据被判断为连续的，那么选取时间为2020-01-01-14:00:00的数据，作为所缺失时刻的数据。

本申请的数据处理方法，上述一个或多个数据筛选步骤对待处理数据集进行数据筛选处理之后，可以过滤和去除掉至少大部分异常和不良数据，剩下质量相对较高的数据，可以减少SCADA数据的波动，提升SCADA数据的质量。自经过数据筛选步骤后得到的筛选数据集中获取所述内部环境温度数据、所述外部环境温度数据以及所述零部件温度数据，可以去除SCADA数据中的异常温度数据以及不良温度数据，从而提高采集的温度数据的质量及检验分析的准确性。需要说明的是，当数据处理方法包括多个数据筛选步骤时，可以将多个数据处理步骤对待处理数据集单独进行数据处理，得到各自对应的处理数据集。然后再将得到的全部处理数据集的数据合并得到所述已处理数据。或者，可以用多个数据处理步骤依次对所述待处理数据集进行数据处理，得到所述已处理数据。

参见图8所示，本申请实施例还提供一种应用于风力发电机组的监控系统30，包括一个或多个处理器31，用于实现如上任一实施例所述的监控方法。

监控系统30的实施例可以应用在风力发电机组上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在风力发电机组的处理器31将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图8所示，为本申请监控系统30所在风力发电机组的一种硬件结构图，除了图8所示的处理器31、内部总线32、内存34、网络接口33、以及非易失性存储器35之外，实施例中装置所在的风力发电机组通常根据该风力发电机的实际功能，还可以包括其他硬件，对此不再赘述。

所述处理器31可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器31也可以是任何常规的处理器等。

本申请实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器31执行时，实现如上任一实施例所述的监控方法。

所述计算机可读存储介质可以是前述任一实施例所述的风力发电机组的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是风力发电机的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括风力发电机组的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述风力发电机组所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

一种风力发电机组的监控方法，包括：

获取所述风力发电机组的内部环境温度数据和外部环境温度数据，以及所述风力发电机组的零部件温度数据；

根据所述零部件温度数据与所述内部环境温度数据的差值确定第一统计量，根据所述零部件温度数据与所述外部环境温度数据的差值确定第二统计量；

根据所述第一统计量和所述第二统计量，判断所述零部件温度数据是否满足设定要求。
如权利要求1所述的方法，其特征在于，所述根据所述第一统计量和所述第二统计量，判断所述零部件温度数据是否满足设定要求，进一步包括：

采用多变量检验方法对所述第一统计量和所述第二统计量进行检验分析，确定所述第一统计量和所述第二统计量之间的检验值和所述检验值的上限值；

监控所述检验值是否超出所述上限值，以判断所述零部件温度数据是否满足设定要求。
如权利要求2所述的方法，其特征在于，所述多变量检验方法包括霍特林T平方分布检验方法，所述采用多变量检验方法对所述第一统计量和所述第二统计量进行检验分析，进一步包括：采用霍特林T平方分布检验方法对所述第一统计量和所述第二统计量进行检验分析。
如权利要求3所述的方法，其特征在于，所述获取所述风力发电机组的内部环境温度数据和外部环境温度数据，以及所述风力发电机组的零部件温度数据，包括：

获取设定数量的所述内部环境温度数据、所述外部环境温度数据以及所述零部件温度数据；

所述采用多变量检验方法对所述第一统计量和所述第二统计量进行检验分析，确定所述第一统计量和所述第二统计量之间的检验值和所述检验值的上限值，进一步包括：

根据所述第一统计量、所述第二统计量、所述设定数量个所述第一统计量的均值、以及所述设定数量个所述第二统计量的均值，确定所述第一统计量和所述第二统计量之间的检验值；

根据所述内部环境温度数据、所述外部环境温度数据以及所述零部件温度数所确定的统计量的个数值和所述设定数量，经过卡方分布确定所述上限值。
如权利要求2所述的方法，其特征在于，所述监控所述检验值是否超出所述上限值，以判断所述零部件温度数据是否满足设定要求，进一步包括：

若连续监测到第一设定个数的所述检验值大于所述上限值，确定所述零部件温度数据不满足设定要求。
如权利要求2所述的方法，其特征在于，所述监控所述检验值是否超出所述上限值，以判断所述零部件温度数据是否满足设定要求，进一步包括：

若连续监测到第二设定个数的所述检验值不大于所述上限值，确定所述零部件温度数据满足设定要求。
如权利要求1所述的方法，其特征在于，所述零部件温度数据包括轴承温度。
如权利要求1所述的方法，其特征在于，通过SCADA系统采集所述风力发电机组的SCADA数据集，所述获取所述风力发电机组的内部环境温度数据和外部环境温度数据以及所述风力发电机组的零部件温度数据，包括：

获取所述SCADA数据集中的至少部分数据，作为待处理数据集，所述待处理数据集包括多个数据组，每个数据组包括同一时刻下的表征不同信息的多种数据，所述多种数据包括内部环境温度待处理数据、外部环境温度待处理数据以及零部件温度待处理数据；

通过至少一个数据筛选步骤对所述待处理数据集进行数据筛选处理，得到筛选数据集，所述筛选数据集包括所述内部环境温度数据、所述外部环境温度数据以及所述零部件温度数据；自所述筛选数据集中获取所述内部环境温度数据、所述外部环境温度数据以及所述零部件温度数据。
如权利要求8所述的方法，其特征在于，所述获取所述SCADA数据集中的至少部分数据，作为待处理数据集，包括：

获取所述SCADA数据集中设定时间维度的至少部分数据，作为所述待处理数据集。
如权利要求8所述的方法，其特征在于，所述数据筛选步骤包括：

采用聚类算法将所述待处理数据集中的数据划分为多个聚类；及

去除每个所述聚类中的奇异值及包括该奇异值的数据组的其他数据。
如权利要求10所述的方法，其特征在于，所述聚类算法包括模糊C均值聚类算法，所述采用聚类算法将所述待处理数据集中的数据划分为多个聚类，包括：

采用模糊C均值聚类算法将所述待处理数据集中的数据划分为多个聚类。
如权利要求11所述的方法，其特征在于，所述去除每个所述聚类中的奇异值及包括该奇异值的数据组的其他数据，包括：

采用模糊C均值聚类算法确定每个所述聚类的中心；

确定至少一个所述聚类中的数据与对应的所述聚类的中心的欧氏距离；及

采用拉依达准则去除至少一个所述聚类中的所述欧氏距离的距离异常值，并去除所述距离异常值对应的所述奇异值。
如权利要求8所述的方法，其特征在于，所述数据筛选步骤包括：

采用四分位数法确定所述待处理数据集中的异常数据；

去除所述异常数据和包括该异常数据的数据组的其他数据。
如权利要求11所述的方法，其特征在于，所述采用聚类算法将所述待处理数据集中的数据划分为多个聚类之前，还包括：

对所述待处理数据集中的数据进行标准化处理，得到标准化数据；

所述采用聚类算法将所述待处理数据集中的数据划分为多个聚类，包括：

采用聚类算法将所述标准化数据划分为多个聚类。
如权利要求14所述的方法，其特征在于，所述去除每个所述聚类中的奇异值及包括该奇异值的数据组的其他数据之后，还包括：

对去除每个所述聚类中的奇异值及包括该奇异值的数据组的其他数据后的所述标准化数据进行逆标准化处理。
如权利要求10所述的方法，其特征在于，所述采用聚类算法将所述待处理数据集中的数据划分为多个聚类，包括：

采用聚类算法将所述待处理数据集中的每种数据分别划分为多个聚类。
如权利要求8所述的方法，其特征在于，对所述待处理数据集进行数据筛选处理之后，还包括：

若所述筛选数据集的数据的时间序列不连续，在时间序列非连续的数据之间，回填所缺失时刻的数据。
如权利要求17所述的方法，其特征在于，所述在时间序列非连续的数据之间，回填所缺失时刻的数据，包括：

若所述时间序列非连续的数据之前的连续多个数据的数量大于2，确定所述时间序列非连续的数据之前的连续多个数据的残差均值及方差，并基于所述残差均值和方差生成随机数，作为所缺失时刻的数据。
如权利要求17所述的方法，其特征在于，所述在时间序列非连续的数据之间，回填所缺失时刻的数据，包括：

若所述时间序列非连续的数据之前的连续多个数据的数量不大于2，选取时间序列非连续的数据之前的时刻所对应的数据，作为所缺失时刻的数据。
一种应用于风力发电机组的监控系统，包括一个或多个处理器，用于实现如权利要求1-19中任一项所述的监控方法。
一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现如权利要求1-19中任一项所述的监控方法。