WO2016165378A1

WO2016165378A1 - 一种储能电站海量数据清洗方法及系统

Info

Publication number: WO2016165378A1
Application number: PCT/CN2015/097998
Authority: WO
Inventors: 李相俊; 郑昊; 姚继锋; 惠东; 王向前; 徐琛; 王立业; 董文琦; 岳巍澎; 郭光朝; 贾学翠; 张亮; 汪奂伶; 郑高
Original assignee: 国网新源张家口风光储示范电站有限公司; 中国电力科学研究院; 国家电网公司; 国网福建省电力有限公司; 国网福建省电力有限公司电力科学研究院
Priority date: 2015-04-16
Filing date: 2015-12-21
Publication date: 2016-10-20
Also published as: CN104750861A; CN104750861B

Abstract

一种储能电站海量数据清洗方法及系统，该方法包括以下步骤：I、定位并替换储能电站数据集中的缺省值；II、定位并替换所述数据集中的异常值；III、根据所述储能电池数据的不同类别特征，在替换后获得的数据集中确定不合理数据，并进行替换。所述方法和系统既实现海量电池数据清洗，又能够保证海量数据分布式处理要求，实现了综合考虑K近邻算法、拉依达准则法、分布式处理等的储能电站海量电池数据优化清洗与预处理目的，提高大容量电池储能电站海量数据的与预处理与利用效果。

Description

一种储能电站海量数据清洗方法及系统

技术领域

本发明涉及一种储能技术领域的方法及系统，具体讲涉及一种储能电站海量数据清洗方法及系统。

背景技术

目前，储能电站数据采集、存储与管理方法尚不规范，需要对储能电站海量数据管理和挖掘技术开展进一步深化研究。储能电站海量数据主要有以下特点：(1)数据量大：由于储能电站电池数量众多，每个电池又有很多监测设备，每秒采集上来的数据量巨大，因此要求能够正确快速地清洗这些数据。(2)异常数据原因复杂：由于监测设备众多，受精度、网络信号等多种客观并且不可预知的因素影响，导致数据中存在异常数据。

大数据时代的到来为储能技术的发展提供了一个契机，其中储能电池数据的使用价值巨大，对储能电站海量数据的准确、高效处理是电站运行效果与设备特性评估及精细化控制管理的重要基础。然而，由于监测设备缺陷和网络传输信号不稳定等客观原因，储能电站数据常常包括了很多异常值和缺省值，极大地干扰了储能电站海量数据的分析计算，因此储能电站海量电池数据分析计算的准确程度很大程度上取决于如何有效地对原始的海量电池数据进行清洗。

针对海量的原始数据进行清洗，现有常用方法是按照一定周期将海量数据分成多个批次，然后一批一批进行清洗，流水线作业。此种方法有如下缺陷：

1、单批次处理的范围有限，导致每次进行数学统计分析的数量少，清洗精度较低；

2、不能应对海量数据的并行处理，单线清洗费时长，速度慢，效率不高。

3、数据种类繁多，单批次需要考虑各种情况，处理比较复杂，增加了计算难度。

鉴于此，需要提供一种能够克服上述现有技术方案所存在的缺陷的储能电站数据清洗方法及系统。

发明内容

为克服上述现有技术的不足，本发明提供一种储能电站海量数据清洗方法及系统。

实现上述目的所采用的解决方案为：

一种储能电站海量数据清洗方法，所述方法包括以下步骤：

I、定位并替换储能电站数据集中的缺省值；

II、定位并替换所述数据集中的异常值；

III、根据所述储能电池数据的不用类别特征，在替换后获得的数据集中确定不合理数据，并进行替换。

优选地，所述步骤I中，运用统计学处理方法定位所述缺省值；运用K近邻算法确定所述缺省值附件的正常值，用所述正常值替换所述缺省值。

优选地，所述步骤II中，运用拉依达准则法定位所述异常值；利用K近邻算法确定所述异常值附近的正常值，用所述正常值替换所述异常值。

优选地，所述步骤III中，根据所述数据集中数据的不同特征确定其中不合理数据，并用所述不合理数据的前面或后面的正常值进行替换。

优选地，所述储能电池数据的种类包括电流、电压、温度、SOC和功率；

所述不同类别特征包括根据先验知识，不同类别的数据确定的突变阈值；

所述步骤III包括，遍历各类别的数据，根据所述突变阈值，确定不合理数据，用前一时刻的数据将所述不合理数据替换。

一种储能电站海量数据清洗系统，所述系统包括数据存储模块、数据清洗模块和显示模块；

所述数据存储模块基于HBase构建电池数据表，所述电池数据表用于存储所有涉及的储能电站数据；

所述数据清洗模块基于Hadoop清洗储能电站数据；

所述显示模块用于展示所述清洗前和清洗后的储能电站数据。

优选地，所述数据清洗模块用于清洗所述储能电站数据，所述数据清洗模块包括实现以下步骤的子模块：

I、定位并替换储能电站数据集中的缺省值；

II、定位并替换所述数据集中的异常值；

与现有技术相比，本发明具有以下有益效果：

1、本发明的方法和系统既实现海量电池数据清洗，又能够保证海量数据分布式处理要求，实现了综合考虑K近邻算法、拉依达准则法、分布式处理等的储能电站海量电池数据优化清洗与预处理目的，提高大容量电池储能电站海量数据的与预处理与利用效果。

2、针对储能电站海量电池数据的特点，本发明提出的清洗方法采用统计学方法和附加式处理方法相结合，提升了清洗效果；

利用Hadoop分布式处理特性，多节点并行清洗海量的电池数据，增大了清洗范围，提高了清洗精度，另外并行处理可以带来效率的提升。

采用Hadoop分布式计算框架，保证高效率并行处理数据及可扩展性，通过增加处理节点，可以进一步提升清洗效率和范围；采用NoSQL型数据库HBase，保证海量电池数据的存储。

3、该方法及其分散式系统，利用Map/Reduce计算框架，对海量电池数据进行分类处理，减少了计算的复杂度。

4、利用HBase表的多版本性，保存了清洗前后的海量电池数据，并利用前端技术EChart进行展示，给用户一个直观的清洗效果。

附图说明

图1为本发明中储能电站海量电池数据清洗方法流程图；

图2为本发明中储能电站海量电池数据清洗系统结构图；

图3为本发明中HBase储能电站海量电池数据表的结构图；

图4为本发明中基于Hadoop的分布式清洗流程图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步的详细说明。

如图1所示，图1为本发明提供的一种储能电站海量电池数据清洗方法流程图；该方法包括以下步骤：

I、定位并替换储能电站数据集中的缺省值；

II、定位并替换所述数据集中的异常值；

步骤I，运用统计学处理方法定位所述缺省值；运用K近邻算法确定所述缺省值附件的正常值，用所述正常值替换所述缺省值。实现数据清洗。

S101、每个电池监测点的一段时间内的原始数据导入内存，原始数据包括数据编号和对应的数据值，数据编号对应数据值，定位每个数值值为空的点即缺省值。

S102、在每个电池数据缺省值附近使用K近邻算法，计算附近K个样本在范围为N的数据集中分别出现的次数，用出现频率最大的电池数据作为正常值替换掉缺省值。

步骤II，运用拉依达准则法定位所述异常值；利用K近邻算法确定所述异常值附近的正常值，用所述正常值替换所述异常值。实现数据清洗。

S201、默认为电池监测数据是服从正态分布，根据拉依达准则法，确定包含原始数据的数据集的数学期望和标准方差，对于各个数据的偏差大于标准偏差的(一般是标准差的3倍)，认为是异常值。

即，若电池检测数据总体服从正态分布，则对于大于μ+3σ或小于μ-3σ的实验数据作为异常数据，予以剔除。μ与σ分别表示正态总体的数学期望和标准差剔除后，对余下的各测量值重新计算偏差和标准偏差，并继续审查，直到各个偏差均小于3σ为止。

提供一应用实施例，对某一温度T测量11次，其数据如下：

计算获得：

3σ＝3.01×3＝9.03

确定20.33为异常值，用K临近算法将该值替换。

S202、在每个电池数据缺省值附近使用K近邻算法，计算附近K个近邻样本在范围为N的数据集中分别出现的次数，用出现频率最大的电池数据作为正常值替换掉缺省值。

本发明还提供一方案，步骤S102、S202中，运用K临近算法确定用于替换的值，即在N个样本中，找出x的K个近邻。假设N个样本中有Kc个Wc类的样本，若K1，K2，…Kc分别是K个近邻中分别属于W1，W2，…，Wc类的样本数，则定义判别函数：Gi(x)＝Ki，i＝1，2，3，…，c；若Gj(x)＝maxki，则决策x∈Wj，用Wj替换缺省值x。

本发明还提供另一方案，步骤S102、S202中，运用K临近算法确定用于替换的值的类别，具体包括以下步骤：

设x为缺省值，取A[1]～A[k]作为x的初始近邻，计算与测试样本x间的欧氏距离d(x，A[i])，i＝1～k；

按d(x，A[i])升序排序，计算最远样本与x间的距离D_max{d(x，A[j])}，j＝1～k；

for(i＝k+1；i<＝n；i++)

计算A[i]与x间的距离d(x，A[i])；

if d(x，A[i])<D

then用A[i]代替最远样本；

按d(x，A[i])升序排序，计算最远样本与x间的距离D_max{d(x，A[j])}，j＝1～i；

计算前k个样本A[i]，i＝1～k所属类别的概率，具有最大概率的类别即为样本x的类。

最后，以最大概率的类别的近邻值替换x。

步骤III，根据所述储能电池数据的不用类别特征，在替换后获得的数据集中确定不合理数据，并进行替换。完成进一步清洗。具体包括：

步骤301，将数据集中的数据根据标示符进行分类，包括：温度、电压、电流、SOC、有功功率五类。分类后可获得5个集合，每个集合表示一种类别的数据集。各类别的阈值是参照先验知识设定的，依次遍历其中数据是否超过阈值，若i超过，则用i-1替换该数值。

如图2所述，本发明实施例还提供了一种储能电站海量电池数据清洗系统，包括电池数据存储模块、电池数据清洗模块和电池显示模块。

所述数据存储模块基于HBase构建电池数据表，所述电池数据表用于存储所有涉及的储能电站数据；所述数据清洗模块基于Hadoop清洗储能电站数据；所述显示模块用于展示所述清洗前和清洗后的储能电站数据。

数据清洗模块用于清洗所述储能电站数据，所述数据清洗模块包括实现以下步骤的子模块：I、定位并替换储能电站数据集中的缺省值；II、定位并替换所述数据集中的异常值；III、根据所述储能电池数据的不用类别特征，在替换后获得的数据集中确定不合理数据，并进行替换。

提供一系统实施例，包括电池数据存储模块，电池数据清洗模块和电池数据显示模块。

构建电池数据存储模块。

通过HBase建立数据表table1存储储能电站海量电池数据，表结构如图3所示。

其中，Row key的组成为数据标示符、距离1970年1月1日的天数和当天开始的秒数，中间以“|“分隔开来，表中存有2个版本的数据，t0表示清洗前的数据，t1表示清洗后的数据。Column：”data”为列族，value为列名，后面跟的数字为监测的电池数据。

构建电池数据清洗模块，该模块基于Hadoop分布式框架构建。

将根据清洗方法构建的清洗程序进行验证。将清洗程序移植到Hadoop分布式框架中来，构建mapreduce程序。

如图4所示，Hadoop从HBase中读取海量电池数据并进行分片分发给Hadoop集群下各个节点进行map处理，通过map程序和shuffle阶段将每个电池监测点的数据都归集成一个数据片供reduce程序处理。各个节点上的Reduce程序则对输入进来的某个电池监测点的数据进行清洗，并将结果存入HBase中。

构建储能电站海量电池数据显示模块，利用EChart前端技术将清洗前后的各个电池数据以图表的形式展示给用户。通过清洗前后对比的数据，直观地判断清洗效果的好坏。

最后应当说明的是:以上实施例仅用于说明本申请的技术方案而非对其保护范围的限制,尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换，但这些变更、修改或者等同替换，均在申请待批的权利要求保护范围之内。

Claims

一种储能电站海量数据清洗方法，其特征在于：所述方法包括以下步骤：

I、定位并替换储能电站数据集中的缺省值；

II、定位并替换所述数据集中的异常值；

III、根据所述储能电池数据的不用类别特征，在替换后获得的数据集中确定不合理数据，并进行替换。
如权利要求1所述的方法，其特征在于：所述步骤I中，运用统计学处理方法定位所述缺省值；运用K近邻算法确定所述缺省值附件的正常值，用出现频率最大的所述正常值替换所述缺省值。
如权利要求1所述的方法，其特征在于：所述步骤II中，运用拉依达准则法定位所述异常值；利用K近邻算法确定所述异常值附近的正常值，用出现频率最大的所述正常值替换所述异常值。
如权利要求1所述的方法，其特征在于：所述步骤III中，根据所述数据集中数据的不同特征确定其中不合理数据，并用所述不合理数据的前面或后面的正常值进行替换。
如权利要求1所述的方法，其特征在于：所述储能电池数据的种类包括电流、电压、温度、SOC和功率；

所述不同类别特征包括根据先验知识，不同类别的数据确定的突变阈值；

所述步骤III包括，遍历各类别的数据，根据所述突变阈值，确定不合理数据，用前一时刻的数据将所述不合理数据替换。
一种储能电站海量数据清洗系统，其特征在于：所述系统包括数据存储模块、数据清洗模块和显示模块；

所述数据存储模块基于HBase构建电池数据表，所述电池数据表用于存储所有涉及的储能电站数据；

所述数据清洗模块基于Hadoop清洗储能电站数据；

所述显示模块用于展示所述清洗前和清洗后的储能电站数据。
如权利要求6所述的系统，其特征在于：所述数据清洗模块用于清洗所述储能电站数据，所述数据清洗模块包括实现以下步骤的子模块：

I、定位并替换储能电站数据集中的缺省值；

II、定位并替换所述数据集中的异常值；

III、根据所述储能电池数据的不用类别特征，在替换后获得的数据集中确定不合理数据，并进行替换。
如权利要求7所述的系统，其特征在于：所述步骤I中，运用统计学处理方法定位所述缺省值；运用K近邻算法确定所述缺省值附件的正常值，用所述正常值替换所述缺省值。
如权利要求7所述的系统，其特征在于：所述步骤II中，运用拉依达准则法定位所述异常值；利用K近邻算法确定所述异常值附近的正常值，用所述正常值替换所述异常值。
如权利要求7所述的系统，其特征在于：所述储能电池数据的种类包括电流、电压、温度、SOC和功率；

所述不同类别特征包括根据先验知识，不同类别的数据确定的突变阈值；

所述步骤III包括，遍历各类别的数据，根据所述突变阈值，确定不合理数据，用前一时刻的数据将所述不合理数据替换。