WO2021179447A1

WO2021179447A1 - 基于分布式计算的能源数据处理方法和系统

Info

Publication number: WO2021179447A1
Application number: PCT/CN2020/094016
Authority: WO
Inventors: 张立; 杨少春; 刘万龙; 刘德强; 朱传晶; 张海涛; 李鹏程
Original assignee: 天津市普迅电力信息技术有限公司; 国网信息通信产业集团有限公司
Priority date: 2020-03-10
Filing date: 2020-06-02
Publication date: 2021-09-16
Also published as: CN111241087A

Abstract

一种基于分布式计算的能源数据自动化处理方法和系统，包括数据采集系统（21）、和数据处理系统（22）；其中，所述方法包括：所述数据采集系统（21）从数据库中采集原始数据，其中，所述原始数据至少包括企业信息、电能站信息、采集器信息、物理采集点信息、虚拟采集点信息和历史用电数据中的至少一种；所述数据处理系统（22）利用Spark分布式计算引擎，配置为对所述数据采集系统（21）采集的原始数据进行数据清洗，对清洗后的原始数据进行计算，生成至少一个维度的统计数据。

Description

基于分布式计算的能源数据处理方法和系统

相关申请的交叉引用

本申请基于申请号为202010161552.6、申请日为2020年03月10日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此以引入方式并入本申请。

技术领域

本申请属于大数据处理领域，特别涉及一种基于分布式计算的能源数据处理方法和系统。

背景技术

随着信息化的发展，国家电网正在大力推进能源互联网的发展，加速大数据、人工智能在综合能源方面的应用。

目前国家电网大部分信息化系统采用传统的关系型数据库，数据处理采用数据库存储过程或编程实现，该种实现方案在早期数据量不大、实时性要求不高的情况下基本可以满足需求，但随着用能数据大量增加，现有方案已经逐渐无法满足业务需求，主要体现在如下方面：

1、表数量过多，需要存储的各种信息如企业信息、用户信息、采集点信息、用电数据等等都单独成表，还有涉及各表关系的关联信息表，随着电力业务的发展，会新增各种新业务，针对各种业务的数据还需要增加独立的表结构进行存储，表数量过多，难于管理和维护；

2、表关系混乱，当针对各种业务的表大量增加时，表之间的关联关系变得错综复杂，各种关联信息表难以重用，后期难以维护，同时严重影响数据的读取性能；

3、数据量达到TB(万亿字节)级别时，关系型数据库单表无法存储；关系型数据库单表在数据量低于一定水平的情况下，读写性能在毫秒级别，完全满足需求，但高于一定水平之后，读写性能会严重下降，查询数据耗时会达到分钟级别，对于前端数据展示来说无法接受。

4、采用存储过程或编程的方式实现数据处理在数据量小的情况下能够满足需求，但随着数据量增大，该种方式已经无法在可接受时间范围内完成数据处理，甚至可能会由于数据量过大计算机资源不足直接导致处理程序崩溃。

5、前端页面无法实时获取最新数据，造成这种结果的原因存在两个方面，一是关系型数据库查询耗时过长，二是数据处理不及时。

发明内容

本申请实施例的技术目的就在于克服上述现有技术中存在的不足，而提供一种基于分布式计算的能源数据处理方法和系统，该处理方法可有效支撑大数据量电力数据分析处理。通过采集大量采集点数据且采用分布式大数据处理引擎，可以快速准确地计算生成各维度统计数据，找出用户的价值需求，达到用户特征数字化，形成各维度统计数据，从而为不同类别的用户提供“定制化套餐”的用能服务，实现综合用能服务的智能化。

如上构思，本申请实施例的技术方案是：

本申请实施例提供一种基于分布式计算的能源数据处理方法，应用于基于分布式计算的能源数据处理系统中，该系统包括数据采集系统、和数据处理系统；

所述数据采集系统从数据库中采集原始数据，其中，所述原始数据至少包括企业信息、电能站信息、采集器信息、物理采集点信息、虚拟采集点信息和历史用电数据中的至少一种；

所述数据处理系统利用Spark分布式计算引擎对所述数据采集系统采集的原始数据进行数据清洗，对清洗后的原始数据进行计算，生成至少一个维度的统计数据。

在前述方案中，所述数据处理系统采用Spark分布式计算引擎，将清洗后的原始数据作为历史用电数据，以清洗后的历史用电数据为基础，针对各个企业，以小时、天、月、年、物理采集点、虚拟采集点为维度进行数据统计，生成各维度的统计结果。

在前述方案中，所述以清洗后的历史用电数据为基础，针对各个企业，以小时、天、月、年、物理采集点、虚拟采集点为维度进行数据统计生成各维度的统计结果，包括以下操作:①基于历史用电数据，以小时和物理采集点为维度，生成物理采集点小时维度统计结果集；②基于历史用电数据，以企业为维度，计算各个企业下所有物理采集点在每个采集时间点上的电量累加值、一天之内电量最大值最小值及一天之内电量最大值最小值出现时间点；③基于物理采集点小时维度统计结果集，以天为维度，生成物理采集点天维度统计结果集；④基于物理采集点天维度结果集，以月为维度，生成物理采集点月维度统计结果集；⑤基于物理采集点月维度结果集，以年为维度，生成物理采集点年维度统计结果集；⑥基于历史用电数据，按设备属性或区域属性划分物理采集点并以四则运算公式将具有相同属性的物理采集点表达为虚拟采集点，以小时和虚拟采集点为维度，生成虚拟采集点小时维度统计结果集；⑦基于虚拟采集点小时维度结果集，以天为维度，生成虚拟采集点天维度统计结果集；⑧基于虚拟采集点天维度结果集，以月为维度，生成虚拟采集点月维度统计结果集；⑨基于虚拟采集点月维度结果集，以年为维度，生成虚拟采集点年维度统计结果集。

在前述方案中，所述基于分布式计算的能源数据处理系统还包括:数据存储系统；

将生成的所述至少一个维度的统计数据存储至所述数据存储系统；

存储在所述数据存储系统的数据能够被实时查询。

在前述方案中，所述数据采集系统从关系型数据库管理系统MySQL、Oracle、基于分布式文件存储的数据库MongoDB及关系型数据库管理系统PostgreSQL读取数据，根据配置文件中配置的数据库连接信息，从相应的数据源中拉取原始数据。

在一个可选的方案中，上述数据处理系统对所述各原始数据进行清洗的具体方法是：

①对各原始数据中的空值、特殊字符、非正常值、格式错误的数据分别进行处理：空值及非正常值数据取近三天数据的平均值；对包含非法字符及格式错误的数据进行过滤处理；

②计算各个采集时间段内的增量数据，采集点每隔一定时间间隔采集一次用电数据，有的数据为该时间间隔内的增量数据，有的数据则为历史累计数据，针对累计数据需要计算出该间隔内的增量数据；

③整合企业信息、电能站信息、采集器信息、采集点信息及用电数据作为清洗后的历史用电数据；

④以清洗后的历史用电数据为基础，针对各个企业，以小时、天、月、年、物理采集点、虚拟采集点点为维度进行数据统计。

在前述方案中，所述方法还包括：

a.基于历史用电数据，以小时和物理采集点为维度，计算各个物理采集点每小时内电量累计值、电量最大值和最小值平均值、电量最大值和最小值出现的时间点、各相电压整点瞬时值、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流整点瞬时值、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率整点瞬时值、总无功功率最大值和最小值的平均值、总无功功率最大值最小值出现时间点、总功率因数瞬时值、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点，生成物理采集点小时维度统计结果集；

b,基于历史用电数据，以企业为维度，计算各个企业下所有物理采集点在每个采集时间点上的电量累加值、一天之内电量最大值最小值及一天之内电量最大值最小值出现时间点；

c,基于物理采集点小时维度结果集，以天为维度，计算每一天内电量累计值、电量最大值最小值平均值、分季节和时间段的电量峰平谷值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点，生成物理采集点天维度统计结果集；

d,基于物理采集点天维度结果集，以月为维度，计算每月电量累计值、电量最大值最小值平均值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点，生成物理采集点月维度统计结果集；

e,基于物理采集点月维度结果集，以年为维度，计算每年电量累计值、电量最大值最小值平均值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点，生成物理采集点年维度统计结果集；

f,基于历史用电数据，按设备属性或区域属性划分物理采集点并以四则运算公式将具有相同属性的物理采集点表达为虚拟采集点，计算出各个企业下所有虚拟采集点每小时内电量累计值、电量最大值最小值、电量最大值最小值出现时间点、各相电压整点瞬时值、各相电压最大值最小值、各相电压最大值最小值出现时间点、各相电流整点瞬时值、各相电流最大值最小值、各相电流最大值最小值出现时间点、总无功功率整点瞬时值、总无功功率最大值最小值、总无功功率最大值最小值出现时间点、总功率因数瞬时值、总功率因数最大值最小值、总功率因数最大值最小值出现时间点，生成虚拟采集点小时维度统计结果集；

g,基于虚拟采集点小时维度结果集，以天为维度，计算每一天内电量累计值、电量最大值最小值平均值、分季节和时间段的电量峰平谷值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点，生成虚拟采集点天维度统计结果集。

h,基于虚拟采集点天维度结果集，以月为维度，计算每月电量累计值、电量最大值最小值平均值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点，生成虚拟采集点月维度统计结果集；

i,基于虚拟采集点月维度结果集，以年为维度，计算每年电量累计值、电量最大值最小值平均值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点，生成虚拟采集点年维度统计结果集。

在前述方案中，所述数据存储系统采用分布式文件存储系统HDFS，数据交互采用基于HDFS的原生SQL查询引擎HAWQ SQL查询引擎。

本申请实施例还提供一种基于分布式计算的能源数据处理系统，所述系统包括数据采集系统、和数据处理系统；其中，

所述数据采集系统，配置为从数据库中采集原始数据，其中，所述原始数据至少包括企业信息、电能站信息、采集器信息、物理采集点信息、虚拟采集点信息和历史用电数据中的至少一种；

所述数据处理系统利用Spark分布式计算引擎，配置为对所述数据采集系统采集的原始数据进行数据清洗，对清洗后的原始数据进行计算，生成至少一个维度的统计数据。

其中，所述系统还包括:数据存储系统，配置为存储所述至少一个维度的统计数据；存储在所述数据存储系统的数据能够被实时查询。

本申请实施例具有如下的优点和积极效果：

1、本申请实施例采用宽表结构，企业信息、电能站信息、采集器信息、采集点信息及用电数据整合到一张表中，避免查询时需要考虑的各种关联关系，各表意义明确，避免大量表导致混乱的问题。

2、本申请实施例采用单表分区存储，数据量无限制，可扩展，同时保证读写性能。

3、本申请实施例采用Spark分布式计算处理数据，保证数据处理快速可靠，增加计算节点即可增加计算能力，扩展便捷。

4、本申请实施例可定时任务调度，无需人为介入，一次部署，长期运行。

附图说明

图1为本申请实施例的基于分布式计算的能源数据处理方法的实现流程图。

图2为本申请实施例的基于分布式计算的能源数据处理系统的组成结构示意图一；

图3为本申请实施例的基于分布式计算的能源数据处理系统的组成结构示意图二。

具体实施方式

本申请实施例提供一种基于分布式计算的能源数据处理方法，该方法应用于基于分布式计算的能源数据处理系统中。如图2和图3所示，从组成上来看，该处理系统包括数据采集系统21、数据处理系统22和数据存储系统23。

一、本申请实施例中提供多种类型的数据库，如关系型数据库管理系统(MySQL)、Oracle、基于分布式文件存储的数据库(MongoDB)及关系型数据库管理系统(PostgreSQL)。每种数据库按照自身固有的格式进行数据的存储。所述数据采集系统21可从MySQL、Oracle、MongoDB及Post greSQL等数据库读取数据，根据配置文件中配置的数据库连接信息，从相应的数据源中拉取原始数据。所拉取的原始数据主要包括企业信息、电能站信息、采集器信息、物理采集点信息、虚拟采集点信息及历史用电数据。

二、所述数据处理系统22采用基于内存的Spark分布式计算引擎，Spark分布式计算引擎可直接对原始数据进行分析，快速准确地计算并生成各维度统计数据，找出用户的价值需求，实现综合用能服务的智能化。还可以先对原始数据进行清洗，针对清洗后的数据进行分析，生成各维度的统计数据。

本申请实施例中，由于采用了Spark分布式计算引擎，该引擎采用Spark分布式计算处理数据，可保证数据处理快速可靠，增加计算节点即可增加计算能力，扩展便捷。可有效支撑大数据量电力数据分析处理。通过采集大量采集点数据且采用分布式大数据处理引擎，可以快速准确地计算生成各维度统计数据，找出用户的价值需求，达到用户特征数字化，形成各维度统计数据，从而为不同类别的用户提供“定制化套餐”的用能服务，实现综合用能服务的智能化。

对所述各原始数据首先进行清洗，清洗的具体方法是：

①对各原始数据中的空值、特殊字符、非正常值、格式错误的数据分别进行处理：其中，对空值及非正常值数据取近三天数据的平均值；对包含非法字符及格式错误的数据进行过滤处理；

②计算各个采集时间段内的增量数据，采集点每隔一定时间间隔采集一次用电数据，在采集的用电数据中有的数据为该时间间隔内的增量数据，有的数据则为历史累计数据。识别出历史累计数据，针对累计数据需要计算出该间隔内的增量数据；

④以清洗后的历史用电数据为基础，针对各个企业，以小时、天、月、年、物理采集点、虚拟采集点点为维度进行数据统计：

a、基于历史用电数据，以小时和物理采集点为维度，计算各个物理采集点每小时内电量累计值、电量最大值和最小值平均值、电量最大值和最小值出现的时间点、各相电压整点瞬时值、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流整点瞬时值、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率整点瞬时值、总无功功率最大值和最小值的平均值、总无功功率最大值最小值出现时间点、总功率因数瞬时值、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点，生成物理采集点小时维度统计结果集；

b、基于历史用电数据，以企业为维度，计算各个企业下所有物理采集点在每个采集时间点上的电量累加值、一天之内电量最大值最小值及一天之内电量最大值最小值出现时间点；

c、基于物理采集点小时维度结果集，以天为维度，计算每一天内电量累计值、电量最大值最小值平均值、分季节和时间段的电量峰平谷值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点，生成物理采集点天维度统计结果集；

d、基于物理采集点天维度结果集，以月为维度，计算每月电量累计值、电量最大值最小值平均值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点，生成物理采集点月维度统计结果集；

e、基于物理采集点月维度结果集，以年为维度，计算每年电量累计值、电量最大值最小值平均值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点，生成物理采集点年维度统计结果集；

f、基于历史用电数据，按设备属性或区域属性划分物理采集点并以四则运算公式将具有相同属性的物理采集点表达为虚拟采集点，计算出各个企业下所有虚拟采集点每小时内电量累计值、电量最大值最小值、电量最大值最小值出现时间点、各相电压整点瞬时值、各相电压最大值最小值、各相电压最大值最小值出现时间点、各相电流整点瞬时值、各相电流最大值最小值、各相电流最大值最小值出现时间点、总无功功率整点瞬时值、总无功功率最大值最小值、总无功功率最大值最小值出现时间点、总功率因数瞬时值、总功率因数最大值最小值、总功率因数最大值最小值出现时间点，生成虚拟采集点小时维度统计结果集；

g、基于虚拟采集点小时维度结果集，以天为维度，计算每一天内电量累计值、电量最大值最小值平均值、分季节和时间段的电量峰平谷值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点，生成虚拟采集点天维度统计结果集；

h、基于虚拟采集点天维度结果集，以月为维度，计算每月电量累计值、电量最大值最小值平均值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点，生成虚拟采集点月维度统计结果集；

i、基于虚拟采集点月维度结果集，以年为维度，计算每年电量累计值、电量最大值最小值平均值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点，生成虚拟采集点年维度统计结果集。

三、所述数据存储系统23采用HDFS(Hadoop Distributed File System)分布式文件存储系统，数据交互采用基于HDFS的HAWQ SQL(Apache Hadoop Native SQL)查询引擎，所述数据处理系统22部分生成的各维度结果集均保存在HDFS中，存储在HDFS中的数据具有可被实时查询的功能。存储在HDFS中的数据采用宽表结构，将企业信息、电能站信息、采集器信息、采集点信息及用电数据整合到一张表中，避免查询时需要考虑的各种关联关系，各表意义明确，避免大量表导致混乱的问题。此外，采用单表分区存储，数据量无限制，可扩展，同时保证读写性能。

三、本申请实施例还配有任务调度系统，该系统通过Linux Crontab执行定时任务的方式，实现数据的自动化处理，处理过程如相关内容所示，重复之处不做具体赘述。可定时任务调度，无需人为介入，一次部署，长期运行。

参见附图1，本申请实施例数据处理流程的具体步骤如下：

(1)首先读取存放于固定路径下的配置文件中数据库连接信息，包括网际协议地址ip、用户名userName、密码password、数据源database，然后通过JDBC(数据库一种连接)方式读取各数据源数据，转换成Spark内部Dataset对象。

(2)Spark分布式计算引擎通过Dataset的join操作将企业信息、电能站信息、采集器信息、采集点信息及用电数据关联，整合为一条宽表数据，然后通过mapPartitions对各个分区内的数据进行空值、特殊字符、非正常值、格式错误的处理并计算采集时间间隔内的增量值，生成清洗和整合后的用电数据。其中，整合到一张表中，能够避免查询时需要考虑的各种关联关系，查询换乱的问题。

(3)基于清洗和整合后的用电数据，通过Dataset的mapToPair、reduceByKey及map操作生成物理采集点小时维度统计结果集。

(4)基于清洗和整合后的用电数据，通过Dataset的mapToPair、reduceByKey、mapPartitionsToPair、reduceByKey及map操作生成物理采集点企业维度统计结果集。

(5)基于物理采集点小时维度统计结果集，通过Dataset的mapPartitions、mapToPair、reduceByKey及map操作生成物理采集点天维度统计结果集。

(6)基于物理采集点天维度统计结果集，通过Dataset的mapPartitionsToPair、reduceByKey及map操作生成物理采集点月维度统计结果集。

(7)基于物理采集点月维度统计结果集，通过Dataset的mapPartitionsToPair、reduceByKey及map操作生成物理采集点年维度统计结果集。

(8)基于清洗和整合后的用电数据，通过Dataset的mapToPair、reduceByKey、mapPartitionsToPair、reduceByKey及map操作生成虚拟采集点小时维度统计结果集。

(9)基于虚拟采集点小时维度统计结果集，通过Dataset的mapPartitions、mapToPair、reduceByKey及map操作生成虚拟采集点天维度统计结果集。

(10)基于虚拟采集点天维度统计结果集，通过Dataset的mapPartitionsToPair、reduceByKey及map操作生成虚拟采集点月维度统计结果集。

(11)基于虚拟采集点月维度统计结果集，通过Dataset的mapPartitionsToPair、reduceByKey及map操作生成虚拟采集点年维度统计结果集。

(12)通过调用Spark分布式计算引擎的JDBCWriter及分布式系统基础架构(Hadoop)原生SQL查询引擎HAWQ提供的JDBC接口将以上生成的各维度结果集写入HDFS进行存储。

(13)将Spark处理程序打成任务压缩Jar包，并配置(嵌入式任务调度)Linux Crontab定时提交任务Jar包到Spark集群，执行数据处理。

本申请实施例提供一种基于分布式计算的能源数据处理系统，如图2或图3所示，包括：数据采集系统21和数据处理系统22；其中，所述数据采集系统21可从MySQL、Oracle、MongoDB及PostgreSQL等数据库读取原始数据；

所述数据处理系统22采用基于内存的Spark分布式计算引擎，直接对原始数据进行分析，快速准确地计算并生成各维度统计数据；还可先对原始数据进行清洗，对清洗后的数据进行计算，生成各维度统计数据。

如图3所示，本申请实施例中还包括数据存储系统23，采用HDFS(Hadoop Distributed File System)分布式文件存储系统，数据交互采用基于HDFS的HAWQ SQL(Apache Hadoop Native SQL)查询引擎，所述数据处理系统22部分生成的各维度结果集均保存在HDFS中，存储在HDFS中的数据具有可被实时查询的功能。存储在HDFS中的数据采用宽表结构，将企业信息、电能站信息、采集器信息、采集点信息及用电数据整合到一张表中，避免查询时需要考虑的各种关联关系，各表意义明确，避免大量表导致混乱的问题。此外，采用单表分区存储，数据量无限制，可扩展，同时保证读写性能。

本申请实施例提供一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行前述的基于分布式计算的能源数据处理方法。本申请实施例的存储介质包括易挥发性随机存取存储器(RAM)、只读存储器(ROM)、电可擦可编程只读存储器(EEPROM)、闪存或其他存储器技术、只读光盘(CD-ROM)、数字通用盘(DVD)或其他被访问的他介质。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。

工业实用性

Claims

一种基于分布式计算的能源数据处理方法，应用于基于分布式计算的能源数据处理系统中，所述系统包括数据采集系统、和数据处理系统；其中，

所述数据采集系统从数据库中采集原始数据，其中，所述原始数据至少包括企业信息、电能站信息、采集器信息、物理采集点信息、虚拟采集点信息和历史用电数据中的至少一种；

所述数据处理系统利用Spark分布式计算引擎对所述数据采集系统采集的原始数据进行数据清洗，对清洗后的原始数据进行计算，生成至少一个维度的统计数据。
根据权利要求1所述的方法，其中，

所述数据处理系统采用Spark分布式计算引擎，将清洗后的原始数据作为历史用电数据，以清洗后的历史用电数据为基础，针对各个企业，以小时、天、月、年、物理采集点、虚拟采集点为维度进行数据统计，生成各维度的统计结果。
根据权利要求2所述的方法，其中，所述数据处理系统利用Spark分布式计算引擎对所述数据采集系统采集的原始数据进行数据清洗，包括：

①对各原始数据中的空值、特殊字符、非正常值、格式错误的数据分别进行处理：其中，对空值及非正常值数据取近三天数据的平均值；对包含非法字符及格式错误的数据进行过滤处理；

②计算各个采集时间段内的增量数据，采集点每隔一定时间间隔采集一次用电数据，识别该时间间隔内的增量数据和历史累计数据，针对累计数据需要计算出该间隔内的增量数据；

③整合企业信息、电能站信息、采集器信息、采集点信息及用电数据作为清洗后的历史用电数据；

④以清洗后的历史用电数据为基础，针对各个企业，以小时、天、月、年、物理采集点、虚拟采集点为维度进行数据统计，生成各维度的统计结果。
根据权利要求3所述的方法，其中，所述以清洗后的历史用电数据为基础，针对各个企业，以小时、天、月、年、物理采集点、虚拟采集点为维度进行数据统计生成各维度的统计结果，包括以下操作:

①基于历史用电数据，以小时和物理采集点为维度，生成物理采集点小时维度统计结果集；②基于历史用电数据，以企业为维度，计算各个企业下所有物理采集点在每个采集时间点上的电量累加值、一天之内电量最大值最小值及一天之内电量最大值最小值出现时间点；③基于物理采集点小时维度统计结果集，以天为维度，生成物理采集点天维度统计结果集；④基于物理采集点天维度结果集，以月为维度，生成物理采集点月维度统计结果集；⑤基于物理采集点月维度结果集，以年为维度，生成物理采集点年维度统计结果集；⑥基于历史用电数据，按设备属性或区域属性划分物理采集点并以四则运算公式将具有相同属性的物理采集点表达为虚拟采集点，以小时和虚拟采集点为维度，生成虚拟采集点小时维度统计结果集；⑦基于虚拟采集点小时维度结果集，以天为维度，生成虚拟采集点天维度统计结果集；⑧基于虚拟采集点天维度结果集，以月为维度，生成虚拟采集点月维度统计结果集；⑨基于虚拟采集点月维度结果集，以年为维度，生成虚拟采集点年维度统计结果集。
根据权利要求1至4任一项所述的方法，其中，所述基于分布式计算的能源数据处理系统还包括:数据存储系统；

将生成的所述至少一个维度的统计数据存储至所述数据存储系统；

存储在所述数据存储系统的数据能够被实时查询。
根据权利要求5所述的方法，其特征在于：所述数据采集系统从关系型数据库管理系统MySQL、Oracle、基于分布式文件存储的数据库Mon goDB及关系型数据库管理系统PostgreSQL读取数据，根据配置文件中配置的数据库连接信息，从相应的数据源中拉取原始数据。
根据权利要求4所述的方法，其中，所述方法还包括：

a.基于历史用电数据，以小时和物理采集点为维度，计算各个物理采集点每小时内电量累计值、电量最大值和最小值平均值、电量最大值和最小值出现的时间点、各相电压整点瞬时值、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流整点瞬时值、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率整点瞬时值、总无功功率最大值和最小值的平均值、总无功功率最大值最小值出现时间点、总功率因数瞬时值、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点，生成物理采集点小时维度统计结果集；

b、基于历史用电数据，以企业为维度，计算各个企业下所有物理采集点在每个采集时间点上的电量累加值、一天之内电量最大值最小值及一天之内电量最大值最小值出现时间点；

c、基于物理采集点小时维度结果集，以天为维度，计算每一天内电量累计值、电量最大值最小值平均值、分季节和时间段的电量峰平谷值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点，生成物理采集点天维度统计结果集；

d、基于物理采集点天维度结果集，以月为维度，计算每月电量累计值、电量最大值最小值平均值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点，生成物理采集点月维度统计结果集；

e、基于物理采集点月维度结果集，以年为维度，计算每年电量累计值、电量最大值最小值平均值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点，生成物理采集点年维度统计结果集；

f、基于历史用电数据，按设备属性或区域属性划分物理采集点并以四则运算公式将具有相同属性的物理采集点表达为虚拟采集点，以小时和虚拟采集点为维度，计算出各个企业下所有虚拟采集点每小时内电量累计值、电量最大值最小值、电量最大值最小值出现时间点、各相电压整点瞬时值、各相电压最大值最小值、各相电压最大值最小值出现时间点、各相电流整点瞬时值、各相电流最大值最小值、各相电流最大值最小值出现时间点、总无功功率整点瞬时值、总无功功率最大值最小值、总无功功率最大值最小值出现时间点、总功率因数瞬时值、总功率因数最大值最小值、总功率因数最大值最小值出现时间点，生成虚拟采集点小时维度统计结果集；

g、基于虚拟采集点小时维度结果集，以天为维度，计算每一天内电量累计值、电量最大值最小值平均值、分季节和时间段的电量峰平谷值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点，生成虚拟采集点天维度统计结果集；

h、基于虚拟采集点天维度结果集，以月为维度，计算每月电量累计值、电量最大值最小值平均值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点，生成虚拟采集点月维度统计结果集；

i、基于虚拟采集点月维度结果集，以年为维度，计算每年电量累计值、电量最大值最小值平均值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点，生成虚拟采集点年维度统计结果集。
根据权利要求5所述的方法，其中，所述数据存储系统采用分布式文件存储系统HDFS，数据交互采用基于HDFS的原生SQL查询引擎HA WQ SQL查询引擎。
一种基于分布式计算的能源数据处理系统，所述系统包括数据采集系统、和数据处理系统；其中，

所述数据采集系统，配置为从数据库中采集原始数据，其中，所述原始数据至少包括企业信息、电能站信息、采集器信息、物理采集点信息、虚拟采集点信息和历史用电数据中的至少一种；

所述数据处理系统利用Spark分布式计算引擎，配置为对所述数据采集系统采集的原始数据进行数据清洗，对清洗后的原始数据进行计算，生成至少一个维度的统计数据。
根据权利要求9所述的系统，其中，所述系统还包括:数据存储系统；所述数据存储系统，配置为存储所述至少一个维度的统计数据；存储在所述数据存储系统的数据能够被实时查询。