WO2018045642A1

WO2018045642A1 - 一种母线负荷预测方法

Info

Publication number: WO2018045642A1
Application number: PCT/CN2016/108051
Authority: WO
Inventors: 孟强; 王一蓉; 郝悍勇; 张建; 杜朝晖; 吴润泽; 邓伟; 杨松楠; 范军丽; 包正睿
Original assignee: 国网山西省电力公司晋城供电公司; 国家电网公司; 北京国电通网络技术有限公司; 华北电力大学
Priority date: 2016-09-09
Filing date: 2016-11-30
Publication date: 2018-03-15
Also published as: AU2016325186A1; CN106485262B; CN106485262A

Abstract

一种母线负荷预测方法，该方法包括：采用横向比较法修正历史负荷数据中的异常值（202），采用灰色关联投影法确定母线负荷的关键影响因素（203）；采用改进的K-means聚类方法将特性相近的负荷曲线归为一类，得到若干典型负荷模式（204），构建随机森林分类模型，建立影响因素与聚类结果之间的映射关系（205）；针对每类负荷模式，利用多元线性回归方法训练若干预测模型（206）；通过随机森林分类模型确定待测日的类别，选择相匹配的回归模型实现负荷预测（207）。该方法引入数据挖掘方法分析母线负荷的变化规律并建立预测模型库，结合待测日的类别实现模型匹配，提高了短期母线负荷预测的精度和实时性，为电网规划和实时调度提供更加准确的决策支持。

Description

一种母线负荷预测方法

技术领域

本发明涉及电力系统工程技术领域，特别是指一种母线负荷预测方法。

背景技术

母线负荷预测是电力系统规划的重要组成部分，也是电力系统经济运行的基础，其预测结果能更好地实现分散式负荷管理，直接影响到电网后续安全校核的分析结果，对电网动态状态估计、无功优化、厂站局部控制和减少发电成本等方面具有重要意义。母线负荷作为变电站的下网负荷，其基数小，稳定性不强、变化趋势不明显，高频波动分量多等特点已成为提高预测精度的难点。而短期母线负荷预测一般指实时预测，不仅要求预测精度高，计算速度也要快，由于母线负荷自身的特点以及传统预测方法的固有缺陷，相对于系统负荷预测的研究比较少。

母线负荷预测一般采用回归分析法、神经网络和支持向量回归等方法。不同的预测方法从不同的角度提炼出历史负荷的信息，对样本数据规模和复杂度等方面的要求均不同。在处理考虑多影响因素的母线负荷预测问题时，回归分析法虽然实现简单，但对样本的平稳性要求较高，不宜直接处理波动性较强的母线负荷。神经网络和支持向量回归方法具有较强的非线性拟合能力，对样本的平稳性要求不高，但是当输入数据的维数过多，样本规模较大时，模型的训练容易陷入局部最优，且复杂度较高，从而降低预测精度和计算效率。而且随着大数据技术的兴起以及传感技术的快速发展，已形成电力大数据，母线负荷的内部特性更加复杂，不利于预测模型的建立。因此，现有的母线负荷的预测算法无法达到较为满意的预测效果。

发明内容

有鉴于此，本发明的目的在于提出一种母线负荷预测方法，能够分析母线负荷的变化规律，提高母线负荷的预测精度，同时满足实时性要求。

基于上述目的本发明提供的母线负荷预测方法，包括：

将待测母线的关键影响因素值作为特征向量，输入预先构建的分类模型中，得到待测日的类别，所述预先构建的分类模型为根据关键影响因素和对待测母线的历史负荷数据进行聚类分析的结果，建立的关键影响因素与母线负荷的映射关系；

根据待测日的类别从预先训练得到的多元回归预测模型中选取相应的多元回归预测模型，进行待测母线负荷的预测；所述预先训练得到的多元回归预测模型为根据待测母线的历史负荷数据的聚类分析结果，针对不同的典型负荷模式，选取对应的历史负荷数据和关键影响因素值作为样本数据训练得到的预测模型。

可选的，所述分类模型的构建方法为：

采用横向比较法筛选出待测母线历史负荷数据中的异常数据，将所述异常数据按照预设算法进行修正，得到修正负荷数据；

结合修正负荷数据以及与负荷相关的影响因素，采用灰色关联投影法计算得到影响因素与历史负荷数据的关联程度，由大到小选取预设数量的所述关联程度对应的影响因素作为关键影响因素；

按照预设的K-means聚类算法对待测母线的历史负荷数据进行聚类分析，得到不同的典型负荷模式；

根据所述关键影响因素和聚类分析的结果，采用随机森林算法构建分类模型，建立关键影响因素与各类母线负荷的映射关系。

可选的，所述采用横向比较法筛选出待测母线的历史负荷数据中的异常数据包括：

采用横向比较法对待测母线的历史负荷数据进行清洗，辨识出异常数据；其中，所述横向比较法采用相邻点负荷的变化率作为判断是否为异常数据的标准，所述负荷变化率计算公式如下：

其中，α(d,t)为第d天t时刻的待测母线负荷变化率，L(d,t)为第d天t时刻的待测母线负荷值；采样点数据是否为异常数据的判断方法为：

其中，

为第d天的前n天内t时刻负荷变化率的最大值，i表示与当前日d的间隔天数，L(d-i,t-1)为第d-i天t-1时刻的采样点数据，每天共有q+1个采样点；采用最近m天的数据对异常数据进行修正；

按时间顺序将当前时刻的负荷值与前一时刻的负荷值比较，当检测到异常数据时立即修正，并作为下一时刻负荷数据的比较值，完成负荷数据的修正。

可选的，所述将所述异常数据按照预设算法进行修正的方法为：

对筛选出的异常数据依据下列算法进行修正，具体算法公式为：

其中，λ_m为权值系数，用于表示第d-m天t时刻负荷对第d天t时刻负荷的影响程度；β为平滑系数，L(d-m,t)为第d-m天t时刻的待测母线负荷值。

可选的，所述采用灰色关联投影法计算得到影响因素与历史负荷数据的关联程度，由大到小选取预设数量的所述关联程度对应的影响因素作为关键影响因素，包括：

首先确定参考序列和比较序列，其中，所述参考序列为所述修正负荷数据：X₀＝{x₀₁,x₀₂,...,x_0m}；比较序列为与负荷相关的影响因素：X_i＝{x_i1,x_i2,...,x_im}，i＝1,2,...,n；得到参考序列和比较序列的序列矩阵：

其中，m表示每一个序列有m个元素，n表示比较序列的个数；X₀代表修正负荷数据对应的负荷序列或参考序列，X_i表示第i个比较序列；

对矩阵X进行标准化处理：

其中，min_{j＝1,2,...,m}x_ij、max_{j＝1,2,...,m}x_ij分别为x_ij所在行元素的最小值和最大值；e_ij为矩阵X中元素x_ij经标准化后的值，e_ij的值限定在0.1至1之间；

矩阵X经过标准化处理后为：

其中，e₀和e_i,i＝1,2,...,n为标准化后的标准化参考序列和标准化比较序列；

标准化比较序列e_i与标准化参考序列e₀的第k个元素的关联系数ξ_0i(k)的计算公式为：

其中，min_imin_j|e_ij-e_0j|为两级最小差，max_imax_j|e_ij-e_0j|为两级最大差；ρ为分辨系数；

计算得到灰色关联系数判断矩阵F如下：

其中，ξ₀₀(j)为标准化参考序列e₀与自身第j个元素的关联系数，值为1；

采用熵权法给矩阵E的列向量赋权值，第一行元素除外，计算公式如下：

其中，E_j表示第j列数据的信息熵，p_ij表示元素e_ij的值在该列元素中所占比重，w_j表示第j列数据的权重，权值向量W＝(w₁,...,w_j,...,w_m).

得到加权灰色关联系数判断矩阵F'：

其中，w_jξ_0i(j)即序列e_i与e₀第j个元素的加权关联系数；

计算灰色关联投影值，计算公式如下：

其中，D_i代表比较序列X_i与待测母线负荷的关联投影值，D_i在0到1之间；

由大到小选择投影值靠前的M个因素作为关键影响因素。

可选的，所述按照预设的K-means聚类算法对待测母线的历史负荷数据进行聚类分析的计算步骤为：

将所述修正负荷数据作为样本集合，设样本集合X＝{x₁,...,x_i,...,x_m}，负荷序列x_i＝{x_i0,...,x_it,...,x_in}，初始质心集合

随机选取一个样本作为第一质心，对剩余的每个样本分别计算与第一质心的欧氏距离：

其中，m为负荷序列的个数，n表示每个负荷序列包括n+1个数据点，k代表质心个数；x_it代表第i个负荷序列中t+1时刻的负荷值，

代表第一质心向量中第t+1个元素值；

选取欧式距离最大的样本作为第二质心，然后继续计算剩余样本与第二质心的距离，然后继续选取欧式距离最大的样本作为第三质心，以此类推，直到k个质心都被确定下来；

分别计算每个样本与所有类型质心的欧氏距离，选定与当前样本的欧氏距离最小的质心作为当前样本所属的类别；

其中，l为迭代次数，x_i为第i个样本，

为第l+1次迭代前第j类样本的质心向量；

当所有样本都归类后，更新每一类的质心；设第j类样本数量为m_j，其样本集合为S_j，重新计算该类样本的质心向量为：

其中，第t+1个分量

计算公式为：

判断是否达到预设的终止条件，若未终止则继续迭代计算，直到将待测母线的历史负荷归为k类典型负荷模式。

可选的，所述判断是否达到预设的终止条件为：在每一次迭代完成以后，按照下式计算各类质心更新前后的距离间隔

表示第l次迭代后，第j类质心的距离间隔；

选出其中的最大值

如果该最大值小于差异容忍度ε，则算法终止，否则重新将样本归类继续迭代更新。

可选的，所述采用随机森林算法构建分类模型的步骤包括：

对历史负荷数据样本集随机有放回抽取s个大小一样的训练样本集TS_i，i＝1,2,...,s；

随机抽取N个影响因素作为每个训练样本集的特征属性；其中，N＜M；

分别训练s个样本集TS_i，生成对应的决策树Tree_i；在整个森林生长的过程中，决策树Tree_i的特征属性保持不变；除叶子节点外，每个决策树采用CART算法中的基尼指数作为节点分裂依据：

其中，d为当前节点，p_i,d为目标类i出现的比例，k为目标类的个数；

对于每个节点，选择基尼指数最小的属性作为分裂属性a；当前节点d按分裂属性a划分的基尼指数为：

Gini(a,d)＝p_LGini(d_L)+p_RGini(d_R)，其中，d_L和d_R为节点d的左、右子节点，p_L和p_R为左右子节点的样本集在父节点中所占比例；

按照上述规则从上到下不断分裂，直到所有节点都被划分或被标记为叶子节点，即决策树生长完成，共有s棵，每棵树不需要剪枝操作，其叶子节点对应聚类分析中的某一聚类结果；将s棵决策树组合在起来，便得到随机森林分类模型；当输入一个测试样本，使用每一棵决策树对它分类，得到s个分类结果，选择出现比例最高的类作为该测试样本的类别。

可选的，所述多元回归预测模型采用多元线性回归法建立，回归参数通过最小二乘法确定。

可选的，回归方程为：

f(x_i)＝b₀+b₁x_i1+b₂x_i2+…+b_nx_in

其中，b₀为回归常数项，b₁,b₂,...,b_n是回归系数，f(x_i)为回归预测值；记每一类样本集中第i个训练样本为X_i＝{x_i,y_i}，其中，x_i＝{x_i1,x_i2,...,x_in}，i＝1,2,...,m，m表示每一类负荷样本集中的样本个数；x_i表示样本X_i的输入序列，x_in为第n个影响因素值，y_i为对应输出的母线负荷真实值；

记输入矩阵X、输出矩阵Y、系数矩阵B如下：

采用最小二乘法确定回归方程的参数估计值：

从上面所述可以看出，本发明提供的母线负荷预测方法通过灰色关联投影法确定负荷数据的关键影响因素，通过K-means聚类和随机森林分类方法，并结合回归分析法基于各类负荷序列的特征规律分别建立统计预测模型，挖掘母线负荷数据的内在规律，将变化复杂的历史负荷分解成几类典型负荷模式，有针对性的训练预测模型，从而根据待测日的类别选择相匹配的模型完成预测。所述母线负荷预测方法不仅能够提高母线负荷预测的精度，而且满足了预测的实时性要求，使得预测结果更为稳定、可靠。

附图说明

图1为本发明提供的母线负荷预测方法的一个实施例的流程图；

图2为本发明提供的母线负荷预测方法的另一个实施例的流程图；

图3为本发明提供的灰色关联投影法的一个实施例的流程图；

图4为本发明提供的预设K-means聚类算法的一个实施例的流程图；

图5为本发明提供的母线负荷预测方法中负荷数据的聚类结果图；

图6为本发明提供的随机森林算法的一个实施例的流程图；

图7为本发明提供的随机森林算法中的决策树生成缩略图；

图8为本发明提供的母线负荷预测方法中母线负荷预测的结果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

为了克服现有技术中短期母线负荷预测存在的缺陷，本发明引入大数据技术中的数据挖掘方法聚类得到若干类母线负荷模式，并结合回归分析法基于各类负荷序列的特征规律分别建立统计预测模型，从而根据待测日的类别选择相应的模型完成预测，即实现模型匹配。与传统方法直接建立预测模型相比，该方法通过对历史负荷序列时域分解，更好地挖掘了母线负荷变化规律，有效提高预测精度；预测模型一旦训练完成，即得到预测模型库，可直接对母线一天内各时刻的负荷进行预测，不必每次预测前重新训练模型，满足短期预测的实时性要求。

参照图1所示，在本发明的一个实施例中，提供了一种母线负荷预测方法，包括：

步骤101，将待测母线当日的关键影响因素值作为特征向量，输入预先构建的分类模型中，得到待测日的类别；其中，所述预先构建的分类模型为根据关键影响因素和对待测母线的历史负荷数据进行聚类分析的结果，建立的关键影响因素与母线负荷的映射关系；

步骤102，根据待测日的类别从预先训练得到的多元回归预测模型中选取相应的多元回归预测模型，进行待测母线负荷的预测；其中，所述预先训练得到的多元回归预测模型为根据待测母线的历史负荷数据的聚类分析结果，针对不同的典型负荷模式，选取对应的历史负荷数据和关键影响因素值作为样本数据训练得到的预测模型。

这样，通过对待测日所属的模型类别先进行分类处理，再采用预测模型进行预测，能够使得母线负荷得到更为准确的预测，而且进一步提高了母线负荷预测的效率。尤其是对于短期母线负荷的预测。也即，本发明所述的母线负荷预测方法基于模型匹配实现了母线负荷的高效、准确的预测。

基于上述预先构建的分类模型为本发明的关键步骤之一，因此，在本发明一个可选的实施例中，还提供了一种分类模型的构建方法，包括：

当然，上述构建方法中选定的算法只是作为本发明实施例一种可选的方式，还可以选用其他适合的算法进行模型的构建。同时也并不限定上述步骤之间的顺序，只需要使得逻辑关系符合正常的算法步骤即可。

参照图2所示，为本发明提供的母线负荷预测方法的另一个实施例的流程图。所述母线负荷预测方法包括：

步骤201，获取并存储待测母线的历史负荷数据以及与负荷相关的影响因素数据；其中，所述影响因素包括：气象信息、日类型等能够影响母线负荷的因素。

步骤202，采用横向比较法筛选出待测母线历史负荷数据中的异常数据，将所述异常数据按照预设算法进行修正，得到修正负荷数据；也即对母线负荷历史数据进行预处理，利用横向比较法对待测母线的历史负荷数据进行处理，辨识出负荷序列中的异常值，并给予修正。

步骤203，结合修正负荷数据以及与负荷相关的影响因素，采用灰色关联投影法计算得到影响因素与历史负荷数据的关联程度，由大到小选取预设数量的所述关联程度对应的影响因素作为关键影响因素；通过确定影响母线负荷的关键因素，使得预测模型有合理的输入维数。

步骤204，按照预设的K-means聚类算法对待测母线的历史负荷数据进行聚类分析，使初始聚类质心均匀分布在样本空间，并将变化特性相似的历史负荷数据归为一类，得到不同的典型负荷模式；其中，母线负荷聚类分析具体通过对待测母线的历史负荷数据以天为单位进行聚类分析，将变化特性相似的母线负荷归为一类，得到若干典型负荷模式。基于预设的K-means聚类算法将初始聚类质心均匀分布在样本空间，提高了算法的收敛速度和聚类准确性。

步骤205，根据所述关键影响因素和聚类分析的结果，采用随机森林算法构建分类模型，建立关键影响因素与各类母线负荷的映射关系；

步骤206，根据待测母线的历史负荷数据的聚类分析结果，针对不同的典型负荷模式，选取对应的历史负荷数据和关键影响因素值作为样本数据，训练得到不同的多元回归预测模型；

步骤207，将待测母线当日的关键影响因素值作为特征向量，输入所述分类模型中，得到待测日的类别，根据待测日的类别选取相应的多元回归预测模型，进行待测母线负荷的预测。

由上述实施例可知，本发明提供的母线负荷预测方法对待测母线历史负荷序列中的异常值进行修正，通过灰色关联投影法确定母线负荷的关键影响因素；利用改进的K-means算法对修正后的历史数据聚类分析，并采用随机森林算法构建分类模型，建立聚类结果与关键影响因素的映射关系；针对每类负荷模式训练若干个多元回归预测模型；将待测日的影响因素值输入随机森林分类模型，得到待测日的类别，从而选择相匹配的回归模型完成预测。所述母线负荷预测方法不仅提高了母线负荷预测的精度，而且满足了预测的实时性要求，使得预测结果更为稳定、可靠。

在本发明一些可选的实施例中，所述采用横向比较法筛选出待测母线的历史负荷数据中的异常数据包括：采用横向比较法对待测母线的负荷历史数据进行清洗，辨识并修正异常值。横向比较法采用相邻点负荷的变化率作为评判异常数据的标准，负荷变化率计算公式如下：

其中，α(d,t)是第d天t时刻的母线负荷变化率，L(d,t)为第d天t时刻的待测母线负荷值；

采样点数据是否为异常值的判断方法如下：

其中，

为第d天前n天内t时刻负荷变化率的最大值，i表示与当前日d的间隔天数；L(d-i,t-1)为第d-i天t-1时刻的采样点数据，每天共有q+1个采样点。

对识别出的异常数据根据下式进行修正：

其中，λ_m为权值系数，用于表示第d-m天t时刻负荷对第d天t时刻负荷的影响程度，β为平滑系数，L(d-m,t)表示第d-m天t时刻的母线负荷值，即采用最近m天的数据作为修正数据。

整个过程按照时间顺序进行，只与前一时刻的负荷值进行比较，当检测到异常数据时立即修正，并作为下一时刻数据的比较值，完成所有历史负荷数据的修正。

在本发明一些可选的实施例中，参照图3所示，所述采用灰色关联投影法计算得到影响因素与历史负荷数据的关联程度，由大到小选取预设数量的所述关联程度对应的影响因素作为关键影响因素，包括：采用灰色关联投影法计算每个影响因素与母线负荷的关联程度。将计算得到的灰色关联投影值进行排序，选择值较大的M个因素作为关键影响因素，具体计算步骤如下：

步骤301，首先确定参考序列和比较序列。参考序列为修正后的历史负荷序列X₀＝{x₀₁,x₀₂,...,x_0m}，气象数据、日期类型等影响因素作为比较序列X_i＝{x_i1,x_i2,...,x_im},i＝1,2,...,n。因此可以得到序列矩阵如下：

其中，m表示每一个序列有m个元素，n表示比较序列的个数。X₀代表参考序列，即负荷序列，X_i表示第i个比较序列，即影响因素序列。

步骤302，对序列矩阵X按下式进行标准化处理：

其中，min_{j＝1,2,...,m}x_ij代表x_ij所在行元素的最小值，max_{j＝1,2,...,m}x_ij代表x_ij所在行元素的最大值。e_ij表示矩阵X中的元素x_ij经标准化后的值，e_ij的值一般限定在0.1至1之间。

矩阵X经过标准化处理后为：

其中，e₀和e_i(i＝1,2,...,n)为标准化后的参考序列和比较序列。

步骤303，计算关联系数。标准化比较序列e_i与参考序列e_i第k个元素的关联系数ξ_0i(k)，由下式决定：

其中，min_imin_j|e_ij-e_0j|为两级最小差，max_imax_j|e_ij-e_0j|为两级最大差，ρ为分辨系数，优选的，ρ取值为0.5。

由关联系数得到灰色关联系数判断矩阵F如下：

其中，ξ₀₀(j)表示标准化负荷序列e₀与自身第j个元素的关联系数，所以值为1。

步骤304，采用熵权法给矩阵E的列向量(第一行元素除外)赋权值，其计算公式如下：

步骤305，由步骤304可得到加权灰色关联判断矩阵F'

其中，w_jξ_0i(j)即序列e_i与e₀第j个元素的加权关联系数。

步骤306，计算灰色关联投影值，其计算公式如下：

其中，D_i代表比较序列X_i与母线负荷的关联投影值，取值在0到1之间，值越接近1，相关程度越大；值越接近0，相关程度越弱。与灰色关联度相比，灰色关联投影值可以更加综合地反应两个对象发展趋势的相似程度。

步骤307，最后选择投影值最大的M个影响因素作为关键影响因素。M值可以根据需要设定，且选取的过程可以先将所有投影值排序，由大到小选择投影值靠前的M个因素作为关键影响因素，也可以不需要排序。

在本发明一些可选的实施例中，所述按照预设的K-means聚类算法对待测母线的历史负荷数据进行聚类分析的计算步骤包括：

将修正后的历史负荷数据作为样本集，采用改进的K-means算法用于母线负荷特性聚类。具体计算过程如下：

步骤401，初始聚类质心的选择。传统算法的初始聚类质心是随机选择的，而本发明提出的改进算法以距离为标准，将初始质心均匀地分布在样本空间，有效降低初始质心对聚类结果的影响。设样本集合X＝{x₁,...,x_i,...,x_m}，负荷序列x_i＝{x_i0,...,x_it,...,x_in}，初始质心集合

随机选取一个样本为第一质心。

步骤402，对剩余的每个样本，按下式分别计算与第一质心的欧氏距离d：

其中，m表示样本集合中负荷序列的个数，n表示每个负荷序列包括n+1个数据点，k代表质心个数，即有k个负荷模式。x_it代表第i个负荷序列中t+1时刻的负荷值，

代表类1的初始质心向量

中第t+1个元素值。

选择欧式距离最大的样本作为第2个质心，然后继续计算剩余样本与第2个质心的距离，选择距离最大的样本作为第3个质心，以此类推，直到k个质心都被确定下来。可选的，k为6。

步骤403，判断是否已经选出k个质心，若已将选出k个质心，则表示筛选操作已完成，可以进行下一步，若质心数量还未到达k个，则继续选取质心。

步骤404，将得到的k个质心分别与不同的类型的负荷模式相互对应，或者说建立对应关系，此时迭代的次数记为0。

步骤405，样本指派或样本确定。分别计算每个样本与所有质心的欧氏距离，筛选出与该样本的欧式距离最小的质心对应的负荷类型，将该样本指派给这负荷类型。计算公式如下：

其中，l为迭代次数，x_i为第i个样本，

是第l+1次迭代前j类质心向量。

步骤406，更新质心。计算每一类的质心向量，并在所有样本都被指派后，开始更新每一类的质心。设第j类样本数量为m_j，其样本集合为S_j，重新计算该类的质心向量为：

其中，第t+1个分量

计算如下，

步骤407，判断是否达到终止条件。本发明中除选择设定最大迭代次数作为停止准则外，还通过定义差异容忍度ε来判断算法是否可以终止。在每一次迭代完成以后，按照下式计算各类质心更新前后的距离间隔：

表示第l次迭代后，第j类质心的距离间隔；

在每次指派更新后，会产生k种计算结果。选出其中的最大值

如果该值小于预先定义的差异容忍度，则算法终止，否则转到步骤405继续迭代更新。

该过程将母线历史负荷归为k类负荷模式，每一种负荷模式下母线负荷的变化趋势更加明显、规律性更强，为构建模型和提高预测精度奠定了基础。

步骤408，得到k种聚类结果。

在本发明进一步的实施例中，所述采用随机森林算法构建分类模型的步骤还包括：

对历史样本集S随机有放回抽取s个与S一样的训练样本集TS_i,i＝1,2,...,s；

根据关键影响因素的个数M，随机抽取N(N＜M)个影响因素作为每个训练样本集的特征属性；

分别训练s个样本集TS_i，生成对应的决策树Tree_i。在整个森林生长的过程中，Tree_i的特征属性保持不变。除叶子节点外，每个决策树采用CART算法中的基尼指数(Gini index)作为节点分裂依据：

其中，d为当前节点，p_i,d为目标类i出现的比例，k为目标类的个数。基尼指数越接近0，则划分的纯度更高，效果越好。

对于每个节点，考虑各个特征属性对节点划分的所有情况，选择基尼指数最小的属性作为分裂属性a。当前节点d按分裂属性a划分的基尼指数为：

Gini(a,d)＝p_LGini(d_L)+p_RGini(d_R)，其中，d_L和d_R为节点d的左、右子节点，p_L和p_R为左右子节点的样本集在父节点中所占比例。

按照上述规则从上到下不断分裂，直到所有节点都被划分或被标记为叶子节点，即决策树生长完成，共有s棵，每棵树不需要剪枝操作，其叶子节点对应聚类分析中的某一聚类结果。当输入一个测试样本，便用每一棵决策树对它分类，得到s个分类结果，选择出现比例最高的类作为该测试样本的类别。

将s棵决策树组合在起来，便得到随机森林分类模型，从而建立影响因素与聚类结果之间的映射关系，实时高效地完成待测日类别的确定，为预测模型匹配奠定基础。

在本发明一些可选的实施例中，所述训练得到不同的多元回归预测模型的步骤还包括：

针对母线负荷的聚类结果，考虑到短期负荷预测的实时性，本发明选用多元线性回归模型进行预测。将每一类母线负荷数据和关键影响因素作为训练样本，构建若干个预测模型。预测模型采用多元线性回归法建立，参数通过最小二乘法确定。

具体的，记每类样本集中第i个训练样本为X_i＝{x_i,y_i}，x_i＝{x_i1,x_i2,...,x_in}，i＝1,2,...,m，m表示每一类负荷样本集中的样本个数。x_i表示样本X_i的输入序列，x_in为第n个影响因素值，y_i为对应输出的母线负荷真实值。

回归方程如下：

f(x_i)＝b₀+b₁x_i1+b₂x_i2+…+b_nx_in

其中，b₀为回归常数项，b₁,b₂,...,b_n是回归系数，f(x_i)为回归预测值。

记输入矩阵X、输出矩阵Y、系数矩阵B如下：

采用最小二乘法确定回归方程的参数估计值：

将待测日每一时刻的关键影响因素值输入到随机森林分类模型中，得到待测日的类别，从而选择相应的多元回归预测模型完成负荷预测。

本发明母线负荷预测方法具有以下效果：通过对历史母线负荷的聚类分析、统计模型的建立以及待测日的模型匹配，有效挖掘了母线负荷的变化规律，得到更加精确的预测结果；同时不必每次预测前训练模型，进一步满足母线负荷预测的实时性要求。

在本发明的另一个实施例中，以某电网地市公司一条110kV母线有功负荷作为预测实例。

第一阶段，为历史负荷数据预处理部分。选定某变电站110kV母线全天24时刻的负荷值作为为预测对象，并以预测日前一年的负荷数据为训练样本，数据格式如表1：

表1母线负荷数据表

表1中每一行数据代表一个24维的负荷样本序列。由于采集系统的不稳定，历史负荷数据中可能存在若干异常值，即异常数据，会严重影响预测精度。

通过横向比较法对异常数据进行修正。采样周期设为1小时，每天共24个数据点，按照时间顺序依次计算相邻时刻负荷的变化率：

将计算出的每一时刻采样点前7天内负荷变化率的最大值，作为该采样时刻数据是否为异常值的判据，判断公式如下：

若负荷数据为异常值，则采用最近3天同一时刻的数据通过修正公式进行修正，修正公式如下：

L(d,t)＝λ₁L(d-1,t)+λ₂L(d-2,t)+λ₃L(d-3,t)

经过验证，当取平滑系数β＝0.5，修正权值分别为λ₁＝0.5，λ₂＝0.26，λ₃＝0.24时，修正效果最好。

第二阶段，为关键影响因素的确定阶段。参照附图3，为灰色关联投影法的具体实现过程。以该地市公司所在城市的气象数据为基础，其影响因素选择为：最高温度(T_max)、最低温度(T_min)，实时温度(RT)，平均风速(AW)、相对湿度(RH)、平均降水量(AP)、日类型(DT)和季节类型(ST)，具体参数如表2：

表2影响因素数据

表2中，每种影响因素对应的列数据为比较序列X_i，各采样时刻的负荷数据为参考序列X₀。日类型的赋值规则为{工作日，周末，节假日}＝{1,2,3}，季节类型赋值为{夏季，冬季，春季，秋季}＝{4,3,2,1}，其它影响因素数据都为实际测量值。

通过公式对比较序列和参考序列分别做标准化处理，将对应的数值限制在0.1至1之间，得到标准化序列矩阵E：

其中，e_nm表示序列矩阵X中的元素x_nm经标准化后的值。比较序列的个数n＝8，m＝8760为每个序列的元素个数，即每天24个采样点，共365天。

比较序列与参考序列各元素间的灰色关联系数由关联系数计算公式得到，从而得到灰色关联系数判断矩阵F。同时采用熵权法对矩阵E(除第一行元素)的列向量赋权值，得到权值向量W＝(w₁,w₂,...,w₈₇₆₀)。结合矩阵F，可得到加权灰色关联判断矩阵F'_：

其中，ξ_0i(j)为标准化比较序列e_i与参考序列e₀第j个元素的关联系数，w_j为列向量j的权值，w_jξ_0i(j)即序列e_i与e₀第j个元素的加权关联系数。

参考序列X_i与比较序列X₀的灰色关联投影值D_i计算如下：

通过上述计算，得到8种影响因素的灰色关联投影值如表3：

表3影响因素的灰色关联投影值

T_max	T_min	RT	AW	RH	AP	DT	ST
0.87	0.64	0.72	0.28	0.66	0.32	0.55	0.43

平均风速和平均降雨量为弱相关性因素，日类型和季节类型为中等相关性因素。排序选取最高温度、实时温度、相对湿度、最低温度和日类型作为影响待测母线负荷走势的关键影响因素。

第三阶段，为待测母线的历史负荷聚类阶段。参照附图4，为改进的K-means算法具体实现过程。

确定初始聚类质心。历史负荷样本集合X共有365个样本序列，随机选取一个样本序列作为第一个初始质心向量

分别计算剩余的每个样本与

的欧氏距离d：

其中，x_it为第i个样本序列中t+1时刻的负荷值，

为类1的初始质心向量中第t+1个元素值。

选择d最大的样本作为第二初始质心向量

继续计算剩余样本与

的距离，得到

直到k个质心都被确定下来。本实施例中，k＝6，将母线负荷序列归为6种典型负荷模式。

当6个初始质心确定以后，开始进行算法迭代，指派样本。计算每个样本与所有质心的欧氏距离，每个样本将被指派给离自己最近的那个质心所代表的类：

其中，l为迭代次数，x_i为第i个样本，

是第l+1次迭代前类j的质心向量。

更新质心向量：每次指派样本后，需更新每一类负荷样本的质心。若类j样本数量为m_j，其样本集合为S_j，则质心向量

中的元素

更新为：

判断算法是否达到终止条件。除最大迭代次数之外，定义差异容忍度ε判断算法是否终止。在质心更新以后，计算每个类质心向量更新前和更新后的距离：

选出其中的最大值

若果该值小于差异容忍度ε＝0.01，则算法终止，否则继续迭代更新。

上述聚类过程将母线历史负荷归为6种负荷模式，聚类结果如附图5所示。类1包含82天，主要集中在休息日，类2、类5主要包含112和89个工作日，这两类负荷值的差异主要是由于季节性因素造成的，类3包含25天，受极端天气所致，负荷远高于其他类；类4主要包含了所有的节假日，曲线形状明显和其它类不同；类6包含31天，负荷曲线波动较大。

第四阶段，为随机森林分类模型的构建阶段。参照附图6，为随机森林算法的具体实现过程。

对历史样本集S随机有放回抽取100个与S一样的训练样本集TS_i,i＝1,2,...,100。训练样本集TS_i的数据如表4：

表4训练样本集

时间	T_max	RT	RH	T_min	DT	聚类结果
01/01 00:00	10	2	51	-2	3	类5
02/0509:00	5	3	64	-5	1	类2
…	…	…	…	…	…	…

针对每个训练样本集随机选取3个影响因素作为特征属性。

分别训练100个样本集TS_i，生成对应的决策树Tree_i。在整个森林生长的过程中，Tree_i的特征属性保持不变。除叶子节点外，每个决策树采用CART算法中的基尼指数(Gini index)作为节点分裂依据：

其中，d为当前节点，p_i,d为目标类i出现的比例。基尼指数越接近0，则划分的纯度更高，效果越好。

对于每个节点，考虑3个特征属性对节点划分的所有情况，选择基尼指数最小的属性作为分裂属性a。当前节点d按属性a划分的基尼指数为：

按照上述规则从上到下不断分裂，直到所有节点都被划分或被标记为叶子节点，即决策树生长完成，共有100棵，每棵树不需要剪枝操作，其叶子节点对应某一聚类结果。当输入一个测试样本，便用每一棵决策树对它分类，得到100个分类结果，选择出现比例最高的类作为该测试样本的类别。

将100棵决策树组合在起来，便得到随机森林分类模型，从而建立影响因素与聚类结果之间的映射关系。附图7为随机森林分类模型中决策树生成的缩略图。

第五阶段，为预测模型的训练阶段。根据聚类结果，将每一负荷模式下的母线负荷数据和关键影响因素值整合为训练样本集，如表5：

表5训练样本集

m为每一类样本集的样本个数。样本序列X_i＝{x_i,y_i}，x_i＝{x_i1,x_i2,...,x_i5}，i＝1,2,...,m。其中，x_i表示样本X_i的影响因素序列，y_i为对应输出的母线负荷真实值。

每一类负荷模式需要根据自己的训练样本集构建预测模型，最终得到6个回归方程。多元回归方程由下式得到：

f(x_i)＝b₀+b₁x_i1+b₂x_i2+…+b₅x_i5

其中，b₀为回归常数项，b₁,b₂,...,b₅是回归系数，f(x_i)为回归预测值。每个回归方程的回归常数项和系数根据公式(22)计算得到，结果如表6：

表6回归系数

	b₀	b₁	b₂	b₃	b₄	b₅
方程1	4.9	0.64	0.51	0.36	0.32	0.23
方程2	-8.5	0.57	0.60	0.41	0.26	0.18
方程3	6.5	0.48	0.66	0.35	0.43	0.20
方程4	-3.8	0.68	0.52	0.37	0.35	0.29
方程5	3.2	0.51	0.52	0.36	0.30	0.27
方程6	1.8	0.71	0.55	0.34	0.39	0.22

第六阶段，为模型匹配与预测阶段。选定该母线2016年6月21日的负荷数据作为测试样本，当日的气象数据和日类型信息如下：

将该日24时刻对应的影响因素值分别输入到随机森林分类模型中，得到待测日属于第2类负荷模式，从而选择模型2(回归方程2)完成负荷预测，结果如附图8所示。采用本发明方法得到的预测结果最大相对误差为2.89％，最小相对误差为0.32％，而平均相对误差仅为1.29％；而传统多元回归预测法的最大相对误差为3.06％，最小相对误差为0.28％，平均相对误差为1.38％。因此，本发明中所采用的预测方法的准确度明显提升，具有广泛的应用前景。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种母线负荷预测方法，其特征在于，包括：

将待测母线的关键影响因素值作为特征向量，输入预先构建的分类模型中，得到待测日的类别；所述预先构建的分类模型为根据关键影响因素和对待测母线的历史负荷数据进行聚类分析的结果，建立的关键影响因素与母线负荷的映射关系；

根据待测日的类别从预先训练得到的多元回归预测模型中选取相应的多元回归预测模型，进行待测母线负荷的预测；所述预先训练得到的多元回归预测模型为根据待测母线的历史负荷数据的聚类分析结果，针对不同的典型负荷模式，选取对应的历史负荷数据和关键影响因素值作为样本数据训练得到的预测模型。
根据权利要求1所述的母线负荷预测方法，其特征在于，所述分类模型的构建方法为：

采用横向比较法筛选出待测母线历史负荷数据中的异常数据，将所述异常数据按照预设算法进行修正，得到修正负荷数据；

结合修正负荷数据以及与负荷相关的影响因素，采用灰色关联投影法计算得到影响因素与历史负荷数据的关联程度，由大到小选取预设数量的所述关联程度对应的影响因素作为关键影响因素；

按照预设的K-means聚类算法对待测母线的历史负荷数据进行聚类分析，得到不同的典型负荷模式；

根据所述关键影响因素和聚类分析的结果，采用随机森林算法构建分类模型，建立关键影响因素与各类母线负荷的映射关系。
根据权利要求2所述的母线负荷预测方法，其特征在于，所述采用横向比较法筛选出待测母线的历史负荷数据中的异常数据包括：

采用横向比较法对待测母线的历史负荷数据进行清洗，辨识出异常数据；其中，所述横向比较法采用相邻点负荷的变化率作为判断是否为异常数据的标准，所述负荷变化率计算公式如下：

其中，α(d,t)为第d天t时刻的待测母线负荷变化率，L(d,t)为第d天t时刻的待测母线负荷值；

采样点数据是否为异常数据的判断方法为：

其中，
为第d天的前n天内t时刻负荷变化率的最大值，i表示与当前日d的间隔天数，L(d-i,t-1)为第d-i天t-1时刻的采样点数据，每天共有q+1个采样点；采用最近m天的数据对异常数据进行修正；

按时间顺序将当前时刻的负荷值与前一时刻的负荷值比较，当检测到异常数据时立即修正，并作为下一时刻负荷数据的比较值，完成负荷数据的修正。
根据权利要求2所述的母线负荷预测方法，其特征在于，所述将所述异常数据按照预设算法进行修正的方法为：

对筛选出的异常数据依据下列算法进行修正，具体算法公式为：

其中，λ_m为权值系数，用于表示第d-m天t时刻负荷对第d天t时刻负荷的影响程度；β为平滑系数，L(d-m,t)为第d-m天t时刻的待测母线负荷值。
根据权利要求2所述的母线负荷预测方法，其特征在于，所述采用灰色关联投影法计算得到影响因素与历史负荷数据的关联程度，由大到小选取预设数量的所述关联程度对应的影响因素作为关键影响因素，包括：

首先确定参考序列和比较序列，其中，所述参考序列为所述修正负荷数据：X₀＝{x₀₁,x₀₂,...,x_0m}；比较序列为与负荷相关的影响因素：X_i＝{x_i1,x_i2,...,x_im}，i＝1,2,...,n；得到参考序列和比较序列的序列矩阵：

其中，m表示每一个序列有m个元素，n表示比较序列的个数；X₀代表修正负荷数据对应的负荷序列或参考序列，X_i表示第i个比较序列；

对矩阵X进行标准化处理：

其中，min_{j＝1,2,...,m}x_ij、max_{j＝1,2,...,m}x_ij分别为x_ij所在行元素的最小值和最大值；e_ij为矩阵X中元素x_ij经标准化后的值，e_ij的值限定在0.1至1之间；

矩阵X经过标准化处理后为：

其中，e₀和e_i,i＝1,2,...,n为标准化后的标准化参考序列和标准化比较序列；

标准化比较序列e_i与标准化参考序列e₀的第k个元素的关联系数ξ_0i(k)的计算公式为：

其中，min_imin_j|e_ij-e_0j|为两级最小差，max_imax_j|e_ij-e_0j|为两级最大差；ρ为分辨系数；

计算得到灰色关联系数判断矩阵F如下：

其中，ξ₀₀(j)为标准化参考序列e₀与自身第j个元素的关联系数，值为1；

采用熵权法给矩阵E的列向量赋权值，第一行元素除外，计算公式如下：

其中，E_j表示第j列数据的信息熵，p_ij表示元素e_ij的值在该列元素中所占比重，w_j表示第j列数据的权重，权值向量W＝(w₁,...,w_j,...,w_m).

得到加权灰色关联系数判断矩阵F'：

其中，w_jξ_0i(j)即序列e_i与e₀第j个元素的加权关联系数；

计算灰色关联投影值，计算公式如下：

其中，D_i代表比较序列X_i与待测母线负荷的关联投影值，D_i在0到1之间，值越接近1，相关程度越大；值越接近0，相关程度越弱；

由大到小选择投影值靠前的M个因素作为关键影响因素。
根据权利要求2所述的母线负荷预测方法，其特征在于，所述按照预设的K-means聚类算法对待测母线的历史负荷数据进行聚类分析的计算步骤为：

将所述修正负荷数据作为样本集合，设样本集合X＝{x₁,...,x_i,...,x_m}，负荷序列x_i＝{x_i0,...,x_it,...,x_in}，初始质心集合
随机选取一个样本作为第一质心，对剩余的每个样本分别计算与第一质心的欧氏距离：

其中，m表示样本集合中负荷序列的个数，n表示每个负荷序列包括n+1个数据点，k代表质心个数；x_it代表第i个负荷序列中t+1时刻的负荷值，
代表第一质心向量中第t+1个元素值；

选取欧式距离最大的样本作为第二质心，然后继续计算剩余样本与第二质心的距离，然后选取欧式距离最大的样本作为第三质心，以此类推，直到k个质心都被确定下来；

分别计算每个样本与所有类型质心的欧氏距离，选定与当前样本的欧氏距离最小的质心作为当前样本所属的类别；

其中，l为迭代次数，x_i为第i个样本，
为第l+1次迭代前第j类样本的质心向量；

当所有样本都归类后，更新每一类的质心；设第j类样本数量为m_j，其样本集合为S_j，重新计算该类样本的质心向量为：

其中，第t+1个分量
计算公式为：

判断是否达到预设的终止条件，若未终止则继续迭代计算，直到将待测母线的历史负荷归为k类典型负荷模式。
根据权利要求6所述的母线负荷预测方法，其特征在于，所述判断是否达到预设的终止条件为：

在每一次迭代完成以后，按照下式计算各类质心更新前后的距离间隔：

表示第l次迭代后，第j类质心的距离间隔；

选出其中的最大值
如果该最大值小于差异容忍度ε，则算法终止，否则重新将样本归类继续迭代更新。
根据权利要求2所述的母线负荷预测方法，其特征在于，所述采用随机森林算法构建分类模型的步骤包括：

对历史负荷数据样本集随机有放回抽取s个大小一样的训练样本集TS_i，i＝1,2,...,s；

随机抽取N个影响因素作为每个训练样本集的特征属性；其中，N＜M；

分别训练s个样本集TS_i，生成对应的决策树Tree_i；在整个森林生长的过程中，决策树Tree_i的特征属性保持不变；除叶子节点外，每个决策树采用CART算法中的基尼指数作为节点分裂依据：

其中，d为当前节点，p_i,d为目标类i出现的比例，k为目标类的个数；

对于每个节点，选择基尼指数最小的属性作为分裂属性a；当前节点d按分裂属性a划分的基尼指数为：

Gini(a,d)＝p_LGini(d_L)+p_RGini(d_R)，其中，d_L和d_R为节点d的左、右子节点，p_L和p_R为左右子节点的样本集在父节点中所占比例；

按照上述规则从上到下不断分裂，直到所有节点都被划分或被标记为叶子节点，即决策树生长完成，共有s棵，每棵树不需要剪枝操作，其叶子节点对应聚类分析中的某一聚类结果；将s棵决策树组合在起来，便得到随机森林分类模型；当输入一个测试样本，使用每一棵决策树对它分类，得到s个分类结果，选择出现比例最高的类作为该测试样本的类别。
根据权利要求1所述的母线负荷预测方法，其特征在于，所述多元回归预测模型采用多元线性回归法建立，回归参数通过最小二乘法确定。
根据权利要求9所述的母线负荷预测方法，其特征在于，回归方程为：

f(x_i)＝b₀+b₁x_i1+b₂x_i2+…+b_nx_in

其中，b₀为回归常数项，b₁,b₂,...,b_n是回归系数，f(x_i)为回归预测值；记每一类样本集中第i个训练样本为X_i＝{x_i,y_i}，其中，x_i＝{x_i1,x_i2,...,x_in}，i＝1,2,...,m，m表示每一类负荷样本集中的样本个数；x_i表示样本X_i的输入序列，x_in为第n个影响因素值，y_i为对应输出的母线负荷真实值；

记输入矩阵X、输出矩阵Y、系数矩阵B如下：

采用最小二乘法确定回归方程的参数估计值：