《电力大数据》引发技术变革的电力大数据

2018-05-17 17:17:36 大云网　点击量：评论 (0)

大数据技术在电网中的应用，突破了传统技术的瓶颈，带来了巨大的技术变革。大数据依靠集群的力量对数据进行分析处理，根据数据量的不同，可以适时调整集群的规模。

3 引发技术变革的电力大数据

3.1 数据规模大，数据处理时效性要求高——传统技术手段不能经济地满足业务性能需求

3.1.4实际案例：基于大数据的短期负荷预测

1、现状和需求
电力系统短期负荷预测结果关系到电力系统调度运行和生产计划的制定，准确的短期负荷预测结果有助于提高系统的安全性和稳定性，能够减少发电成本。电网中短期负荷预测主要根据自然条件与人为影响等多个因素与负荷之间的非线性关系，在满足一定准确度要求的条件下，确定未来几天的负荷数据，其中负荷足指电力需求摄（功率）或用电量。负荷预测的建模与预测是根据历史数据资料所包含的信息，建立理想的模型及处理随机因素仍然是负荷预测的主要问题，影响负荷预测准确度的原因是多方面的，典体可分为以下三个方面：
1）影响因素的不确定性导致负荷规律难以把握。影响负荷走势的因素包括温度、降水等天气因素，也包含重大设备检修、重大文体活动等人为因素。这些因素呈现显著的随机性和不确定性，因此负荷时间序列的变化呈现非平稳的随机过程:，
2）负荷预测模型的质量直接关乎预测准确度的高低，负荷预测模型的建模与预测是依据历史数据资料所包含的信息，因此预测模型反映历史数据所包含信息的有效性和程度决定了预测水平的高低；
3）信息不完整由于大量用户的用电行为与影响因素（如气象因素）之间的关系在历史数据中是没有记载的，信息的缺失和不完整是无法避免的，这些因素是负荷預测误差进一步减小的瓶颈。

2.应用场景
目前，电网公司根据其业务要求大踏步推进用电信息采集系统的建设。据国家电网公司相关报告指出，预计其用电信息采集系统智能电表数量到2015年将达到三亿块，用户用电信息采集频率更加频繁：每15分钟甚至每5分钟就需要采集一次数据，且数据是双向互动流转，规模和频率呈指数级增长。以河南省为例，河南全省实现全采集、全覆盖后，用户总量将达到4000万，接入终端量接近300万，采集数据总量接近60TB,年增量约为30TB。
实现对电网用户的用电信息全采集，为准确把握用户级负荷变化规律提供了数据基础。目前调度部门短期负荷预测的对象主要针对总量负荷，或者再深一层次变电站的母线负荷，通过母线负荷累加获得总量负荷。而电网负荷是由众多用户负荷构成，不同用户的负荷受自身行业属性和生产特点影响，负荷规律也是千差万别，从电网负荷总量上分析负荷变化规律忽略了用户的用电规律，因此分析结果必然存在一定的偏颇，更加无法精确定位负荷波动的源头(即用户)。而用电信息采集系统的海量用户级负荷信息将使从用户级负荷入手的短期负荷预测成为可能。

同时，随着电网公司GIS数据平台等业务辅助平台的完善，以及多源数据平台的融合，行业标准划分数据、季节天气等与短期负荷密切耦合的相关因素数据也将会纳入到短期负荷预测的基础数据库中。众所周知，负荷的影响因素众多、非线性极强。结合负荷数据与影响因素数据，研究负荷随多种因素的变化规律。进而总结用户的用电规律，将是提高短期负荷预测准确度的一种有效手段。

3.大数据解决方案
电网公司现有数据源头已经可以定位至用户级负荷层面，结合其完备的业务辅助平台数据库，在这里，我们提出一个基于大数据技术的短期负荷预测解决方案。
该方案的主体思路是采用对每个用户的负荷进行独立预测，最后累加的方法。数据源为电网用电信息采集系统数据库及相关影响因素数据库，软件采用大数据技术（如聚类分析、灰色关联分析、决策树等）对负荷数据进行预处理，把握每个用户负荷与天气、日类型等影响因素的密切关系，并根据不同用户特性构建预测模型，最后累加所有用户的预测結果得到系统预测负荷，原理框架如下图所示。

下面，将详细介绍组成该方案的五个步骤。
步骤1：负荷曲线聚类分析
甶于负荷曲线的走势与日类型、天气因素等密切相关，对历史负荷曲线的聚类分析是负荷预测的基础步骤。针对海量的用户负荷，若无针对性地研究每个用户的用电规律将会造成巨大的资源浪费。因此，合理的数据挖掘技术（即聚类分析）能够将用电规律相近的负荷日期归为一类。聚类分析技术通过计算各个向量之间的空间距离，将其由零散分布的独立样本逐渐归为趋势相近的若干类。

步骤2：确立关键影响因素
对影响负荷的因素进行关联度排序，剔除一些对负荷影响小的因素，从而达到约简分类规则，简化预测模型的目的。
在关联分析方法中，灰色关联分析法是一种应用较多，效果得到普遍公认的关联度量化方法。采用该算法计算每个因素［如日最高气温，日平均气温、平均湿度、日类型（星期几）等］与负荷曲线之间的灰色关联度、将预测日前一年的历史负荷数据、气象数据以及日类型数据集作为分析样本，设定母序列为负荷值，天气因素、日类型为若干子序列。采用灰色关联分析算法分析各个子序列与母序列的相关性，最后将一年每天的灰色关联度求均值即可得到各个影响因素的灰色关联度。对灰色关联度进行排序，选定值较大的前四个作为影响该用户负荷的关键影响因素。

步骤3：建立分类规则
通过步骤1以及步骤2得到了待预测日过去一年的历史负荷曲线的分类结果和影响负荷的关键因素。步骤3需要找到分类结果与关键影响因素间的耦合关系，即造成聚类结果的依据，并以分类规则的形式表现出来。该步骤的作用是当已知待预测日的关键影响因素值时，可以将预测口遵循分类规则分配到对应的聚类中去.从而该类的结果就可以作为预测日的相似日数据集来训练模型。
CART决策树算法是一种直观的表征分类关系的规律表示方法，在每个节点（除叶节点外〉将选用Gini指数最小的关键影响因素.将当前节点的历史负荷数据集分割为两个子集，直到最后的分类结果与步骤1中的聚类结果吻合。该过程完成了对历史负荷及关键影响因素数据与聚类结果间耦合关系的学习，能够消楚完善地表征分类规则。

步骤4：将待測日分类
当得到预测日的关键因素日特征向量（即关键因素值组成的向量）后，将其输入步骤3建立的决策树模型中，即可输出相应的分类结果。

步骤5：训练预测模型并预测
针对步骤1的分类结果，将每类的负荷数据及相应的关键因素数据构建训练样本针对每类负荷数据的变化规律和特征，选取匹配的预测模型完成对该日负荷的预测。在这个过程中，我们选用支持向量机方法，该方法的核函数通常为RBF核函数，因为此核函数下需要确定的支持向量机参数有核参数，不敏感洗漱和惩罚参数。不同的参数组合，匹配不同类型的负荷，具有更强的建模针对性。根据步骤4中得出的待预测日的分类结果，选用对应的支持向量机模型完成预测。

步骤6: 计算系统负荷
根据目标预测系统，针对系统中的每个用户重复步骤1~5，该过程涉及的数据体量巨大，可以采用Hadoop大数据平台进行计算，最后累加所有用户负荷，并考虑网损即可得出最终的系统负荷。Hadoop大数据平台的使用主要包括涉及HDFS和HBase的数据存储和管理系统，下表为该预测方案针对该地区120万负荷的预测在Hadoop大数据平台上实现的效果，预测结果满足短期负荷预测时间要求。

表3-1Hadoop大数据平台的预测效果