研究：智能电网大数据平台及其关键技术

2018-03-21 10:49:15 供用电杂志　点击量：评论 (0)

智能电网是大数据的重要技术应用领域之一。智能电网大数据结构复杂、种类繁多，具有分散性、多样性和复杂性等特征，这些特征给大数据处理带

2.3数据处理技术

智能电网大数据的应用类型多，需要根据不同的业务需求采用不同的数据处理技术。根据大数据的数据特征和计算需求，大数据处理技术分流处理、批处理、内存计算、图计算等。

2.3.1 流处理

流处理的处理模式将数据视为流，源源不断的数据组成了数据流，当新的数据到来时就立刻处理并返回所需的结果。数据流本身具有持续达到、速度快且规模巨大等特点，因此通常不会对所有的数据进行永久化存储，而且数据环境处在不断的变化之中，系统很难准确掌握整个数据的全貌。目前广泛应用的流处理系统有Twitter Storm和Yahoo S4。

Storm是分布式实时计算系统，主要用于流数据处理，可以简单、高效、可靠地处理大量的数据流。它能够处理源源不断流进来的信息，处理之后将结果写入到某个存储中去。Storm的优点是全内存计算，因为内存寻址速度是硬盘的百万倍以上，所以Storm的速度较快。Storm弥补了Hadoop批处理所不能满足的实时要求，经常用于实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。

2.3.2 批处理

Google公司在2004年提出的Map-Reduce是最具代表性的批处理模式。Map-Reduce是一个使用简易的软件框架，用于大规模数据集的并行运算，主要用来进行大规模离线数据分析。基于它实现的应用程序能够运行在由数千个商用机器组成的大型集群上，并以一种可靠容错的并行处理大规模数据集。Map-Reduce的核心思想是将问题分而治之，并把计算推到数据所在的服务器，有效地避免数据传输过程中产生的大量通信开销。

Map-Reduce的优点主要有2个方面：①不仅能用于处理大规模数据，而且能将很多繁琐的细节隐藏起来，如自动并行化、负荷均衡和灾备管理等，这将极大简化开发工作;②伸缩性非常好，集群能够方便的扩展。而Map-Reduce的不足是其不适应实时应用的需求，只能进行大规模离线数据分析。

2.3.3 内存计算

随着内存价格的不断下降，服务器配置的内存容量不断增大，用内存计算来完成大规模数据处理成为可能。与Hadoop Map-Reduce批处理相比，内存计算能够提供高性能的大数据分析处理能力。内存计算是一种体系结构上的解决方法，它可以和各种不同的计算模式相结合，包括批处理、流处理、图计算等。比如Spark是分布式内存计算的一个典型并行计算框架，Spark基于Map-Reduce算法实现的分布式计算，拥有Hadoop Map-Reduce所具有的优点;但不同于Map-Reduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark具有更好的性能，适用于数据挖掘与机器学习等需要迭代的Map-Reduce的算法。

智能电网大数据应用根据业务特点和对处理响应的时间来选择数据处理的方式，针对电网安全在线分析、电网运行监控等业务，数据实时性要求高、需要作出迅速响应，可以采用流处理内存计算;而对于用户用电行为分析等业务，实时性和响应时间要求低，可以采用批处理方式。

2.4数据分析技术

数据分析是智能电网大数据处理的核心，由于大数据的海量、复杂多样、变化快等特性，大数据环境下的传统小数据分析算法很多已不再适用，需要采用新的数据分析方法或对现有数据分析方法进行改进。

数据挖掘方法主要有分类、关联分析、聚类、异常检测、回归分析等，其中每一类包括众多的算法。分类包括支持向量机、决策树、贝叶斯、神经网络等技术;关联分析包括Apriori、FP-growth等算法;聚类分析分为划分法、层次法、密度法、图论法、模型法等，具体算法如k-means 算法、K-MEDOIDS算法、Clara算法、Clarans算法、SOM神经网络、FCM聚类算法等;异常检测包括基于统计、距离、偏差、密度等方法。在智能电网应用中需要对现有的算法进行优化和并行化改进，实现分布式处理。

机器学习是面向任务解决的基于经验提炼模型实现最优解设计的计算机程序，通过经验学习规律，一般应用在缺少理论模型指导但存在经验观测的领域中。机器学习分为归纳学习、分析学习、类比学习、遗传算法、联接学习、增强学习等。深度学习是机器学习研究中的一个新的领域，2006年由Hinton等提出，其目的在于建立模拟人脑进行分析学习的神经网络，目前深度学习在语音识别、图像识别、机器翻译等领域进行了应用，并取得了较好的效果。

智能电网大数据挖掘主要为结构化数据，同时也存在文本、图像、音频、视频等数据，在智能电网大数据应用中需要针对具体的业务采用合适的数据分析方法。

3、智能电网大数据平台

3.1核心平台框架

智能电网大数据应用需要构建在大数据平台之上，大数据平台为应用提供统一数据接入、清洗、存储、管理、分析计算等功能。大数据核心平台由基础资源、数据存储、数据分析与处理、数据管理、平台服务和平台管控等组成。

基础资源层主要包括计算资源池、存储资源池、网络资源池，为虚拟化的资源，能够实现弹性的资源供给和扩展。基于存储资源池实现大数据平台的各种数据存储功能，包括分布式文件系统、分布式数据库、传统数据库和数据仓库。数据管理实现大数据平台的接入管理、数据清洗、数据统一建模、数据检索、数据服务等功能。数据分析与处理是大数据平台的核心，大数据平台根据具体业务需求能够提供批处理、流处理等功能，同时平台能够提供通用的数据分析算法包或工具，包括数据挖掘、统计分析、机器学习等。平台管控包括资源调度、集群管控、安全管控、用户管理等，实现对平台的监控、调度和管理。

3.2应用框架

结合智能电网的应用需求，在大数据核心平台之上构建各类大数据应用。面向智能电网大数据的应用框架见图4。应用整体框架分数据集成与交互层、大数据核心平台层、应用层。

4、结语

1)智能电网大数据数据量大、类型多样、数据特征复杂，同时业务应用需求场景多，且存在交叉融合，对现有数据处理方式和平台提出了很高的要求，需要采用新的大数据处理技术来支撑。

2)智能电网大数据关键技术包括数据集成、数据存储、数据处理、数据分析等技术，需要结合具体业务的特点和需求选择相应的技术。

3)智能电网大数据平台需要构建统一数据模型来实现智能电网各类数据的融合和共享，基于全数据进行业务的开发和应用，智能电网大数据平台具有数据共享、应用开发和业务运行3方面功能。

4)随着智能电网的发展，数据将成为核心资源，大数据平台将承载智能电网众多各类型应用，其基础作用将越来越重要。