【深度】面向智能电网应用的电力大数据关键技术

2018-05-29 17:54:48 大云网  点击量: 评论 (0)
大数据这个术语最早期的引用可追溯到Apache软件基金会的开源项目Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或...

  从技术上看,大数据根植于云计算,云计算的数据存储、管理与分析方面的技术是大数据技术的基础。利用云计算强大的计算能力,可以更加迅速地处理大数据,并更方便地提供服务;通过大数据的业务需求,可以为云计算的发展找到更多更好的实际应用。

  云计算使大数据应用成为可能,但是没有大数据的信息沉淀,云计算的功能将得不到完全发挥,所以从整体上看,大数据与云计算是相辅相成的。

  云计算和大数据的侧重点不同,因此也有较大的差别。大数据关注重心在于数据背后的信息沉淀与业务分析,因此其推动力量来源于拥有大数据的企业和软件厂商;云计算关注重心在于计算能力,偏重于技术解决方案,因此其推动力量来自于计算资源和存储资源的生产厂商。

  云计算技术的发展早于大数据技术的发展,但是大数据的业务需求又为云计算技术的发展带来新的机遇,一方面促进了云计算技术向更加贴近用户需求的方向发展,另一方面带来了更高处理速度、更大存储容量的要求。

  1.3 智能电网、云计算、大数据的相互关系

  云计算能够整合智能电网系统内部计算处理和存储资源,提高电网处理和交互能力,成为电网强有力的技术组成;大数据技术立足于业务服务需求,根植于云计算,以云计算技术为基础;智能电网可以抽象的认为是大数据这个概念在电力中的应用,所以三者是彼此交互的关系。

  智能电网、云计算、大数据三者之间的关系,从更加深层次来讲,是电力系统发展到不同阶段的产物,具有代纪传承的特点。

    智能电网是信息技术、计算机技术、人工智能技术等在传统电网上应用沉淀的结果,满足电网信息化、智能化、清洁化等高层次的运营和管理需求,既是对传统电网的继承,也是对传统电网的发扬,所以其发展必然与新技术同步。

  来自于计算机和信息技术领域最前沿的云计算技术和大数据技术,正是其发展阶段技术层面和应用层面两个具有划时代意义的新技术。云计算技术中的分布式存储技术和并行计算技术,满足了电网海量数据的存储和计算需求,因此云计算技术推出不久,电力云的概念就提出来,云计算技术在电力系统中的应用也逐渐呈现出百花齐放的态势,推动了智能电网的发展。

  大数据技术既是传统数据分析与挖掘技术的延续,也是数据量级增长到一定阶段时知识挖掘与业务应用需求的必然产物,因此大数据技术的大部分应用都以云计算的关键技术或者与云计算类似的分布式存储和处理技术为基础。电力大数据技术的发展从某种意义上讲,可以看成是云计算技术在智能电网中,高级业务需求的实现过程。

  2 电力大数据平台的总体架构

  Apache基金会开源技术通用的大数据平台整体架构具有较好的通用性,适用于电力企业大数据的规划,其主要思想是利用基于Hadoop文件系统(Hadoopdistributed file system,HDFS)的分布式文件处理系统作为大数据的存储框架,利用基于MapReduce的分布式计算技术作为大数据的处理框架。

  以分布式文件处理技术为基础,使PB、ZB级的数据存储成为可能;以分布式计算技术为基础,使得PB、ZB级数据的查询分析成为可能。另外该框架中还包含商业智能应用、传统的数据仓库、大数据访问框架、大数据调度框架、网络层、操作系统、服务器、备份和恢复、数据管理等模块。

  大数据存储框架和大数据处理框架通常构建在通用的服务器、操作系统或者虚拟机上,使得该架构所需的硬件具有低成本和高扩展性的特点,标准的普通服务器或者PC机即可成为基于该架构的终端构成单元。

  大数据存储框架和大数据处理框架之上是通过网络层连接的大数据访问框架,该访问框架包含并行计算机编程语言Pig、数据仓库工具Hive、开源数据传递工具Sqoop 等子模块。

  大数据调度框架包含基于列存储的开源非关系型数据库Hbase、数据序列化格式与传输工具Avro、日志收集系统Flume、分布式锁设施ZooKeeper等模块。

  大数据调度框架实现了对大数据的组织与调度,为数据分析提供了必要条件。在大数据调度框架之上是企业级商业智能应用系统,可以开展查询、分析、统计、报表等高级应用。大数据的管理、安全和备份恢复框架帮助进行大数据的治理和保护。

  该框架几乎涵盖了大数据技术的所有环节,值得指出的是,通过该访问框架不仅可以实现对分布式文件存储系统的访问,而且通过大数据连接器和开源数据传递工具Sqoop可以实现对传统数据仓库的访问。

  大数据的处理流程可以定义为在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,按照统一的标准对结果进行存储,利用恰当的数据分析技术对存储的数据进行分析,达到从中提取出有价值的知识的目的,并用合适的方式将结果展现给终端用户。

  对电力企业来讲,电力大数据的基本处理流程与传统数据处理流程并无太大差异,主要区别在于:电力大数据需要处理大量、非结构的数据,所以在各个环节都可以采用MapReduce等方式进行并行处理。

  电力系统是一种高维非线性的复杂系统,其内部的数据流包含电力流、信息流、业务流、故障流、气象流等不同的数据流向。

  对这些电力系统的子信息源而言,一方面可以单独应用大数据技术,提升其产业价值,例如电力设备在线监测系统本身就是一个大数据系统,另一方面可以融合不同的子信息源,在更高的层面上构件大数据平台,例如融合电能计量系统、SCADA系统、MIS系统、负荷控制系统,可以构建基于大数据平台的网损分析系统,实现网损的自动统计与分析。

  基于该网损分析大数据平台,还可开展基于自动网损统计的用户窃电行为挖掘,实现更深层次的应用。

  3 电力大数据关键技术

  3.1 电力大数据的集成管理技术

  电力企业数据集成管理技术是合并来自2个或者多个应用系统的数据,创建一个具有更多功能的企业应用的过程。从集成的角度来说,就是把不同来源、格式、特点、性质的数据在逻辑上或者存储介质上有机地集中,为系统存储一系列面向主题的、集成的、相对稳定的、反映历史变化的数据集合,从而为系统提供全面的数据共享。电力企业集成管理技术就是为解决电力企业内部各系统间的数据冗余和信息孤岛而产生的。

  电力大数据的数据集成管理技术,包含关系型和非关系型数据库技术、数据融合和集成技术、数据抽取技术、过滤技术和数据清洗等。大数据的一个重要特点就是多样性,这就意味着数据来源极其广泛,数据类型极为繁杂,这种复杂的数据环境给大数据的处理带来极大的挑战,要想处理大数据,首先必须对数据源的数据进行抽取和集成,从中提取出实体和关系,经过关联和聚合之后采用统一的结构来存储这些数据,在数据集成和提取时需要对数据进行清洗,保证数据质量及可靠性。

  大数据存储管理中一个重要的技术是NoSQL数据库技术,它采用分布式数据存储方式,去掉了关系型数据库的关系型特性,数据存储被简化且更加灵活,具有良好的可扩展性,解决了海量数据的存储难题。有代表性的NoSQL 数据库技术有Google的BigTable和Amazon的Dynamo等。

  3.2 电力大数据的数据分析技术

  大数据技术的根本驱动力是将信号转化为数据,将数据分析为信息,将信息提炼为知识,以知识促成决策和行动。借助电力大数据的分析技术可以从电力系统的海量数据中找出潜在的模态与规律,为决策人员提供决策支持。

  麦肯锡认为可用于大数据分析的关键技术源于统计学和计算机科学等学科,包含关联分析、机器学习、数据挖掘、模式识别、神经网络、时间序列预测模型、遗传算法等多种不同的方法。

  大数据研究不同于传统的逻辑推理研究,是对巨大数量的数据做统计性的搜索、分类、比较、聚类等的分析和归纳,因此继承了统计科学的一些特点,如统计学关注的数据相关性或称关联性,所谓“相关性”是指2个或2个以上变量的取值之间存在某种规律性[7]。“相关分析”的目的是找出数据集里隐藏的关系网,一般用支持度、可信度、兴趣度等参数反映相关性。

  牛津大学网络学院教授维克多在他的着作《大数据时代》中指出:在大数据时代,相关关系分析法将大放异彩,通过找到一个良好现象的关联物,相关关系分析可以捕获现在和预测未来。大数据相关关系分析法,建立在海量样本的基础上,不采用随机分析法这样的捷径,而采用分析所有数据的方法;大数据的简单算法比小数据的复杂算法更有效,其结果更快、更准确而且不易受到干扰,因此他指出建立在相关关系分析法基础上的预测是大数据的核心。

  大数据这种不注重因果关系侧重于相关关系的分析方法,带来了科学研究思维方式的重大转变,已故图灵奖得主吉姆˙格雷提出的数据密集型科研“第四范式”,将大数据科研从前3 种范式(理论科学、计算科学、实验科学)中分离出来,单独作为一种科研范式,正是因为其研究方式不同于基于数学模型的传统研究方式。

大云网官方微信售电那点事儿

责任编辑:电朵云

免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
我要收藏
个赞