《电力大数据》走进大数据
2.1国内外厂商的技术和产品分析
2.1.1国外厂商在大数据领域的技术和产品
在大数据技术的发展历程中,国外数据厂商是最先嗅到其中价值的领跑者。从2005年雅虎公司开发Hadoop项目解决网页搜索问题开始,大数据概念在短短几年问获得了从政府、科学研究机构到商业公司几乎所基于领域的追捧。而随后,结合大数据日渐完备的概念, 国外厂商也从数据存储、数据计算、数据挖掘到数据应用开发出了一系列技术和产品,继而形成了典型的大数据技术开发架构,取得了较大的进展。下面,我们将选择一些领域内排名前列的大数据厂商,详细介绍他们的典型技术和产品。
2.1.1.1甲骨文(Oracle)公司
甲骨文公司全称甲骨文股份基于限公司(甲古文软件系统基于限公司),是全球最大的企业软件公司。其主要业务为数据库服务器、应用服务器以及相关开发工具的研发。2010年,甲古文公司正式进军大数据领域,并在2011年10月初召开的Oracle Open World 2011大会上甲骨文公司正式推出了 Oracle大数据机,Oracle大数据机是一款集成设计的系统。旨在简化大数据项目的实施与管理。该数据机采用18台Oracle Sum服务器的全机架式配置,共拥基于864GB主内存、 216核CPU、648TB原始磁盘存储空间,并在节点和其他Oracle集成化系统之间采用40GB/S的InfiniBand网络连接以及lOGB/s的以太网数据中心连接,可通过InfiniBand网络连接多个机架进行横向升级扩展.使其能够获取、组织和分析超级海量的数据。
甲骨文公司在1979年即推出了越于SQL标准的关系数据库产 品,可在100多种硬件平台(包括微机、工作站、小型机和大型机) 上运行,支持多种操作系统。甲骨文公司的数据存储技术通过数据库产品在全球范围内得到了广泛的推广,并获得极好的口碑。因此. 在大数据技术方面,甲骨文公司的NoSQL数据库技术同样是行业中的佼佼者。Oracle NoSQL数据库是基于Oracle Berkeley DB的高度可伸缩的分布式键值对数据库,提供通用的企业级键值存储,适用于低延迟数据捕获和数据的快速査洵;NoSQL数据库的开发,正是响应现今越来越多的企业采用非SQL典型架构来增大规模和提升速度以应对越来越人的数据蚩的趋势。
同时,NoSQL技术也是Oracle大数据一体机的基础。一体机是指通过标准化的架构集成了服务器、存储、网络、软件等配置, 简化了数据中心基础设施部署和运维管理的复杂性的一体化没备。 大数据一体机(Big Data Appliance )即通过一体机的产品形态,解决了大数据时代基础设施的持续扩大问题、数据处理的个性化和一体化需求问题、海量数据的存储成本问题。甲骨文公司在2008年推出集成了硬件、存储和软件的大数据-体机Exadata.成为了业界首个以全面、软硬件集成的产品满足企业关键大数据需求的公司。 该一体机通过更大的物理闪存以及独特的超高速闪存压缩,闪存容量增大为原来的4倍,因此面向OLTP ( On-Line Transaction Processing,联机事务处理)工作负载的运行速度得到了极大提高。 现在,单机架Oracle Exadata的闪存能够支持88TB用户数据,如此大的容量已经足够使绝大多数OLTP数据库在闪存中得到完整保存。单机架Oracle Exadata的数据吞吐量为lOOGB/s,大幅高于其他全闪存阵列的吞吐量,同时保持了低成本磁盘分层的优势。Oracle Exadata达到极致的性能和容量,使上百个数据库能够采用数据库即服务架构,轻松合并到单机架中,从而极大地降低了成本,提高了敏捷性。
同时结合Oracle大数据机这款为Oracle带来最大利润收入的主要产品,甲骨文公司还推出了Oracle connectors (大数据连接器)等技术。Oracle大数据连接器使用户能够通过Hadoop iMapReduce处理来创建优化的数据集,并能直接从Oracle数据库访问HDFS上的数据,以便在Oracle Database llg中进行高效分析,简化了大数据机与Hadoop环境的对接应用。
除此之外.Orade数据库云服务器(Exadata)以及Oradc商务智能云服务器(Exalytics)也是以大数据机为蓝本的高级专业服务器。Oracle大数据机及Oracle大数据连接器可与Oracle Exadata数据库云服务器和Oracle Exalyitcs商务智能云服务器联合使用,组成一装完整的集成系统,获取、组织并分析大数据。Oracle数据库云服务器(Exadata)包括数据库服务播、Oracle Exadata存储服务器、一个用于存储联网的InfiniBand结构.以及托管Oracle数据库所需的所基于其他组件,为联机事物处理(OLTP)、数据仓储(DW)以及混合
负载整合提供了杰出的I/O和SQL处理性能。Oracle商务智能云服务器(Exalytics)采用 I TB DRAM, 40核 Intel 处理器.运行 Oracle Business Intelligence企业版,并内置了内存内聚合功能,通过内存计算技术,可以为业务分析人员提供丰富信息,实现快如闪念的企业级分析。与Oracle近期推出的其他一体化产品一样。Oracle大数据机集成了硬件、存储和软件.包括ApachcHadoop软件的开源代码分发、新的甲骨文NoSQL数据库和用于统计分析的R语言开源代码分发。该产品被设计为能够与甲骨文Database 11g Oracle Exadata 数据库云服务器,以及针对商业智能应用的新的Oracle txalytics商业智能云服务器一起协同工作,通过软硬一体化的集成设备为用户提供了端到端的大数据解决方案,强调大数据分析和管理。
2.1.1.2 易安信(EMC)公司
EMC(易安信)公司为一家美国信息存储资讯科技公司,主要业务为信息存储及管理产品、服务和解决方案。2010年,EMC 公司收购了 Grcenplum公司(一家数据库软件公司,在全球数据处理和BI/DW领域提供数据库引擎产品和咨询服务,实力较强)。收购Greenplum公司后,EMC公司大踏步进入大数据领域。并入EMC公司两年来,Greenplum已推出类似Facebook的大数据社交和协作工具——Chorus; EMC公司收购敏捷软件开发商Pivotal Labs、部署Hadoop,及相关产品线升级等。就在EMC World大会上,Greenplium还正式发布其1000节点集群的数据分析工作台——Greenplum Analytics Workbench。
EMC公司的产品同样主要集中在数据存储和管理方面。其核心数据库产品当属Greenplum数据库。Grecnplum的架构采用了 MPP(大规模并行处理),该软件是业内首创的无共享、大规模并行处理(Massive Parallel Processing, MPP )的数据库软件,其中包括无共亨/MPP、按列存储数据库、数据库内压缩、MapReduce、永不停机扩容、多级容错等。在MPP系统中,毎个SMP节点也可以运行自己的操作系统、数据库等。换言之,毎个节点内的CPU不能访问另一个节点的内存。节点之间的信息交互是通过节点互联网络实现的,这个过程一般称为数据重分配(Data Redistribution)。与传统的SMP架构明显不同,通常情况下,MPP系统因为要在不同处理单元之间传送信息,所以它的效率要比SMP要差一点,但这也不是绝对的,因为MPP系统不共享资源,因此对它而言,资源比SMP要多,当需要处理的事物达到一定规模时,MPP的效率要比SMP好。
在Grenplum这一数据库产品的基础上,EMC公司又看到了传统Hadoop平台可以改善的地方.例如分布式文件系统不支持随机读写、定位于批处理、不支持实时数据处理。同时.其不适用于高并发场景,其开发难度大。与关系型数据库在开发、运营、维护等方面差异较大等问题都亟待解决。因此,EMC公司认为Grecnplum DataBase和Hadoop 是互补的技术,两名结合形成对结构化数据和非结构化数据的完善解决方案。在此基础上,开发出了商业化的Grcenplum Hadoop平台(缩写为Grcenplum HD ).其中,关系型数据语法表达、复杂査询、并发查洵、高速数据分析采用 Grcenplum数据库,Hadoop用于非结构化数据和半结构化数据处理分析,产生的结构化数据再加载到Grcenplum DB中进行高速交互式查询展现。同时Hadoop还用于ETL数据清洗,而Grcenplum DB 则可直接并行读写Hadoop数据。
Greenplum Chorus是基于大数据分析的社交平台。Grcenplum Chorus是一个数据科学的社交平台,包括个人沙盘、数据挖掘、协作分析和开放架构等特点。用户通过这个平台可以很快响应需求. 从而对大数据分析做出更基于效率的工作。任何在社交平台权限内的人都可以通过个人沙盒来构建一个自己的数据库,做任何的数据试验,而且这些不会影响到生产数据。这是弹性、自我服务的体现。同吋, 如果你基于任何疑虑.也可以通过Chorus平台发布消息,将会基于数据科学家及时帮助你解决问题。
通过对以上三种技术产品的基于效处理结合,EMC公司推出了 EMC Greenplum统一分析平台。EMC Grecnplum统一分析平台结合 Greenplum Database、Greenplum Hadoop、Grecnplum Chorus,为企业构建了高效处理结构化、半结构化、非结构化数据的大数据分析平台。客户可以以此平台为基础,利用Grecnplum行业和数学统计方面的专家,充分挖掘自身数据价值,实现数据资产从成本中心到利润中心的转变,以数据驱动业务。其中,Greenplum Chorus在行业中处于领先地位,它的操作使用习惯非常类似Facebook、开心网的社交模式。通过Greenplum Chorus可以建立数据沙箱,将一定的数据变成一个集合,用户都可以对这个集合利用工具进行处理和分析,共享数据库的分析结果。让这个数据分析和挖掘,不再是专业人士做的事情,并且增加趣味性,各种角色可以进行交互,形成一 个数据社交圈。EMC Gireenplum统一分析平台还包括一个重要的方面,就是“数据科学家计划”,它将人的智慧与技术产品相结合。 数据科学家不仅需要具基于数据本身的知识,还要求基于一定的数学建模能力,同时要懂得企业内部的运转流程。所以数据科学家是能够灵活利用各种工具去抓取数据,形成数据集合、数据沙箱,进行快速实时分析和展现的一种角色,帮助企业将数据变成商业价值。
2.1.1.3英特尔(Intel)公司
英特尔公司是全球最大的个人计算机零件和CPU制造商.它成立于1968年,具基于46年计算机类产品生产历史。英特尔公司在大数据处理方面致力于改善X86平台芯片和架构,以基于至强处理器构建的IT基础设施为基石,英特尔在其上针对大数据的分发和管理需求提供基于英特尔平台优化的Hadoop产品和服务;在分析与发现层,提供针对客户端与服务器端算法开发的支持,以满足大数据计算所需的性能与规模要求。
英特尔公司是一家致力于在硬件性能上为大数据技术研发助力的公司,共推出的至强处理器E7V2系列,针对大数据分析的需求,提供了一系列的性能特征的改进,这些改进主要包括内存、核数以及可靠性等方面。英特尔至强处理器E7 V2产品家族最高可支持32 路的服务器平台.拥基于最多15个处理内核和每插槽1.5TB内存容量,平均性能为其上一代产品的两倍。与上一代处理器相比,英特尔至强处理器E7 V2产品家族可支持3倍的内存容量,能够更快完成数据分析,几乎达到实时处理分析水平。内存分析功能会在系统内存中放置整个数据集并进行分析(例如一个企业的整个用户数据库), 而非名传统硬盘上进行。
结合强劲的处理器制造技术,英特尔公司在Hadoop开源平台的基础上做了进一步的改进,提出了以开源为基础,在Hadoop系统, 包括HBase、HDFS里面都做了增强和优化,使得开源平台在英特尔硬件上的运行效率得到显著的提高。该平台结合自身强大技术、成熟市场经验,打造面向大数据应用的Hadoop高效平台,基于助于提供相比其他Hadoop平台更可靠、更高性能、更多和更易于处理的大数据解决方案。基于英特尔Hadoop发行版,在原基于的开源版本基础上进行了特殊强化,包括HDFS、MapReduce以及HBase代码的改写,同时支持 SQL查询指令语言 Hive。并推出了 Intel Hadoop Manager 2.0,优化了 Hadoop的处理能力。
2.1.14 国际商业机器(IBM )公司
国际商业机器公司或万国商业机器公司,简称IBM公司 (International Business Machines Corporation )。总部在纽约州阿蒙克市,IBM公司是世界上著名的信息技术和业务解决方案公司,业务包括咨洵、信息科技服务、软硬件开发等。2012年12月19日, IBM公司宣布,它已经签署了收购StorcdIQ软件公司的确定性协议。 IBM公司正在努力帮助客户从大数据中获得价值,例如対法律诉讼和法规做出更有效的问应,处理失效的信息和降低数据存储成本。
PureDala是IBM公司 Pure system中的主要部分,是该公司开发的主要面向大数据应用的软件系统。这款新的专家系统将具有处理在线交易及商业分析任务中大量数据的能力。IBM公司称每天产生2.5EB数据,也就是说90%的数据都是近两年内产生,而对如此庞大的数据,各行各业都在寻求简便高效的数据分析方式。用户利用该系统能够更迅速、更准确地进行数据分析,从而更有效地进行商业活动。即将推出的PureData包含三种类型的扩展应用产品: “PureData System for Transactions”系统主要用于处理各种大数据的联机事物处理(OLTP)以及商业分析任务。例如,在交易处理方面,PureData可以在单一系统整合多种业务数据库,优化大量交易处理。PureData集成了基于 IBM DB2数据库的PureScale集群技术。另外一种PureData 主要用于商业分析应用,“PureData System for Operational Analytics”系统能够对数以千计的交易进行实时分析, 例如金融交易中的欺诈监测和趋势发现。“PureData System for Analytics”系统则基于 IBM在2010年收购的Nctezza数据仓库应用, 该系统能够处理结构化和非结构化数据u
在PureData system的基础上,IBM公司推出了面向Hadoop的全新IBM PureData系统PureData for Hadoop,旨在提高企业部署 Hadoop的速度,同时降低部署难度。全新PureData for Hadoop让企业在使用企业级Hadoop技术时的加载时间从数周减少到数分钟, 而且还为商业分析师和数据科学家提供使用、功能强大的分析工具,并为其呈现可视化效果。此外.新系统还提供了功能更强大的大数据工具,可用于监测和研发,同时加强版的大数据工具可以与更多企业系统相兼容。同时在数据分析和处理技术上.IBM公司致力于研究推进加速数据处理的相关技术产品。BLU Acccleratim便是其中最为关键的一项,该技术整合了大幅改善分析能力和简化管理的一系列技术,能够将报告生成和数据分析速度提高25倍。BLU Acceleration的创新之处体现在,它实现了在动态的内存中进行列式处理,采用了新的、无需解压的数据压缩技术.以及并行向量处理和数据忽略技术(可以绕过对不相关数据的不必要处理)。借助 BLU Accderatkm.用户可以更快速地抓取关键信息,从而做出更好的决策。
新版InloSphere Biglnsights:这款企业级Hadoop产品可以利用现有的SQL技术,更便捷地开发应用软件。Biglnsights指利用大数据获得更多的洞察力。用来处现磁盘中的静态数据。InfoSphere Biglnsights 1.3的存储和运算框架采用了开源的Hadoop MapReduce, 利用分布式文件存储系统,将文件分成不同的部分存储在不同的节点上,并进行备份。相应地可以在原有系统基础之上,添加更多的节点进行Scale Out,增加了扩展性。.除了使用开源的Hadoop架构之外,IBM还针对Biglnsights进行了改造,采用了 IBM特有的通用并行文件系统,即GPFS。利用GPFS的目的是为了避免单点故障,保证了可用性。分析功能是Biglnsights另一个重要的方面,在 IBM的信息管理产品线中还基于两个分析产品一Cognos和SPSS, Biglnsights的分析模块并不是照搬Cognos和SPSS,也不是来自于收购的产品,而是完全由IBM研发的功能,Biglnsights将专门用于大数据分析。
书名:电力大数据:能源互联网时代的电力企业转型与价值创造
ISBN:978-7-111-51693-4
作者:赖征田
出版日期:2016-01
出版社:机械工业出版社
责任编辑:继电保护
-
权威发布 | 新能源汽车产业顶层设计落地:鼓励“光储充放”,有序推进氢燃料供给体系建设
2020-11-03新能源,汽车,产业,设计 -
中国自主研制的“人造太阳”重力支撑设备正式启运
2020-09-14核聚变,ITER,核电 -
探索 | 既耗能又可供能的数据中心 打造融合型综合能源系统
2020-06-16综合能源服务,新能源消纳,能源互联网
-
新基建助推 数据中心建设将迎爆发期
2020-06-16数据中心,能源互联网,电力新基建 -
泛在电力物联网建设下看电网企业数据变现之路
2019-11-12泛在电力物联网 -
泛在电力物联网建设典型实践案例
2019-10-15泛在电力物联网案例
-
权威发布 | 新能源汽车产业顶层设计落地:鼓励“光储充放”,有序推进氢燃料供给体系建设
2020-11-03新能源,汽车,产业,设计 -
中国自主研制的“人造太阳”重力支撑设备正式启运
2020-09-14核聚变,ITER,核电 -
能源革命和电改政策红利将长期助力储能行业发展
-
探索 | 既耗能又可供能的数据中心 打造融合型综合能源系统
2020-06-16综合能源服务,新能源消纳,能源互联网 -
5G新基建助力智能电网发展
2020-06-125G,智能电网,配电网 -
从智能电网到智能城市