一图简述大数据技术生态圈
下面是一张生态图,主要的组件都是为了方便大家从底层的MapReduce模型中脱离出来,用高层语言来做分布式计算,下文将分别为你作简述。
1、HBase
是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化数据集群。像Facebook,都拿它做大型实时应用。
2、Hive
Facebook领导的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计。像一些data scientist 就可以直接查询,不需要学习其他编程接口。
3、Pig
Yahoo开发的,并行地执行数据流处理的引擎,它包含了一种脚本语言,称为Pig Latin,用来描述这些数据流。Pig Latin本身提供了许多传统的数据操作,同时允许用户自己开发一些自定义函数用来读取、处理和写数据。在LinkedIn也是大量使用。
4、Cascading/Scalding
Cascading是Twitter收购的一个公司技术,主要是提供数据管道的一些抽象接口,然后又推出了基于Cascading的Scala版本就叫Scalding。Coursera是用Scalding作为MapReduce的编程接口放在Amazon的EMR运行。
5、Zookeeper
一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现。
6、Oozie、Hadoop
一个基于工作流引擎的开源框架。由Cloudera公司贡献给Apache的,它能够提供对MapReduce和Pig Jobs的任务调度与协调。
7、Azkaban
跟上面很像,Linkedin开源的面向Hadoop的开源工作流系统,提供了类似于cron 的管理任务。
8、Tez
Hortonworks主推的优化MapReduce执行引擎,与MapReduce相比较,Tez在性能方面更加出色。
责任编辑:沧海一笑
-
5大重点任务11个重点细分 河北加快构建省级能源大数据中心
-
能源互联网注入数字经济新动能 电力大数据实现更多价值
2020-07-21能源互联网,电力大数据,电力企业 -
中国首个100%利用清洁能源运营的大数据产业园投运
2020-07-21清洁能源,清洁能源消纳,青海
-
探索大数据 区块链实现与能源互联网良好契合
2020-06-09区块链,电力行业,能源互联网 -
基于区块链的含安全约束分布式电力交易方法
-
区块链在能源交易与协同调度的应用前景:提升电力交易的自由度和实时响应效率
2019-11-04区块链在能源交易与协同
-
5大重点任务11个重点细分 河北加快构建省级能源大数据中心
-
中国首个100%利用清洁能源运营的大数据产业园投运
2020-07-21清洁能源,清洁能源消纳,青海 -
大数据产业园四处开花
2019-03-05大数据产业园
-
能源互联网注入数字经济新动能 电力大数据实现更多价值
2020-07-21能源互联网,电力大数据,电力企业 -
全国人大代表、贵州六盘水市市长李刚:借力大数据综合试验区 建设六盘水5G示范城
2020-05-27大数据,5G,电力,六盘水,物联网 -
融媒体平台建设及县域融媒体平台软件系统
2019-04-03融媒体平台