解读大数据以及大数据的常用工具

2018-04-24 14:42:43 发源地大数据  点击量: 评论 (0)
大数据工具是什么?顾名思义,大数据工具就是用户大数据工作的工具统称,比如从事大数据开发工作会用到java、hadoop、spark、storm、es等,

大数据工具是什么?顾名思义,大数据工具就是用户大数据工作的工具统称,比如从事大数据开发工作会用到java、hadoop、spark、storm、es等,而从事大数据可视化工作需要很多的数据可视化工具,比如echarts、samrtbi、tableau、D3.js等,大数据工作人员利用这些工具来进行日常的大数据工作。

下面我们来介绍一些大数据工作中用到的工具。

1. Hivemall

Hivemall结合了面向Hive的多种机器学习算法。它包括诸多高度扩展性算法,可用于数据分类、递归、推荐、k最近邻、异常检测和特征哈希。

支持的操作系统:与操作系统无关。

Hivemall官网链接:https://github.com/myui/hivemall

2. Mahout

Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。

Mahout官网地址:http://mahout.apache.org/

3. MapReduce

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。

MapReduce相关文档:http://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html

4. Oozie

Oozie是一种Java Web应用程序,它运行在Java servlet容器——即Tomcat——中,并使用数据库来存储以下内容:

● 工作流定义

● 当前运行的工作流实例,包括实例的状态和变量

Oozie官网地址:http://oozie.apache.org/

5. Pig

Pig是一种数据流语言和运行环境,用于检索非常大的数据集。为大型数据集的处理提供了一个更高层次的抽象。Pig包括两部分:一是用于描述数据流的语言,称为Pig Latin;二是用于运行Pig Latin程序的执行环境。

Pig官网地址:http://pig.apache.org/

6. Sqoop

Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

Sqoop官网地址:http://sqoop.apache.org/

Sqoop相关文档:http://sqoop.apache.org/docs/1.4.5/index.html

7. Spark

Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

Spark官网地址:http://spark.apache.org/

8. Tez

Tez建立在Apache Hadoop YARN的基础上,这是“一种应用程序框架,允许为任务构建一种复杂的有向无环图,以便处理数据。”它让Hive和Pig可以简化复杂的任务,而这些任务原本需要多个步骤才能完成。

支持的操作系统:Windows、Linux和OS X。

Tez官网链接:http://tez.apache.org

9. Zookeeper

ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

Zookeeper官网:http://zookeeper.apache.org/

10.finndy+

finndy+是一个分布式的云采集工具,在全球有2000+高匿分布式节点,机器学习防屏蔽算法,自定义脚本引擎,首创单步调模式,一键API输出。同时拥有海量免费采集规则和交易市场。

大云网官方微信售电那点事儿

责任编辑:售电衡衡

免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
我要收藏
个赞