大数据分析到底需要多少种工具?
大数据如今已经不再是什么新的名词,五中全会大数据上升为国家战略,BAT巨头早已布局多年,大数据时代已经真正来临,但我们真的准备好了么?
大家都知道大数据中蕴含大量的数据价值,比如说淘宝与天猫的用户消费行为、滴滴打车可以知道用户每天去了哪里、用户在优酷上都看了那些视频、移动运营商的海量客户终端信息以及上网行为等、大型零售商每天的销售数据,订餐网上用户每天吃了什么,等等大数据金矿无处不在。但淘出来的才是金子,否则只是一堆土而 已,即占用场地,还要花钱去保管和维护这堆土。
大数据时代金矿已经有了,如何利用好这个金矿,某种意义上取决于我们手上的工具。熟话说“没有那金刚钻,就别揽瓷器活”,工具是否适用,直接决定着我们能否进行挖金,以及挖金的速度与效率。适合用铁锹还是挖掘机,对挖金来说有着质的不同。
第一个金刚钻Hadoop
Hadoop是大数据时代的第一个金刚钻。笔者从08年开始研究hadoop源码,当时中文资料还是比较少的,国内除了BAT外其他公司用的也很少,初次 接触hadoop是因为被当时公司的流量系统所困扰,当时公司网站的流量已经达到了每天接近一个亿的水平,最初选择了postgresql来计算数据,但 是普通机器根本无法计算,无奈之下我们花大价钱买了128G内存(在当时是很奢侈的)的服务器,运行在postgresql的内存表里才勉勉强强的计算出 来。直到有一天遇到了hadoop,你懂的,一个HiveSql在几台普通硬件的机器上,一亿数据几个小时就出结果了。
如今Hadoop已经不再神秘,相关书籍越来越多。但是伴随着互联网技术的日新月异,Hadoop已经不能满足用户了。数据时效性差,以及查询的响应效率 低,那些对时效性要求较高的用户场景无法满足。Hadoo目前面临两两方面的挑战,第一,数据从产生到能够最终出结果要等待数小时,时效性较差。第二,多 个Job任务,相互之间争抢资源,而且由于采用暴力扫描原始数据的方式,对机器资源的消耗太大,每天能够跑的计算任务个数十分有限。
第二个利器阿里JStorm
JStorm的出现主要是因为Hadoop满足不了支付宝成交实时分析的需求。阿里的双十一活动以及其他活动都有对阿里网站成交流量实时展示的需求,通过运营活动,来了解开始的几分钟或者几秒钟内,实时流入了多少的流量,带来多大的成交。正巧当时Apache Storm正式开源,阿里团队认为Storm正适合阿里的业务,但是Storm的核心逻辑采用Clojure编写,熟悉这门语言的太少,另外业务需要定制 化的逻辑,故阿里团队花费3个多月的时间阅读Storm的源码,并将其Clojure部分更换为Java代码。笔者曾是团队的一员,有幸成为其 committer,离开阿里后,团队其他兄弟将其开源,贡献了出去,如今Jstorm已经被Apache接受,正式成为Storm项目的子项目。
Storm能够满足企业对数据时效性的要求,但跟现有的其他大数据的实时系统一样,都是采用预计算的方式。因流式系统不保存原始日志,数据只能安装固定的 维度和粒度进行计算与汇总,例如只能按照淘宝的类目、分钟等维度汇总统计。众所周知,运营情况是千遍万化的,很多都是突发事件,维度并不能预先固定,很多 事物也需要多方面展示,要经过数次的不同角度、不同粒度的钻取,来发现运营活动的规律。基于这种场景,我们需要保留原始日志,同时需要非常快速的对这些原 始日志进行快分析与计算。这样高需求的场景,数据工具既要有hadoop+hive计算的灵活性,又要有Jstorm的时效性和速度。Storm就显出了 它的不足。
新生代数据挖掘机延云YDB
YDB是延云针对用户对大数据检索快速、实时、多维度的需求而开发的分析软件,可以说是笔者的心头好。
YDB将传统数据库索引技术应用在大数据技术上,打破目前大数据计算技术的僵局。将大数据检索向时效性更强,查询方式更 灵活,执行效率更高的方向演进。虽然引用传统索引技术,但是对硬件的需求并不比hadoop高,不会让小型用户望而却步。技术上YDB采用Java语言编 写,接地气,Sql接口用户也更易于上手使用,同时每天千亿增量万亿总量的数据量也能满足高端用户的需求。YDB主要技术方向在大索引,大索引的好处在于 加快了检索的速度,减少查询中的分组、统计和排序时间,提高系统的性能和响应时间来节约资源。大索引技术的运用才能使YDB在如此大规模的数据量下依然保 持查询响应时间在几秒,数据导入延迟在几分钟。
责任编辑:售电衡衡
-
碳中和战略|赵英民副部长致辞全文
2020-10-19碳中和,碳排放,赵英民 -
两部门:推广不停电作业技术 减少停电时间和停电次数
2020-09-28获得电力,供电可靠性,供电企业 -
国家发改委、国家能源局:推广不停电作业技术 减少停电时间和停电次数
2020-09-28获得电力,供电可靠性,供电企业
-
碳中和战略|赵英民副部长致辞全文
2020-10-19碳中和,碳排放,赵英民 -
深度报告 | 基于分类监管与当量协同的碳市场框架设计方案
2020-07-21碳市场,碳排放,碳交易 -
碳市场让重庆能源转型与经济发展并进
2020-07-21碳市场,碳排放,重庆
-
两部门:推广不停电作业技术 减少停电时间和停电次数
2020-09-28获得电力,供电可靠性,供电企业 -
国家发改委、国家能源局:推广不停电作业技术 减少停电时间和停电次数
2020-09-28获得电力,供电可靠性,供电企业 -
2020年二季度福建省统调燃煤电厂节能减排信息披露
2020-07-21火电环保,燃煤电厂,超低排放
-
四川“专线供电”身陷违法困境
2019-12-16专线供电 -
我国能源替代规范法律问题研究(上)
2019-10-31能源替代规范法律 -
区域链结构对于数据中心有什么影响?这个影响是好是坏呢!