身为数据科学家怎么能不掌握这四大技能!
想成为一名高级数据科学家除了拥有卓越的专业技能,你还需要其它技能来拉近和业务经理的距离。这看起来简单,但随着每年新技术的不断累积,
数据科学家往往希望将他们所知道的每一种技术和算法都应用于每一个问题的解决方案上。相应地,这就会使系统非常复杂难以维护。
数据科学确实需要复杂抽象的模型及大量的复杂技术(从Hadoop到Tensorflow)。在这个充斥着复杂性的领域,人们会倾向于开发复杂的系统和算法,稍不留神就会在开发中涉及四、五种不同的技术并使新的热门算法或框架。然而,像大多数涉及工程的其他领域一样,减少复杂性往往会带来诸多好处。
如果冯•诺依曼,埃尔温•薛定谔和爱因斯坦可以帮助我们理解数学和物理驱动领域的复杂性,那么我们数据科学家不能隐藏在复杂性背后。
工程师的角色就是去简化任务。如果你曾经建造或看到过鲁布•戈德堡机械(Rube Goldberg machine),你会理解什么是用复杂方法去完成简单任务。一些数据科学家的算法和数据系统看起来像是用胶带和口香糖粘起来的老鼠夹,而不是简洁有效的解决方案。更简单的系统意味着随着时间推移系统会更加容易维护,并且未来的数据科学家能够按需添加和删除模块。但若你使用三种不同的语言,两个数据源,十个算法且没有留下任何文档资料,未来的工程师可能会默默诅咒你哦。
简单的算法和系统也应使添加和删减模块是容易的。因此当需要技术进行改变和更新或者需要删除模块时,可怜的未来数据科学家不会陷入和你的代码一起玩叠叠乐积木游戏(Jenga)的困境 。但会纠结于“如果删了这段代码,系统会不会崩溃”。(这一纠结的根源是怕出现技术债务)
知道如何在没有主键的情况下关联匹配数据
强大的数据专家能做的重要工作之一是:将可能没有主键或明显联系的数据集关联在一起。数据可以呈现人之间或业务之间的日常交互。能够在这些数据中找出统计模式,是数据科学家可以帮助决策者作出明智决定的重要能力。然而,你想要关联在一起的数据并不总是位于相同的系统或有着相同粒度。
与数据打交道的人会知道,数据并不总是很好的整合在一个数据库中。比如,财务数据与IT服务管理数据通常是分开存放的,外部的数据源往往可能并不是在同一个维度进行的聚合。这会成为一个问题,因为找出数据中的价值有时确实会需要来自其他部门或系统的数据。
责任编辑:任我行
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
我要收藏
个赞
-
碳中和战略|赵英民副部长致辞全文
2020-10-19碳中和,碳排放,赵英民 -
两部门:推广不停电作业技术 减少停电时间和停电次数
2020-09-28获得电力,供电可靠性,供电企业 -
国家发改委、国家能源局:推广不停电作业技术 减少停电时间和停电次数
2020-09-28获得电力,供电可靠性,供电企业
-
碳中和战略|赵英民副部长致辞全文
2020-10-19碳中和,碳排放,赵英民 -
深度报告 | 基于分类监管与当量协同的碳市场框架设计方案
2020-07-21碳市场,碳排放,碳交易 -
碳市场让重庆能源转型与经济发展并进
2020-07-21碳市场,碳排放,重庆
-
两部门:推广不停电作业技术 减少停电时间和停电次数
2020-09-28获得电力,供电可靠性,供电企业 -
国家发改委、国家能源局:推广不停电作业技术 减少停电时间和停电次数
2020-09-28获得电力,供电可靠性,供电企业 -
2020年二季度福建省统调燃煤电厂节能减排信息披露
2020-07-21火电环保,燃煤电厂,超低排放
-
四川“专线供电”身陷违法困境
2019-12-16专线供电 -
我国能源替代规范法律问题研究(上)
2019-10-31能源替代规范法律 -
区域链结构对于数据中心有什么影响?这个影响是好是坏呢!