身为数据科学家怎么能不掌握这四大技能!
数据啮合是需要在相同的粒度级别上进行的。一种理解的方式是:将一块大拼图与由许多小块数据拼图组成的大拼图组合起来。
例如,假如给你提供了医疗保单、信用卡和社区犯罪率的数据,想由此找出这些社会经济因素如何影响病人,你会怎样处理?一些数据可能是以人为单位,而另一些数据可能是街道或城市级别,而且没有明确的方式来关联这些数据集。最好的处理方式是什么?这成为了一个不能忽视且必须被解决的问题。
对项目进行优先排序
作为数据科学家,你需要知道如何解释可能不划算的项目的投资回报率(ROI)。这与良好的直接沟通有关(我们的团队永远不会停止讨论如何沟通),也与能够清楚表达价值并且对长短期目标进行优先排序有关(重申一遍,说起来容易做起来难)
团队总是会有超出他们处理能力的过多的项目和项目要求。有经验的团队成员需要起带头作用来帮助决策者决定哪些项目是值得进行的。在有很大机会成功但可能不会有最高投资回报率的短期项目和很有可能会失败但同时也会产生较大投资回报率的长期项目之间需要有一个良好的平衡。
这种情况下,决策矩阵会有助于简化过程。
经典的决策矩阵之一是一个2*2矩阵,行和列分别为重要性和紧迫性。多数的大学商业课程中都会出现这种矩阵,它很简单,这也是它很棒的原因。
我曾在公司和一些很聪明的人共事,但还是工作中的每个项目都被列为优先。如果你没听过这个说法,我会在这里讲出来:
如果每件事都被优先考虑,那么,相当于没有事情被排在优先。
选择正确的项目意味着必须做出取舍。不是所有的事情都是高优的。
许多公司都存在这个问题,这就是为什么对于数据科学家团队中有经验的成员,能够清晰表达出哪些项目需要当下执行还是以后执行是非常重要的。而使用这个简单的矩阵能带来一定帮助。
(简洁十分重要,使用矩阵来明确投资回报率是有帮助的)。
有了简明直接的沟通,项目继续向前推进,信任也随之建立起来了。
能够开发出稳健且最优的系统
做出能在受控环境中操作的算法或模型是一回事。将稳健模型集成到实时且能处理大量数据的系统又是另一回事。根据公司的不同,有时数据科学家只需开发算法本身,之后开发人员或机器学习工程师会负责将其转为上线的产品。
然而还会有其他的情况,小的公司和小的团队可能会需要数据科学家团队来将代码转为上线产品。这意味着算法需要能以合理的速度控制数据流量。如果算法要运行三个小时并且需要被实时访问,这显然不能在产品上使用。因此,良好的系统设计及优化是必要的。
随着数据增多,越来越多的人会与系统交互,模型跟上脚步是十分重要的。
当高级数据专家的技术能力和其他能力相结合时,才能对他们自身和其公司产生最大的影响。数据科学家宝贵的经验是非常有价值的,这些经验能够指导年轻的开发人员做出更好的设计决策,帮助管理者找出哪些项目会带来最好的投资回报率,从而也放大了他们的参与对于团队的影响。
责任编辑:任我行