周涛:一小时掌握大数据思维的秘诀
什么是大数据思维和大数据创新的精髓?
一个人有没有大数据思维主要体现在两个方面:第一他是不是具有定量化的思维方式:
就是我们现在看很多问题习惯从经验、定性地角度看问题,不习惯所有的决策都用定量化的方式来进行描述。例如我们经常说一个人漂亮,说一个人好,但是我们不习惯用一套图像识别的算法来真正计算这个人漂亮到什么程度,好到什么程度。
什么是定量化?
一个简单的例子,比如一个新的广告营销,新的算法比旧的算法好,不是说大概好在哪三个方面,而是我们要把所有的人群无偏地划成两个部分。第一部分用就算发,第二部分用新算法来进行推送,最终发现新算法带来的点击率、销售好于旧算法,我们才能说新的算法确实比旧算法好。这是一种典型的定量化思考方式。
第二个点是大数据思维需要我们在某种程度上相信机器、相信数据胜过相信自己,这往往是很难接受的。
因为人走下神坛之前,会觉得自己的智力是凌驾于计算机之上的,他也觉得一个算法如果做得好,我们是应该是完全理解他的。其实,机器学习、人工智能它吃进去的是大量的数据,吐出来的是结果,在这些数据和结果之间的连接并不是我们想象的完全能够被人理解的,因为它可能是用几百万甚至几亿的特征来得到更好的分类,更好的预测,它处理和思考问题的方式和人不一样,人是能够更快、更好的把握几个重要的特征,但是精确度却远不如计算机。很多时候我们觉得但凡是不可理解的就是不可相信的,这种观点一定要抛弃。
所以,如果你能够学会用定量化的去处理我们的世界,去评判所有政策的好坏,又能敢于放弃一点点的尊严去相信计算机的结果,这是初步具备了走进大数据时代的思维的基础。数据化时代带给我们哪些颠覆性的变化?
数据时代往后走,它的目标是要把我们带入某种智能时代。
大数据时代的核心精髓有两个组成部分:
一个是数据的外部化,
就是说,我们进到了数据时代,一组数据不仅仅产生它的地方被人用过,而是在很多地方被使用,这叫数据的外部化。因为它的流通拷贝几乎不用新的代价
第二个就是人工智能,
通过人工智能得到一些简单统计得不到的深刻洞见,这才是大数据,不然就是商务智能在更多数据集上的应用。
数据时代是智能时代的引领,数据时代给我们带来更多的决策支撑,通过这些深刻洞见使我们的决策更准确、更高效。但是,未来颠覆性的变化,就是在整个的决策环境中,原材料就是数据,而大脑就是计算机,人类要被踢出这个决策环境,这是颠覆性的变化。在这个时候,我们整个社会的经济乃至整个劳动力结构都会发生绝大的变化变化,很多人可能会面临未来不适应这种变化,也没有办法发挥他的社会价值,留下来的劳动力几乎只有几类,一类是从事创造型的劳动,通过密集的智力劳动创造新的科技知识,创造新的意识作品等等。第二类是情感类的劳动,通过接触使得能远离恐惧、痛苦,感到安稳,感到幸福快乐。其它的劳动很多都会被替代掉。
如何接触大数据创新产品?大数据创新产品长什么样子?怎么判断?
大数据创新和伪大数据创新的区别:第一就是有没有原始的大规模数据源,第二有没有好的分析方法。
不管是算法,还是新建的特定的科学模型,得到原来得不到的深刻的洞见,这两者加到一起就能判断有没有大数据创新。
如何看待隐私及伦理?隐私和伦理是两个不同的问题,前者要简单一下,后者要复杂一些。
首先,从个人来讲,没有义务也没有能力去保护自己的隐私。就像面对假酒,我们消费者是没有去分辨什么是甲醇什么事乙醇,但是判刑是判的做假酒的人。
没有能力是指现代的互联网科技水平非常高,我们键盘敲击的记录主机上都能记录下来,所以除非自绝于这个社会,不然是不可能真正保护自己的隐私,因为你走在路上,还有天网照着你呢,你去看病、买房、买车都会留下记录,银行取钱也要留下记录。从这个角度讲,很难耶没有能力去保护自己的隐私。
反过来讲,我们要通过从企业端进行严厉惩处,能够去清洁市场环境或者生态环境。一个企业如果非法获取个人数据及隐私并且还用它做了严重伤害人的事情,那我们一定要予以重处。在这种情况,一方面要靠立法,但又不能光靠立法,因为立法要实施要通过技术而不是一纸空文。我们既要通过技术去锁定核心隐私数据在全管理流程中到底是什么人、用什么权限、在什么时间点、从哪个设备上下载操作数据,我们一定要打上水印,能够追踪。一旦隐私泄露能追踪到这个人。
第二我们要给能处理隐私数据的企业要有个资质
隐私还是要从企业端来抓,不能从个体能力,教个人保护隐私,价值往往比较小。
伦理的问题是说,未来我们对人工智能越来越依赖,会发生我们想象不到的,对我们当前社会蒹葭及机制的影响。
第一个点是通过数据和算法,机器预测你将以很大概率犯罪,从而在你还没有实施犯罪行为时,你就已经实质上受到了惩罚。比如说通过一些面部扫描、名字的分析、旅行轨迹的分析,
都会判定是不是恐怖分子,因为这些原因每次在机场都会被勒留很长时间,本质上收到了一些不公正的待遇,但是这件事总体来说降低了恐怖主义可能带来的巨大风险,这个事儿应不应该做,能不能这样做都是问题。
第二是算法本身的设计者在设计算法时会有不公平。设计者本人会把他潜在的种族歧视、性别歧视等等放在算法里面,故意或者不故意,我们很难去甄别,因为代码很长。
第三个是算法本身的原因。比如说,美国现在步态和人脸识别对于有色人种的识别精确度要高于白种人,那就意味着有色人种犯罪或者其他违法行为被机器抓住的可能性可能要更大 一下。
第四个问题,当因为算法而产生了重大事故到底谁来承担这个责任,比如说自动驾驶,当然还有更多的问题,不是人产生的这个结果,而是机器智能产生的这个结果,那是应该由写人工智能算法的人来负责还是由设计这个体系的,还是应该没有人负责,公共社会承担这个责任。
这些问题都是现在还没有切身体会,但是未来可能会涉及。当我们的医生诊疗、法院的判决、甚至是自动无人驾驶的汽车都变成常态的时候,这些都会变成非常大的问题。
怎样培养大数据思维的能力?
关键有两类东西:一类是统计学,建立统计学的理念,第二是机器学习, 要有机器学习的思维方式……
责任编辑:沧海一笑