大数据,没有看起来那么美
大数据现在非常热,美国白宫任命的委员会近日发布大数据政府报告,而中国央视在两会中有大数据的专题,网络中的大数据分析报告也比比皆是,从百度迁徙看东莞挺住,到马年春晚的大数据分析。大数据正在从一种理论
大数据现在非常热,美国白宫任命的委员会近日发布大数据政府报告,而中国央视在两会中有大数据的专题,网络中的大数据分析报告也比比皆是,从百度迁徙看“东莞挺住”,到马年春晚的大数据分析。大数据正在从一种理论思考,演变成跨越社会各领域的实践行为。
但大数据真的这么美吗?如何让数据说真话?当一切美好的讨论需向现实兑现,大数据背后的 ,将成新的困惑。大数据目前存在五个大问题。
数据真实性。官员要政绩、学界要交差、商界要名利。注水性数据导致硬数据软化。基尼系数、博主粉丝量、复兴指数,为何一直在被质疑?凡数据造假能获利,则数据极可能有假。越来越多的软件自动发布信息,使得大数据也是真假难辨。数据背后的细节,数据源的真实、全面以及处理过程的科学,是大数据走向权威和可信的重要保障。
样本代表性。我们不可能搜集到全数据,而与大数据相关的形容词往往是大规模、精准、细化,在调用如此“完美”的数据时,如何注意情景和样本的适用性。正如网络民意与现实民意的讨论,微博不代表网络,网络不代表社会,朋友圈也是小圈子,跳出圈子看世界不容易,切勿陷入相同的悖论。在选样、测量、误差校正不尽如人意时,好数据将劣化,大数据将虚化。
相关性误差。利用大数据,基于一定算法和模型对变量元素进行相关性分析,在要素构成简单的情景中可以,在复杂系统中,仅有相关性解释还不够,易走偏。比如一个明显不对的结论:一个城市的网页数越高,其网络形象就越好。虽然,数据统计证实了网页数和网络形象存在一般的正相关,但忽略了负面事件带来的网页量爆发等,结论也是不科学的。相关性要真正体现在数据之间、数据与真实事件影射的现象之间、真实事件的客观联系上。
故事化。大数据的概念冲击、视觉盛宴,看上去不错,但要警惕割裂传统信息管理系统和大数据的关系,营造一个概念化、全新的东西。比如开发商大肆搞房地产,大数据要建数据中心,圈地成必然,又如做科研项目,思路和和内容要新颖,不少人拉大旗借用大数据。大数据只有与实际接轨,工具化、服务化和实用化,能解决具体问题的大数据,才能打破泡沫,见证数据真正之美。
隐私侵犯。大数据中包含每个人的小数据,这些数据经过进一步分析既能知道你的爱好,也能知道你的下意识行为倾向,如果据些来判断一个人的未来,是否会重演大片“少数派报告”的场景,我们现在还不得而知。
当然,新事物多要经历阵痛、广受褒贬,才能逐渐练就为成熟的应用。大数据之路,要加强对真假数据的清洗,有好的矫正鉴别模型;商业中的大数据挖掘,应推动资金互开放模式;政府可推动数据开放平台的接口,建立更好的沟通渠道,加大数据造假的惩治力度。样本代表性问题,如果无法做到全数据,应尽量考虑大数据分析的适用范围和结论边界。大数据分析也要有直观体验,明显与实际不符的结论最好有多个来源证实,多实地视察,加强生活中人性化沟通、交流,通过人际体验获得第一手材料。对涉及个人隐私的数据,需要加快立法,予以规范,避免为技术所异化。
但大数据真的这么美吗?如何让数据说真话?当一切美好的讨论需向现实兑现,大数据背后的 ,将成新的困惑。大数据目前存在五个大问题。
数据真实性。官员要政绩、学界要交差、商界要名利。注水性数据导致硬数据软化。基尼系数、博主粉丝量、复兴指数,为何一直在被质疑?凡数据造假能获利,则数据极可能有假。越来越多的软件自动发布信息,使得大数据也是真假难辨。数据背后的细节,数据源的真实、全面以及处理过程的科学,是大数据走向权威和可信的重要保障。
样本代表性。我们不可能搜集到全数据,而与大数据相关的形容词往往是大规模、精准、细化,在调用如此“完美”的数据时,如何注意情景和样本的适用性。正如网络民意与现实民意的讨论,微博不代表网络,网络不代表社会,朋友圈也是小圈子,跳出圈子看世界不容易,切勿陷入相同的悖论。在选样、测量、误差校正不尽如人意时,好数据将劣化,大数据将虚化。
相关性误差。利用大数据,基于一定算法和模型对变量元素进行相关性分析,在要素构成简单的情景中可以,在复杂系统中,仅有相关性解释还不够,易走偏。比如一个明显不对的结论:一个城市的网页数越高,其网络形象就越好。虽然,数据统计证实了网页数和网络形象存在一般的正相关,但忽略了负面事件带来的网页量爆发等,结论也是不科学的。相关性要真正体现在数据之间、数据与真实事件影射的现象之间、真实事件的客观联系上。
故事化。大数据的概念冲击、视觉盛宴,看上去不错,但要警惕割裂传统信息管理系统和大数据的关系,营造一个概念化、全新的东西。比如开发商大肆搞房地产,大数据要建数据中心,圈地成必然,又如做科研项目,思路和和内容要新颖,不少人拉大旗借用大数据。大数据只有与实际接轨,工具化、服务化和实用化,能解决具体问题的大数据,才能打破泡沫,见证数据真正之美。
隐私侵犯。大数据中包含每个人的小数据,这些数据经过进一步分析既能知道你的爱好,也能知道你的下意识行为倾向,如果据些来判断一个人的未来,是否会重演大片“少数派报告”的场景,我们现在还不得而知。
当然,新事物多要经历阵痛、广受褒贬,才能逐渐练就为成熟的应用。大数据之路,要加强对真假数据的清洗,有好的矫正鉴别模型;商业中的大数据挖掘,应推动资金互开放模式;政府可推动数据开放平台的接口,建立更好的沟通渠道,加大数据造假的惩治力度。样本代表性问题,如果无法做到全数据,应尽量考虑大数据分析的适用范围和结论边界。大数据分析也要有直观体验,明显与实际不符的结论最好有多个来源证实,多实地视察,加强生活中人性化沟通、交流,通过人际体验获得第一手材料。对涉及个人隐私的数据,需要加快立法,予以规范,避免为技术所异化。
责任编辑:叶雨田
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
我要收藏
个赞
-
权威发布 | 新能源汽车产业顶层设计落地:鼓励“光储充放”,有序推进氢燃料供给体系建设
2020-11-03新能源,汽车,产业,设计 -
中国自主研制的“人造太阳”重力支撑设备正式启运
2020-09-14核聚变,ITER,核电 -
探索 | 既耗能又可供能的数据中心 打造融合型综合能源系统
2020-06-16综合能源服务,新能源消纳,能源互联网
-
新基建助推 数据中心建设将迎爆发期
2020-06-16数据中心,能源互联网,电力新基建 -
泛在电力物联网建设下看电网企业数据变现之路
2019-11-12泛在电力物联网 -
泛在电力物联网建设典型实践案例
2019-10-15泛在电力物联网案例
-
权威发布 | 新能源汽车产业顶层设计落地:鼓励“光储充放”,有序推进氢燃料供给体系建设
2020-11-03新能源,汽车,产业,设计 -
中国自主研制的“人造太阳”重力支撑设备正式启运
2020-09-14核聚变,ITER,核电 -
能源革命和电改政策红利将长期助力储能行业发展
-
探索 | 既耗能又可供能的数据中心 打造融合型综合能源系统
2020-06-16综合能源服务,新能源消纳,能源互联网 -
5G新基建助力智能电网发展
2020-06-125G,智能电网,配电网 -
从智能电网到智能城市