中国工程院院士李德毅:大数据挖掘带动的变迁

2014-05-30 08:22:41 大云网  点击量: 评论 (0)
5月29日消息,2014第十八届中国国际软件博览会在北京展览馆开幕。本届软博会以软件引领信息消费,助力经济转型升级为主题,充分展示软件业在促进信息消费、提高百姓生活质量、提升社会各行各业信息化水平等方
    这种摩尔速度在计算时代人们突然发现,存储也有很大的人脉,尤其是存储材料,存储技术的发展使得我们口袋里有一大把硬盘,以前我们是不可想象的,市场价值500块钱一个TB,为什么还要把这个数据清洗的那么干净呢?我们进入了存储阶段,这个比摩尔速度快,我们就从数据库时代计算时代进入了搜索时代。存储技术在交互的发展,我们有了存储的网络和阵地。于是社会进步了半结构化的数据阶段,万维网之父第一个把超文本技术引入互联网的,发出世界上第一个Web服务器和Web客户机。人类进入了新的时代,进入了Web时代!他是一个50后,没有统一的数据结构,依靠规范和标准彼此约束,所有媒体数据均以实体的形式存在,实体可以是碎片化的文本、语音、图片、视频。甚至是软件实体通过超连接产生联系。我们软件供应商把它定制为半结构化数据的组成形式C/S、B/S、云计算。人们通过超链接和超媒体,依靠HTTP、HTML、WSDL等标准规范来约束。数据围绕实体,实体围绕链接转。挖掘实质上就是云计算环境下的探索和个性化的服务,没有死板的查询方式,也不是唯一的结果,允许带有不确定性,重视探索的统计性质。现在我们发展到了图搜索、语音搜索,各种各种的语音、图片等搜索引擎导致了互联网上的繁荣内容服务。
    我们不需要笔记本和iPad,万人一面的搜索服务受到质疑!这个时代存储新闻价值比例是9倍化的时代,我们把它作为遗产继承下来。大数据使得我们进入新的时代,就是我说的水不转,云在转。网络是以带宽为支撑的,尤其是互联网的带宽有一个速度,比9倍还翻一番!用带宽换计算、换存储,风起云涌。现在我们就处在网络化的时代和交互的时代移动互联网时代的大数据挖掘主要是网络环境下非结构化数据挖掘!这些数据形态反应是带毛的、鲜货的原始的数据。非结构化数据的挖掘的特点是什么呢?原生态数据常是低价值的,强噪音、并购、冗余的冷数据!人们首先关注的不再是大众,而是小众,现在我们是小河游水,任何一个公司首先关注的是特定群体的小众,满足小众万人需求才谈得上满足更多小众乃至大众的需求,由下而上,胜过由上往下。我们的顶层设计在这个时候不灵了!人们关心的是发现失联、发现异常!无比注重因果、主次、时许,谁在前谁在后也不太关心。大数据给我们画了一个美丽的饼,但是我个人认为不是这样的。移动互联网大数据挖掘过程中,数据的简约具有各自适应性!我本人长期以来用认知物理学方法实现数据的自适应简约。我们在国内外第一次提出了数据场思想,把人脸变成数据场,大家可以看到这张人脸跟人是有相似之处的,你可以用线性的方法也可以用非线性的方法,如果想突出他的眼睛、鼻子和嘴巴,我可以用这种方法来突出。用物理学中场的方法类比形成数据场,像素点之间相互影响越小,特征点个数越多,图像的描述越细节,反之特征点个数越少!
大云网官方微信售电那点事儿

责任编辑:叶雨田

免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
我要收藏
个赞