借数据造就新一代搜索

2013-09-26 09:43:39 《信息方略》  点击量: 评论 (0)
近几年,大数据成为了一个耳熟能详的IT词汇,和云计算、移动应用、社交媒体一起在所有人的视线里闪耀。百度作为互联网企业,又是以搜索见长,数据方面一直是百度所有工作的重点。  作为搜索公司来讲,最
       近几年,大数据成为了一个耳熟能详的IT词汇,和云计算、移动应用、社交媒体一起在所有人的视线里闪耀。百度作为互联网企业,又是以搜索见长,数据方面一直是百度所有工作的重点。

  “作为搜索公司来讲,最主要的就是大数据,把这些数据放到数据库里面。目前我们的数据存储能力已经是2000PB,网页是千亿到万亿,更新量是十亿到百亿每天,还有广告,还有用户产生的内容UGC,大概就是这样的情况。”百度技术委员会理事长陈尚义说道。

  正如陈尚义讲的,百度的数据非常多,结构化和非结构化数据大量并存,小到一个词汇,大到一部电影,他们对于数据的要求也是不一样的。在日常中,百度需要的面对的是客户24小时随时随地的需求,业务对于数据储存提出了极高的要求。“高可用、高可靠、高通量、高实效是我们对于自身服务的要求。我们有大数据平台,有专门的队伍来做数据这块,以支持百度贴吧、知道和百科等平台的正常运行。”陈尚义在提到百度服务的标准时提到。作为国内搜索界的领军人物,百度的数据增长量是非常惊人的,这样的情况使得百度对于自身系统的可靠性要求也更高。

  精准为王

  当我们在使用百度的时候,最关心的就是搜索结果的精准性、全面性、搜索模式和交互体验。而具备这四个特性的搜索方式被称之为新一代搜索。

  举个简单的例子,在没有利用大数据的时候,当我们在网上搜索一个疾病的名称,出现的可能更多的是医院的信息,疾病的一些基本情况。当大数据被利用起来时,我们在搜索会获得疾病的情况,其他差不多的疾病有哪些,用什么药品。而当你选择一个相关的医生时,网络上就出现医生的专业,擅长的领域。这样的一个转变,是更加智能的交互体验当我们输入一个东西,搜索引擎就已经知道我们想干什么了。而百度正在利用大数据向这个方向发展。

  全面为佳

  现在,百度不仅仅有文字搜索,还有语音搜索、图片搜索。你搜“国际会议中心”这几个字的时候,会呈现出国际会议中心相关的图片,但是现在相反了,你可以输入一个图片。根据你的图片可以找到跟它相关的或者相同的图片,叫以图搜图,这个方面我们去年经过一年的努力之后,取得了非常巨大的进展。”陈尚义介绍了一种叫做隐文搜图的新式搜索。不难看出,这样的一种搜索改进,背后对于大数据的要求比文字搜索图片的要求要高很多。

  这样一来,更多的信息就变得完整全面起来。当我们出行去外地,搜索一个景点时,除了获得这个景点的信息,更有景点内部相关的资料。周边的景点、景点的特色是什么都会推送给用户。这一切都需要大数据在背后做支持。

       当我们输入姚明的身高时,会出现姚明的信息。实际上这个概念叫做三元组。像这样的三元组,百度已经做了上亿条数据实体。所有这些都是从上千亿网页找到的。几千万个数据的实行,相当于上千万个名词的搜索,这超过任何一本书记和任何一本资料。——百度技术委员会理事长 陈尚义

  “新一代搜索下,当我们输入姚明的身高时,会出现姚明的信息。实际上这个概念叫做三元组。像这样的三元组,我们百度已经做了上亿条数据实体。所有这些东西都是从上千亿网页找到的。几千万个数据的实行,就相当于上千万个名词的搜索,这超过任何一本书记和任何一本资料,然后进一步找到这些实体之间的关系。” 陈尚义讲的这个例子最好的证明了搜索的改进是大数据做支撑的。

  2012年,百度引进了一项技术叫深度学习,百度用GPU的训练系统来实现深度神经网络,这项技术被投用在商业领域里,百度是首家应用的几个较少的公司中的一个。“在万兆网卡基础上使用128个GPU。训练100亿样本的数据,训练时间从数月缩短到一个月星期,图片错误率降低三分之一。”被问及百度在丰富信息上还利用大数据做了什么时,陈尚义如是说。

  民生关键

  很多企业利用大数据是为了更好的服务于客户,从而让最终用户获得更加完善的服务。百度作为一家互联网公司,利用大数据也是为了更好地让利用他的人们获得更好的体验。纵观一些问题,人们最关注还是民生的问题。医疗问题、交通问题都是人们在日常生活中最关注的。

  陈尚义讲了两个事例:他每天从家里到百度大厦有20多公里的路程,正常花费一个小时,如果不赌车,其实30分钟就够了,交通是一个让他心有余悸的问题。交通情况对于在北京的人都是相同的感受。抗震救灾的时候,道路不通畅,救援点也无法找到。

  另一个是陈尚义听邻居说起的,老人排队1个多小时挂了一个号,但是医生看了三五分钟就结束了,这样的一个情况让很多病患对于就医也充满了抵触心理。

  于是,百度针对医疗和交通出行,充分收集数据,并加以利用对搜索做出了很大的改进。

  在医疗方面,百度降低了获得服务的门槛。当在百度首页输入颈椎病时,会出现颈椎病相关的信息、医生、医院,并且提供挂号信息。经过百度技术团队的努力,现在百度已经可以做到一站式的服务。智能交互可以找到所有相关的信息。禽流感在2013年4月份比较流行,百度告诉你禽流感的症状,防御的措施,这样的话老百姓就不用惊慌了。医疗卫生方面还有很多,真假识别,价格的对比等等。

  交通出行方面,假设到国际会议中心,很多人知道路线。但是今天还是很多人用百度地图导航,非常的方便。现实生活中,在交通方面人们还有很多的需求,北京经常实施交通管制,我们如何实时获得交通管制信息。与此类相关的还有交通事故等,有没有大型货车都是行车人都关心的信息。

  在线教育也是现在民生方面非常新的一点。美国的情况比中国发展还要快,百度也推出了开放平台。

大云网官方微信售电那点事儿

责任编辑:廖生珏

免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
我要收藏
个赞