微信光缆被挖断 探讨信息化安全软肋

2013-11-21 10:37:51 北极星电力网  点击量: 评论 (0)
一次城建工人的失误,造成了微信史上最大规模的一次宕机,也让这个拥有4亿用户的超级即时通讯工具面对了自上线以来的最大危机。 从通讯中断后的修护时间之长,到光缆被挖断后的应急方案之弱,都让外界注意到,

        一次城建工人的失误,造成了微信史上最大规模的一次宕机,也让这个拥有4亿用户的超级即时通讯工具面对了自上线以来的最大危机。

        从通讯中断后的修护时间之长,到光缆被挖断后的应急方案之弱,都让外界注意到,微信乃至中国互联网产业体系中曾被忽视的安全软肋。

        宕机之后,微信团队恢复通讯的时间是6个小时,这在互联网乃至通信行业里都极为罕见,尤其是曾被认为需要向互联网学习的通信运营商,重新成为腾讯需要学习的对象。

        “网络再烂的运营商,也基本不会出现全网中断;即使有局部地区短信中断或话路中断,基本也很少超过一个小时。甚至在雅安地震这样的灾难事件中,运营商也做到了在一小时内恢复75%的通信。”一位运营商人士告诉记者。

        危机6小时

         7月22日上海浦东新区康桥镇秀浦路,一大早,上海城建隧道股份有限公司浦东分公司的工地上就已忙碌起来。在这个被戏称为“上海史上最热”的炎夏,天气最凉爽的清晨是室外市政施工最宝贵的时间。但8点刚过,他们不得不把手里的活儿全部停了下来,因为他们挖断了光缆。

         这是一次意外的事故,各路管网交来的图纸显示,地深5米处,应该没有通讯设施。但实际的情况是,地下被挖断的光缆甚至超过了10根,其中2根就是运营商为微信提供的光缆,同时还有其他世界500强企业也因此通讯中断。

        最先发现异常的是运营商,它们的网络监测系统第一时间发现区域内管线出现问题,并立刻联系在当地施工的城建公司和电力公司展开排查。

        此时,从上海到北京、浙江、广东,到更多地区,越来越多的微信用户发现,自己无法登录微信。他们开始在各个社交网站发问,“微信怎么了”,“我和我的小伙伴失去了联系”……短短数小时内,几个微博平台,与微信故障有关的微博就已达到上亿条,甚至出现了“微信遭受了上海等黑客团队的攻击”等流言。

        腾讯对记者表示,负责微信机房的工作人员也发现了数据异常,且与运营商发现问题的时间基本一致。但直到9点26分,也就是光缆中断1个半小时之后,微信团队才对外发布第一条微博,称“由于服务器基础网络故障,您的微信暂时可能出现收发问题。我们正在玩命恢复中,请各位小主耐心等待”。

         又一个1个半小时后,腾讯微信团队11点在官方微博上公布了宕机原因:

        “机房两路光缆出现硬件故障,导致部分用户无法正常登陆和收发信息”。据记者了解,在光缆被挖断之后,微信团队做出的补救方案,是进行数据迁移。30%的用户数据被迁移到其他的机房,但由于华东、华南地区的机房冗余不足,不堪重负,扑天盖地而来的数据请求,让各地机房的数据处理能力也迅速达到饱和,最终导致了微信业务的几乎全线崩溃。此时,唯一的解决办法,只剩下了全力抢修更换光缆,并通过技术手段逐步恢复用户使用。当天下午14点23分,微信团队终于发布微博表示,全面恢复通讯。

         微信为何中断

         实际上,这并不是微信第一次发生宕机事故。4月10日,微信曾因机房故障发生10分钟的中断。

但与上一次的短暂中断不同,此次长达6小时的严重事故,具有更大的影响与意义,仅其引发的7月23日股价波动,就让腾讯蒸发了近百亿市值。

        作为中国最大的互联网公司之一,腾讯究竟为微信配置了怎样的基础架构,是如何保证机房数据安全、顺畅的?为何因为2根光缆的中断,就出现如此致命的网络问题?

        记者了解到,腾讯在上海设有多处机房,分别与不同运营商合作,出于成本考虑,这些机房既有合建,亦有自建。微信机房采用分布式架构,通过云平台实现多机房互联。此次被挖断的光缆正是连接微信在华东区核心服务器所在机房,另一头连接着具有索引功能的机房。

        实际上,微信在全国的机房架构均是遵循交互式的布局方式,因为不能将所有的鸡蛋都放置到同一个篮子里。面对4亿用户群体,微信不可能、也不会将所有的用户集中在一家服务器上。也就是说北京的用户数据不全存储在北京的机房里上,有可能存储在上海、广东等地的机房。而上海的光缆断了,会影响到存储到本地的北京、上海、广东、浙江等地的用户。

         一般来说,大型公司为保证机房数据安全会设置光纤通信双保护,一旦其中一条光缆出现故障,可迅速切入另一条光缆,以保证数据传输。《财经国家周刊》记者了解到,此次,腾讯与上海运营商合作,已明确要求使用双光缆。

         但从此次的宕机故障来看,这两条光缆却还是被放在了同一个管道中,变成了“双光缆、单路由”。

         这就好比为了防止堵车,运营商应该为腾讯提供两条不同的路,一旦A车被堵在了A路上,任务可由B车通过B路完成。但现在,两条路却重叠在了一起,并且同时中断。

        据悉,之前因为双光缆单路由的设置,曾导致QQ连接故障,所以腾讯一些重要的机房被改为双光缆双路由。但这个经验显然未被复制到微信上。“同时受到光缆被砍断影响的业务还有QQ的其他一些业务。”腾讯公关部总经理助理张军电话里对记者说。

         对于用户规模越来越大的腾讯,其在基础设施的花费也变得庞大起来。腾讯财报显示,“移动及电信收费以及频宽及服务器托管费”位列开支项目中前三。从2004年到2012年期间,增长超过10倍,从3.16亿元增至34.08亿元。

         宕机后遗症

        微信宕机事件,再一次为互联网企业们拉响了警钟。

        当前,在信息化浪潮的冲击下,每个国家的政治、军事、经济、民生,乃至每个人的生活与娱乐,都越来越依赖互联网,一旦互联网自身出现安全问题,所造成的影响将在更大的领域扩散,甚至可能引发更大危机。

        事实上,腾讯不是第一个、也绝不可能是最后一个出现宕机现象的互联网公司。在此之前,新浪微博就曾两度出现宕机现象,而Google、维基百科也曾因各种原因数度宕机。

         对互联网公司来说,每一次宕机,都有可能导致大量的用户离开。据IDC调查显示,1990-2000年间,美国发生过数据灾难的公司中,55%当时倒闭,29%在两年内倒闭,生存下来的仅占16%。

        调研机构Qualix Group的一组数字,更说明了不同行业关键业务中断带来的金钱损失:服务器宕机1分钟,平均会使运输业损失15万美元,银行业损失27万美元,通信业损失35万美元,制造业损失42万美元,证券业损失45万美元……

         而涉及到政府、国防、安全、电信、金融、交通和医疗等关系到国计民生的行业的关键业务,需要遵循“5个9(99.999%)”、“6个9”、甚至是“7个9”的标准。这意味着一台服务器每年的非计划停机时间分别只有5分钟、30秒和3秒钟。

         综合来看,目前出现的各类宕机,可以归结为六大类:网络故障、应用系统本身产生的问题、基础设施问题、系统部署方案不合理,人为原因(如黑客攻击)以及硬件故障。

        易观国际分析师闫小佳表示,在IT行业出现宕机并不鲜见,关键是要看企业能否在第一时间及时发现和解决问题,要看企业平时是否能建立一个良好的应急机制。此外,宕机也从一个侧面揭示出,包括带宽、云存储等在内的国内互联网的“基础设施建设”目前仍跟不上用户及市场发展的需要,这应成为今后行业需要加快发展的又一重点。(记者 徐英)


大云网官方微信售电那点事儿

责任编辑:黎阳锦

免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
我要收藏
个赞