智能时代,运维工程师该谈什么?

2018-01-29 09:20:11 运维派   点击量: 评论 (0)
每家公司对于所谓运维团队到底应该做些什么,都有各自的看法。本文首先由阿里巴巴的运维团队在整个阿里巴巴的业务里承担的责任为切入点

    Quota 管理:比如我们会跟业务团队做一些预算的管理,对于每个业务团队首先需要有预算。只要你有预算,运维团队一定会把资源交给你,没有预算一切免谈。

    规划:比如阿里每年的双十一交易,业务团队要给出下一年的交易额将做到多少,至于背后需要增加多少的机器量,业务团队根本不关心。所以需要运维团队来做从业务需求到资源的转化和规划,这对于公司来讲非常重要,因为意味着最终我在基础设施上要投多少钱,还有节奏的控制。

    采购:当规模大了以后,怎么样合理规划资源的数量和交付节奏是非常重要的,比如 5 月份采购这批机器和 6 月份采购这批机器,是完全不同的概念。还需要资源的采购,比如 SSD 采购紧张,供应量不够。通常大公司会有更多的渠道获得更好的供应量,小公司就会很困难。怎么做好供应链控制是非常重要的。

    资源调度:对于资源团队来讲,调度也很重要,我们交出去的机器是怎么样的交法,怎么保证可用性、稳定性, Bootstrap 等,每个业务都有自己的规划,按照业务需求怎么把整个业务环境全部交给业务方。阿里目前就遇到了很大的挑战,比如在国际化的扩张上,我们可能这个月需要在这里建个点,下个月需要在另一个地方建个点,怎么快速的完成整个资源,不仅仅是机器资源的交付,还有软件资源的交付,是非常重要的。我们现在在扩展东南亚的业务,怎么样在东南亚快速的完成整个软件资源的交付,对于我们的竞争是非常重要的。

    变更是运维不可避开的坑

    对于运维团队来讲,变更也是经常要做的部分,变更信息的收拢,做应用层面的变更,基础网络的 IDC 等等。

    监控预测潜在的故障

    监控对于阿里来讲主要分为基础、业务、链路,在监控的基础上要去做一些报警等。

    稳定性是不少企业追求的目标

    稳定性这个概念我们以前认为针对的是大公司,因为它可能会影响到大众的生活,会比较敏感。但是现在新型的互联网公司,如外卖,ofo、摩拜等,它的稳定性要求比以前很多创业型公司更高,因为它有在那个点必须能用,如果不能用,对用户会有直接的影响。所以稳定性可能在整个运维行业会得到越来越高的重视,但是对于很多中小型公司,稳定性的投入相当大的。

    一键建站让规模化有力保障

    像阿里在稳定性上主要会去做多活体系的建设,然后故障的修复、故障定位,然后还有一套全链路的压测。规模化是很多运维团队很痛苦的事情,可能今年机器在这个机房,明年你的基础设施团队可能告诉你,这个机房不够用了,我们要换个机房。反正在阿里巴巴,很多的运维人员都说了,我们每年的工作中有一项不用写的工作就是搬迁。虽然基础设施团队会承诺说三年内不会再搬,可是到了明年他会跟你说,由于某些原因我们还是再搬一下,搬完之后三年不会让你再搬。但是从我们过去发展的三年,每年都在搬。未来我们确实相信阿里巴巴,可能在未来搬迁会相对更少一点,我们认为不能让搬迁成为阿里巴巴运维团队的核心竞争力。

    我们在规模化层面做了很多事情,比如说我们做了一键建站,对于阿里来讲,我们对机器资源的交付时间,要求会越来越高。比如说双十一,是提前一个月交付资源还是提前两个月还是提前三个月,对我们来讲付出的钱是完全不一样,而且可能相差非常大。

    所以,技术层面能不能更好的把这个时间缩短,是非常重要的。所以一键建站的重要目的就是这个,每年双十一我们都会拓展出非常多个站点,通过一键建站快速完成整个过程。搬迁就是我说的,反正我们每年都要搬,那我们应该把搬迁这套系统做得更好。还有腾挪,阿里很多时候因为需要做一些业务资源的复用,最好是有一个机柜,这个时候怎么更好完成挪的过程也是很麻烦。

    我们还需要做一些单元的调整,因为对阿里的交易系统来讲是有单元的概念的,我们怎么更好的控制一个单元内机器的比率是非常重要的。一个单元的机器数可能是比较固定的,那如果比率搭配不好,就意味着瓶颈点会非常明显。

    以上,正是阿里巴巴的运维团队所覆盖的五个领域。整个运维体系的演进过程,差不多都是从最早的脚本到工具到自动化,到未来的智能化。

    从工具化到自动化过关斩将

大云网官方微信售电那点事儿

责任编辑:任我行

免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
我要收藏
个赞