智能时代,运维工程师该谈什么?

2018-01-29 09:20:11 运维派   点击量: 评论 (0)
每家公司对于所谓运维团队到底应该做些什么,都有各自的看法。本文首先由阿里巴巴的运维团队在整个阿里巴巴的业务里承担的责任为切入点

    在变更这个领域我们觉得首先是效率问题。阿里巴巴现在大概有几万的研发人员,我们又把运维这个工作交给研发了,那怎么让研发在这个过程中,把变更这件事情做得更有效率和更没有感觉,是阿里巴巴现在追求的一个重点。这个重点我们认为,智能化是可以发挥巨大的帮助的。上面讲的第一个案例是讲的文件分发过程当中的智能的流控。比如一次发布要一个小时,那意味着多数研发是需要去盯一个小时的,他虽然不一定要一直看着,但是到发完之后是要去看一下,这挺耗精力的。另外一个方向是现在业界很火的无人值守,怎么做到在发布过程中,对于研发来讲最好是无感,我制定了在某天发,只要测试通过了我就可以自动完成这个过程,有问题稍微控制一下就好了,没有问题就当这件事情没发生。这对于有众多研发团队,或者当然,如果你有运维团队在做这件事情,对运维团队来讲就更有帮助了,意味着运维很多人可能就去掉了一大块活。所以,变更这个领域,我们最希望做的是朝这个方向去发展。目前来看阿里巴巴的尝试,我们可以看到变更引发的故障比率是最高的,目前已经铺的这个领域中,可以下降 30% 因为变更引起的故障,拦截主要是用来拦截问题。

    监控 AI 化

    智能报警

    这个领域现在是 AI 进入运维行业中最火的领域,所有公司都在做。第一个是阿里在做的,阿里也不例外,我们也同样在做。第一个是智能,大家比如说做运维的都知道,你写完了一个业务,要配监控报警的阈值的,比如说 CPU 到多少应该报警,然后响应时间到多少应该报警。阿里在尝试的一个方向是让你不要去配,阿里根据分析来决定什么情况下需要报警,这对于研发来讲有巨大的帮助。

    异常检测直接影响到效率

    第二点是异常检测,这是很多公司都在做的。异常检测之所以要做,最大的原因就是因为效率,如果不做,其实也 ok,但是要投入非常大的人力。比如说交易跌了,那到底是,比如对于我们来讲,交易跌了,只要跌了就需要分析到底什么因素。而这个因素很有可能,最后你发现根本跟我们没关系,可能是外部原因,国家节日等等,各种各样的因素造成的。尤其是小规模的业务,比如我们的海外业务,波动非常大,如果一波动就认为是问题,这对于整个公司的效率来讲是巨大的影响。所以我们认为,如果异常检测做得非常好,对我们的效率会有非常大的帮助。这张图是通常来讲,做异常检测,运维的数据都是时序化,根据时序有各种各样的算法,上面列了业界常用的算法。最左上角的算法是阿里巴巴自己研究的算法,从我们目前的测试情况来看,我们可以看到阿里巴巴自己研究的算法的准确率等等,得比业界高非常多。细节我不讲了,最重要的原因是这个东西马上会在某个会议上发表一篇论文,大家以后会看到。

    稳定性是以效率为原则

    故障修复要精准且快速

    稳定性对我们来讲最重要的是效率问题。第一个是故障的修复,故障出现在越大的公司越大的规模越复杂的业务场景中,出现是不可避免的,一定会出现,关键是出现之后怎么尽快把故障修复掉。故障修复这个领域,阿里巴巴尝试了非常多的方案,也尝试了很多年。很多的案例都是,这个过程需要慢慢的积累,原因在于信任感地当故障出现的时候,我们都说公司的很多团队都处于高度紧张的状态,这个时候有一套系统抛出了,现在多数这种系统都是抛出三个决定,给你三个建议,然后你来选。有时候经验丰富的处理故障的人一看,你抛出的三个建议都不靠谱。当十个故障中,有八次,不用八次,如果有个四五次都是这样的,以后所有人都不会看这套系统了,太不靠谱了,还不如人来判断。这个系统难度非常高,需要整个公司坚定地朝这个方向走,并且更好的积累很多的数据。

    故障修复,阿里现在只尝试了一些非常简单的案例,对于阿里来讲,比如一个机房出故障,因为整个阿里巴巴交易体系的架构是支持多点的,对于我们来讲如果在某种情况下,我们判断一个机房出故障,我们可以自动的做一些流量的切换等等。但阿里现在也认为,智能化在稳定性,尤其故障修复这种动作上,还是要非常小心,万一没事切出了问题,这影响更大。

    用智能化做好故障定位

大云网官方微信售电那点事儿

责任编辑:任我行

免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
我要收藏
个赞