论IT运维的“功守道”
那么为什么要叫“功守道”,而不直接叫太极呢?看过的人也不一定可以悟到,马师傅心中的功守道并非一种新型的武术,而是用功夫守护自己想要保护的人、事、物。说到此,IT运维也有最需保护的“务”,这就是“业务”。
“事前管理”不是口号,故障纠缠犹如“群口相声”
保障关键业务的稳定运行,做到防患于未然,不把“事前管理”弄成口号,这永远是个挑战!
这是因为,在业务系统运维过程中,IT人员将会遭遇各种困惑,这包括业务系统自身、业务系统之间、业务系统外部等诸多因素。
业务系统自身还会有麻烦吗?面对这样的问题,许多运维人员会说:“会出,而且很多。” 这就比如一套视频会议系统,视频传输不稳定、断断续续、画面卡顿、花屏、不流畅、影音不同步,这些问题随时都可能在会议过程中出现。但由于缺乏问题分析手段、工具,运维人员无法了解业务的实时状态,同时又因为缺少统一的业务数据关联分析,看到故障却更难以定位,只凭 “经验”去解决问题,既耗时又耗力。
上面这些还只是业务系统内部的问题,还不算业务系统外部那些网络攻击、违规事件、病毒事件、越权事件。当然,如果单纯只算上“内外”两方面的原因,运维人员还能勉强维持,而一旦问题出在业务系统之间,运维场景就真成了“群口相声”了。
业务A:你们怎么又没有发送数据?
业务B:大哥,我已经发送了数据,是你又没处理,好摸!
业务C:你怎么每天半夜12点不送数据了?
业务D:啊?我刚升级系统了,没人告诉我有这个接口呀,需要给你送数据?啊?
这里太乱,我想静静!
运维人心中的“功守道”:三重保障
在《马云三修》中曾经提到:“在太极里,我最欣赏的三个字是定、随、舍。
定即是看清自己和将来的趋势,不管发生任何事情,都要镇定面对;随,只有自己有实力的时候,才能懂得怎么去跟随别人;舍能让人看清自己,只有知道自己要什么,才能知道要放弃什么。”
脑洞开一下,把“三修”落到IT运维领域,或许能帮助运维人找到他们的“功守道”。最起码要做到“看清自己和将来的趋势”。
在目前这个IT技术大发展的时代,侧重于网络、服务器等基础设备的早期运维方式正在经历升级换代,越来越多的企业已经将关注点从单一网络转变到当前的业务系统,落实保障业务系统的各个环节已经成为运维工作的大核心。
基于上述需求,北塔软件推出了以业务保障为核心的新一代智慧运维平台BTDO。BTDO体现“三重保护”。
• 自诊断:业务系统内部运行状态
自诊断,是讲运维系统能够自动诊断出业务系统的运行隐患,比如监控到业务系统中软硬件配置、性能、流量等几千种指标,根据这些指标反映出业务系统“卡、断、慢”的原因。而落到“三修”中去理解,就是“看清自己和将来的趋势”。
并且这里的“看”还有非常特色,用到了我们日常生活中的“警示牌”,运维人员可以非常直观的看到这些警示牌,同时利用覆盖业务系统全过程的运行状态,溯源、关联、分析等精准数据,自动定位到故障点。
• 自学习:业务系统之间接口规律
随着企业业务的不断发展和分化,许多业务系统的接口越来越繁杂,协调越来越困难,为减少相互羁绊,就迫切需要一个统一自动化的分析工具,说白了相当是一个专门负责监控接口的“机器人”。
北塔软件的做法是采用了大数据分析处理技术,再配合一个“独家秘方”的业务接口通信规律算法,在无须人工干预的情况下,自动梳理业务间存在的接口、自动学习业务间接口通信规律、自动发现业务间接口通信异常。
• 自识别:业务系统外部安全风险
这个年头什么“最值钱”?马云也曾撩过各位,答案是“数据”,而这些数据就在企业的核心业务系统里面。因此,能够自动识别业务系统外部安全风险,自动对网络流量进行7*24小时不间断监控,发现异常行为并自动触发告警……这些功能,对于运维人员来说就显得万分有用了。
比如:自学习生成业务访问白名单,一旦发现未经许可的IP访问敏感业务,然后“挂牌”;出现异常业务访问流量,或是发现生产和办公两个区偷偷“约会”的流量,然后“挂牌”;守护重点设备协议端口,发现有不法分子访问重点设备的非公开协议端口,然后“挂牌”。
结合这部22分钟的《功守道》,我们说了这么多IT运维的理念,只想与各位同道共省:运维人员一定要跟上这个时代,要做什么样的“功”,才能“守”住自己的“道”?是我们应该不断追问自己,并着力寻求答案的重要问题。