如何建立大型数据中心的运维管理平台
很多数据中心管理人员开始筹划或者进行数据中心升级计划,对于这些数据中心的建设,建设者和管理者往往将目光聚焦在其“绿色标签”上,从照明、制冷的节能,到IT基础设施的功耗,都会被上上下下扫描一番。在这种形势下,“高大全”的数据中心建成了。如果说数据中心的正式运营标志了启动了其生命起点,而对于其生命周期中的系统维护,则将伴随着数据中心度过漫长的数十年。
在一些数据中心管理者的眼中,数据中心IT运维并不是新鲜事儿,无论是自建维护团队还是外包第三方服务,都是必需必要的。然而,他们忽视了非常重要的一点——在后信息时代下,传统的IT服务模式,还能继续下去吗?
后信息时代的一个重要特点是数据的大批量集聚,表现为数据来源各式各样、数据规模飞速增长、数据结构纷繁复杂、数据处理手段百出,数据应用面面俱到。海量数据的爆发式增长,需要有足以支撑的IT硬件和软件系统。而对于这些无论从规模还是从功能上都大幅升级的IT系统,如果还坚持传统的“走读式”IT服务,将会遭遇巨大的挑战。
传统IT运维通常采用日常巡检与故障排除的组合式服务,需要IT服务人员要有较高的耐心和细心。对于有数十台IT设备的中小规模数据中心,这样的服务方式足以满足要求。但是,当数据中心的规模以数千台甚至上万台IT设备来计时,这种“手工作业”的模式则会被淘汰,取而代之的是“自动化”模式的IT管理服务。
专家认为,要支撑大型数据中心的可靠运维,必须依赖一个统一的运维管理平台。它应该具备这样的功能:
一、 覆盖数据中心全部IT设备,即将所有设备统一在一个平台上进行管理。
二、 该平台能够实时监控管理对象,使IT人员的管理触角可同时延伸至所有设备。
三、 能够预警,即通过阈值的正确设定,确定预警门槛,既能够“防患于未然”,又不会“虚惊一场”。
四、 能够自动数据分析,具有报表的自动生成功能,使管理运维工作及时、真实地反应出来。
具备了以上性能的运维管理平台,应该说只是具有的基本的功能框架,还需要大量的细节来加以丰富。例如:对于该平台的访问模式,是采用单一模式还是多样模式?是否接受远程访问?告警内容以何种方式发送给对应人员,语音、短信,抑或电子邮件?如何在自定义周期内进行自动触发,从而完成IT运维的例行巡检,并生产巡检报告?如何联动分析告警信息,从而判断单点告警事件的影响面有多大?如何进行风险评估,并提前解决风险点?
以上种种,看似琐碎,实则需要运维管理平台的建设者拥有丰富的实践管理经验,而并非闭门造车可以产生的。比如,倘若没有深厚的技术和经验积淀,很难设立准确的阈值,设的高了,意味着小事件变成大事件了才为人所知;而设的低了,则动不动警报乱响,大惊小怪,白白耗费各种资源。再如,运维人员和管理人员对数据分析结果要求不同,运维管理平台就要提前明确这些各自不同的要求,从而生成符合需要的分析报表和函数图形。

责任编辑:廖生珏
-
碳中和战略|赵英民副部长致辞全文
2020-10-19碳中和,碳排放,赵英民 -
两部门:推广不停电作业技术 减少停电时间和停电次数
2020-09-28获得电力,供电可靠性,供电企业 -
国家发改委、国家能源局:推广不停电作业技术 减少停电时间和停电次数
2020-09-28获得电力,供电可靠性,供电企业
-
碳中和战略|赵英民副部长致辞全文
2020-10-19碳中和,碳排放,赵英民 -
深度报告 | 基于分类监管与当量协同的碳市场框架设计方案
2020-07-21碳市场,碳排放,碳交易 -
碳市场让重庆能源转型与经济发展并进
2020-07-21碳市场,碳排放,重庆
-
两部门:推广不停电作业技术 减少停电时间和停电次数
2020-09-28获得电力,供电可靠性,供电企业 -
国家发改委、国家能源局:推广不停电作业技术 减少停电时间和停电次数
2020-09-28获得电力,供电可靠性,供电企业 -
2020年二季度福建省统调燃煤电厂节能减排信息披露
2020-07-21火电环保,燃煤电厂,超低排放
-
四川“专线供电”身陷违法困境
2019-12-16专线供电 -
我国能源替代规范法律问题研究(上)
2019-10-31能源替代规范法律 -
区域链结构对于数据中心有什么影响?这个影响是好是坏呢!