数据中心要保持稳定的运行,需要大量的专业技术人员。一般承担重要业务的数据中心都是有人24小时值守,所以数据中心日常维护工作繁琐,但又很重要。随着人们的工作生活对数据的完全依赖,承载数据计算、运行的数据中心正发挥着越来越重要的作用,这更突显出维护工作的重要。
一、日常检查
“千里之堤,溃于蚁穴”。任何的故障在出现之前都可能会有所表现,小的隐患不消除,可能导致重大的故障出现,所以数据中心日常的例行检查工作枯燥,但也很重要,可以及时发现一些运行中的隐患。根据数据中心承载业务重要性的不同,要对数据中心里的所有运行的设备进行例行检查。一旦有异常及时处理与消除。
对数据中心的机房环境也要进行检查,环境的温度、湿度、灰尘是否合乎要求。空调、供电系统进行运行良好,设备运行是否过热,地板、天窗、消防、监控都是检查的部分。不合理的地方要及时进行整改
二、软硬件升级
数据中心的设备一般运行周期是五年,不断地有设备需要逐渐淘汰进行更换,也有一些设备因为存在软件缺陷需要升级,因此软硬件升级也是维护工作的一部分,尤其是软硬件出现故障时,就必须要进行更换。有时为了不影响业务,往往还需要设备厂商提供软件补丁来解决问题。数据中心的设备成百上千,出现软硬件故障很正常,所以要不断地进行软硬件升级。
三、突发故障
没有任何一个数据中心是不出故障的,在数据中心运行的过程中都会出现这样那样的问题。当发生停电故障时,蓄电池起到应急供电的作用。数据机房中可能90%以上的电池都很少在生命周期内碰到一次故障停电,但是电池必须时刻处于正常状况,否则停电时电池无法放电,后果将会非常严重。所以电池保持在一个健康可用的状态,才能保证数据中心的供电安全,这时维护人员可以静下心来冷静分析故障的触发原因,迅速找到解决的方法。
四、解决方案
由于数据机房里的蓄电池的数量庞大,少的也有上百节,多的甚至可以达到上千节。所以这些项目光靠人去执行,总是不可能保证100%可靠的,有没有更好的维护手段?其实蓄电池管理系统(BMS)是一个很好的解决方案。通过BMS对蓄电池的运行状态进行实时监控,及时发现故障隐患并发出告警,指引维护人员正确的应对处理,避免不必要的事故发生,确保数据中心的平安稳定运行。