许多关键行业,如核能业、商业、军事航空业甚至是驾驶员培训的过程都需要投入大量的时间和资源,而数据中心行业却没有为此投入这么多的时间和资源。

技术失误并不是导致大部分数据中心出现中断的原因
TiePoint-bkm Engineering公司负责设备运营解决方案的总监David Boston表示,考虑到有三分之二的数据中心中断事件都是与流程而非基础设施系统相关的,所以不为流程投入大量时间和资源会造成很多问题。
Boston计划于7月12日在芝加哥艺术学院举行的“数据中心世界地方会议”上对防止数据中心发生中断的策略展开演讲。
他指出,管理层人员正不断地被迫更换老化的基础设施系统和组件,或已出现重复问题的系统,而且也习惯于通过扩展系统容量来容纳负载增长。另外,冷却系统中的机械故障也是造成基础设施故障的最大因素,由于电气系统需要在非常短的时间内作出反应,所以电气系统故障甚至会导致更多中断事件的发生。
虽然为导致数据中心中断的最常见原因研发相关流程对于管理层人员来说可能会更耗时,但却是值得的。以下是最常见的三种误区,Boston为此提出了应遵循的最佳做法:
1. 不能将数据中心的员工人数规模和轮班机制与实现维持关键运营的正常运行时间这一目标相结合。
最佳实践:通过高级IT管理来量化正常运行时间目标,并确保员工对其进行配合。Boston建议每个班次安排两名员工,外加在需要最大化正常运行时间时安排一名负责培训和编写程序的人员。如果数据中心能承受偶尔中断事件的发生,那就可以实行单班制。
2. 没有特定的数据中心培训计划,包括在数据中心开始运营前的独立操作时间。
最佳实践:将一位团队成员指派为培训计划的管理者,并安排时间,对所有团队成员进行每月应急反应培训。让每个团队成员轮流进行实践操作,在维护活动之前隔离基础设施系统,并在定期检修日历上事先记录下来的活动发出通知之前,将系统恢复到服务状态。
3. 数据中心特定流程不充分
最佳实践:指派一名团队成员担任编写程序的管理者,并分配时间开发(或与顾问合作开发)100到200个每一关键数据中心实际都会需要的关键程序,并对这些程序的技术正确性进行确认,还要确保团队中最不具备相关知识的成员也能清楚理解每一程序。
所有的关键运营都应该完全实施这些流程,因为如果不实施这些流程的话,企业的盈利或可信度都会受到影响。然而,对于非关键运营来说,他建议将这方面的关注重点放在制定出快速修复的方法上。
更多内容推荐:>>>如何选择优质的美国云主机