数据中心的经理们一直在跟风险博弈。 他们的工作除了要通过有限的电力和制冷能力将计算资源塞进有限的空间之外,还包括确保这一资源在所有时间都可用。 这意味着他们必须识别和管理各种来源的风险。
使用基于标准的风险管理方法可以帮助解决这一问题。 它可以帮助数据中心经理对各种风险就行排序,并为数据中心或关键环境审计做好准备。 具体步骤如下所示。
了解不同类型的风险
数据中心要做到管理风险,必须了解不同类别的操作威胁。法国跨国IT咨询公司–凯捷管理顾问公司,通过运行自己的数据中心为客户提供服务。凯捷的GIO英国高级派送中心经理Kevin Read负责管理数据中心的风险,他给出了数据中心管理人员需要注意的几个风险类别。
由于工厂和IT设备发生故障,服务中断将是数据中心会面临的第二个风险。凯捷公司的数据中心在所有IT室(包括工厂房间)内使用惰性气体抑制系统,以便在火灾蔓延前及时将会破灭。
Read 解释道:“数据中心可能面临的第三个风险类别包括洪水(河流和极端天气),飞机,流行病和来自其他物体的空气污染。因此企业不应该选择靠近飞机航线,洪水风险区域以及被污染污染或可能含有爆炸性化学物质的工厂的场地。”
最后,第四种风险类别就是安全漏洞。 这包括物理安全和逻辑安全漏洞(黑客)的风险。凯捷公司甚至将恐怖主义威胁也纳入了这一风险类别。
像其他类别的风险一样,安全类风险自然会被分解成许多子类别,而这些分类又可以进一步分化。 例如,在逻辑安全性中,管理者可以将员工对应用程序的访问视为特定的危险区域,而将移动端和设备上的应用程序访问作为另一种风险。
一些风险来自于新技术,并且越来越普遍主流。 例如,CA Technologies的安全解决方案总监Paul Ferron警告说虚拟化蔓延是一种特殊的安全隐患,这种管理和资源风险的现象也可能对数据安全造成影响。
在这种情况下,与许多其他方案一样,为某些操作设计安全程序有助于令其标准化,并降低漏洞出现的风险。 使用IT服务管理工具来编纂和自动化这些流程,能够进一步减少出现漏洞的可能。
云托管公司Pulsant的首席技术官Matt Lovell还在数据中心风险类别中增加了健康和安全风险这一项。
Matt Lovell表示,健康和安全的风险是多方面的,包括从电气最佳实践和机械操作安全到环境和噪声控制以及在有限空间工作的挑战。
风险管理方法论
这些风险发生的可能性和破坏性并不是均等的。有些类别的风险发生的可能性更高,有些会有更大的潜在影响。因此数据中心经理应该从预算的角度出发,权衡每种风险的影响。
Ferron建议数据中心经理使用传统的风险管理矩阵方法,分别对风险概率和潜在业务影响进行评测。他建议将风险矩阵制成一张三维图,因为三维图形更能突出预计费用,降低风险。
Read也采取了类似的方法,旨在识别和量化凯捷数据中心的风险和治理费用。重要的是,他将他的风险管理系统设计成了一个会随时间而变化的,生动而逼真的文档。
虽然数据中心面临的风险具有其特殊性,但用于管理数据中心的方法并不是针对数据中心环境的。 通用的风险管理方法既适用于描述和处理数据中心风险,也适用于其他领域。
数据中心无法单独运作,它必须依赖于将技术与商业目标结合在一起的整个体系。 技术层面的风险管理只是整个风险管理系统的一部分。那些有能力的企业将需要处理金融,监管,组织内部的各种风险。
不同的企业所采取的控制数据中心风险的方式各有不同。在凯捷公司的案例中,其数据中心经理负责管理数据中心,以及每月的风险和问题程序。 该经理连同英国数据中心主管,每月都会与首席财务官团队进行会议,以预测任何主要的风险支出。
选择审计方法
审计的关键词是验证。 虽然量化,优先排序和降低风险都只是风险管理的一部分,但衡量数据中心在方面的表现就是审计的主要任务。此外,对风险进行审计,将有助于内部员工和潜在客户了解数据中心如何控制运营中的各种风险来源。
想要通过审计来减低数据中心的风险, 管理人员必须明确自己想要实现的目标。 如果风险审计是以客户为导向的化,必须明确客户要求的具体标准,并调查客户是否希望数据中心采用特定的风险管理矩阵。
审计标准
风险审计面临的最大挑战之一就是所涉风险类别的多样性。您很难在一个标准下对所有程序进行审核,这意味着数据中心管理人员在进行审核时可能需要采用各种标准。
从安全性方面来看,ISO 27002涵盖了所有信息安全管理的实践守则,还设立了各种不同方面的标准,包括人力资源安全,物理和环境安全以及访问控制。
支付卡行业数据安全标准(PCI-DSS)也涵盖了信息安全,是一个高度规范的标准,其重点在于数据中心信用卡数据的组织和保留。它包括了安全网络的建设和维护,漏洞的管理以及网络和系统监控等各种标准。
有效的管理风险不仅在于对数据中心风险的评估,还要求团队成员愿意共同合作,如此所有人的议程都能被妥善安置。在某些情况下,这还能创造新的工作机会。
引入DevOps(开发/运营)解决方案来简化开发,测试和部署之间的工作流程,可能有助于缓解诸如Millard所描述的各团队之间的紧张关系。
有效的风险管理与IT中的其他工作一样,也是一种技术密集型,以人力为中心的过程。 使用标准化方法和审计可以帮助量化数据中心面临的风险,以及该风险将如何影响未来的预算,并且有助于衡量那些重要工作的进展情况。