实例分析:一汽大众IT系统异地容灾建设
一汽大众 发表于:12年03月02日 16:24 [来稿] 存储在线
一汽大众需要怎样建设容灾系统? 经过分析,我们总结:
(1) 在分析IT应用系统重要性及影响的基础上, 建立一套规范和体系,能够保证灾难发生后,关键系统能得到及时恢复,重要系统数据不丢失
(2) 充分利用现有硬件和技术建设容灾,以达到性能最优、成本最优
(3) 采用分阶段建设的方式,逐步完善扩展功能及性能,以规避投资和技术风险
(4) 容灾系统建设应采用开放式平台,综合采纳各大IT厂家的技术,不被单一厂家的产品和技术所左右
(5) 有目的和针对性的培养自己的技术人员,把握关键技术
两地三中心的设计
一汽大众在2006年建设的同城容灾中心,是基于当时的市场环境和企业规模所确定的,由于距离上的限制,对抵御大的灾难能力方面受到局限,但是在启 用后的若干年间中,曾经经历了不同规模的小型灾难考验,包括:外网电力设备损坏导致长时间电力中断,单路UPS设备损坏导致机房供电不足,单路空调设备损 坏导致机房局部过热,加湿器堵塞后漏水导致机房局部被浸泡,外部施工挖断主光纤线路等等。在这些事件过程中,关键业务都能够及时被切换到备用数据中心运 行,起到了很好的同城容灾作用。
考虑到充分利用资源的目的,在建设新容灾中心的过程中,同城和异地两个容灾中心之间能够互补不足,共同抵御风险是最好的选择。我们对同城和异地两种容灾方式的优缺点进行了比较:
| 同城容灾 | 异地容灾 | |
|
说明 | 容灾中心与生产中心处于同一区域性风险威胁的地点,但又相隔一定距离的地点。一般距离指在40公里以内,可实现数据同步复制的区域 | 容灾中心不与生产中心处于同一区域性风险威胁的地点,一般距离生产中心在100公里以上 |
|
优点 | 技术上可以支持实时数据同步备份方式,运营管理和灾难演练比较方便。主要用于抵御系统设备故障、火灾、供电故障、楼宇失效等小型灾难 |
对地震、大面积停电、战争等大规模灾难防范能力较强 |
|
缺点 | 抵御灾难能力方面受到局限性,对地震、地区停电、战争等大规模灾难防范能力较弱 | 技术上只能支持异步的数据备份方式,容灾指标较低;运营管理和灾难演练不方便,运维成本较高 |
在经过与IBM等多家国内著名的IT公司同行进行交流以及讨论后,我们最终确定了两地三中心的容灾设计思路:
• 主数据中心:长春一厂主机房,运行所有IT系统的核心机房,满足所有重要IT业务的数据备份、恢复需求
• 同城容灾中心:长春二厂备用机房,应对常见的小型区域性灾难,如电力故障、机房火灾、设备故障、人为破坏等;满足核心关键IT业务的同城应用级容灾需求;
• 异地容灾中心:成都三厂机房,应对大的地区性灾难,如:地震、洪水、冰雪灾害、大范围电力中断等;满足最关键业务的异地应用级容灾需求;满足关键业务的异地数据级容灾需求。
