深圳供电局信息系统 黄慧山,江旭东,张小云(深圳供电局,广东深圳518001) 摘要:对深圳供电局信息系统灾难风险评估进行了介绍,容灾备份体系建设 对由数据备份、故障切换和远程容灾切换组成 的容灾备份技术体系进行了阐述,重点介绍了远程容灾体系的实现,并强调流程、人员在信息容灾 备份体系中的重要作用,最后对体系实际运行经验进行了简单总结。该体系对数据大集中模式下 提高抵御信息风险能力有借鉴意义 关键词:信息容灾;备份体系;灾难恢复;零停机备份 信息部门对服务器资源进行集中 力资源系统等应用系统的数据库 1信息系统灾难风睑评估 管理和统一分配。各个应用系统 都集中在数据存储(XP5l2)和2 根据工作需要向数据中心提出申 台主机(RP8400)上 深圳供电局的信息系统均以 请,数据中心管理人员根据数据 通过对数据中心的风险评估 数据集中的模式进行规划建设. 规划进行安排.因此,供电企业的 发现,尽管采取了多种数据备份 各个信息系统的数据集中到局本 主要应用系统,如营销管理系统、 措施,可以使数据安全得到基本 部,各个分支机构不设立服务器。 生产管理、GIS、物资管理系统、人 保护。但是,由于信息资产高度集 口l20 R1 维普资讯 http://www.cqvip.com 中.在面积仅120 1TI 的数据中心 里,集中了多台数据存储、主机、 网络交换机、光纤交换机、带库、 UPS、机房空调等等设备。如果出 现火灾、水淹等等意外情况,各信 息系统将受严重影响,出现较长 时间的服务中断。具体分析如下: (1)缺乏XP512和RP8400接近 或类似的平台.并且数据恢复的 时间较长;(2)如果系统不是彻底 损坏,可以维修.维修时间将在2 周到1个月:(3)如果重新采 购,时间大概2~3个月左右: (4)由于XP512和RP8400都属 高端产品.比较难借到设备: (5)另外即使设备得到维修或 购买到设备,由于数据丢失.恢 复系统正常运行将花费大量时 间,不是短期能够恢复的。 2信息窨灾蚤份策略i殳计和 实坝 信息容灾备份策略的设计, 是在灾难业务影响分析基础上进 行。业务影响分析,主要是对业务 应用的重要性、关联性进行分析, 评估出当业务应用系统不可用时 可能带来的影响,并定义出关键 业务的影响,制定出优先级。业务 影响分析是设计信息灾难恢复计 划的第1步.它将为制定灾难恢 复策略提供依据。 实施过程中,通过对财务系 统、客服系统、营销系统、物资系 统、生产管理系统,配网地理信息 系统(GIS)等分析.信息、财务等 多个部门参与业务影响分析调 研,X,1 J ̄用系统的业务关键性、 RTO(Recovery Time 0bjectives)、 RPO(Recovery Point 0bjectives) 指标进行分析,提交业务影响报 告.设计出容灾备份策略如下: 2.1 系统备份和恢复策略 利用现有设备和系统.进行 定期的系统备份.并保证备份 磁带的异地存放。当发生灾难 时,重新采购或采用备份设备 建立硬件环境,从磁带恢复系 统和数据.实现系统的继续运 行。该策略简单易行,投资少, 对小型故障有效.但难以应对 灾难型故障。 深圳供电局实施了数据库逻 辑备份和在线备份结合的策略。 每天将逻辑备份数据拷贝到远程 NAS上,同时也备份到磁带上进 行异地保存。同时,采用带库和 备份软件结合,对数据进行在 线备份。但是,由于在线备份过 程较为复杂.同时也不利于快 速恢复等问题,实施了零停机 备份方案,以提高备份的效率。 零停机备份方案是在存储上 建立数据镜像,将生产环境与备 份和恢复环境分开,从而为最关 键的业务应用提供了停机时间为 零且不影响操作的数据备份保护 机制。其原理是建立一个可以与 生产数据卷保持同步的镜像卷, 并自动地分割镜像卷与生产数据 卷。执行备份时,系统取消同步 状态,并对数据镜像卷的数据进 行备份。备份结束后,重新对磁 盘镜像实施同步。在备份进行过 程中,应用将保持不问断运行,而 且性能丝毫不受影响。但此方案 在提高备份和恢复效率和灵活性 的同时.也存在一些不足。如对磁 盘资源需要增加.操作复杂程度 增加,操作风险增大。 2_2系统故障切换策略 当系统出现故障时,由备份 系统接替运行。由于备份系统的 配置和预装的操作系统和应用系 统,将大大减少应用系统恢复的 时间。该策略侧重于解决单点故 障问题,如主机故障。因此,将数 据中心2台主机构建了四节点 MC/SG集群系统.应用数据库在 x,l J ̄主机的对应分区上作故障切 换,2台光纤交换机构成双通道 网络,主机配备双光纤卡,双网 卡,消除单点故障,保证系统的可 靠性。但该策略依赖现有的网络 架构和数据中心的处理能力,x,l- 于灾难性故障也难以处理。 2.3远程容灾故障切换策略 该策略通过在异地配置了灾 难恢复系统,预装了操作系统、数 据库和应用软件,具备必需的网 络环境.因此大大的减少灾难性 故障系统恢复的时间。该策略减 少灾难恢复的操作,是预防灾难 性故障有效策略,但需要比上述 两项策略需要更高的投资。 建立远程容灾系统可以采用 多种技术,如修改应用软件、数据 库复制、数据库复制软件、存储复 制等等。但由于深圳供电局采用 的核心存储设备具有良好的数据 复制能力.远程容灾系统采用了 基于存储数据复制的技术。配置 容灾软件的2台阵列位于不同地 点,通过光纤连接,主存储器可 以随时自动将更新数据传至异 地的备份存储器,以保持2台 2008年第6卷第1期 Fl F TRI pnWFR IT 维普资讯 http://www.cqvip.com
阵列数据的完全一致性。整个 纤骨干环上,具备网络容灾条 工作由阵列本身完成,不需占 件。另外,还在备份中心设立 用任何主机资源。当主数据中 DNS、DHCP等备份服务器.以满 心由于地震,火灾等各种意外 足应用容灾的要求。 原因导致整个系统崩溃时,异 (2)主机系统。由于采用磁 地备份系统将完全接管全部工 盘容灾方案.所以对主机和应用 作,在极短时间内,恢复业务。 系统透明。用户现有应用和主机 深圳供电局远程容灾,采用 高可靠性结构不需改变。为保证 的是应用级容灾的方案。除了利 灾难发生时,在容灾中心能够尽 用存储技术,实现了数据复制 快启动一些最关键的应用和服 外.还需要在灾难情况下.容灾 务.因此在备份中心配置1台同 系统能够迅速接管应用系统。这 类型主机.也采用2个分区的配 就对包括网络、数据库、应用系统 置,用于在灾难发生时分别接管 等各方面内容的信息架构提出了 主中心的应用。 较高的要求。深圳供电局远程容 (3)存储阵列。1台存储阵列 灾系统主要配置如图l所示。 放于供电局本部数据中心,另外 (1)网络系统。主巾心和容灾 一台磁盘阵列放在容灾中心机 中心之问.采用4根裸光纤连接 房。同时,在本地和 ̄.ftk的磁盘阵 2个中心的光纤存储网络。由于2 列上配置的灾难恢复软件,以支 个中心距离小于l0 km,应 通 持远程数据复制。 过光纤交换机上的长波.op_模接口 (4)远程容灾切换策略。1) 互连。根据容灾系统的要求,考虑 主中 IL,存储故障:方式一:容灾 到主数据中心出灾难性故障时. 中心存储接管生产数据,在主 相应的网络、DNS、DHCP、AD域 中心原有生产主机上导入容灾 管理等等也会出问题。因此,要求 中心CA卷组.启动数据库恢复 相应的网络不受影响.能够访问 生产:方式二:容灾中心存储接 备份中心。由于备份中心所处位 管生产数据,在容灾中心备用 置是城域网的骨干节点,位于光 主机上导入容灾中心CA卷组. j:数据中心 各数据中一£、 SW M XP512 XP128 图1 深圳供电局远程容灾系统 2008年第6卷第1期 ELECTRlC POWER lT 启动备用数据库环境恢复生 产。2)主巾心光纤交换机故障、 供电故障、网络故障及其他不 可预期灾难导致主中心完全不 可使用。 容灾中 tL,存储接管生产数 据,在容灾中心备月j主机上导入 容灾中心CA卷组.启动备用数 据库环境恢复生产 3信息灾难恢复流程 (1)制定灾难恢复流程。在发 生计算机系统故障或灾难事件 时,为了尽可能减少损失,而制定 的抢救措施、故障隔离措施、恢复 步骤和方法、与各有关部门和人 员的联系方法等。对于不同类型 的故障,处理的流程和方法是不 一样的。很多情况下,百 能并不需 要启动远程容灾恢复流程,通过 磁带备份恢复更为简单有效。启 用远程容灾系统,是一项高风险 的任务.需要灾难恢复领导小组 进行全面、慎重的考虑。无论在演 习、测试或者是正式启用容灾系 统,都应该严格按程序操作.特别 是一些关键步骤,必须有审计确 认机制,双人进行操作。 (2)做好变更管理。容灾备份 体系涉及的因素较多,与应用系 统、数据库、网络、存储等等方面 都有密切 系,需要做好各个环 节的变更管理 作。例如,各生产 和备用服务器的数据库、操作系 统和应用程序版本等都应该保持 一致.并洋细记录每个系统的主 机、数据库、网络和应用环境参 数。需要特别注意的是,当出现 维普资讯 http://www.cqvip.com 变更时,要严格执行变更管理流 理恢复工作的进行。另外,应用系 性,提升信息服务水平方面取得 了积极作用。特别是远程容灾中 程,对容灾体系中相关的参数进 行改动。 统恢复小组、数据控制小组、数据 中心运维小组、网络小组、后勤保 障小组、用户联络小组等按照各 自的流程和操作手册去履行自己 的职责。 心的建立,对于在数据中心出现 灾难时迅速恢复IT系统服务,或 者建立系统上线前的测试环境建 立,都具有良好的适应性。 (3)定期演习。定期对灾难恢 复流程进行演习,使小组人员能 够在灾难发生时做到从容不迫、 紧张有序地开展抢救、隔离和恢 复工作。 5运行总结 深圳供电局信息容灾备份体 系建设,在积极进行技术创新的 责任编辑张子龙 收稿日期:2007—10—21 4灾难恢复团队建设 灾难恢复流程的实施需要一 个训练有素的工作团队去操作, 团队成员应该非常熟悉灾难恢复 流程。平时应对成员进行培训和 同时.更强调技术、流程和人员3 黄慧山(1972~),男,广东梅县 者的紧密结合,提高了深圳供电 局信息安全水平和抵抗风险能 力。该体系从投入运行以来,一直 人,高级工程师,从事电力信息化 工作; 江旭东(197一),男,广东普宁 教育,以便使每个人都明白在容 灾恢复过程中应担负的职责.提 高灾难恢复的技能。灾难恢复领 导小组作为信息灾难恢复行动中 正常运行。期间.成功处理了多起 数据库故障。其中一次是存储阵 列故障,导致多个应用系统出现 人,工程师,从事计算机硬件和网络 管理工作: 张小云(1973一),男,湖南邵阳 数据丢失。实践证明,信息容灾备 份体系对提高信息系统的安全 人,工程师,从事计算机主机和数据 库管理工作。 的最高指挥机构,负责领导和管 垒恩缝勇哿 酋 电衙 谱虢篇 赣能抱子石水电厂首选金思维MIS系统 近日.金思维公司凭借电力行业成熟的解决方 案以及丰富的MIS建设经验,一举中标江西赣能股 份有限公司抱子石水电厂管理信息系统。 江西赣能股份有限公司抱子石水电厂是修河干 流开发的电站.是江西省“十五”重点工程。电厂是一 厂决定启用科学的管理信息系统以创造一流的 管理机制、实现一流的工程目标。抱子石水电厂 采用招投标的形式来选型,主要对软件公司综合 实力、MIS建设经验及实施服务等方面进行了重 点考察。 座按无人值班、少人值守标准设计、自动化程度较高 的具有日调节性能兼有凋峰任务的引水式电厂,建 抱子石水电厂的招标吸引了多家软件供应商。 作为中国电力行业优秀解决方案提供商,金思维拥 有丰富的电厂MIS建设经验;系统基于组件化技术 有2台居于国际先进水平的贯流式机组。 按照现代企业的管理要求,抱子石水电厂以 少量的生产管理人员承担了全厂的安全生产管 开发,可以满足企业按模块分步实施的要求;提供 “驻点式”的实施服务,使电厂无“后顾之忧”。最终, 理,人少事多,通常是一人身兼数职。随着抱子石 水电厂生产、经营规模的扩大和管理要求的不断 提高,管理信息化水平的提升变得日益紧迫。电 金思维公司凭借强大的综合实力、丰富的MIS建设 经验、稳定的软件平台以及易操作性等优势勇夺魁 首,一举中标。 2008年第6卷第1期 ELECTRJC P0WER JT
因篇幅问题不能全部显示,请点此查看更多更全内容