某省“赣服通”某区分厅项目应急预案
及快速恢复方案
一、 总则
1.1编制目的
为了有效预防以及正确、快速的处理某省“赣服通”某区分厅项目突发事件,不断提高预防和控制突发事件的能力,最大限度的减少突发事件的影响和损失,保障某省“赣服通”某区分厅项目安全、稳定运行,特制定本应急预案。
1.2适用范围
应对所有某省“赣服通”某区分厅项目运行中可能出现的各类突发事件。
二、日常准备工作
➢
软资源备用:对重要信息资源进行备份,并对备份进行本地及异地双份保存,以减小网络攻击、自然灾害、设备故障等问题带来的损失。
设备备用:在两台服务器之间配置两套应用环境,以确保在设备故障时,可及时响应并切换至备用应用环境,缩短系统停运时间。同时,准备一台备份服务器,用于数据库及部分文件的定时备份。
➢
三、 应急处理流程
软件开发公司方维护人员在监控过程中如发现或收到其他部门反馈不能正常使用系统或即时通讯软件等故障事件时,相关软件、硬件的技术人员立即对负责区域的排查工作,初步查明原因(电力、服务器、网络、应用系统软件等),并向某区网络信息中心汇报。
某区网络信息中心在了解情况汇报后,根据事件的范围、影响和紧急程度请示相关领导,达成一致意见后即启动相应的专题预案。如果没有相对应的预案,则根据情况做好解释工作,并迅速采取措施抑制事件的扩散,直至恢复系统正常运行。
软件开发公司方维护人员在确认系统完成修复并能正常运行后,经某区网络信息中心完成测试的基础上,经请示相关领导对进行系统的启用,并发布系统恢复公告。
四、 事件分类
事件类型按照各类突发紧急事件的影响范围,将系统事件分为全局事件(系统因电力、网络、软硬件等故障原因,导致某省“赣服通”某区分厅项目无法正常工作)和区域事件即导致局部范围内某省“赣服通”某区分厅项目无法访问,或程序问题(如流程流转报错)至不能正常开展工作。
五、 全局事件处理
5.1机房核心外部电力中断、UPS 故障等导致大面积停电事件处理流程:
5.2网络线路或网络设备故障导致的网络中断故障处理流程:
5.3服务器等设备发生的软硬件故障处理流程:
➢
软件开发公司方维护人员立即配合某区网络信息中心观察故障现象(操作系统情况、日志信息、硬件报警等),如果问题简单,则尝试恢复(对单机系统,尝试使用备用设备及环境进行恢复,保障某省“赣服通”某分厅项目正常运行)。
如果不能自行恢复,则进行电话报修,向厂家对故障情况等信息进行描述,请求厂家现场技术支持。 确定向厂家报修的受理问题,以及厂家工程师和故障备件到场时间。
软件开发公司方维护人员做好相关系统和数据备份及安全关机准备。
➢
➢
➢
➢
如果设备故障不能及时修复,应向各级相关领导汇报,并采取相应措施。
5.4软件(某省“赣服通”某区分厅项目)故障处理流程:
1. 某区网络信息中心将系统故障错误信息及时告知软件开发公司方驻场维护人员,其将对系统或应用系统问题进行及时评估,并初步拟定系统预估停机时间。(如遇故障情况明了,可立即处理,及时进行修复,保障某省“赣服通”某区分厅项目正常运行)。
2. 将问题情况及时向相关部门领导进行汇报,而后通过电话或发布通知公告等方式,发布《某省“赣服通”某区分厅项目暂停维护通知》或公告,尽量减小对会内部正常业务的影响。 3. 软件开发公司方维护人员及时查找故障原因,排除软件或应用环境故障。(在应用环境不被破坏的条件下,可先启用备用环境,再解决生产环境问题)。
4. 某区网络信息中心在故障排除后及时发布系统恢复通知或公告。
5. 软件开发公司方维护人员事后将对事件进行评估分类报告,其包含事件原因、日志报告、处理方式和结果、事件风险预估等相关内容。
六、区域事件处理
操作系统不满足系统使用环境要求
1. 系统使用过程中,由于操作系统或应用环境等原因而造成无
法正常使用某省“赣服通”某区分厅项目,统一报软件开发公司方维护人员汇总。
2. 某区网络信息中心协同软件开发公司方驻场维护人员上门或
远程解决问题,使其达到能够正常使用某省“赣服通”某区分厅项目。
3. 某区网络信息中心管理员、软件开发公司方驻场维护人员均
对问题及处理过程进行记录及整理。
系统 BUG 造成业务操作失误,数据错误
1. 经处室问题反馈,如果存在严重 BUG,软件开发公司方驻场维护人员应及时向相关领导汇报情况,并告知某区网络信息中心。 2. 软件开发公司方维护人员协同某区网络信息中心管理员详细记录相关 BUG,发布《某省“赣服通”某区分厅项目暂停维护通知》,并对系统进行停用。
3. 某区网络信息中心管理员与软件开发公司方维护人员商议解
决方案,限期解决 BUG,恢复错误数据。
4. 软件开发公司方维护人员对整个事件的时间、现象、处理过程做详细记录。