1. 总则
IT运维团队建立应急突发服务流程,主要是针对可能发生的各种意外情况设计应急的方案,已控制和规避突发事件带来的集中性风险,从而降低设备集中性风险所造成的损失。
2. 突发事件管理
2.1 设备不可用
2.1.1 基础设施环境不可用(机房电力、空调、线路接入等基础设施出现故障)路由器、交换机、PC机等设备发生故障,且影响时间高于30分钟的故障处理方案:
1)、通知相关运营人员和运维中心
2)、启用备份设备
3)、分析故障原因,通知厂家售后
4) 、了解故障原因,和影响时间,评估影响范围
5) 、紧急公告,启用预案同已知问题处理
2.1.2 服务不可用
业务系统、软件程序大范围出现问题,且影响时间高于30分钟的故障处理方案:
1)、通知相关运营人员和公司领导
2)、回滚到上一个稳定版本
3)、保存相关文件,分析定位问题原因
4)、紧急公告,启用预案同已知问题处理
2.1.3 遭受恶意攻击,且攻击时间高于30分钟的故障处理方案:
1)、通知相关运营人员和运维中心.
2)、在路由器上操作内容:定期检查更新路由器策略;屏蔽恶意 IP限制每秒的连接数。
2.1.4 评估与分类
3. 突发事件处理流程
3.1突发事件处理流程