Menu Close

突发事件管理

1. 总则

 

IT运维团队建立应急突发服务流程,主要是针对可能发生的各种意外情况设计应急的方案,已控制和规避突发事件带来的集中性风险,从而降低设备集中性风险所造成的损失。

 

2. 突发事件管理

2.1 设备不可用

2.1.1 基础设施环境不可用(机房电力、空调、线路接入等基础设施出现故障)路由器、交换机、PC机等设备发生故障,且影响时间高于30分钟的故障处理方案:

1)、通知相关运营人员和运维中心

2)、启用备份设备

3)、分析故障原因,通知厂家售后

4) 、了解故障原因,和影响时间,评估影响范围

5) 、紧急公告,启用预案同已知问题处理

 

2.1.2 服务不可用

 

业务系统、软件程序大范围出现问题,且影响时间高于30分钟的故障处理方案:

1)、通知相关运营人员和公司领导

2)、回滚到上一个稳定版本

3)、保存相关文件,分析定位问题原因

4)、紧急公告,启用预案同已知问题处理

 

2.1.3 遭受恶意攻击,且攻击时间高于30分钟的故障处理方案:

1)、通知相关运营人员和运维中心.

2)、在路由器上操作内容:定期检查更新路由器策略;屏蔽恶意 IP限制每秒的连接数。

 

2.1.4 评估与分类

3. 突发事件处理流程

3.1突发事件处理流程

发表回复