idc核心机房运维主要干什么(IDC数据中心运维故障)

idc核心机房运维主要干什么(IDC数据中心运维故障)(1)

作者:鄢宇春

来源:鄢宇春(WX:top203012)

机房故障 上联线、网线故障 网络品质不稳定、丢包等,主要为虚接导致 造成用户网络中断超过5分钟的故障

重要客户的任何网络中断故障

电源线故障 线缆破损、容易虚接但未导致设备电力中断 造成用户设备电力中断的故障

运营商机房设施故障 电力不稳定、温度升高、消防报警、漏水、机房不安全等故障,但没有影响客户设备的正常运行 电力中断或温度升高等导致客户设备中断运行的故障

机房漏水造成用户设备重启或损坏的故障

机房不安全造成用户设备损坏或影响运行的故障

重要客户的相关故障

其他故障(当前无法确定责任部门) 没有影响用户设备的正常运行 用户设备运行受到影响,如出现网络中断、重启、设备损坏等

动力故障 电力、空调、消防、漏水等机房设施故障 电力不稳定、温度升高、消防报警、漏水等故障,但没有影响客户设备的正常运行 电力中断或温度升高等导致客户设备中断运行的故障

机房漏水造成用户设备重启或损坏的故障

重要客户的相关故障

网络故障 网络故障 网络延迟、丢包、病毒、攻击等故障,但网络没有产生中断 客户网络中断

重要客户的相关故障

客户方 客户设备软硬件问题等引起的各种故障 影响客户系统运行的各种故障、报警等 客户重要设备宕机或网络内部中断的故障;

1.故障定义

a)定义

i.一般故障:任何没有达到我们运营系统设计、运营标准的事件。

ii.大故障: 任何没有达到我们运营系统设计、运营标准的事件,且对客户提供的服务造成中断事件。

iii.重大故障:任何没有达到我们运营系统设计标准的事件,且对客户提供的服务造成中断事件,且影响范围达到以下任一条件:

n〉= 3个托管路由器接入端口的故障;

n〉= 3个专线路由器接入端口的故障;

n〉= 1个机柜以上用户的故障;

n重要客户故障(以客户服务部提供的重要客户清单为依据)

b)主要故障分类及相应责任部门:

责任部门 故障类别 一般故障 大故障/重大故障

机房故障 上联线、网线故障 网络品质不稳定、丢包等,主要为虚接导致 造成用户网络中断超过5分钟的故障

重要客户的任何网络中断故障

电源线故障 线缆破损、容易虚接但未导致设备电力中断 造成用户设备电力中断的故障

运营商机房设施故障 电力不稳定、温度升高、消防报警、漏水、机房不安全等故障,但没有影响客户设备的正常运行 电力中断或温度升高等导致客户设备中断运行的故障

机房漏水造成用户设备重启或损坏的故障

机房不安全造成用户设备损坏或影响运行的故障

重要客户的相关故障

其他故障(当前无法确定责任部门) 没有影响用户设备的正常运行 用户设备运行受到影响,如出现网络中断、重启、设备损坏等

动力故障 电力、空调、消防、漏水等机房设施故障 电力不稳定、温度升高、消防报警、漏水等故障,但没有影响客户设备的正常运行 电力中断或温度升高等导致客户设备中断运行的故障

机房漏水造成用户设备重启或损坏的故障

重要客户的相关故障

网络故障 网络故障 网络延迟、丢包、病毒、攻击等故障,但网络没有产生中断 客户网络中断

重要客户的相关故障

客户方 客户设备软硬件问题等引起的各种故障 影响客户系统运行的各种故障、报警等 客户重要设备宕机或网络内部中断的故障;

2.逐级报告流程

a)责任部门为网络运维部的故障升级流程

升级人员 时间要求 报告对象

一般故障 处理方法 大故障/重大故障 处理方法

机房值班人员 发现后立刻 网络运维部主管 值班人员直接处理 网络运维部主管 网络运维部主管

直接处理

网络运维部主管 知道后立刻 网络运维部总监 直接处理 客响中心值班人员

直接上级领导

合作单位相关人员 网络运维部总监协助处理

网络运维部总监 知道后 视情况决定是否继续上报

v逐级报告

上报级别:机房值班人员—>网络运维部主管—>网络运维部总监—>总经理

v越级报告

当需要报告给的责任人联系不上时,可直接向该责任人的上一级领导报告。

责任部门为机房/动力部的故障升级流程

升级人员 时间要求 报告对象

一般故障 处理方法 大故障/重大故障 处理方法

机房值班人员 发现后立刻 责任部门值班人员 机房值班人员直接处理 责任部门值班人员

网络运维部主管 网络运维部主管协助责任部门值班人员处理

网络运维部主管 知道后立刻 运营商机房设施维护部门

(涉及运营商设施的故障) 协助处理 运营商机房设施维护部门(涉及运营商设施的故障)

网络运维部总监(需要资源支持或指导时) 协助处理

网络运维部总监 知道后 视情况决定是否继续上报 视情况决定是否继续上报

b)责任部门为客户方的故障升级流程

升级人员 时间要求 报告对象

一般故障 处理方法 大故障/重大故障 处理方法

机房值班人员 发现后立刻 客户联系人或客服代表 由客服代表通知客户 客户联系人

网络运维部主管

客服代表 网络运维部主管协助客户方处理

网络运维部主管 知道后 视情况决定是否上报 网络运维部总监(需要资源支持或指导时) 网络运维部总监协助客户方处理

网络运维部总监 知道后 视情况决定是否上报

3.故障处理中机房现场处理办法

机房类故障 网络类故障 设施类故障

机房工程师

Ø记录客户相关信息(名称、电话)

Ø记录故障起始时间

Ø记录故障现象

Ø处理故障

Ø记录故障恢复时间

Ø记录客户相关信息(名称、电话)

Ø记录故障发现时间

Ø记录故障现象

Ø将相关信息告知网络部

Ø协助网络部完成故障处理

Ø做应急处理(加风机;开柜门)

Ø记录空调故障开始时间

Ø记录各故障空调状态(温/湿度)

Ø维修部门到场时间,维修时间

Ø协助维修部门处理故障

Ø空调故障恢复时间

Ø机房温度恢复正常时间

空调

²做应急处理

²记录电力故障开始时间

²记录故障现象

²记录受影响机柜号

²维修部门到场时间,维修时间

²协助维修部门处理故障

²故障恢复时间

电力

v做应急处理

v记录故障开始时间

v记录故障现象

v维修部门到场时间,维修时间

v协助维修部门处理故障

v故障恢复时间

其它

故障恢复后,责任部门为网络运维部的,应马上完成故障处理的详细文档(模板见后面第4.A条);发送给网络运维部主管。

网络运维部主管 Ø协调各部门及时将故障解决

Ø故障恢复后,责任部门为网络运维部的,应根据机房工程师提交的故障处理的文档及时完成内部故障报告(模板见后面第4.A条),发送给地区客服经理,抄送给直接上级领导以及其他相关人员

Ø需要网络运维部整改的,2个工作日内完成整改方案,提交给直接上级领导。得到审批后落实整改措施

Ø合作机房设施故障的,催促运营商给出故障原因和整改方案

idc核心机房运维主要干什么(IDC数据中心运维故障)(2)

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页