云服务器网络突然变慢(IT运维的朋友们还在为互联网)

有些网络故障暂时影响不大,而且往往间歇性的,甚至无法重现。这些特性都增加了排查的难度,导致运维人员没有及时解决,有可能给网络中留下非常严重的隐患。

本案例我们详细展示了如何通过网络回溯分析技术,发现并快速准确定位了间歇性故障的问题根源。

1、问题描述

某集团内部网段用户在凌晨访问互联网经常出现网络闪断的情况,造成网络访问异常缓慢。通过部署网络回溯分析系统,分别采集核心交换机上联防火墙的接口流量和互联网出口流量。监控问题时段出现的网络现象及原始数据包,帮助用户判断问题根源。

云服务器网络突然变慢(IT运维的朋友们还在为互联网)(1)

图1-1

2、问题分析

互联网出口流量分析

云服务器网络突然变慢(IT运维的朋友们还在为互联网)(2)

图1-3互联网出口故障时流量

图中互联网出口故障时流量

但在发生故障时,内部网段内的主机没有向外发送任何数据包,造成网络瞬时中断。但可以看到DMZ网段(圆框遮挡处)的地址能够正常与互联网进行通讯,说明互联网出口连通性没有问题。

核心交换机流量分析

因网络出口与核心交换机之间存在多种网络安全设备,为了检测这些安全设备是否存在丢包情况,所以在核心交换上采集流量进行对比分析。

云服务器网络突然变慢(IT运维的朋友们还在为互联网)(3)

图1-4核心交换机故障前流量

如上图,在故障发生前,可以看到内部网段的客户端能够与互联网地址进行正常的通讯,能够接收数据包并发送数据包。

云服务器网络突然变慢(IT运维的朋友们还在为互联网)(4)

图 1-5

云服务器网络突然变慢(IT运维的朋友们还在为互联网)(5)

图 1-6 核心交换机故障时流量

但在发生故障时,内部网段内的主机没有向外发送的任何数据包,造成网络瞬时中断,并且内部网段主机同样不能向DMZ区的主机发送数据包。

3、分析结论

根据对互联网出口进行分析,发现内部网段主机对外发送数据包为0,不能与互联网主机通讯,但DMZ区链路能够与互联网正常通讯,说明连接内部网段的设备或链路可能存在短时间丢包造成网络闪断。

在核心交换机上分析,同样发现内部网段的主机对外发送数据包为0,不能与互联网和DMZ区进行正常通讯,说明核心交换机或核心交换机下联链路(设备)出现异常,造成外发数据包丢失。结合实际情况来看,核心交换机下联众多汇聚交换机,而这些汇聚交换机同一时间全部出现问题的几率较小,所以最大可能是核心交换机在凌晨时出现运行异常,造成短时间内不能正确转发内部网段对外发送的数据包,造成网络闪断,建议用户向核心交换机厂家了解情况并进行问题排查。

4、分析价值

此案例为非工作时间发生,持续时间短。如果没有回溯分析技术用户很难发现这些短时间的流量中断,给网络中留下了是个非常严重的隐患。

通过回溯分析技术不仅快速发现网络中存在的隐患,还能对故障进行准确定位,未造成大面积影响前快速排除故障,保障网络稳定、高效运行。

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页