网络时不时丢包如何解决(网络中发生丢包行为的排查思路和具体实施方法)

总体思路:

1、 先确定是否发生丢包以及哪些设备访问的时候会发生丢包;

2、 判断丢包的位置,即定位;

3、 排查具体丢包原因

1、当发现设备访问某一网段时有丢包,可以先在多台设备上去 ping 目的网段的周围的多个

网段(类似于诊断六那样),用于确定是何种流量丢包还是所有流量都会丢包;

如果是具体一种流量丢包的话可以确定为做了路由策略或者策略路由(类似诊断六,带

源不能通,不带源就行);

如果是多种流量都丢包,造成的原因就可能很多,物理层、数据链路层、网络层以及策略

路由都由可能;

2、判断丢包位置;

方法有两种:

第一种,使用 ping 和 tracert 一段一段测试,先 ping 网关,然后是网关的下一跳,一直

到目的地址,或者用 tracert 跟踪可以确定具体在哪一跳丢包;这种方法简单,但较为粗糙

一些,因为丢包可能是间歇性的,需要多次ping 和tracert,测试多次。

第二种,使用流量统计的方法,如图,沿着发生丢包的链路,在设备的入接口和出接口上

部署流策略,分别统计入接口的 Inbound 方向和出接口的 Outbound 方向的特定报文, 以

确认该类报文是否在本设备被丢弃。

网络时不时丢包如何解决(网络中发生丢包行为的排查思路和具体实施方法)(1)

以端口a 入方向和端口b 出方向,端口 b 出方向和端口c 入方向的流量统计情况为例。

如果端口 a 入方向和端口b 出方向 Passed 计数大致相等,说明此处无丢包。

如果端口 a 入方向的报文 Passed 计数多于端口 b 出方向的报文 Passed 计数,说明丢

包发生在 Switch_3。

如果端口b 出方向和端口c 入方向Passed 计数大致相等,说明此处无丢包。

如果端口b 出方向的报文Passed 计数多于端口c 入方向的报文Passed 计数,说明丢包

发生在 Switch_3 和 Switch_2 之间的物理链路上,请参考检查设备之间的物理链路进行定位

处理。

流量统计配置方法:

a. 配置 ACL 规则。

<Switch_3> system-view [Switch_3 acl number 3000 [Switch_3-acl-adv-3000] rule permit icmp source 192.168.100.1 0destination 202.10.1.1 0 [Switch_3-acl-adv-3000] quit

b. 配置流分类。

[Switch_3] traffic classifier 3000 [Switch_3-classifier-3000] if-match acl 3000 [Switch_3-classifier-3000] quit

c. 配置流行为。

[Switch_3] traffic behavior 3000 [Switch_3-behavior-3000] statistic enable [Switch_3-behavior-3000] quit

d. 配置流策略。

[Switch_3] traffic policy 3000 [Switch_3-trafficpolicy-3000] classifier 3000 behavior 3000 [Switch_3-trafficpolicy-3000] quit

e. 在接口上应用流策略。

[Switch_3] interface gigabitethernet 1/0/2 [Switch_3-GigabitEthernet1/0/2] traffic-policy 3000 inbound [Switch_3-GigabitEthernet1/0/2] quit

3、排查具体丢包原因

(1)如果丢包发生在物理线路上,接下来主要检测设备之间的物理链路;

物理链路故障的原因主要有:

※双工或速率不匹配

※线缆接头接触不良或松脱

※物理连线过长或出现破损

针对物理链路故障,具体排查方法如下:

A、查看设备端口指示灯状态。

如果是常灰,说明无连接。此时需要更换接口或者网线再进行尝试。

B、检查查设备之间的链路、接口模块是否故障。

如果设备之间通过双绞线连接,用测试仪测试双绞线是否故障,检查设备间双绞线长度是

否满足要求,检查双绞线线序类型是否正确。

如果设备之间通过光纤连接,检查设备间光纤的长度和光模块支持的传输距离是否匹配,光

纤的长度小于光模块支持的传输距离;用测试仪测试信号的衰减是否在允许的范围内;通 过告警

信息查看光功率是否正常等。

(2)如果丢包发生在设备上,接下来主要检查设备或协议等问题,原因可能有:

※物理层:设备单板故障、上送CPU 的报文速率超出设备限速;

※数据链路层:存在环路、arp 攻击以及配置错误,配置问题主要有:vlan 配置错误、

黑洞 mac、端口安全、vlan 隔离和防环协议等;

※网络层:路由震荡、路由环路、路由过滤、配置安全策略,如IPSG、URPF 等;

※QOS 配置:限速处理、报文过滤、流量过大、拥塞避免等配置;A、物理层检查,确认在对业务没有影响的状况下,尝试复位或拔插单板恢复业务,观

察丢包现象是否有所缓解。CPU 检查可以通过命令查看上送 CPU 报文的统计信息,确认对

应的业务是否丢包;

B、数据链路层检查:如果存在环路会引起广播风暴或 MAC 地址震荡,二层环路出现,

广播风暴会使得交换机同vlan 所有端口高速转发,且指示灯都会快速闪烁状态;

arp 的攻击主要两类,防洪攻击和欺骗攻击,如果有收到大量 ARP 报文说明存在泛洪攻

击,三层设备上的ARP 表对应关系不同说明存在欺骗攻击;

配置的话主要查看设备的配置,依次查看是否 vlan 配置错误、是否有黑洞 mac、端口

安全、vlan 隔离等配置。

C、网络层检查:查看是否有目标网段路由,以及是否出现路由互指情况,可多次查看

是否有路由震荡情况,最后还可查看是否有安全方面的配置,如 IPSG 和 URPF 等;

D、QOS 配置检查:查看接口速率和实际报文速率作对比,看是否流量过大;

查看接口是否有针对报文做了限速或者过滤配置,以及拥塞避免等配置。

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页