访问internet丢包和网速慢故障,该如何分析并解决?

故障现象简述

用户访问internet很慢,网页打开速度不能忍受;ping internet上服务器丢包严重;故障发生在每天的中午12点以后,持续到下午17点左右的下班时间。故障连续3天发生.

网络拓扑图/应用说明

应用说明:用户网络通过S6806E汇聚后,出口部署一台CISCO6509。ISP对用户出口线路进行了20M限速。

故障具体现象

某用户反映访问internet很慢,网页打开速度不能忍受,需多次刷新才能打开;ping internet上服务器丢包严重;故障发生在每天的中午12点以后,持续到下午17点左右的下班时间。故障连续2天发生。

由于前二天故障发生时,恰逢中午,工程师已经安排任务,只能通过远程电话支持,通过简单的网络性能参数查看,判断网络故障与设备无关,故障与环境有关,根据故障发生的频,故障很可能在第三天重现。第三天,工程师安排现场观察,以便故障重现进行故障定位和分析

故障详细分析

1、根据前两天的故障现象:故障发生在中午12点多,持续到下班时间,故障即可恢复。首先查看配置,确认配置没有问题。

批注:因为故障发生的时间段很有规律性,首先查看配置,确认配置无误。

2、根据故障发生时,引导用户查看核心设备和出口设备的cpu、内存利用率,发现都在正常范围之内。判断故障与设备性能关系不大。

批注:掉包/掉线类型的故障,要一定确认故障是否是由设备转发性能引起。

3、根据故障时引导用户的ping测试,发现到对方ISP的地址ping无丢包,到ISP的下一跳出现丢包率很高的情况。判断故障很可能与运营商的设备有关。

批注:根据分段排查的原则,排查问题是否与ISP有关。

4、第三天抵达现场,将前两天的测试和以上分析与用户交流。用户开始与运营商交涉,并将以上第三点严重化,质问运营商。运营商不敢怠慢,协调工程师与用户一起解决问题。很快ISP反馈回来,近两天用户在某个时间流量异常,持续流量达40~100M,而ISP提供给用户的是20M的流量,此时ISP的 工程师提供近5天来的用户流量图:

说明:从上图可以看到异常流量在每天都持续2-4个小时,流量在50-100M之间。

5、根据ISP的反馈和提供的流量图,可以看到平均流量在10M左右,近2天的流量中,有持续达到100M的情况。根据ISP提供的流量图,结合ISP对用户带宽控制机制的了解,初步结论如下:ISP的网络设备针对用户的流量做20M限速,在流量异常时,超过20M的流量都被丢弃掉,大约有2~3倍于正常流量的流量被丢弃掉了。可以想象大部分用户的业务、办公和internet访问流量被丢弃,以至于用户反映网络访问速度不可忍受。

批注:根据基准线排查原则,以ISP限速20M的设定,可以明确的判断出用户发出流量异常,现在问题便是如何找到异常流量的来源。

6、由于流量引起故障,故障处理从流量监控着手,查找故障源。到达用户现场,开始部署流量监控软件,对核心cisco6509的上联出口接口,下联汇聚交换机接口、RSR-04E下联接口、上联接口、RG-WALL1200上联口和下联口进行流量监控。采用软件SolarWinds,软件对设备通过snmp对接口的流量进行读取。并描绘流量图。

7、通过观测,在中午12点左右,网络流量异常。此时从cisco6509的接口流量图可以看到,下联汇聚交换机S6806-1的接口流量异常。

8、此时将异常流量的故障源定位在第一台S6806E-1上,在该设备上打开snmp,对其所有up的接口进行流量监控。发现该交换机的g2/14流量异常,定位故障源位于该接口下,如图:

9、RG-S6806E-1的G2/14接口下为一台RG-S2150G,故障源可以定位在该接入交换机上。

10、telnet到该RG-S2150G上,使用show counter查看所有接口的计数信息,发现F0/5接口数据发送流量大,高于接受的500倍,将其隔离出网络,出口的流量即恢复正常。异常流量如下图:

说明:该2150G的f0/5 5分钟的input平均流量为33801336bit/s,即为33,801,336Mbit/s,33.8M之大的流量,而output仅为3,948kbit/s。

批注:以上几步操作,根据分段排查的方式,定位到异常流量接口。

12、通过使用show mac-address-table interface f0/5,发现从该接口学习到的mac地址数为1,判断f0/5接一pc;pc瞬间发出大量的数据报文实数异常,将其隔离网络,网络流量恢复正常,用户对网络访问正常。

最终解决方案

将流量异常PC隔离出网络。

经验总结

1) 在大型园区网,如果存在网络不稳定的情况,如持续一天的某个时段用户访问internet出现严重丢包或者网络应用不能使用的问题,一般都是由于流量过大,超出部分被ISP丢弃导致的。一般大型园区网的出口带宽在10-100M之间,而出口设备一般为1000M设备,设备性能一般不是问题。

2) 在大型园区网的网络管理中,部署流量管理工具,对关键设备接口的流量进行监控,为网络管理和故障处理提供基准线参考。

访问省数据中心服务器频繁掉线故障,该如何处理?

远程拨号接入VPN故障,该如何分析如何解决?

添加微信免费咨询服务器配置选择建议
微信号:landuiYY

未经允许不得转载:云技术 » 访问internet丢包和网速慢故障,该如何分析并解决?

赞 (0)