访问省数据中心服务器频繁掉线故障,该如何处理?

故障现象简述

某客户反馈. 该处使用我司R2690路由器为出口设备,线路为一条2M SDH线路.近一个月反复出现内网访问外网掉线故障,每天少则掉线三四次,多则七八多次.同时访问内网服务器还存在掉包情况

网络拓扑图/应用说明

应用说明:用户网络中心是一台S2150G交换机,通过下挂一些非网管交换机连接本单位所有PC,本地数据服务器直接连接在S2150G上。用户出口部署了一台R2690路由器,路由器连接G/V转换器-》光猫,通过一条2M SDH线路访问省中心数据服务器。

故障具体现象

(1)用户访问接入在S2150G交换机的本地数据服务器时,发现服务器响应缓慢。用户在客户端PC 上PING 本地数据服务器,发现有丢包情况。

(2)用户访问省中心数据服务器时发现有时无法连接,此时用户在客户端PC PING 省中心数据服务器,发现无响应,用户不做任何操作,过一段时间后访问外网自动回复正常。

(3)故障初次发生时间及频率:内网访问掉包与外网访问无法连接的故障初次发生大约在一周前。内网访问掉包故障现象一直存在;外网访问无法连接的故障最初时一天发生2-3次,到向我工程师报故障时,一天出现7,8次。

故障详细分析

1、 首先排查内网掉包问题。与用户交流得知,该公司网线已经使用了五六年,许多信息点PC虽然是百兆网卡,但都无法使用100M,只能在交换机上将端口降为10M后,线路才能使用。由此判定用户线路一定存在老化现象,建议用户更换掉则部份线路。批注:首先,将故障分段。优先处理内网故障,防止内网故障干扰外网故障排查。对网络掉包故障,根据分层法,先处理物理层存在的问题。2、 用户重新部署线路后,反馈信息点可以使用100M访问网络了,但内网访问还是有掉包情况,检查用户S2150G配置,只有VLAN与管理IP配置,确认配置无误。批注:和网络设备相关的故障,排除线路问题后,通常先确定设备配置是否正确。3、建议用户在S2150G上直接连接两台用户PC相互PING测试,发现还是存在掉包的情况,因此使用一台备件交换机,导入故障交换机软件配置后替换掉故障交换机,故障消失,经过长时间PING大数据包测试,无掉包情况 。批注:先根据分段排查原则,将测试PC直连中心交换机,避免中间设备与线缆干扰同时根据替换法,怀疑设备问题时,使用另一台设备替换排查是最简单,也是最有效的方式。。4、 将交换机替换后,内网访问掉包问题解决,但外网口掉线情况依然频繁。检查路由器配置,未发现配置错误;检查CPU利用率,为2%。于是检查设备版本信息:

Red-Giant#SH VER
Red-Giant Operating System Software
RGNOS (tm) RELEASE SOFTWARE, Version 8.52 (building 6)
Copyright (c) 2004 by Red-Giant Network co.,Ltd
Compiled Mar 29 2007 14:04:55 by chenzh

Red-Giant uptime is  0 days 2 hours 25 minutes
System returned to ROM power-on
System image file is "flash:/rgnos.bin"

Red-Giant R2600 series R2690
Motorola Power PC processor with 65536K bytes of memory.
Processor board ID 00000001,with hardware revision 00000001
Router ID 970569c6657596f3
                   card information in the system
                =====================================
slot     class id      type id               hardware ver  firmware version
slot 0   main board    MB_M8241_2690         1.00          1.00
slot 3   ether card    NM_2FE                1.00          1.00
slot 4   sync card     NM_2HS                1.00          1.00

5、设备软件版本已是最新,对该版本TAC中心没有通告过类似故障情况。

批注:根据分段排查原则,在确认内网正常后,对出口问题排查路由器工作状态。对于掉线类型的故障,确定路由器设备配置正确的同时,也要确定CPU利用率是否过高。此外我们建议确保设备软件版本是我司发布的最新相应版本,软件版本可以登陆锐捷网站下载。

6、故障发生时,SH 路由器串口信息:

Red-Giant#sh  interface serial 4/1
serial 4/1 is UP  , line protocol is DOWN
Hardware is Infineon DSCC4 PEB20534 H-10 serial
Description: jianyang
Interface address is: 192.168.8.34/30
  MTU 1500 bytes, BW 2000 Kbit
  Encapsulation protocol is PPP, loopback not set, but seems as if in loopback state.
  Keepalive interval is 200 sec , set
  Carrier delay is 2 sec
  RXload is 11 ,Txload is 2
  LCP Acksent
  Closed: ipcp
  Queueing strategy: WFQ
  5 minutes input rate 90808 bits/sec, 32 packets/sec
  5 minutes output rate 22092 bits/sec, 33 packets/sec
    343821 packets input, 129308802 bytes, 0 res lack, 0 no buffer,3 dropped
    Received 1 broadcasts, 0 runts, 0 giants
    0 input errors, 0 CRC, 0 frame, 0 overrun, 0 abort
    339962 packets output, 27542504 bytes, 0 underruns,14 dropped
    0 output errors, 0 collisions, 2 interface resets
    3 carrier transitions
    V35 DTE cable
    DCD=up  DSR=up  DTR=up  RTS=up  CTS=up

从标红部分我们可用看出,物理线路正常,问题出在LCP协商上,接口状态提示有环路。

批注:根据分段排查的原则,我们可以通过SH INTERFACE命令,确认故障发生时,路由器外网端口是否正常转发数据。

7、电信工程师配合将光猫到局端打环测试,发现光猫设备存在问题,电信将两端光猫更换,但测试发现故障依然存在。

批注:根据分段排查的原则,确认广域网线路是否存在传输问题。

8、使用DEBUG命令跟踪分析PPP:

Red-Giant#debug ppp error
PPP: serial 4/0 rcvd id 106 didn't match sentid 109 ,dropping packet  , state=Acksent
bu
PPP:  serial 4/0 state is FSM_TERMSENT ,dropping packet
PPP: serial 4/0 rcvd id 107 didn't match sentid 110 ,dropping packet  , state=Termsent
PPP:  serial 4/0 state is FSM_TERMSENT ,dropping packet
PPP: serial 4/0 rcvd id 108 didn't match sentid 111 ,dropping packet  , state=Termsent
PPP:  serial 4/0 state is FSM_TERMSENT ,dropping packet
PPP: serial 4/0 rcvd id 109 didn't match sentid 112 ,dropping packet  , state=Termsent
PPP: serial 4/0 rcvd id 110 didn't match sentid 113 ,dropping packet  , state=Acksent
PPP: serial 4/0 rcvd id 111 didn't match sentid 113 ,dropping packet  , state=Acksent
PPP: serial 4/0 rcvd id 112 didn't match sentid 113 ,dropping packet  , state=Acksent
PPP: serial 4/0 LCP appears to be looped back.
PPP: serial 4/0 LCP appears to be looped back.

sh interface serial 4/1输出中LCP协商一直为Acksent的原因找到,继续分析,网络使用一段时间后,会rcvd id 与 sentid 号出现不一致现象。向TAC中心反馈该情况后,初步判定问题可能是因为G/V转换器处理异常造成(此部分只能根据获取的DEBUG信息估计,协议转换器的内部具体情况,我们不了解)。

批注:根据分层排查的原则,通过DEBUG方式排查PPP协商故障原因。

最终解决方案

1、将本地G/V更换为与对端相同品牌,相同型号的G/V,测试一天,网络稳定。

2、因为用户端G/V,光猫,交换机均出现问题,建议用户检查电源质量。

经验总结

对于PPP协商导致的故障,利用相关的DEBUG命令,能比较迅速的找到问题所在,前提是需要工程师对PPP协商过程熟悉。

添加微信免费获取完整网络安全方案
微信号:landuiYY

未经允许不得转载:云技术 » 访问省数据中心服务器频繁掉线故障,该如何处理?

赞 (0)