想了想,时间不多,把自己日常处理故障的一些小思路随意理一理吧,也算是对自己的一个反思:
1、在我碰到的故障上报中,90%的故障都是夸大,且故障描述很不清晰。因此,一般所有的故障上报后,都会按自己的思路重新问一遍,如:故障的时间点,故障的具体现象,故障影响是全部或者局部,故障的源IP与目的IP等。
2、由故障的现象,判断可能是二层网络故障还是三层网络故障。
>二层网络故障:一般查看mac地址表,优先查看双方的mac信息是否均学习正常;
>三层网络故障:一般先查看网关是否可通,网关学习的arp信息是否正常;通过路由跟踪判断路由选路是否正确,路由需要查看静态路由、动态路由、策略路由等;若经过防火墙,查看相关策略或者黑名单、主动安全防护是否禁止故障IP;一般采用分段判断故障;部分网络故障可能为安全设备(如:IPS、WAF等)的主动防御导致,必要时,修改bypass测试。
3、若存在丢包现象,按经验可判断:
>端口的error包计数是否增加;
>光口的收发光是否超过阈值;
>低端交换机是否不稳定,曾经出现H3C低端接入交换机因系统问题,导致不定期丢包;
>流量是否超负荷,曾经出现在监控网中(百兆时期的交换机)与企业多分支采用MPLS专线来实现分支总部间的数据同步;
>是否二层环路导致。