如何定位系统大面积无法访问的根源

用户访问互联网需要通过很多网络节点,如交换机、防火墙、IPS、防毒墙、流量控制、负载均衡设备等,一旦出现不能上网的情况,每个节点都会是可疑的故障节点,大大增加了维护人员的排查工作量。本案例将详细讲解如何迅速精准定位故障节点。

 

13.1 问题描述

 

某单位部分用户通过互联网访问Web页面时,可以正常打开两到三个页面,之后再也无法正常打开其它页面,而这些用户在访问单位内部网页时却无此异常现象。

该单位网络结构如下图所示。

图 13-1

从结构图上可以看出,用户在进行互联网Web访问时,数据包除了经过接入层交换机和核心交换机外,中间还经过流控设备和防火墙。

 

13.2 分析过程

 

由于用户访问单位内部网页时状态正常,在访问互联网Web页面时才出现故障现象。通过对两种情况进行对比分析发现:用户对外网的访问路径只增加了交换机、流控设备和防火墙节点,而交换机只是对数据进行单纯的转发,并未对用户进行策略上的限制。因此,我们初步判断可疑故障点为流控设备节点或防火墙节点。

图 13-2

观察故障现象,我们定位了流控设备和防火墙这两个可疑故障点。首先对流控设备可疑故障点进行排查:将核心交换机和防火墙直接相连,使数据包传输跳过流控设备。观察用户进行互联网Web页面访问的情况,发现问题依旧存在。那么可以得出结论,故障问题与流控设备无关。

由于防火墙工作处于路由模式下,我们无法将其透明过去,只能通过对数据包抓取和分析,来定位故障产生原因。因此开启防火墙抓包功能,并在防火墙后端利用科来网络回溯分析系统抓取通信的数据包。

图 13-3

从防火墙后端抓取访问异常现象的数据包,如下图。

图 13-4

观察上图可以发现:用户在访问Web页面时,主机向外网地址发送了SYN同步请求数据包,但是没有外网地址发给主机的SYN/ACK回应数据包,TCP会话的三次握手未能建立成功,导致页面出现无法打开的故障现象。

抓取防火墙产生的数据包,如下图。

图 13-5

观察上图发现:防火墙能收到内网主机访问外网的SYN同步请求数据包(图中S代表SYN数据包),同样没有SYN/ACK的回应数据包,TCP三次握手没有建立成功。

 

13.3 分析结论

 

通过数据包的分析,可以得出结论:由于防火墙性能异常或者配置不当,将所有外网地址对内网主机的回应数据包,进而导致访问出发生故障。通过联系防火墙厂商对设备进行检测调试后,成功解决该故障。下图是问题解决后在防火墙上抓取的数据包。

图 13-6

 

13.4 价值

 

科来网络回溯分析系统拥有对数据包强大的采集、分析能力,面对此类具有不定时、难复现的业务故障,可通过多点监控方式,快速掌握各关键节点的数据流动情况,迅速发现网络丢包异常,准确定位丢包节点,从而大大节省了排障时间。

免费测试申请及购买咨询

您的名字 :

您的手机 :

您的邮箱 :

公司名称 :

您的职位 :

公司地址 :

网络规模 :

购买用途 :

补充留言:

验证: