如何发现大型网络中网络环路问题

当网络环路发生时,会出现网络及应用访问缓慢、网络丢包甚至无法正常提供服务等异常。通常在大型的网络中发现网络环路是比较困难的,本案例介绍了如何通过网络分析技术发现网络环路。

 

15.1 问题描述

 

某公司网络全部为内部网络,不与Internet连接。出口防火墙连接集团内网并下联核心交换机,核心交换机下连“下属单位”防火墙,如下图所示。

图 15-1

某日上午8-10点左右,某公司网络及应用访问出现异常,网络访问速度缓慢,甚至服务器无法正常提供服务,严重的影响了员工的工作。运维人员通过ping DMZ区服务器,发现有大量丢包的情况,然而经过一系列的排查,却没有发现产生该异常现象的原因。

由于该公司部署了科来网络回溯分析系统,所以可通过该系统对业务数据进行长时间的回溯分析,重现故障发生时的情景,找到产生故障的根本原因,并依此解决问题。

 

15.2 分析过程

 

对故障时间段的网络总流量及进出流量进行统计分析,发现峰值达到682.35Mbps,带宽利用率达到70%左右,瞬时的利用率甚至更高。该测试网络的网络利用率非常高,很有可能造成数据包的大量丢失,如下方两图所示。

图 15-2

图 15-3

15.2.1 对业务数据进行分析

针对网络应用数据进行分析,发现未知的UDP应用流量占用了总流量的99%以上,如下图所示。

图 15-4

通过进行未知UDP应用的深入挖掘分析,可以发现大量UDP2425端口的单方向通讯,如下图所示。

图 15-5

通过上述分析可以确定异常原因:内网中存在大量数据使用UDP2425端口进行通讯,占用了网络的大量带宽,导致网络中出现很多丢包情况,因此造成网络和应用访问缓慢。

经过查阅资料和UDP会话分析发现,UDP2425端口是某软件所使用的端口,该软件是一款局域网聊天传送文件的绿色软件,再查找占用带宽较大的IP,发现所有大流量传输的IP地址均为“该公司下属单位”网段的IP地址。

15.2.2 发现网络环路

下载数据包进行精细分析,我们可以对其中的两台主机传输的数据包进行解码分析,发现数据中存在大量IP端口相同并且具有相同的IP标识位的数据包,这就证明了主机之间传输的数据包为同一个数据包,如下图所示。

图 15-6

再来定位到数据包中的TTL字段,发现数据包的TTL值呈现逐步递减的趋势,每个数据包TTL值减2。这就说明了这个数据包在传输的过程中经过了2个三层设备的处理后又回到了核心交换机与防火墙上联的接口,被再次捕获,如下图所示。

图 15-7

经过确认,在防火墙上发现一条指向核心交换机的路由:X.X.0.0/16。这就造成了“下属公司”网段中发往X.X.0.0/16网段的数据包,由于核心交换机没有精确匹配的路由,所以通过核心交换机的默认路由指向防火墙,而经过防火墙后,又被防火墙的X.X.0.0/16路由指回核心交换机,这样就形成了路由环路。

 

15.3 分析结论及建议

 

15.3.1 分析结论

通过对内网的整体流量分析,发现大量未知UDP2425流量占用了总带宽的99%,导致其他网络访问缓慢。经过对数据的详细分析,发现此情况是由于路由环路导致。

由于“下属公司”到总部的一些网段之间路由配置存在问题,产生路由环路,造成核心交换机和防火墙之间传输大量数据,使链路带宽受到阻塞,从而产生网络问题。

通过联系“下属公司”网络管理员,让其禁止“下属公司”的防火墙到核心交换机的UDP2425的流量。在此之后,故障现象消失,网络流量恢复正常。

15.3.2 建议

类似的路由环路可以通过“黑洞路由”的方式避免,在上级路由器使用汇总路由,而下级路由器配置缺省路由,同时汇总的网段中有部分子网未使用的情况下,最好在下级设备中额外配置一条静态路由,将汇总的大网段指向空接口。例如:上级设备(防火墙)配置X.X.0.0/16指向下级核心交换机,下级核心交换机则配置X.X.0.0/16指向“Null 0”接口(针对Cisco路由器)。由于路由转发遵循精确匹配原则,这样配置不会影响下级路由器已配置的子网访问,只是将目标地址为未配置的子网主机的数据包丢弃,避免环路发生。

 

15.4 价值

 

凭借科来网络回溯分析系统,网络运维人员能够通过IP TTL及IP ID的变化,快速发现并确定网络环路的大小,帮助用户精细配置路由条目,避免不必要的流量占用大量带宽。

免费测试申请及购买咨询

您的名字 :

您的手机 :

您的邮箱 :

公司名称 :

您的职位 :

公司地址 :

网络规模 :

购买用途 :

补充留言:

验证: