随着网络影响力的逐日增大,网络的复杂程度也与日剧增,用户的业务活动更多的依赖于网络系统。因此,支撑核心业务系统的网络系统运维工作已经成为一个至关重要的工作,任何一丝一毫的网络问题都有可能导致非常严重的后果,这是对网络可用性可靠性具有极高要求的行业企业所不能容忍的。
网络闪断问题,就像幽灵一样飘忽不定,难以复制与复现,如果放任不管或许又会在某个关键时刻出来贻害四方,然而,仅仅利用传统的技术手段进行排查不但费时费力,很有可能一无所获,对于分秒必争的金融等行业来讲更无异于痴人说梦。网络回溯分析技术能长期实时保存捕获的原始数据包、数据流、会话等各种统计数据,可随时分类查看及调用任意时段的数据,当发现问题时提供一定时间范围内的回溯分析,为迅速定位问题发生原因提供了更全面的分析依据,为用户网络的正常连接提供有力保障。
本文所示即是以网络回溯分析技术解决网络闪断问题的经典案例。
一、问题描述
如上图,某集团内部网段用户在凌晨访问互联网经常出现网络闪断的情况,造成网络访问异常缓慢。
通过部署科来网络回溯分析系统,分别采集核心交换机上联防火墙的接口流量和互联网出口流量。监控问题时段出现的网络现象及原始数据包,帮助用户判断问题根源。
二、问题分析
1、互联网出口流量分析
互联网出口故障前流量
如上图,在故障发生前,可以看到内部网段的客户端(方框遮挡处)能够与互联网地址进行正常的通讯,能够接收数据包并发送数据包。
互联网出口故障时流量
但在发生故障时,内部网段内的主机没有向外发送的任何数据包,造成网络瞬时中断。但可以看到DMZ网段(圆框遮挡处)的地址能够正常与互联网进行通讯,说明互联网出口连通性没有问题。
2、核心交换机流量分析
因网络出口与核心交换机之间存在多种网络安全设备,为了检测这些安全设备是否存在丢包情况,所以在核心交换上采集流量进行对比分析。
核心交换机故障前流量
如上图,在故障发生前,可以看到内部网段的客户端能够与互联网地址进行正常的通讯,能够接收数据包并发送数据包。
核心交换机故障时流量
但在发生故障时,内部网段内的主机没有向外发送的任何数据包,造成网络瞬时中断,并且内部网段主机同样不能向DMZ区的主机发送数据包。
三、分析结论
根据对互联网出口进行分析,发现内部网段主机对外发送数据包为0,不能与互联网主机通讯,但DMZ区链路能够与互联网正常通讯,说明连接内部网段的设备或链路可能存在短时间丢包造成网络闪断。
在核心交换机上分析,同样发现内部网段的主机对外发送数据包为0,不能与互联网和DMZ区进行正常通讯,说明核心交换机或核心交换机下联链路(设备)出现异常,造成外发数据包丢失。结合实际情况来看,核心交换机下联众多汇聚交换机,而这些汇聚交换机同一时间全部出现问题的几率较小,所以我们怀疑可能是核心交换机在凌晨时出现运行异常,造成短时间内不能正确转发内部网段对外发送的数据包,造成网络闪断,建议用户向核心交换机厂家了解情况并进行问题排查。
网络闪断问题,就像幽灵一样飘忽不定,难以复制与复现,如果放任不管或许又会在某个关键时刻出来贻害四方,然而,仅仅利用传统的技术手段进行排查不但费时费力,很有可能一无所获,对于分秒必争的金融等行业来讲更无异于痴人说梦。网络回溯分析技术能长期实时保存捕获的原始数据包、数据流、会话等各种统计数据,可随时分类查看及调用任意时段的数据,当发现问题时提供一定时间范围内的回溯分析,为迅速定位问题发生原因提供了更全面的分析依据,为用户网络的正常连接提供有力保障。
本文所示即是以网络回溯分析技术解决网络闪断问题的经典案例。
一、问题描述
如上图,某集团内部网段用户在凌晨访问互联网经常出现网络闪断的情况,造成网络访问异常缓慢。
通过部署科来网络回溯分析系统,分别采集核心交换机上联防火墙的接口流量和互联网出口流量。监控问题时段出现的网络现象及原始数据包,帮助用户判断问题根源。
二、问题分析
1、互联网出口流量分析
互联网出口故障前流量
如上图,在故障发生前,可以看到内部网段的客户端(方框遮挡处)能够与互联网地址进行正常的通讯,能够接收数据包并发送数据包。
互联网出口故障时流量
但在发生故障时,内部网段内的主机没有向外发送的任何数据包,造成网络瞬时中断。但可以看到DMZ网段(圆框遮挡处)的地址能够正常与互联网进行通讯,说明互联网出口连通性没有问题。
2、核心交换机流量分析
因网络出口与核心交换机之间存在多种网络安全设备,为了检测这些安全设备是否存在丢包情况,所以在核心交换上采集流量进行对比分析。
核心交换机故障前流量
如上图,在故障发生前,可以看到内部网段的客户端能够与互联网地址进行正常的通讯,能够接收数据包并发送数据包。
核心交换机故障时流量
但在发生故障时,内部网段内的主机没有向外发送的任何数据包,造成网络瞬时中断,并且内部网段主机同样不能向DMZ区的主机发送数据包。
三、分析结论
根据对互联网出口进行分析,发现内部网段主机对外发送数据包为0,不能与互联网主机通讯,但DMZ区链路能够与互联网正常通讯,说明连接内部网段的设备或链路可能存在短时间丢包造成网络闪断。
在核心交换机上分析,同样发现内部网段的主机对外发送数据包为0,不能与互联网和DMZ区进行正常通讯,说明核心交换机或核心交换机下联链路(设备)出现异常,造成外发数据包丢失。结合实际情况来看,核心交换机下联众多汇聚交换机,而这些汇聚交换机同一时间全部出现问题的几率较小,所以我们怀疑可能是核心交换机在凌晨时出现运行异常,造成短时间内不能正确转发内部网段对外发送的数据包,造成网络闪断,建议用户向核心交换机厂家了解情况并进行问题排查。