连日来,广州本土疫情牵动人心。尽快推进接种疫苗工作,构筑全民免疫屏障,成为我国上下一心的强烈期盼。疫情防控工作举国作战,接种疫苗全民覆盖。5月29日我国累计接种疫苗超6亿剂次,三日后,6月2日这一数量已超7亿。接种仍在加速,医务人员及万千志愿者夜以继日。

 

面对规模如此之大、效率如此之高、人员流动范围如此之广的接种工作,各地纷纷上线平台系统,进行快速处理、监控质量与流程优化。由于特殊性,疫苗系统关联项复杂,医疗信息、接种信息、居民信息三者交错,业务不断循环流转。随着各医疗系统逐步互联,平台数据实现共享,网络规模和复杂度愈发提高,对系统的稳定性和可靠性要求也更高。“无差错、不中断”,是对背后运维工作下的一道“死命令”。

 

 

【来自疫苗接种工作中的真实案例】

 

免疫规划信息管理系统关乎居民的健康接种,运维保障工作不容有误。为确保上线的系统平稳投入运行,避免出现接种中断或者流程不成功等问题,相关单位希望科来通过流量分析手段实现对疫苗系统实时监控,并保障系统稳定、高效运行。

 

细微之处见真章

 

系统运行期间,科来工程师通过全流量分析系统进行分析,发现接种系统指标存在异常,服务器对于部分请求不回包,此为偶发现象,多数试验点并未出现。如下图所示:

 

在Linux系统下,若系统默认开启tcp_tw_recycle,TIME_WAIT的TCP连接不会等待2MSL时间,而是RTO或者60s,从而达到快速重用(回收)处于TIME_WAIT状态的TCP连接的目的。这导致该连接可能收到之前连接的数据。

 

为此,Linux在打开tcp_tw_recycle的情况下,会记录TIME_WAIT连接的对端(peer)信息。这样,当内核收到同一个IP的SYN包时,就会比较时间戳,如滞后,就将其丢掉。这在绝大部分情况下没有问题,但对于实际client-server服务而言,访问服务的用户一般位于NAT之后,若NAT之后有多个用户访问同一服务,就有可能存在因为时间戳滞后的连接被丢掉的情况。

 

科来建议关闭tcp_tw_recycle,问题得以初步解决。

 

主动监测解燃眉

 

随着疫苗系统逐步扩大开放区域,来自各地区的流量信息通过科来系统反馈展现,一幅“清明上河图”以上帝视角的形式展现开来。

 

科来工程师严阵以待。在通过对全部流量的主动持续监测与数据包行为分析发现,有部分接种点开始出现系统响应速度减慢、响应时间变长,且偶发无法访问疫苗系统的情况,持续发展下去情况将会逐步恶化。科来根据流量特征研判,提出这是同一问题的复现,并将解决方案提交主管部门,立刻对系统进行统一优化。故障得到及时解决,疫苗接种顺利进行。

 

通过快速流量分析与梳理,基于科来对于故障的精准定位与全局视角业务性能呈现能力,通过“上帝视角”在极短时间内迅速发现问题、准确预判情况、高效解决故障,为该市紧急上线的疫苗系统扫除问题隐患,保障顺利运行,帮助该市数以万计的居民疫苗接种工作有序组织、高效推进保驾护航。

 

这只是抗击疫情的万千一隅,筑防疫长城,凡力所能及,科来与你我一样,同出一“臂”之力。

 

-End-