随着业务上云的深入,企业对搭载了众多核心业务的网络要求越来越高。但与此同时,在传统网络向云网络演变阶段,云原生环境下各类工作负载可创建、部署在更小单元,流量在这些细小单位间流转,网络可视难度增加,而云上云下的流量也难以串联、统一。


打造一体化、更智能的云上云下可观测运维体系,一直被认为是多云多网IT架构下保障各类业务稳定与安全的必要前提。通过建立更完善、更清晰的全局监控视角,加强云网可控性与可观测性,对于保障业务质量与前台客户体验有着至关重要的作用。


某银行客户真实案例


背景描述


用户单位为混合云网络,通过科来云网一体化运维解决方案,实现了云上云下业务的一体化监控。部署完成后,客户在对关键业务进行监控风险检查时,发现部分手机银行业务存在较高延迟,通过与网络部门核对确认,发现确实存在此类问题,遂通过科来对此进行横跨云上云下全局链路的深度分析。


分析过程


该问题为业务响应问题,在访问部分手机银行业务时响应时间长达10秒,因此先针对应用程序请求响应和功能,以及云组件和云网络等方面进行了检查。为明确问题原因,技术人员基于科来对业务进行排查:通过科来云魔方对业务访问路径进行梳理,快速梳理出业务访问流程与映射关系,并根据访问路径逐级追踪,在比对不同节点前后时延情况与TCP会话情况后,成功追踪到云下服务器出现问题。


具体分析排查步骤如下:


1.业务访问路径梳理


首先对业务访问路径进行梳理。

从手机银行前台开始可根据访问逻辑形成逐级关系链条。其中蓝色区域为云上流量,橙色部分为云下流量。如下图所示:

2.单笔业务追踪

通过单笔业务追踪,工程师分别查看了手机银行到联机网关、联机网关到数据中台、数据中台到内联的响应情况。图中显示的平均响应时长在8秒到11秒,需要时间较长,可见问题情况出现在后两个环节。

3.云下业务追踪

为了进一步确认云下服务器与核心系统情况,工程师分别对两台内联设备到云下服务器的会话质量进行检查。

两台内联到云下服务器的响应时间分别为8秒到11秒、3秒到12秒,且均显示TCP交易响应徒降。再查看云下服务器到核心系统的会话质量(图七),此时平均响应时间仅为一百多毫秒,两者比对下可知云下服务器出现问题。

分析结论

云网一体化运维视角的构建,能够进一步完善业务全链路监控方式、并实现云网可观测,帮助运维人员精准发现问题,高效定位故障。本次故障解决过程中工程师基于科来云网一体化运维解决方案,将全局流水号单笔业务追踪和TCP会话两者结合,快速排查出云下服务器无响应导致时延增加的问题原因。

价值

随着业务上云成为主流,传统网络开始向多云网络演变,尤其是虚拟化技术的发展,改变了原有的企业数据中心模型。云原生的环境下,各类工作负载创建和部署在更小单元,流量在这些细小单位之间流转,网络“可见度”变得更低,而云上云下的流量也难以串联、统一。传统运维方式面对云上流量存在局限性,不再适配云网环境下的新场景。

科来云网一体化运维解决方案让洞察云网流量与业务运行情况变得便捷高效。基于自研“软探针”技术,科来云魔方具备独特的云上云下的全流量采集能力,可精准呈现云上数据全场景,并具备丰富的场景化实践经验,帮助用户构筑一体化智能运维,在提升云上运维效率的同时,更在复杂云网业务关系中帮助运维人员理清“乱麻”,实现有序、高效、智能的业务保障。

– End –