随着数字经济进入快速成长期,银行业务与IT技术融合发展的趋势更为凸显。江苏长江银行长期实行业务经营管理数字化,大力推行面向场景生态的金融建设,具备深厚的数字化基础。随着近年来云技术在各行各业的持续渗透,银行在IT基础设施及云原生业务应用上稳步推进。


业务上云进一步加快了银行业务模式创新与服务延伸,同时也意味着更为复杂的云内网络情况,而企业对业务安全的诉求、行业主管部门监管的要求有增无减。如何基于银行目前的云环境,将网络保障与业务紧密结合,建设更有效准确的网络监控,强化业务可观测性就成为当务之急。


  从整合优化到提效创新    云网运维面临的新挑战  


银行致力于为小微企业提供有情怀、有温度的金融服务,为了更好落实“精准定位、精细获客、精巧风控、精确时效”的独特银行模式,长江银行在数年前便开始携手腾讯云,在金融专有云、大数据平台、数据中心标准化建设及金融创新场景化解决方案等多方面齐头发力,以进一步提升金融能力,更好服务小微用户。


随着业务云化稳步推进,稳定连续的云网运维重要性不断攀升,但难度也随之上涨:

  • 云内资源池网络监控诊断需求凸显;
  • 云网业务持续融合,进一步挑战原有孤立式运维,亟需引入新视角完善现有体系;
  • 不断进化的云网智能分析架构,同步要求了更为可扩展、更灵活的架构设计;
  • 江苏长江商业银行“同城双活数据中心”模式下的网络规模宏大且资源池类型繁多,管理体量庞大;
  • 银行业务与运维环境密切关联,规划优化动作时,需要满足平滑部署且保证业务不间断,并存在可靠机制保障对计算资源的消耗限制,避免对现有云环境的影响。


  更智能更主动的融合运维    如何打破数智转型传统桎梏  


流量数据在应用场景上涵盖广阔,无论是应用、系统等不同领域,均具备深度挖掘价值,相对传统网管数据更细致、更小时间精度,流量测的监控手段可以为云网运维与异常事件排查提供有效补充,对银行单位来说,更可在大量线上服务、灾备演练等大量场景提供独立价值。


物理机、虚拟机、容器、传统网络、Overlay、Underlay、传统安全、云内安全、业务状况……业务上云后云内网络、业务、安全情况错综复杂。网上银行、手机银行、视频银行、小微移动工作站等相关线上服务模块的相继开通进一步加重了云网运维的难度。为打破业务上云时期的常见桎梏,江苏长江商业银行携手科来,打造更看得清的云网监控,进一步保障上云业务的稳定与高效。


目前,科来云魔方云网分析平台已在客户银行部署且稳定运行,深度适配客户腾讯云3.8.0平台,同时对腾讯云2.0、物理网络等各个监控点进行数据采集,通过图形化、智能化、自动化,对采集数据进行处理,实现整个IT环境网络、应用的可观测性监控。


由图可知,通过在腾讯云TCE的CVM母机上部署流量采集Agent,可将该CVM母机上的vSwitch所有虚拟接口及CVM母机的物理网口流量进行全时全量采集。采集后,由解析器对原始流量进行解码,并生成统计数据进行分析。通过CVM母机上的采集Agent将腾讯云TCE上虚拟网络流量全部覆盖,实现云上无盲点。在应用中心,可提供流量可视化、分析、展示和集中管理配置的能力。通过控制器对采集Agent进行统一管理,同策略方式实现采集流量管理和采集Agent资源限制、资源熔断等控制。在接入交换机、WC交换机、NFVL交换机、CLB
STGW上联的交换机,配置端口镜像,将镜像流量给到TAP交换机,再由TAP交换机将这些镜像流量给到解析器。


项目成效


①打开云网络流量黑盒,云上网络性能清晰可见


科来云魔方作为一款面向整个云数据中心提供平台化监控能力的工具,可与腾讯全栈云平台完美融合,便捷、安全、轻量级地获取云内网络流量,清晰获知业务情况。


②云内故障分钟级定位,端到端连通性分钟级检测


平台提供云网流量拓扑以及会话追踪性能分析能力,全自动迅捷端到端连通性检测功能代替传统的手工配置确认,高效实现故障界定与检测。


③深入腾讯云网络模型,全面提升服务质量保障


关联腾讯云运营侧的配置信息,与采集的云网流量相结合,完整覆盖所有网络通信场景,提升整个云资源池基础服务质量保障。


④剖析云网络疑难杂症,显著减少故障修复时间


平台丰富的性能指标量覆盖时延、丢包、异常、饱和程度等网络疑难杂症,由自动计算的性能指标代替传统的手动抓包及人为分析,支持全资源池流量实时采集分析,故障问题不再“难复现”。


⑤多动态基线学习,零配置分钟级精准告警


基于多条动态基线自动学习,结合智能算法,自动生产应用、云平台资产、链路监控对象。无需人工配置阈值,实现全自动的分钟级精准告警。


此前,江苏长江商业银行向科来发出感谢信,以感谢科来在银行转型与业务上云中所做出的积极贡献,尤其对科来云魔方智能运维分析平台的产品能力与技术服务做出了深刻肯定。


科来云魔方致力提升云上运维效率,保障云上业务及云平台稳定、可靠、安全运行。系统以分布式集群方式部署在云内,实时收集云网中探针所采集的流量数据,经二次分析处理,并进行业务化、体系化呈现,具备全量、全链、全栈、智能、回溯、灵活的关键特点,在复杂的云网业务关系中帮助运维人员理清“乱麻”,实现有序、高效、智能的业务保障。


– End –