中国银行通过智能流量分析系统的建设,形成了一套以业务保障为核心的基于网络流量分析的新一代主动、高效的网络运维体系,持续赋能运维管理。

本文转载自《金融电子化》微信公众号


作者: 中国银行信息科技运营中心 许泓、刘洋、田晶


随着银行业信息科技飞速发展,以互联网、大数据、云计算等为代表的新兴技术与传统金融加速融合,数字化转型背景下复杂的应用系统交互给整体运维管理带来严峻的考验,如何对业务全数据流形成全面有效的监控和应急,并挖掘数据包底层有效信息,成为整体运维管理能力提升的关键要素。中国银行通过智能流量分析系统的建设,在生产平面上又构建了一套运维平面,通过流量系统全面复制、透视、仿真业务系统,形成了一套以业务保障为核心的基于网络流量分析的新一代主动、高效的网络运维体系,持续赋能运维管理。


智能流量分析系统架构


中国银行智能流量分析系统逻辑架构由四个模块组成,分别为流量采集模块、流量分析模块、性能质量分析模块和业务场景化快速分析模块组成,逻辑架构如图1,通过流量采集设备、探针分析设备以及业务性能管理系统服务器的部署,实现四个模块的完整功能。相关模块功能如下:


1. 流量采集模块是将数据中心网络关键节点的流量进行采集汇聚,归集处理后发送给其他流量分析组件的系统模块。

2. 网络流量分析模块是一个基于数据包的全流量采集、核心链路及关键节点运行状态可视化的系统模块。它可以有效分析全网的网络运行情况。

3. 性能质量分析模块基于应用系统全交易路径数据包的网络智能分析技术,实现对业务系统运行态势的自动智能感知,提供业务系统的全面性能可视化管理,实现主动预警、快速定位。

4. 业务场景化快速分析模块基于数据交互典型场景,并结合历史问题分析运维经验,实现标准化的业务场景下的自助采集、自助分析及原因定位,实现快速应急。


图1 智能流量分析系统架构图(图片来源《金融电子化》公众号)

为实现全网络关键路径流量的全覆盖,中国银行网络流量获取的技术手段包括:


1.通过分光和流量镜像的方式实现传统网络环境核心业务网流量采集。

2.通过网络设备流量采样(如Netflow、Netstream)的方式实现广域网流量采集。

3.通过Telemetry方式实现SDN网络环境流量采集。


智能流量分析系统物理部署采用“接入层-输出层-核心层”的三层架构(如图2),已实现全网2.5Tbps的采集能力。

图2 智能流量分析系统架构图

基于业务系统的全流程分析


随着业务系统数量和规模不断扩大,除网络设备自身的运行状态外,业务系统各关键节点的网络性能已成为快速发现并定位影响关键业务性能及稳定性问题的重要因素。我们通过梳理重要业务交易路径,形成一套主动、高效、智能的网络分析方案,从而实现站在网络上层看网络,从网络流量的角度看全业务交易路径的流量分析。


基于业务系统的全流程分析实现路径包括:


1.关键业务的全交易路径信息梳理与定义。

2.采用精细化过滤的方式进行监控数据的采集输出。

3.甄选适合监控所需的各项KPI指标。

4.定制监控及分析视图,并配置行之有效的告警监控。


以双十一重点保障的业务为例(如图3),我们实现了从网联、银联等途径跨越我行DMZ区和内网不同子区各个核心应用组件的不同位置的网络流量精细化采集,并对包括吞吐指标,网络性能指标(网络时延、丢包、建连异常等),应用性能指标(应用响应效率、失败率、错误代码等)的实时监控,绘制出基于网络流量分析的快捷支付全流程分析图,实现双十一重保期间各应用组件网络性能的实时监控和快速分析视图,并结合历史基线及特殊时段定制化告警最佳实践,形成基于网络流量分析的双十一自动监控告警策略,实现1分钟内发现性能问题,5分钟内即可定位问题点,较传统方式的异常排查处理效能产生质的飞跃。


图3 支付业务全流程分析

基于真实流量的变更仿真


网络作为所有应用系统间交互的基础通路,网络变更可谓“牵一发而动全身”,如何有效降低变更风险是运维的关键。在进行带有状态处理特性的L4-L7设备(如防火墙、负载、IPS等)进行升级替换,往往难以预测新设备对实际业务流量的影响。传统的流量仿真方式采用流量仪,其产生的数据流较真实的业务数据流存在很大差异,例如,由于模拟模型不够真实和充分,易造成L4-L7设备的特性(如FTPs ALG功能 )在变更前测试不完备,进而在变更中带来不可预估的变更问题和业务影响。


我们通过智能流量分析系统的流量采集网络,实现真实业务的流量仿真,对新设备进行全真的功能测试,大幅降低变更风险。


以互联网出口防火墙、IPS升级替换变更为例,承载了网上银行、手机银行等重要互联网出口应用系统,其部署位置十分关键。完整可靠的替换升级方案应包含完整有效的业务流量仿真,同时,只有在MAC、ARP、路由、策略等一系列必要条件均具备后,防火墙设备才能够正常运转,传统的流量仪模式无法满足完整可靠的测试需求,为此,我们通过原始流量镜像及防火墙配置调整相结合的方式,实现完整可靠的流量仿真测试,具体的实现路径包括:


1. 完成现网防火墙镜像配置,将防火墙前后端的流量输出到智能流量分析系统的分流设备中。通过在分流设备上的MAC地址过滤的方式分别模拟出防火墙前端和后端的进入方向流量。

2. 通过调整新上防火墙接口MAC、ARP表信息、路由信息等配置,实现可以对仿真流量进行真实有效的业务处理,进而持续观察防火墙监控指标和应用系统KPI指标。

3. 与原有防火墙承载的真实业务流量进行比较分析,评估新设备的性能、特性对业务的影响。

通过防火墙和分流设备配置的组合调整,实现了对新防火墙和IPS共计8Gbps流量的一个月完整的流量仿真测试验证,在变更前发现并解决了包括防火墙设备的SYN包检查机制、序列号检查机制、不同策略的不同超时时间对于通讯内容产生影响等问题,大幅降低变更风险。


    基于场景化的快速分析


综合以上内容,智能流量分析系统实现了快速高效的网络设备、应用组件和业务全路径的监控分析,但传统上,在故障问题定位时需技术人员对数据包进行提取、分析,耗时较长。对于网络基础相对薄弱的应用、系统团队人员,如何能利用网络流量分析工具,实现通过网络流量分析协助定位问题的目的呢?


为进一步提升快速应急分析效率,我们开发了基于业务场景化的快速分析模块,实现了场景化的抓包和快速分析功能,输出分析结果的能力。随着系统功能的逐步完善,将有效降低网络运维人员流量分析压力。具体的实现方法包括:


1. 通过自动化的方式快速的提取所需分析的原始报文。

2. 结合历史分析问题进行场景的归类整理。(如图4)


图4 基于场景化的快速应急图谱

3. 使用自动化的方式进行归类后各场景的自动分析定位:

1)单一采集点的自动解码分析;

2)多采集点的自动对比解码分析

3)根据不断的积累场景和优化自动化准确度,形成完善的闭环结构;


在某关键业务出现交易失败的异常事件中,智能流量分析系统的该模块自动对问题时段的原始报文进行下载,并对下载后的数据包文件进行解码和统计分析(使用建连分析场景),最终按照预定义的场景内容进行各种可能性的分析。从而最终定位根本原因是客户端的端口重用导致TCP连接建立失败。通过预置场景,该问题定位仅仅数分钟时间,大幅提升故障定位效率。


   基于SDN架构的全流量分析方案


在我行云数据中心建设过程中,采用了最新的SDN解决方案和业界先进的fabric网络架构,和传统网络相比,智能流量分析系统通过telemetry协议进行数据实时监控,实时感知Fabric的状态、应用的行为状态,打破网络和应用的边界。                     


流量采集实现方面,设备以Telemetry方式上报两种类型的数据:基于ERSPAN协议镜像的TCP报文、基于GRPC协议上报的接口流量等性能Metrics数据。通过转发芯片直接识别并镜像,整个过程不经过CPU,所以不会对网络性能带来影响。


在SDN网络实际运维场景,收集分析现网故障案例库,从应用质量、网络服务、安全合规三个维度总结归纳出10余个典型场景。并分别针对不同的场景,主动分析识别是否存在故障。如果系统识别出故障,将自动生成告警,同时可以通过设置告警远程通知规则,从而实时感知故障。


以网络服务维度的智能识别TCP SYN报文的重传和建连异常功能为例,在我行云中心某次异常事件发生时,通过network监控界面报出建连失败告警(如图5),进一步下钻分析,可看到具体异常ip地址(如图6),从而定位故障位置。


图5 SDN架构下建连异常告警

图6 SDN架构下定位异常设备

为未来智能运维平台做数据支撑


回顾过去我行业务科技的发展历程,可以发现“变化是唯一永恒的趋势”。同样运维平台随着业务科技的发展也在不断的演进。网络作为整体IT系统的根基,任何系统间的通信、业务处理都以网络流量为基础,任何故障也都必然以网络流量为表现,因此网络全流量数据是最为完整的数据源。通过我行的智能流量分析系统对关键节点进行全路径采集、并进行上百种参数KPI的秒级输出,可以为未来智能运维平台的建设进行有效的数据支撑。


综上,通过智能流量分析系统的持续建设和不断完善,基于网络流量的运维管理能力大幅提升,网络运维管理视角不断拓展,数据中心整体应急处理效能不断提高,在银行业数字化改革发展的浪潮中,持续赋能运维管理能力,不断增强信息科技核心竞争力,为金融业务不断发展奠定了坚实的基础。