科技与网络的飞速发展,深刻影响了社会的生产分工与企业的业务模式,IT架构不断外扩,逐渐转向复杂化。面对不断深化的行业自我优化与持续提升的精细化管理需求,智能运维已经是促进业务发展的必要手段。

科来用心洞察用户需求,将运维化繁为简,化被动为主动;着眼用户未来发展目标,不断优化运维方式,拓展运维视角,在网络流量分析领域为客户提供技术支撑,助力业务稳定、高效发展。

近日,由中国人民银行主管的中国金融信息科技主导期刊《金融电子化》杂志就汽车金融的业务智能运维发表了《智慧运维基础平台助力汽车金融业务发展》一文,该文刊登在2022年5月总第320期。

以下为原文。

《智慧运维基础平台助力汽车金融业务发展》

作者 长安汽车金融有限公司   刘进   沈君儒

 

为深入贯彻习近平新时代中国特色社会主义思想和党的十九大精神,明确“数字赋能,打造智能产业金融平台,建设一流汽车金融科技公司”的愿景。随着长安汽车金融有限公司两地三中心体系不断完善,基础设施、业务应用系统规模逐渐增大,对业务系统稳定、可靠运行的要求越来越高,信息运维工作量和难度都大幅上升。为解决运维智能化问题,同时提升数字化能力,加快数字化转型,公司在2020年计划建设智慧运维平台,在“十四五”完成平台建设,建立智慧运维体系。

 

   建设背景  

 

1.复杂场景下的问题定位

 

在公司数据中心网络架构日趋复杂,各种网络设备给网络提供高效的传输和管理途径外,也带来了更多的运维难度以及挑战。尤其业务系统各关键节点的网络数据性能,也成为影响快速发现并定位业务性能及稳定性问题的重要因素。网络运维通过传统流量的分析手段无法快速取证故障数据,从而无法判断数据流转过程中出现的问题,很难在第一时间对故障做出精准分析判断,更无法提前预警。

 

2.优化运维监控提升工作效率

 

现有运维监控手段较少,需要通过整合全网安全、监控数据进行统一的关联分析,找出事件背后的共同点,快速定位问题,减少不必要的安全风险损失。建立智慧运维基础平台,贯穿业务、应用、基础设施三个层次,将各类监控数据汇聚到平台管理。充分利用各类监控数据,打破数据孤岛,进行多维度关联分析,结合实际业务发展需要,提供持续落地AIOPS场景的能力,提升运维工作水平、工作效率。

 

3.数字化转型让数据可视化

 

公司数据中心资产数字化水平较低,需要建立多维度展示窗口,直观呈现运维问题告警、展现运维成果。让运维人员快速知晓问题,让领导一目了然的掌握目前公司业务情况和数据中心整体运营情况。构建一套基于大数据技术、数据可视化技术,并引入符合全新IT管理理念的智慧运维基础平台。平台运用大数据技术,整合各类监控数据,提供智能运维场景,对基础设施、网络性能、日志管理、应用和业务性能进行统一监控管理和关联分析,提供预警和快速故障定位,并可快速跟踪分析应用性能问题至故障根源,为应用系统性能优化提供建议,从而确保整个应用系统的高可用性和高可靠性。

 

   系统构建  

 

公司于2021年上线部署网络全流量监控系统(NPM),该系统是基于全流量分析网络服务质量和安全监测的平台。针对各种网络性能和应用性能的关键参数实时分析,同时还能够实时捕获并保存网络通讯流量,且具备对长期的网络通讯数据进行快速数据挖掘和回溯分析的能力。提升了对关键业务系统的运行保障能力和问题处置效率,提高了运维敏捷性,减少了因网络故障带来的业务损失,改善了网络服务质量,确保了网络服务高效可用。

 

1.整体部署架构

 

针对公司现有两个数据中心的情况,NPM系统采用分布式数据采集、集中可视化部署方式。总体架构包含数据采集层、数据分析层、集中展示层三大层次系统。具体平台架构图如下:

 平台架构图

 

通过NPM业务性能管理系统对两个数据中心各关键区域节点的流量进行采集监控,进一步梳理关键业务系统各应用间的访问关系。对关键业务系统各应用节点流量进行可视化监控,并对核心系统等相关业务网络运维工作提供可靠地数据依据。当业务系统发生网络故障时能够快速分析定位故障发生的点位。

 

2.具体场景实现

 

通过前端流量回溯分析系统高性能的数据包处理和检测分析技术对关键网络链路的通讯流量进行实时分析,提供流量监控分析、异常流量警报以及数据池数据挖掘和回溯分析功能。前端的各类实时分析结果及预警信息集中汇总到业务性能管理系统以面向业务拓扑的视角,集中呈现系统在各节点的运行状况,最终以可视化的方式及时、准确的呈现业务系统的各类异常、快速定位故障节点。

3.完成达到效果

 

通过对公司网络全局流量及业务的主动梳理与分析,将近100个关联各业务的关键KPI指标作为主动监控和预警的对象,多维度多角度的关联业务应用,让运维工作被赋予自动研判的能力。实现了包括性能问题的提前预警与主动发现、问题点的快速精准定位与自动诊断、性能的发展趋势判断等,让运维人员掌握基于业务的网络性能态势感知能力。不同业务网络环境对于各种KPI指标的容忍度并不一致,系统借助告警智能优化算法周期性对告警阈值进行修正,形成一套匹配当前网络的预警机制。

 

利用系统的长期流量数据包存储及溯源分析能力,能够对过去任意时间段链路流量、应用分布、主机流量分布、IP会话分布、TCP/UDP会话分布情况进行自定义追溯分析,并将不同时间段的流量趋势直观对比,快速发现流量基线变化异常。而针对频繁出现的故障,利用流量数据包追溯能力,可以直接回溯原始数据包,复盘故障场景,不再需要频繁等待故障复现再进行根因分析。

 

4.构建运维体系

 

通过NPM系统对公司应用关系的梳理,构建了业务拓扑、网络拓扑,基于业务逻辑拓扑进行网络和业务质量的可视化监控,大大提高了运维效率。构建场景化运维评估体系:

 

一是业务全局健康度评估。从用户体验角度出发,评估业务系统体验满意度情况,构建业务全局健康指数评估体系,提供好、一般、差等体验级别,帮助运维人员从体验角度服务于用户。

 

二是网络全局可视化监控。网络是承载业务的基础通道,NPM系统通过网络的视角将业务相关的状态指标叠加到网络拓扑视图上进行监控,并且将多个点的参数进行叠加对比,实现我们从网络的视角全局的感知业务的状态,为整个业务的正常运行提供支撑。

 

三是业务全流程性能监控。针对重点业务全流程监控,能帮助运维人员梳理整个业务逻辑,直观展现整个业务系统的运行状态,并且准确定位是何系统调用出现异常情况,辅助运维人员实现对故障系统进行快速定位。

 

   成效显著  

 

此次NPM系统搭建完成,实现了自动、快速的网络故障定位,故障定位耗时从天级、小时级提升到分钟级。

 

1.可视化视图能力

 

自动梳理网络流量构建可视化业务访问关系视图的能力:通过业务访问数据把网络中流量构成、各业务的访问关系以图形化、可视化方式直观的呈现给网络管理人员,达到更好的管理效果,保证网络和相关应用可以更好的为相关工作人员服务。

 

2.监控和告警能力

 

全天候关键链路的监控与告警能力:提供对关键链路的全天候图形化的流量监控功能,通过对流量的长期监控,以图形化的方式直观展现网络行为及运行规律,从而帮助建立网络基线,并通过用户自定义的在线实时告警功能,及时提醒用户以避免网络问题的发生。

 

3.态势感知能力

 

具备面向业务系统的主动运行态势感知能力:对各重要业务系统的各个环节进行主动监控和分析,通过分析实时的业务访问数据,生成业务系统的运行态势指标,如网络延时、丢包、会话状态、应用响应效率等等。并且将这些指标可视化的呈现于业务访问关系视图,对各类指标异常能够主动分析并预计,从而具备业务系统的运行态势主动感知能力。

4.快速定障能力

 

故障快速定位分析解决的能力:基于业务访问逻辑的基础上对业务进行进行精细化、智能化监控,快速定位故障源、多段多参数对比分析,快速定位分析故障原因,为故障解决提供支撑。

   未来展望  

 

随着公司业务的高速发展,信息科技在数字化、智能化战略下快速推进,数据中心IT架构体系高速发展,面对IT设备和信息系统数量的快速增长,对运维效率的需求越来越高,智慧运维基础平台的建立,包括NPM(网络性能管理)和智能日志分析管理平台的投入使用,结合现有的基础监控平台和APM(应用性能管理),充分利用了大数据、人工智能、数据可视化、机器学习算法等前沿技术,科学高效的对公司IT基础架构进行监控与分析,极大的提高了公司IT运维服务处理效率,做到了故障提前预警,精准定位,根因分析,帮助公司不断优化端到端的用户体验及业务运营能力,逐步完善了公司的智慧运维体系建设,保障了公司的业务系统稳定高效运行。

 

通过整合现有智慧运维基础平台采集的数据,构建一体化智能运维管理平台,平台通过大数据智能引擎,逐步形成运维流程化,监控立体化,性能可视化,发布自动化,落地智慧运维场景,以客户为导向,以数据为基础,以算法为支撑,提升IT基础设施的可靠性和稳定性,提高用户体验,形成统一管理、集约高效的数字化运维体系,保障公司业务连续性,赋能公司业务模式的创新发展,为打造一流汽车金融科技公司保驾护航。

– End –