数字化治理已成为金融行业发展必然趋势,新阶段发展格局下,完善敏捷、智能的金融科技平台建设是金融单位有效落实数字化转型的必要基础。


流量数据的深度利用、运维数据内部的整合联动对于故障排查与运维管理而言有着独特的价值。基于流量视角对网络与业务情况进行更清晰的监控,并通过标签实现更精细的数据整合管理是其中关键的一环,可以在企业数据治理过程中发挥重要作用。


海通证券通过科来云上云下一体化解决方案实现了更细粒度的全路径监控,同时以数据标签为切入点,在数据治理过程中有效建成了新型网络基础设施运维体系,本文将对其中重要技术实践部分进行分享。


完整全文已刊发于《金融电子化》

作者丨 海通证券股份有限公司数据中心 罗秋清 王东 李宏涛 杨亚斌 邵佳罗


背景


党中央、国务院所出台的《国家创新发展驱动战略纲要》等重要文件,明确了数字经济为当下的主要发展方向之一。《“十四五”数字经济发展规划》的发布,进一步明确了推动数字经济健康发展的指导思想、基本原则、发展目标、重点任务与保障措施。


海通证券作为上海市属金融国企,一直贯彻在“务实、开拓、稳健、卓越”的经营理念,在新阶段发展格局下,同样以“建设数字海通2.0”为目标,开展了以“敏捷化、平台化、智能化、生态化”为特点的金融科技平台建设,全面深化数字化转型。这一过程中,如何依赖现代化IT基础设施与运维管理方式,以满足数字化治理的需求,变得日益迫切。


当前现状


现阶段的海通证券已经建立了一个相对高效的故障运维体系,能够快速发现日常运维中的故障事件,并能进行高效率的故障处置。该运维体系证券行业内在近年也备受推崇,但是伴随着海通证券对网络数字化治理的不断推进,该体系所已经不能完全满足海通的业务场景和需求。


其主要特点是可以通过基础架构设备视角,对设备的运行状态、线路通断、告警日志、以及拓扑和资源进行监控管理,但在新阶段下还需要进一步补充对业务的流量走势、流量成分、容量规划、服务质量的深度分析和检测能力。


实践方向


数据标签是数据治理过程中的重要切入点,通过标识和描述数据的关键属性、特征或类别,可以有效帮助运维工程师更进一步地优化数据要素的管理与应用。


1.生成、使用、管理数据标签


数据标签的有效生成、使用和管理可以帮助运维团队更高效取用与管理数据资源。通过CMDB和各个监控平台可以基于设备对象、流量对象、链路对象、应用对象、业务对象、责任人等不同信息,对数据进行标签化区分,提高数据的可识别性和可访问性;


数据标签也可以作为关键词或元数据的一部分,适用于数据的检索和查询,帮助运维人员快速定位到特定类型或特定属性的数据,减少查找时间。它对于数据分析和挖掘具备重要意义,有助于利用对数据的聚类、分类和关联分析,实现更深入的数据分析和洞察,并为更高效的跨部门协作奠定基础。


2.在数据治理的演进中,数据标签对当前运维体系的不同作用:


(1) 故障定位和快速修复:为监测数据打上标签,可将相似类型的故障和问题归类,帮助运维人员快速定位问题根源,并采取针对性的措施进行修复。

(2) 自动化决策和优化:帮助系统识别和理解不同类型的数据,从而更好地进行自动化决策和优化操作,例如自动调整资源分配、优化网络拓扑、归并故障告警等。

(3) 数据分析和预测:更好地组织和分类数据,使得数据分析和预测模型可以更准确地发现异常和趋势,从而提前采取措施预防或解决问题。

(4) 基于知识库的支持:作为知识库中的关键字或元数据,帮助运维人员更方便地搜索和浏览相关的知识文档,提高问题解决的效率和准确性。

(5) 数据可视化和报告:在可视化界面中灵活选择和过滤特定类型的数据,使得数据展示更加直观和易于理解,从而支持决策和沟通。


实践方法


为了进一步优化IT运维管理,海通证券升级建设了智能化运维平台进行综合告警,通过科来混天绫,实现对于流量监控平台、网管监控平台、应用监控平台告警数据的统一纳管,以及不同系统间的数据共享和协作。


流量监控平台具备新一代更先进、智能的AI技术,可利用时序数据智能化基线分析、趋势预测与自动异常发现等的一系列分析算法,实现对网络流量指标、业务性能KPI、设备性能KPI等各类运维数据的自动化分析,强化了整个排障流程闭环的主动与智能化故障处理判断能力。


同时通过获取业务访问拓扑和关键性能指标情况,可以进一步构建业务访问全景图,并结合关键流量指标数据,可视化呈现各个关键业务运行状态,提高监控实时性和完整性,保障整体网络基础设施运维体系的效率和准确性。


数据治理推动的新型网络基础设施运维体系如下:


同时,通过CMDB对网络设备对象、链路流量对象、应用流量对象、应用对象、业务对象分别赋予通用、唯一的数据标签,打通了不同系统间数据调用壁垒,实现各类数据统一可读可用。规范使用数据标签,为建立更健康、更高效的数据互通生态系统奠定了基础。该系统已经在海通证券的网络基础设施运维体系中小有成效。


借助流量侧视角,海通证券有效消除了原本在流量成分走向、容量规划、金融业务质量感知等方面的监控盲区,并打通业务、会话、网络问题分析路径,建立了全面、精细的数据监控视角,实现对于业务应用更为精细化的管理。


① 性能容量分析:物理网络性能容量分析,通过流量建立网元设备性能容量、专线性能容量评估体系,明确经过网络节点流量大小、性能指标,评估网元设备的真实性能容量。

② 故障范围缩小:通过智能基线及故障推导模型,结合知识库,实现智能故障范围缩小。

③ 统一事件平台:集告警接入、通知、处理、分析为一体,实现在事前发现、事中处理、事后审计的告警处置闭环。

④ 技术创新:通过智能基线及故障推导模块,实现精准故障预警,提高业务可靠性及可用性。同时基于自动化工具,结合告警及积累的运维知识库,实现AIOps自动化运维。


实践结论


在海通证券数据治理的不断演进中,传统的运维模式逐渐向数字化运维演进,旨在利用先进方法和技术如数据标签、AI和机器学习,增强其对于复杂环境的响应能力、提升运维效率。


数据标签的应用,与流量视角监控的完善,在海通证券数据治理演进中的网络基础设施运维体系中扮演着重要的角色,有助于更清晰地获知网络情况与业务质量,保障前台服务的。


总的来说,数据标签是数据治理的关键组成部分,有助于提高数据的可管理性、可理解性和可信度。目前海通证券的数据治理工作还在不断推进中,流量侧运维视角加持下的数据标签管理,是运维人员获取更清晰、更全面的数据视图的重要切入口,也为整体运维效率性、可靠性和共享性的大幅提升奠定了基石。在未来,进一步研究和发展数据标签管理和应用的方法将有助于不断提升网络基础设施运维的水平,在“科技赋能、数据驱动”的发展战略下,也有更助于海通证券加强落实科技发展规划,提升数字底座技术能级,稳步践行高质量转型发展之路。

– End –