智维数据应用交付可视化助力金融科技企业应 - 黄芪

TUhjnbcbe - 2025/7/30 9:34:00

1.应用监控痛点

金融科技企业A，是国内行业领导企业，作为一家持续盈利并保持高增速的上市公司，A公司每年在金融科技建设上投入较大，全公司建设了数百套科技系统，金融科技的投入重在推动业务效率提升。随着A公司双活应用架构落地，负载均衡成为A公司关键的基础服务，其可用性及灾难恢复能力必须得到第一优先保障，但由于数量庞大的负载均衡设备缺乏统一管控平台，因此面临一些棘手的运维难题：

第一，配置层面，负载设备多配置也多，人工梳理难度大且变更不及时，会出现由于错配、漏配等导致的异常；

第二，巡检层面，日常人工巡检工作量大，无法覆盖全部负载设备，监控盲区带来了不可控的运维风险；

第三，用户体验层面，如何早发现影响用户体验的因素，快速判断和解决，减少由于业务故障对用户体验的负面影响；

第四，在排障过程中，由于负载前后端地址进行了随机转换，运维人员不清楚负载前后地址动态对应关系，因此在业务发生故障时无法第一时间溯源找到问题点，排障效率难以保证；

第五，在监控层面，多个告警平台各自独立，数据不互通，无法实现综合分析，因此只知故障却难以深入了解故障原因，无法满足业务端对运维效率的要求。

2.智维数据解决方案

为提升A公司对负载设备的监控能力，减少网络可视化盲区，提高应用故障协查能力，智维数据作为技术合作伙伴，通过前期对项目的调研，设计并落地了负载对接灵珑应用交付管理平台的解决方案，该方案可实现对负载数据的采集，包含iControl、HSL等，实现负载设备统计、配置集中查询、配置定期优化、状态实时监控、自动化巡检、业务访问关系梳理、应用优化、智能告警、自动化报表等功能，通过灵珑的应用交付可视化能力，提升运维团队应用服务能力。

与传统的基于镜像流量的HTTP监控的方式相比，“灵珑”基于HSL实现HTTP监控，优势明显：

1、部署成本很低，HSL被设计成高容量、低开销的日志记录技术，只需要网络可达即可收集，更加“轻量”方便；

2、本地计算，时效性高，每秒支持吐出几十万条日志，并对系统开销极低，所有通讯对指标计算都由设备自身直接输出结果，不存在数据重新缝合计算的过程，时效性与准确度最高；

3、灵活度高，分析场景可结合负载自身配置信息，除了输出业务性能之外，还可以输出负载失败的记录（例如DNS没有走智能DNS、会话保持异常分析等）。结合iRules，可以定向对特定业务做解码处理，获取业务信息；

4、对于加密流量数据的分析，无需额外的解密；

5、分析模式为应用交付模式，贴合全代理架构展示，实现负载连接表持久化，更好地展示应用交付中的业务场景。

该方案通过“灵珑”智能识别应用交付设备及应用自身运行过程中出现的隐患，可将影响业务的风险最小化，解决A公司在配置、巡检、用户体验、排障、监控五个方面的难题。

3.应用场景

配置优化，设备风险严格管控

此前A公司网络部门曾遇到业务报错，在业务端查找不到原因，后来经过人工排查发现，是健康检查配置不优，导致负载配置问题未及时发现所致。由于全公司有数量众多的负载设备，要全部筛查工作量巨大，为运维端带来较大压力。现在通过使用“灵珑”，运维人员可随时对所有负载设备上的数百个业务进行配置检查，有多少个业务在什么时间点健康检查失效了变得一目了然。

由于一些历史原因，负载上还存在一些闲置的业务和配置仍在运行，增加了运维风险和负载消耗。现在运维人员可以通过“灵珑”主动发现哪些业务是从来没有被访问过但业务仍在负载上，那么这个业务其实是完全闲置的业务，应该删除对应负载配置，从而做到回收垃圾配置，有效避免垃圾配置引起的业务隐患。

此外，“灵珑”还可以自动化统计软硬件数量、设备序列号、软件版本等信息统计，提前规避排障时由于软件/硬件版本停止服务带来的风险隐患。

人工巡检到智能巡检，提升巡检效率和准确性

此前，A公司的负载定期巡检需要请外部技术人员协助，逐一查看设备运行状况和报错情况，整个工期一个月左右，巡检报告多达几百页，报告人工梳理难度较大，包括解读报告的难度也很高，而针对巡检的质量，难以及时有效的核实。

现在通过“灵珑”的智能巡检功能，运维人员一小时内就能完成之前人工巡检一个月的工作量，还可以根据需求设定巡检周期，比如每月一次或者每周一次设备巡检。由于是机器巡检，巡检效率和准确性都能得到有效保证。

在巡检结果上，过去几百份报告阅读量大且难以抓住重要信息，现在“灵珑”的智能巡检报告会在前面重点列出需要高度