1.应用监控痛点
金融科技企业A,是国内行业领导企业,作为一家持续盈利并保持高增速的上市公司,A公司每年在金融科技建设上投入较大,全公司建设了数百套科技系统,金融科技的投入重在推动业务效率提升。随着A公司双活应用架构落地,负载均衡成为A公司关键的基础服务,其可用性及灾难恢复能力必须得到第一优先保障,但由于数量庞大的负载均衡设备缺乏统一管控平台,因此面临一些棘手的运维难题:
第一,配置层面,负载设备多配置也多,人工梳理难度大且变更不及时,会出现由于错配、漏配等导致的异常;
第二,巡检层面,日常人工巡检工作量大,无法覆盖全部负载设备,监控盲区带来了不可控的运维风险;
第三,用户体验层面,如何早发现影响用户体验的因素,快速判断和解决,减少由于业务故障对用户体验的负面影响;
第四,在排障过程中,由于负载前后端地址进行了随机转换,运维人员不清楚负载前后地址动态对应关系,因此在业务发生故障时无法第一时间溯源找到问题点,排障效率难以保证;
第五,在监控层面,多个告警平台各自独立,数据不互通,无法实现综合分析,因此只知故障却难以深入了解故障原因,无法满足业务端对运维效率的要求。
2.智维数据解决方案
为提升A公司对负载设备的监控能力,减少网络可视化盲区,提高应用故障协查能力,智维数据作为技术合作伙伴,通过前期对项目的调研,设计并落地了负载对接灵珑应用交付管理平台的解决方案,该方案可实现对负载数据的采集,包含iControl、HSL等,实现负载设备统计、配置集中查询、配置定期优化、状态实时监控、自动化巡检、业务访问关系梳理、应用优化、智能告警、自动化报表等功能,通过灵珑的应用交付可视化能力,提升运维团队应用服务能力。
与传统的基于镜像流量的HTTP监控的方式相比,“灵珑”基于HSL实现HTTP监控,优势明显:
1、部署成本很低,HSL被设计成高容量、低开销的日志记录技术,只需要网络可达即可收集,更加“轻量”方便;
2、本地计算,时效性高,每秒支持吐出几十万条日志,并对系统开销极低,所有通讯对指标计算都由设备自身直接输出结果,不存在数据重新缝合计算的过程,时效性与准确度最高;
3、灵活度高,分析场景可结合负载自身配置信息,除了输出业务性能之外,还可以输出负载失败的记录(例如DNS没有走智能DNS、会话保持异常分析等)。结合iRules,可以定向对特定业务做解码处理,获取业务信息;
4、对于加密流量数据的分析,无需额外的解密;
5、分析模式为应用交付模式,贴合全代理架构展示,实现负载连接表持久化,更好地展示应用交付中的业务场景。
该方案通过“灵珑”智能识别应用交付设备及应用自身运行过程中出现的隐患,可将影响业务的风险最小化,解决A公司在配置、巡检、用户体验、排障、监控五个方面的难题。
3.应用场景
配置优化,设备风险严格管控
此前A公司网络部门曾遇到业务报错,在业务端查找不到原因,后来经过人工排查发现,是健康检查配置不优,导致负载配置问题未及时发现所致。由于全公司有数量众多的负载设备,要全部筛查工作量巨大,为运维端带来较大压力。现在通过使用“灵珑”,运维人员可随时对所有负载设备上的数百个业务进行配置检查,有多少个业务在什么时间点健康检查失效了变得一目了然。
由于一些历史原因,负载上还存在一些闲置的业务和配置仍在运行,增加了运维风险和负载消耗。现在运维人员可以通过“灵珑”主动发现哪些业务是从来没有被访问过但业务仍在负载上,那么这个业务其实是完全闲置的业务,应该删除对应负载配置,从而做到回收垃圾配置,有效避免垃圾配置引起的业务隐患。
此外,“灵珑”还可以自动化统计软硬件数量、设备序列号、软件版本等信息统计,提前规避排障时由于软件/硬件版本停止服务带来的风险隐患。
人工巡检到智能巡检,提升巡检效率和准确性
此前,A公司的负载定期巡检需要请外部技术人员协助,逐一查看设备运行状况和报错情况,整个工期一个月左右,巡检报告多达几百页,报告人工梳理难度较大,包括解读报告的难度也很高,而针对巡检的质量,难以及时有效的核实。
现在通过“灵珑”的智能巡检功能,运维人员一小时内就能完成之前人工巡检一个月的工作量,还可以根据需求设定巡检周期,比如每月一次或者每周一次设备巡检。由于是机器巡检,巡检效率和准确性都能得到有效保证。
在巡检结果上,过去几百份报告阅读量大且难以抓住重要信息,现在“灵珑”的智能巡检报告会在前面重点列出需要高度