News CENTER 新闻资讯

新闻资讯
新闻资讯

宁夏黄河农商银行:基于分布式集群管理的日志平台建设

来源:华体汇app入口    发布时间:2023-12-04 02:02:00    16

  按照《中华人民共和国网络安全法》、中国人民银行《金融行业信息系统信息安全等级保护实施指引》、中国银保监会《商业银行信息科技风险管理指引》等法律和法规要求,对于重要信息系统与硬件设备日志应实现集中统一管控,分级分类进行定期存储,支持实时查看,定期对运行日志做多元化的分析和复查。

  随着近两年本行信息科技系统的快速投产上线,在分布式架构成为主流的大趋势下,各类硬件设备随着应用系统的投产迅猛增加,对安全、稳定运行提出了更加高的要求。目前本行重要信息系统与硬件设备日志仅实现了集中备份,所备份日志无法同步查看与实时告警,故障分析须频繁登录后台系统,不仅排查效率低下且误操作风险增大,大多数日志存储时长不满足规定的要求。目前主要面临的挑战有:

  目前对日志数据未进行集中管理,运维人需要逐台服务器、应用、网络设备,使用命令或程序查看日志,操作繁琐,效率低下,且容易出错。

  对于日志内容,只能够做简单的grep、ask等检索,无法针对海量日志数据来进行多维度的挖掘,不能够满足分析要求,无法利用日志数据中蕴藏的巨大价值。

  对于日志关键字,不具备设置实时监控和告警的能力,对于程序出错、网络设备故障、业务失败不能第一时间感知。

  对于mPaaS、大数据平台等分布式架构系统采用多节点、多系统的故障定位、关联性分析效率差,节点间日志孤立、分散,无有效、便捷的关联能力。

  针对日志的迁移、备份机制不够完善,对于源日志的管理无统一模式,各个日志源管理体系各自独立,易引起不完整性、不确定性。

  安全设备、系统各自为政,无成熟的工具进行串联,无法由点到面的全局性分析、防范、发现各类安全问题。

  基于分布式架构,运用大数据技术,建设一套集日志统一采集、集中存储、日志行为分析为基础的综合日志管理平台。通过采集网络、安全、系统、存储、中间件等所有生产设备及业务系统中的各类日志数据,并进行挖掘、关联分析、事件回溯,从而发现运维风险,消除安全隐患,满足监督管理的机构审计工作,实现本行业务日志集中管理和分析,全方面提升技术人员运维水平和故障定位能力。具体目标如下:

  通过项目建设,实现业务日志实时集中搜索、监控、分析,对分布在不同环境中的应用日志进行集中操作管理,实现统一管理、分权限操作和分析。

  通过项目建设,统一全行日志标准,为行内运维及业务分析做准备,并为新投产的业务系统提供日志标准和依据,提供日志部分开发规范指导。

  通过解决逐台登陆服务器的操作,从根本上解决人为误操作和遗忘操作的风险;同时通过集中管理平台做批量操作管理,将用户、密码进行相对有效隔离,提高系统安全性。

  通过项目建设,将定位故障时间快速缩短,提升运维操作人员效率,并且通过精准日志告警的设置,将手动运维变为自动运维,降低操作员的劳动强度,大幅度提高运维效率。

  通过项目建设,针对主机、网络、数据库、应用系统等日志配置常见预警,补齐本行应用监控和基础监控系统预警短板。

  通过项目建设,实现日志信息全面真实记载,通过统计报表功能满足业务及监管管理需要。

  在数据采集处理方面,具备采集各类数据源能力,通过大数据技术可实时处理TB级数据,并进行解析、存储。

  在数据检索分析方面,具备灵活丰富的分析能力,如数据异常检测、数据检索、分析决策、数据治理及智能分析等分析能力。

  在用户方便易用方面,通过易用性降低大数据平台的使用复杂度,满足操作人员轻松易用。

  在场景需求应用方面,具备集合产品分析能力和丰富的开箱即用模板。面向运维及业务分析需求,可提供场景化数据分析能力。

  项目于2022年下半年启动,从7月初到12月底历时6个月,于2022年12月底完成平台建设与投产,首期实现行内存量业务系统、中间件、硬件等设备的日志接入功能。后续于2022年11月至12月完成重要业务系统的仪表盘展示、日志串联分析和关键字告警设置。项目各阶段的实施周期及规划如图一所示:

  项目基于分布式集群设计,集群上部署的各模块分布在10台服务器上,利于未来横向扩展增加计算或存储资源。具体架构图和流程图如图二和图三所示:

  目前已按照总体规划完成项目建设,达到设计目标并全面投入到正常的使用中。系统总授权3T日志容量,现已接入90套业务系统日志和硬件设备日志,日志容量占总量的60%,每秒采集日志大小269M、日志条数120万条。后续计划继续接入本行2023年新增信息系统及各类设备约40套日志。

  日志管理平台项目实现了日志数据集中存储、分析监测告警、在线日志查询功能,满足了监管日志管理要求,为系统运行分析提供了可靠的平台支撑。具体建设成果体现在:

  一是完成业务部门24套关键业务系统仪表盘分析,从日志检索、错误码、耗时、交易量、日志量、成功率维度展示业务系统运作情况,挖掘数据价值;二是完成90套业务系统每天将近2T的日志数据接入,实现热数据10天存储、冷备份数据1年存储;三是完成日志脱敏工作,统一平台日志检索,有效解决日志检索效率与数据安全问题;四是完成重要系统日志关键字监测告警;五是完成各个岗位的权限规划,解决操作风险问题;六是完成堡垒机操作人员行为审计;七是完成单笔日志聚合分析,提高排查故障效率;八是完成日志管理平台系统自监测与告警。

  在监管要求满足方面。一是通过统一数据采集,统一数据备份,满足银行合规要求,满足行业审计和行业标准规范管理。二是满足网络安全法对日志审计要求,满足等级保护二三级对日志的相关要求。

  在运维能力提升方面。一是扩充监控能力,补全监控短板,让分散的运维告警脚本,统一在日志平台配置,规范运维人员操作行为;二是支持上百个SPL统计分析语法,使运维人员通过日志平台充分的发挥自身分析能力,实现各种分析场景;三是提升整个团队的运维效益,让日常基础监控分析都由日志平台自动处理,运维人员可把更多精力放在更复杂,更高级运维工作中去。

  在运维效率提升方面。一是强大的关联分析能力,可以让运维人员从几十分钟甚至小时级别的日志排障耗时缩小到分钟级别,甚至秒级,极大的提升故障定位效率;二是日志管理平台搜索引擎是专对于日志所设计的架构,比通用的ES搜索引擎更安全,效率更加高,稳定性更好。

关闭 华体汇app入口