近日,日志易团队参与了以光大证券信息技术总部为主导的《基于大数据与机器学习的证券行业智能运维体系建设》联合研究课题,并为光大证券智能运维体系实际落地做出了特别贡献。该课题在证券信息技术研究发展中心(上海)的评审中,成功入选“年度优秀课题”。
根据《证券期货业信息安全事件报告与调查处理办法》,信息安全事件可分为特别重大事件、重大事件、较大事件、一般事件四类,故障的恢复时间直接关系到事件的定性。故障恢复涉及问题定位,证券行业的运维问题定位主要基于监控系统。监控系统一般可以监控到问题的现象以及一些关键性能指标,然而对于定位单个指标来说,通常帮助不大,例如 CPU 利用率、内存利用率曲线可以反映当前服务器的负载情况,但是负载升高的原因仍然需要具体去排查。排查的过程主要是依赖于专家经验,对于复杂问题,甚至需要多位不同方面的技术专家一起排查定位。
随着大数据、云计算以及分布式架构的不断发展,使智能运维成为了可能:通过将行业内的专家经验与机器学习算法相结合,可利用大数据平台提供的数据存储以及分析能力来提升运维效率和质量。
智能运维体系建设离不开实时、准确、完整、可用的运维数据。目前智能运维领域在故障排查环节,通常通过 KPI 的相关性、时序聚类等方法进行,如对某个应用从上至下的数据进行关联分析,这些数据包括了业务数据(如交易、资金等)、应用数据(如功能耗时、调用成功率等)、核心数据库数据(如读写、锁等待、TPS 等)、系统数据(如 CPU、IO、性能等)、网络数据(流量、端口状态)、流程数据(工单、CMDB)等,但这仍然不足以定位到故障发生的根本原因。
因为故障发生的原因往往隐藏在日志里,只有加上对日志的分析才能覆盖到与应用相关联的所有数据,才有可能进行全面的故障原因定位。
运维人员要面对的是种类繁杂的海量日志,很难去了解所有的日志格式,进而开发出全部的解析规则,复杂的生产环境使得他们往往只能对核心的日志使用正则表达式进行解析。面对日志量大、格式繁多的情况,需要新的解决思路。
通过机器学习算法,进行日志异常检测,是对传统方法的改进和补充,可以使证券企业的 IT 运维更加全面、智能和主动,并能大幅提升运维的质量和效率。
在光大证券智能运维研究课题中,日志易团队针对运维系统数据来源广泛、多样等复杂的特征,应用专业的数据处理方式,对多套系统的指标和日志等数据进行实时采集汇总,并做了进一步的预处理。
以运维的业务系统为整体监控单位,日志易团队协助光大证券对核心业务数据、应用日志数据、机器指标数据进行数据采集、异常发现和异常分析,通过大数据平台的计算能力和智能运维算法实现各类运维指标的关联分析,帮助运维人员及时发现问题、定位问题来源。
日志易已与数百家大型企业用户在智能日志中心建设方面进行了成功的合作,其中很多项目涉及到智能运维相关需求,例如在定时故障排查中,会通过智能日志中心模式识别和参数识别排查异常,但异常并不一定就是问题,当出现没有见过的异常处理的分支日志时,系统会获取异常分支,判断该异常是否为问题,从而将在日志中发现的问题转化为指标分析、标准的修正反馈等,诸如此类的需求还有智能告警归并、时序预测等,日志易的智能日志中心解决方案提供了丰富完善的交付方案。
在高速变化的金融科技环境下,拥抱人工智能的新一代 AIOps 已成为趋势。如果您对智能运维课题感兴趣,点击“http://rizhiyisearch.mikecrm.com/WObFW1t”提交信息,即可获取《基于大数据与机器学习的证券行业智能运维体系建设》课题详细报告!点击下方超链接,还可了解日志易智能运维更多详情!
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!