再也不用担心Java虚拟机突然崩掉了!日志易Java异常告警最佳实践

在所有编程语言中,Java 语言的使用率长期位居榜首。虽然 Python 有后来居上之势,但你大哥毕竟是你大哥,后端开发语言总是要用的,移动应用和嵌入式开发领域也有它的一片天。Java 语言的跨平台...

在所有编程语言中,Java 语言的使用率长期位居榜首。虽然 Python 有后来居上之势,但你大哥毕竟是你大哥,后端开发语言总是要用的,移动应用和嵌入式开发领域也有它的一片天。Java 语言的跨平台性让它使用起来很方便,但其运维管理就不那么 easy 了。


以某大型金融机构为例,Java 应用系统有 50 套以上,其日常监控运维要求达到以下三点:


  • 发送的告警内容需包含明确的排障依据,方便运维人员排障使用;

  • 所有告警必须有较强的复用性和冗余设计,保证新上线应用系统在不需改造的情况下可以正常使用;

  • 在满足上述两个要求,以及现有日志平台资源不变的情况下,保证告警时效性及平台稳定性。



对运维人员来说,实现这些需求需要解决的主要问题是告警规则的设置,及告警后续处理流程。开源解决方案步骤复杂,后期维护工作量大,且很难做到不影响现有应用服务器性能。这种情况下,告警排障难度更大。


面对这一现状,日志易专业服务团队凭借丰富的实施经验,借助日志易产品的强大功能,帮助该机构出色地解决了这一难题!


1 需求分析


针对客户提出的需求,日志易团队从功能和性能两方面入手,进行了深入分析:


1.整理出一份常见 Java 错误类型清单,与各项目组进行沟通调研后,根据线上应用系统日常使用的异常频次,对告警进行分类设计;

2.在设计告警发送内容时,重点考虑如何将告警核心或关键内容直接发送给后续运维人员,以保证能够快速排障;

3.性能优化部分需从产品层面进行优化,后续不断优化调整。


2 解决方案


经过对客户 Java 系统状况的认真分析,日志易专业服务团队设计了以下解决方案:


1、基于 SPL 定义 Java 通用告警


在告警实现上,借助日志易产品的“Schema on Read”方式,将原先不好处理、不规则的日志,快速识别为可用、规则的日志。


日志易团队根据前期调研汇总,共整理了 14 个 Java 通用告警,其中包括 MySQL 异常、IOException、EOFException、运行异常、堆栈溢出、空指针、死锁、超时、Fatal、连接池、连接失败、Transaction 等告警。


其部分告警节选如下:


bc5a4083e2604764895f19b3c148795c.jpg


2、编辑告警插件,适配应用环境


日志易告警部分的功能设计具有开放式和模块化的特点,使用 Python 语言对原有告警插件重新进行编辑,即可定义自己想要的重要参数和关键信息。日志易团队设计自定义插件时,重新编写了短信发送告警插件,可设置选项包括“告警收件人”、“告警级别”、“告警系统”等关键信息,如下图所示:


034515024bce416fb2d5fc58fa90bdf4.jpg


告警插件会将告警变量信息通过短信进行发送,告警接收端呈现内容如下图:


68a670f4ffba42d58b4eed0def002cc2.jpg


3、知识库助力快速排障


告警触发后,可登录日志平台,在“知识”界面搜索相应告警并查看详情。


4486d2940ff547e5a1e6e7c38eac8d99.jpg


一线值班或运维人员可根据系统、主机及告警关键信息,快速定位故障,并根据知识库中的处理流程,快速处理不同类型的 Java 告警。


4、建立基线,优化告警阈值,提升运营管理水平


使用日志易,还可每周针对全局 Java 类型告警进行分类统计,如:



  • 统计每类 Java 告警的告警数量及时间段;

  • 统计所有应用系统 Java 告警总数量及时间段;

  • 统计新上线系统 Java 异常数量及时间段;

  • 统计 Java 告警数的主机 Top 10、应用系统 Top 10 和模块 Top 10。



根据上述统计信息,可形成一条 Java 应用系统的运维基线。根据该基线逐步调整和优化告警阈值,可从运营管理的角度减少告警发生,降低日常运维工作量。


5、APP 联动更强大


Java 告警还可配合日志易 Java 进程 GC 监视 APP 同步使用,强强联合,效果更佳。


在 Go 和其他新型语言兴旺发达之前,Java 应用系统仍会越来越多。在这个技术日新月异的时代,建立一套完善的 Java 告警及异常处理流程的重要性更加凸显。监控分析交给日志易,企业就可以聚焦在业务、架构等高价值的问题上。


拨打 400-085-0159 了解日志易产品更多信息,或登录日志易官方网站开始产品试用。

  • 发表于 2019-04-22 12:17
  • 阅读 ( 3000 )
  • 分类:技术分享

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
不写代码的码农
日志易

日志分析工具

24 篇文章

作家榜 »

  1. 日志易 24 文章
  2. admin 15 文章
  3. 日志易小A 2 文章
  4. 疯狂的馒头 2 文章
  5. 腾龙国际娱乐 1 文章
  6. rizhiyi509 1 文章
  7. Xiaoyu 1 文章
  8. 陈晨 0 文章