日志易用于Nginx场景的排障实例

       某天 8 点 35 分,某地铁乘车码 APP 出现异常。正值早高峰时期,乘车码异常给众多用户造成了极大困扰。据初步定位,故障主要发生在该地铁 Nginx 集群系统上。虽然故障在半个小时后自动恢...

      

Nginx 日志分析

Nginx 作为大型站点使用最广的 Web 服务器,其内存占用少、并发能力强,支持反向代理、负载均衡等服务,常被百度、淘宝、新浪等高并发站点批量部署使用。Nginx 的性能之强大,使其在网站整体架构中占据了极其重要的地位,其稳定性也与整体业务系统的健康度息息相关。

由于系统输出的日志中包含了系统执行过的相关动作,从旁路日志数据中挖掘价值,成为系统维护及数据分析最有效的方式之一。一条常见的 Nginx 访问日志中包含了访问来源 IP、时间戳、访问状态码、URL 等信息,对这些信息进行挖掘,可以获知用户访问体验,还可进行安全行为分析、运营数据分析等。

从 Nginx 日志中排查故障,可以精确定位故障源,快速实现故障恢复。

attachments-2019-05-gsztxn2h5cdcd81ac0c27.jpeg


日志易 Nginx 日志排障

该地铁公司与日志易团队建立合作,使用日志易产品对该 Nginx 故障进行了排查。在数百次日志分析排障场景中,日志易团队积累了上百种日志分析 APP,本次 Nginx 日志分析排障场景中,“全量中间件日志分析 APP ”将大显身手。

日志易工程师对故障发生时间段的 Nginx 日志、Corosync 日志、操作系统 Message 日志进行了分析。首先应确定故障发生的具体时间范围,通过对 Nginx 日志进行业务量三天环比分析,发现与前两日基线相比,当日 8 点 25-30 分期间,业务交易量已明显下降。

attachments-2019-05-n3Zsihyk5cdcd8452199c.jpeg

故障排查范围缩小后,还应对访问数、访问状态、访问 URL 资源趋势、故障时间段内 Lost 主机、系统资源占用等基础数据进行分析。为防黑客利用国外“肉鸡”攻击,还应对外国 IP 访问趋势进行分析。

日志易团队根据以上分析结果,得知在故障时间段内,请求量没有增加,可排除 DDOS 网络攻击的可能性。但该时间段内,访问失败量与响应时间增加了,且个别主机因为并发过大造成宕机,故障期间某条 URL 请求量非常大且无 referer 来源,猜测可能受到 CC 攻击。

该地铁技术团队根据日志易分析反馈结果及自身业务状况分析,得知故障来源于地铁 APP 的新闻推送。由于该地铁新闻推送与二维码购票通道没有分离,大量的新闻页访问占用了带宽资源,导致购票通道(入站与出站二维码生成)出现短暂故障。

根据最终结果,地铁技术团队将普通访问通道与购票通道做了分离,以后地铁二维码就不会因为新闻推送受到影响了。

日志易的排障应用场景还有很多,欲了解更多日志易落地案例,欢迎垂询 400-085-0159,或关注日志易公众号,回复“日志分析”进行查看。


attachments-2019-05-lvYrnaYr5cdcd869e6853.jpg


  • 发表于 2019-05-16 11:27
  • 阅读 ( 2872 )
  • 分类:技术分享

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
不写代码的码农
admin

15 篇文章

作家榜 »

  1. 日志易 24 文章
  2. admin 15 文章
  3. 日志易小A 2 文章
  4. 疯狂的馒头 2 文章
  5. 腾龙国际娱乐 1 文章
  6. rizhiyi509 1 文章
  7. Xiaoyu 1 文章
  8. 陈晨 0 文章