Nginx 日志分析
Nginx 作为大型站点使用最广的 Web 服务器,其内存占用少、并发能力强,支持反向代理、负载均衡等服务,常被百度、淘宝、新浪等高并发站点批量部署使用。Nginx 的性能之强大,使其在网站整体架构中占据了极其重要的地位,其稳定性也与整体业务系统的健康度息息相关。
由于系统输出的日志中包含了系统执行过的相关动作,从旁路日志数据中挖掘价值,成为系统维护及数据分析最有效的方式之一。一条常见的 Nginx 访问日志中包含了访问来源 IP、时间戳、访问状态码、URL 等信息,对这些信息进行挖掘,可以获知用户访问体验,还可进行安全行为分析、运营数据分析等。
从 Nginx 日志中排查故障,可以精确定位故障源,快速实现故障恢复。
日志易 Nginx 日志排障
该地铁公司与日志易团队建立合作,使用日志易产品对该 Nginx 故障进行了排查。在数百次日志分析排障场景中,日志易团队积累了上百种日志分析 APP,本次 Nginx 日志分析排障场景中,“全量中间件日志分析 APP ”将大显身手。
日志易工程师对故障发生时间段的 Nginx 日志、Corosync 日志、操作系统 Message 日志进行了分析。首先应确定故障发生的具体时间范围,通过对 Nginx 日志进行业务量三天环比分析,发现与前两日基线相比,当日 8 点 25-30 分期间,业务交易量已明显下降。
故障排查范围缩小后,还应对访问数、访问状态、访问 URL 资源趋势、故障时间段内 Lost 主机、系统资源占用等基础数据进行分析。为防黑客利用国外“肉鸡”攻击,还应对外国 IP 访问趋势进行分析。
日志易团队根据以上分析结果,得知在故障时间段内,请求量没有增加,可排除 DDOS 网络攻击的可能性。但该时间段内,访问失败量与响应时间增加了,且个别主机因为并发过大造成宕机,故障期间某条 URL 请求量非常大且无 referer 来源,猜测可能受到 CC 攻击。
该地铁技术团队根据日志易分析反馈结果及自身业务状况分析,得知故障来源于地铁 APP 的新闻推送。由于该地铁新闻推送与二维码购票通道没有分离,大量的新闻页访问占用了带宽资源,导致购票通道(入站与出站二维码生成)出现短暂故障。
根据最终结果,地铁技术团队将普通访问通道与购票通道做了分离,以后地铁二维码就不会因为新闻推送受到影响了。
日志易的排障应用场景还有很多,欲了解更多日志易落地案例,欢迎垂询 400-085-0159,或关注日志易公众号,回复“日志分析”进行查看。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!