贴合运维场景的告警聚合实现——以 Zabbix 为例

本文介绍了一种基于 Zabbix 实现贴合业务场景的告警聚合的方法。Wbh致力于为用户收集丰富的生活经验知识

本方法的思路是通用的,并不局限于某一具体的软件。Wbh致力于为用户收集丰富的生活经验知识

注意,具体的参数可以根据实际情况进行设置和选用,文中所述仅是一种示例。Wbh致力于为用户收集丰富的生活经验知识

Wbh致力于为用户收集丰富的生活经验知识

1. 引言

1.1 背景Wbh致力于为用户收集丰富的生活经验知识

IT 运维怕什么?告警。而告警洪灾更是噩梦,正愉快写着文档时猛然来了无数个夺命连环 Call,现在只是稍微想象一下就开始头疼了。Wbh致力于为用户收集丰富的生活经验知识

一般来说,告警洪灾的常见原因有:Wbh致力于为用户收集丰富的生活经验知识

算法(包括简单的预测算法以及机器学习)的局限性; 告警规则配置不合理;

将过多的指标放入了告警规则中,而其实人并不需要对它们进行处理;Wbh致力于为用户收集丰富的生活经验知识

告警阈值过于苛刻;Wbh致力于为用户收集丰富的生活经验知识

外部通知(邮件、企业微信等)过于零散;

初步分析:Wbh致力于为用户收集丰富的生活经验知识

算法的局限性Wbh致力于为用户收集丰富的生活经验知识

现实情况复杂多变,比如节日的抢购或甚至临时上线的活动,而有时网络波动也会导致数据异常进而误触发告警。Wbh致力于为用户收集丰富的生活经验知识

当然,长期的机器学习以及算法的进步应该能缓解这一问题,但较短时间内难以看到成效,而且可能会起到反作用。目前它还更多的是在探索试用阶段,本文暂不对此进行讨论。Wbh致力于为用户收集丰富的生活经验知识

告警规则配置不合理Wbh致力于为用户收集丰富的生活经验知识

不论是将过多的指标放入了告警规则中,还是告警阈值过于苛刻,都是因为开始的时候会担心错过了告警,追求大而全的监控和告警配置。Wbh致力于为用户收集丰富的生活经验知识

当然可以通过结合自身监控需求来撸一遍所有告警规则,选择设置关心的指标和阈值即可。Wbh致力于为用户收集丰富的生活经验知识

只是,被监控资源会不停慢慢添加,监控需求也会不停迭代,隔三差五就撸一遍所有告警规则实在是劳心费力。Wbh致力于为用户收集丰富的生活经验知识

外部通知(邮件、企业微信等)过于零散Wbh致力于为用户收集丰富的生活经验知识

因为告警消息是直接一条条推送出来的,所以外部通知必然零散,导致运维人员会收到数量过多的通知,且不便于寻找相关告警信息。Wbh致力于为用户收集丰富的生活经验知识

1.2 思路Wbh致力于为用户收集丰富的生活经验知识

基于上述分析,提出以下实现贴合业务场景的告警聚合的方法。Wbh致力于为用户收集丰富的生活经验知识

利用三方平台接入来自于 Zabbix 的告警消息,按照人为设置的消息聚合规则进行聚合收敛,生成精简的事件集,并基于事件集来配置外部通知规则,从而极大减少发出告警的数量。Wbh致力于为用户收集丰富的生活经验知识

重点在于消息聚合规则里,要按实际运维需要对告警消息进行分组,比如将一定时间范围内严重及以上级别的所有服务器告警归为一类,并分配给服务器运维团队或某一位具体的运维人员。Wbh致力于为用户收集丰富的生活经验知识

这样就能在不去修改原始的告警规则(毕竟可能有成千上万的告警规则)的前提下,保证告警消息的聚合是贴近实际业务,同时也减少了告警的频繁轰炸。而运维人员在后续进行具体排查时,是可以在系统内部同时看到精简的事件集信息以及事件集下的所有告警事件明细的。Wbh致力于为用户收集丰富的生活经验知识

2. 流程

2.1 Zabbix 环境Wbh致力于为用户收集丰富的生活经验知识

首先需要准备好 Zabbix 环境,推荐使用 Zabbix 官方的长期支持版本比如 Zabbix 6.0 LTS。相关安装要求和流程请见官方下载安装Zabbix,更详细的说明请见官方文档的安装章节。Wbh致力于为用户收集丰富的生活经验知识

2.2 Argus 环境Wbh致力于为用户收集丰富的生活经验知识

为了对 Zabbix 产生的告警进行聚合以及外部通知,需要借助于Argus运维平台,一个基于 Zabbix 的 IT 运维监控平台。Wbh致力于为用户收集丰富的生活经验知识

这里主要是使用 Argus 的事件中心来设置贴合业务的事件聚合规则、消息分派规则,同时可查看与管理事件集与事件。Wbh致力于为用户收集丰富的生活经验知识

如图为 Argus 事件中心的概览页,想了解更多或试用可点击前面的链接。Wbh致力于为用户收集丰富的生活经验知识

Wbh致力于为用户收集丰富的生活经验知识

2.3 添加部门Wbh致力于为用户收集丰富的生活经验知识

在 Argus 的 控制台 -> 用户管理 -> 部门管理 内,添加部门,如下图所示。Wbh致力于为用户收集丰富的生活经验知识

Wbh致力于为用户收集丰富的生活经验知识

2.4 添加用户Wbh致力于为用户收集丰富的生活经验知识

在 Argus 的 控制台 -> 用户管理 -> 用户管理 内,添加用户,如下图所示。Wbh致力于为用户收集丰富的生活经验知识

Wbh致力于为用户收集丰富的生活经验知识

2.5 添加监控资源Wbh致力于为用户收集丰富的生活经验知识

在 Argus 的 资源管理 -> 资源配置 -> 资源综合管理 内,添加资源,逻辑与在Zabbix内添加主机类似,如下图所示。Wbh致力于为用户收集丰富的生活经验知识

Wbh致力于为用户收集丰富的生活经验知识

注意,该资源使用的依然是 Zabbix 内的监控模版,所以资源上的告警规则也就是 Zabbix 模板内自带的告警规则。Wbh致力于为用户收集丰富的生活经验知识

2.6 配置消息发送参数Wbh致力于为用户收集丰富的生活经验知识

在 Argus 的 事件中心 -> 消息发送参数 内,设置外部消息的发送参数,如下图所示。Wbh致力于为用户收集丰富的生活经验知识

Wbh致力于为用户收集丰富的生活经验知识

2.7 配置 Zabbix 内的告警规则Wbh致力于为用户收集丰富的生活经验知识

在前面 Argus 内添加监控资源的步骤后,资源会自动应用对应模板,同时继承获得模板上的告警规则。Wbh致力于为用户收集丰富的生活经验知识

如果需要对告警规则进行增改,可以直接在 Zabbix 内进行配置操作,入口位于 Zabbix 网页端的 配置 -> 主机 列表 ->对应主机行内的 触发器。具体操作可参考官方文档的触发器章节。Wbh致力于为用户收集丰富的生活经验知识

2.8 添加事件聚合规则Wbh致力于为用户收集丰富的生活经验知识

事件聚合规则可以通过组合条件将一定时间范围内不同的告警消息纳入同一个事件集。Wbh致力于为用户收集丰富的生活经验知识

在 Argus 的 事件中心 -> 事件聚合规则 内,添加事件聚合规则,如下图所示。Wbh致力于为用户收集丰富的生活经验知识

Wbh致力于为用户收集丰富的生活经验知识

注意这里仅仅是举了一个简单的例子,实际可以按照真实的运维需求进行更加复杂多样的条件设置。Wbh致力于为用户收集丰富的生活经验知识

2.9 添加消息分派规则Wbh致力于为用户收集丰富的生活经验知识

消息分派规则可以将符合特定多个事件聚合规则的事件集分派给选定的多个部门或人员。Wbh致力于为用户收集丰富的生活经验知识

在 Argus 的 事件中心 -> 消息分派规则 内,添加消息分派规则,如下图所示。Wbh致力于为用户收集丰富的生活经验知识

Wbh致力于为用户收集丰富的生活经验知识

2.10 告警消息的接收与处理Wbh致力于为用户收集丰富的生活经验知识

在 Zabbix 告警触发后,Argus 内会自动生成新的事件集,并通过上述消息分派方式进行外部通知。Wbh致力于为用户收集丰富的生活经验知识

除了通过邮件、企业微信等通知给具体人员,Argus 还会通过 Webhook 的方式将消息推送给三方系统,若有需要,后续可由三方系统继续进行自动化的流程处理。Wbh致力于为用户收集丰富的生活经验知识

下图为邮件通知的截图,其中会包含事件集、事件集内首条事件及相关信息。Wbh致力于为用户收集丰富的生活经验知识

Wbh致力于为用户收集丰富的生活经验知识

在 事件中心 -> 聚合事件 中可以看到所有的事件集,同时可展开某一事件集,查看其下的事件列表、趋势图表,便于运维人员分析处理问题,如下图所示。Wbh致力于为用户收集丰富的生活经验知识

Wbh致力于为用户收集丰富的生活经验知识

也许你还喜欢

鹅鸭杀由于网络问题无法进入房间

鹅鸭杀不显示游戏房间、无法加入房间是游戏网络不适合本地网络的原因,鹅鸭杀作为一款海

传统制造企业有必要建设增材制造中

在我们日常娱乐和日常工作中,我们如果想将FLV格式视频转换为MP4文件该怎么办呢?今天就

验证码无法显示怎么办图文介绍

验证码图片有些时候不能显示,那我们怎么办呢?下面将为大家讲解关于验证码无法显示的解决

公司电子印章生产制作图文教程

印章,用作印于文件上表示鉴定或签署的文具,一般印章都会先沾上颜料再印上,不沾颜料、印上

手机信息加密软件有哪些

今天给大家推荐加密软件排行榜,当然了,根据不同的排行和标准,加密软件排行榜前五名可能有

打字机效果怎么做图文介绍

如何在PPT中制作打字机效果呢?下面就是具体的实现方法。

百度文档下载器怎么用图文教程

很多小伙伴都知道百度文库中的很多资料资源下载下来都是需要付费或者是开通会员才能够

怎么去除视频水印方法图文详解

怎么用视频水印去除工具给视频去水印呢?我们可以用AE软件来去除,现在我来教大家吧!

android退出程序的几种方法

清除不使用的应用程序超出了应用程序管理的范围。它可以优化设备的性能并延长电池寿命

移动端关键词优化软件有哪些

SEO关键词排名软件,正是帮助网站在搜索引擎结果中获得更好排名的利器。