跳到主要内容

监控告警

监控告警功能模块包括监控看板、监控管理、告警记录、告警规则和通知方式。监控告警模块的主要功能是实时展示监控对象的指标项,并为关心的指标项设置告警规则,以求及时发现问题,避免产生事故、损失。

注意
  • 请保证部署GEM的服务器、部署数据库的服务器以及浏览器所在服务器,三者的时间同步;
  • 选择监控对象之前需先将待监控的物理机添加到主机管理中,将待监控的数据库实例添加到实例管理中;
  • 初次使用监控插件需先完成监控组件的安装和启动,详见“6.2.1 监控组件安装&启动”。

监控看板

监控看板是一个集中展示所有被监控数据库实例状态的可视化界面,通过图标颜色变化实时反映各个实例的健康状况,辅以动态消息提示,确保值班人员能够全天候(7*24小时)获得即时的系统状态信息与异常告警。

展示实例状态

监控看板将所有的监控实例展示在一屏之内,每个图标对应一个数据库实例,在监控管理页面成功添加的对象会自动出现在监控看板页面中。通过监控看板上图标的颜色可以直观地了解每一个被监控的数据库实例当前的运行状态。

图例状态说明:

  • 绿色 :数据库实例正常
  • 红色 :数据库实例处于离线状态
  • 灰色 :实例状态未知 (采集代理异常)
  • 黄色 :数据库实例处于阻塞状态

鼠标悬停于图标上时,弹出提示框显示该图标所代表的数据库实例、所在主机的IP地址以及运行状态。

实例详情查看

鼠标悬停于图标上时,点击【查看详情】,展示对应实例的监控指标页面,包含主机信息、实例信息和集群信息:

实时告警信息

当实例状态异常时,实例图标颜色改变的同时会在监控看板右侧告警记录区域弹出相应的告警信息,用户可以通过告警信息帮助快速识别问题原因。当相关警报解除,即数据库或采集器状态恢复正常运行时,对应的告警消息将自动从监控看板右侧的告警记录中清除:

告警信息包含:

  • 告警对象:实例名称、实例所在服务器IP、实例端口
  • 告警时间:格式 YYYY/MM/DD HH:MM:SS
  • 告警内容:描述异常状况

目前告警信息存在时间延迟。

设置报警声音

支持开启报警声音,并配置报警时长(5秒、10秒、20秒),以便在出现异常时使值班人员及时发现并处理。

监控管理

监控管理分为实例管理和组管理两类,对应单实例监控和集群监控,涵盖新增监控、查看监控、编辑监控、删除监控、复制配置、配置生效和解除监控七项功能。

实例监控页面:

组监控页面:

监控管理首页展示项说明:

编号展示项说明
1实例名称监控对象为实例时实例的名称
2IP地址监控对象为实例时实例所在物理机的IP地址
3实例端口监控对象为实例时实例的端口
4组名称监控对象为组时组的名称
5组容量监控对象为组时组的容量
6通知方式告警时配置的通知方式
7状态监控的状态,两种运行模式:未生效、生效中;两种过渡模式:待生效、待解除
8操作支持对监控的操作,包括查看、编辑、删除

监控组件安装&启动

初次使用监控插件时,需要在监控管理页面点击【一键安装&启动】完成监控组件的安装部署:

监控组件的安装由工具自动执行:

在GEM后台的install路径下有四个文件夹,文件夹内各有一个可执行文件:install_service.sh,用于创建服务实现自动拉起,建议执行此操作。

[root@node23 GEM_base]# cd install/
[root@node23 install]# ll
total 24
drwxr-xr-x 3 root root 4096 Dec 31 15:37 alarm_service
drwxr-xr-x 3 root root 4096 Dec 31 15:37 alertmanager
drwxr-xr-x 8 root root 4096 Dec 31 15:37 grafana
drwxr-xr-x 9 root root 4096 Dec 30 13:53 haveged
drwxr-xr-x 7 root root 4096 Dec 31 15:38 prometheus
drwxr-xr-x 6 root root 4096 Dec 30 13:53 random_tools
[root@node23 install]# cd alarm_service/
[root@node23 alarm_service]# ll
total 56196
-rw-r--r-- 1 root root 57513861 Dec 9 18:55 alarm_service.jar
-rwxr-xr-x 1 root root 412 Dec 31 15:37 alarm_service.service
-rwxr-xr-x 1 root root 195 Dec 31 15:37 install_service.sh
drwxr-xr-x 2 root root 4096 Jan 3 00:36 logs
-rwxr-xr-x 1 root root 132 Dec 31 15:37 start.sh
-rwxr-xr-x 1 root root 282 Dec 31 15:37 stop.sh
-rwxr-xr-x 1 root root 178 Dec 31 15:37 uninstall_service.sh
-rw-r--r-- 1 root root 6 Dec 9 18:55 VERSION

每次进入“监控管理”页面,系统都会触发 “Prometheus,AlertManager,Grafana,AlarmNotification”四个组件的服务状态的检测,其中任一组件服务异常,系统都会弹出 “一键安装和启动”提示用户进行修复。可参考“11.3.3 监控插件部署组件失败”修复。

新增监控

监控管理首页按监控对象分页展示,分别为实例和组。在相应的页面内点击【+ 新增】,新建监控。 新增监控主要分为选择监控对象、选择告警规则、选择通知方式以及部署agent四步。

  • 选择监控对象:

通过下拉箭头,选择资源中心中未建立监控任务的组或实例,支持多选。可以通过检测实现与资源中心的同步,来判断是否存在对象冲突(如一个实例,先对该实例配置了监控,后将该实例增加到组中,然后对该组新增监控),如存在对象冲突,需将冲突中已存在的监控对象删除,然后增加新的监控对象。

  • 选择告警规则:

告警规则区域展示工具内置的告警规则,供用户选择:

支持对告警规则的告警级别、指标阈值、告警内容、告警描述、通知时机和是否连续告警进行修改,如图所示:

  • 选择通知方式:

通知方式区域支持对采集周期的配置和对通知方式的选择。 采集配置要求采集超时低于采集周期;通知配置通过下拉箭头,展示所有已配置的通知方式以供选择,且支持多选。

  • 部署agent:

告警规则和通知方式配置完成后,点击【确定】,工具会自动完成agent部署。此步无需人为操作。

部署成功后,新增的监控任务会展示在监控管理首页的监控列表中,以供执行查看、编辑等操作。

查看监控

监控管理首页,点击【查看】,展示已选监控对象的监控详情。展示主机资源、数据库资源和集群资源三大类监控指标的实时数据及历史数据,如图所示:

监控查看页具有如下功能特性:

  • 表格类展示,表格各列均支持排序功能;

  • 折现图类展示,支持选中一个图例或按“shift”选中多个图例展示特定指标;

  • 选择某一指标折线图,通过鼠标框定时间范围,可以查看所有折线图在这一时段内的数据展示;

  • 在监控指标图表上悬停鼠标按下 "v" 键或点击【view】,可放大图表;

  • 对放大的图标,再次按下 "v" 键或点击【⬅】可还原;

  • 通过右上角的时间选择器,可以查看不同时间段的历史数据。

  • 通过右上角的全屏图标,可以进入全屏模式;

  • 组中支持资源展示对象的切换;

编辑监控

可以通过【编辑】监控任务,实现对现有监控告警规则和通知方式的修改,也支持增加新的监控对象,但不允许删除原有的监控对象。

删除监控

删除监控功能与新增监控相对,用户可以通过删除监控功能将未生效的监控对象移除,不再进行监控和告警操作。同时在监控管理首页的监控列表中删除该条记录。如图所示,对生效中的监控对象不支持直接删除,需先执行解除停止监控,然后执行删除操作。

复制配置

复制配置功能是为了便于用户复用之前的监控配置开发的类似模板的功能。适用于监控配置相同或相似的监控对象的快速增加。

  • 选中监控管理首页监控列表中的一条记录,点击【复制配置】:

  • 指定监控对象,即可完成监控项的配置,也可按需对告警规则和通知方式等做出调整。

配置生效

新增监控默认会生效配置,启动监控。配置生效的功能为使未生效的监控生效,监控管理首页的状态由“未生效”转变为“生效中”。配置生效的主要功能为配置生效agent,开启数据的采集、接收与展示。

  • 选择纳管后处于“未生效”状态的实例:

  • 点击【配置生效】按钮出现如下提示框,点击【确定】按钮,纳管生效。

  • 出现如下提示框,代表实例纳管已生效。

  • 关闭提示框后返回主页面,可以看到实例已处于“生效中”,【查看】功能可用。

解除监控

解除监控功能与配置生效功能相对,功能为停止监控,使“生效中”的监控转为“未生效”,停止数据的接收与展示。与删除监控不同的是,在监控管理首页的监控列表中不会删除该条记录,还可以通过配置生效功能重启监控。

  • 选择纳管后处于“生效中”的实例,点击【解除】按钮,再点击提示框的【确定】按钮,已纳管实例被解除:

  • 解除纳管后的监控节点,其状态从“生效中”变为“未生效”,此时【删除】功能可用。

告警记录查看

告警记录分为告警统计和告警记录两部分,涵盖告警统计、告警记录和告警详情三个功能:

支持按照监控目标、告警时间范围做筛选,其中告警时间范围要求时间跨度小于7天:

  • 告警统计

告警记录统计部分展示按照信息状态(已读、未读)、告警状态(告警中、已结束)、告警等级(严重、警告、提示)三个维度的统计情况。

  • 告警记录

告警记录展示了告警的摘要信息,包括:监控目标、告警规则名称、告警等级、告警开始时间、告警结束时间、持续时间、告警状态、通知方式、信息状态等项。 支持按照信息状态(已读、未读)、告警状态(告警中、已结束)、告警等级(严重、警告、提示)三个维度做记录筛选。

  • 告警详情

针对特定的一条告警记录,点击查看可以展示告警详情,以及该告警指标从告警开始前30分钟至告警结束后30分钟时间范围内的指标数据变化曲线。告警详情如图所示:

配置告警规则

告警规则的配置支持用户针对某项监控指标,制定监控规则,当满足监控规则时触发报警事件,以便及时发现问题,将问题解决在萌芽阶段。 告警规则支持【新增】、【编辑】、【查看】和【删除】操作。支持对告警规则名称进行检索,支持对告警级别进行筛选。

GEM提供了20+的告警规则,涵盖了多种常见的数据库和系统问题,供用户参考使用。支持用户对提供的告警规则按需修改。

此外,GEM还提供了自定义告警规则的模板,点击【新增】,支持用户制定自己的告警规则,如图所示:

新增/编辑告警规则参数说明:

编号参数名称说明
1规则名称为告警规则制定规则名称,建议规则名称能够直接表示告警指标,规则名称需唯一,长度上限为50字符
2告警级别按照用户的需要指定告警的级别,支持严重、警告、提示以获取用户不同程度的重视级别
3告警规则监控指标需要触发报警的条件,支持多个表达式的组合,以支持复杂的告警规则
4告警规则组合支持表达式做与运算、或运算
5告警内容触发报警时需要发送的内容,长度上限500字符
6统计周期为防止抖动误报的情况,在监控数据符合报警触发条件的持续时间,建议统计周期设为采集周期的整数倍
7告警描述对告警规则的补充性描述说明,选填项,长度上限200字符
8通知时机支持告警时和恢复时两个时机,供用户选择,可多选
9连续告警同一次告警事件持续期间是否重复报警,支持是或否,单选

配置通知方式

通知方式支持【新增】、【编辑】和【删除】操作。支持对通知方式名称进行检索,支持对发送方式进行筛选。

通知方式的配置包括发送方配置和接收方配置。通知方式支持邮件通知和Webhook通知。

  • 邮件通知方式

  • Webhook通知方式

新增/编辑通知方式参数说明:

编号参数名称说明
1通知方式名称为通知方式制定名称,通知方式名称需唯一,长度上限为30字符
2发送方式支持邮箱、Webhook两种
3邮箱发送方式为邮箱时,需要输入合法的接收方邮箱地址,长度上限200字符
4Webhook发送方式为Webhook时输入,长度上限200字符
5Header发送方式为Webhook时输入,可添加多个header,第一项长度上限20字符,第二项长度上限30字符
6参数发送方式为Webhook时输入,第一项长度上限20字符,第二项长度上限30字符
7Body发送方式为Webhook时输入,长度上限200字符
8返回成功码发送方式为Webhook时输入,第一项长度上限20字符,第二项长度上限10字符

当配置接收方为邮件时,还需要在通知渠道页面配置发送方的邮件信息,如图所示:

用户可以通过测试来验证通知渠道的连通性,以确保报警信息的成功传达。