故障告警

为了更有效的保障线上业务的正常运营,基调听云应用与微服务提供一套从系统监控、问题定位、实时告警到决策分析的一站式解决方案,打造从“监”到“控”的全方位一体化的监控体系,让业务人员及时了解到当前线上运营状况和可能产生的问题,并能预先采取有效的措施,保障业务的正常运营。

基调听云应用与微服务可对业务系统、应用、应用实例、事务、服务接口、外部服务、事务错误、异常进行监控。目前,对指标数据提供3种监控检测方式,分别是阈值检测、异常检测和事件检测。监控的指标一旦触发告警规则后,系统支持以短信、邮件、语音、钉钉、企业微信、Webhook 等形式告知用户,以便相关人员快速响应、定位和解决问题。

下面的例子介绍当基调听云应用与微服务监控的应用性能指标大于阈值时,用户如何及时地收到告警通知来快速排查问题。

步骤一:配置告警规则

  1. 在左侧导航栏中选择告警>配置>告警规则,进入告警规则列表页面。
  2. 在页面右上角点击新建规则
  3. 配置告警规则。

    • 规则名称:输入告警规则的名称。

    • 适用于:在第一个下拉菜单选择应用与微服务,第二个选择要监控的业务系统。

    • 告警启停:打开开关,使规则生效。

    • 评估周期:选择过去5分钟

    • 生效时段:选择始终生效

    • 对象类型:选择应用

    • 检测方法:单击阈值检测。触发条件选择“满足以下任何一个条件”,然后对响应时间、每分钟错误数、错误率、吞吐率做以下配置。

      说明:您可以选择静态阈值和动态基线阈值,关于动态基线的介绍,可参见动态基线

    alarm1

  4. 单击保存,完成配置。

步骤二:配置告警通知

1、配置接收人

说明:如果仅需要将告警通知推送到第三方平台,不需要配置接收人和接收组。

  1. 在左侧导航栏中选择管理>响应>推送配置,进入推送配置页面。
  2. 在页面上方点击接收人列表页签,然后在页面右上角点击新建接收人按钮,弹出修改/新建接收人对话框。
  3. 配置接收人。

    • 接收人姓名(必填):接收人的姓名。
    • 邮箱(必填):接收人的邮箱地址。
    • 手机号(选填):接收人的手机号。
    • 免打扰时段(选填):开启后,支持设置时间段,在该时间段内发生的告警等不会通知该接收人。默认是关闭,即任何时间段都通知该接收人。
    • 加入接收组(选填):选择后接收人将包含于相应的接收组内。
  4. 点击确定,保存配置。

2、配置接收组

  1. 在左侧导航栏中选择管理>响应>推送配置,进入推送配置页面。
  2. 在页面上方点击接收组列表页签,然后在页面右上角点击新建接收组按钮,弹出修改/新建接收组对话框。
  3. 配置接收组。

    • 组名(必填):接收组的名称。
    • 组员名单:选择接收人加入该接收组。
  4. 点击确定,保存配置。

3、配置第三方推送

说明:如果仅需要将告警信息通过邮件、语音或者短信进行通知,不需要配置第三方推送。

下面以配置飞书推送作为示例。

  1. 配置飞书的Hook URL,请参见飞书帮助文档

  2. 在左侧导航栏中依次选择管理>响应>推送配置,在页面上方点击第三方推送页签。

  3. 点击页面右上角的新建第三方推送按钮,在弹出的对话框中进行配置。alarm2

    • 第三方平台:选择飞书。
    • 推送名称:输入第三方推送的名称,支持特殊字符。
    • Hook URL:复制上面配置出的飞书Hook URL到此处。
  4. 点击确定按钮,完成配置。

4、配置通知模板

  1. 在左侧导航栏中选择管理>响应>通知模板,进入通知模板列表页面。

  2. 在页面右上角点击新建模板按钮,进入新建模板页面。

  3. 配置模板。

    alarm3

  4. 点击保存,完成配置。

第三方、语音、邮件的通知模板也是同样的配置方式,不再赘述。

5、配置响应策略

  1. 在左侧导航栏中选择管理>响应>响应策略,进入响应策略列表页面。

  2. 在页面右上角点击新建响应按钮,进入新建响应策略页面。

  3. 配置基本信息。

    • 响应策略:输入响应策略名称。
    • 策略类型:选择事件
    • 策略启停:打开开关。
    • 数据源:选择“Tingyun/Tingyun Alert”。
    • 适用于:在第一个下拉菜单选择APM,第二个选择步骤一中配置的业务系统。
    • 告警规则事件:勾选所有事件类型。
    • 匹配的告警规则:选择指定规则,然后勾选步骤一中配置的告警规则。

    • 筛选对象:选择任何对象,不再继续筛选。

  4. 配置执行动作。

    点击添加下一步动作,然后点击通知

    • 当渠道选择电话、短信、邮件时,点击各自图标后的下拉箭头,选择上面配置好的内容模板,然后在接收区域配置接收人或者接收组。

    • 当渠道选择第三方平台时,点击加号图标,选择上面配置好的飞书第三方推送。channel1

      然后点击第三方推送后的下拉箭头,选择上面配置好的第三方推送类型的通知内容模板。channel2

  5. 点击保存,完成配置。

步骤三:查看告警详情

当监测的业务系统下有应用的响应时间、每分钟错误数、错误率、吞吐率超过基线阈值时,智能告警系统就会给步骤二中配置的接收人、接收组或第三方平台发送告警信息。下图仅作示例:

邮件

alarm7

短信

alarm2

飞书

alarm5

收到告警信息后,相关责任人可登录悟空平台,在左侧导航栏中选择智能告警>警报,进入警报列表页面查看警报详情。点击目标告警条目的事件描述,查看告警的具体信息,接下来就可以有针对性的进行排查和解决问题了。

alarm4

results matching ""

    No results matching ""