警报

基调听云Network提供警报通知功能,用户可以根据现有任务的需要,灵活制定警报策略,支持性能警报、错误警报和智能警报三种警报方式。系统可以分别根据性能、错误、可用性进行触发,警报系统会发送邮件和短信进行通知。智能警报基于机器学习原理,免去了复杂的阈值配置工作,并通过长期的学习过程,根据用户进行的反馈逐渐契合用户对的警报的认知。

性能警报

为监测任务设置多种性能指标及可用性报警,当监测任务的这些性能指标项的性能值或可用性超过了设置的阈值时,系统会发送邮件和短信进行报警,并生成警报日志。

性能警报功能提供静态警报和动态警报,系统管理员可以根据自身网站的情况,灵活配置警报。

  • 静态警报是直接设置一个静态的性能值和一个静态的可用性值,设置警报触发的条件,同时满足触发或满足条件之一触发。

  • 由于有些网站的内容或其它是随时变化的,如果用静态警报会不够灵活。动态警报最大的不同是可以基于一个警报的基础上动态变化,系统管理员可以指定一个计算周期,在此计算周期上警报可以灵活的变化。

创建性能警报

新建性能警报规则,请按照以下步骤进行操作:

  1. 在上方菜单栏中单击警报,然后在左侧导航栏中选择警报配置,进入警报规则页面。

  2. 单击右上角的新建警报按钮,进入性能警报配置页面。

  3. 配置基本信息、警报条件、警报规则和警报通知。

  4. 单击确定按钮,完成警报规则配置。

新创建的性能警报规则将展示在性能警报规则列表中。

基本信息描述

  • 选择监测任务:选择需要报警的监测任务,可选择多个监测任务,但必须是相同类型。当选择了多个监测任务时,系统会为每个任务生成一个警报。
  • 警报名称:为该警报设置名称。

警报条件描述

  • 性能阈值:

    包含以下几项:

    • 性能指标:此为可选项,勾选此项时可进行性能报警;未选中此项时则不能进行性能报警,当只需要可用性报警时可不选此项。

    • 性能指标项:选择不同类型的监测任务时供选的性能指标项各不相同。

    • 静态阈值及动态阈值:选中静态阈值时,系统使用所录入的阈值做判断;选中动态阈值则需要由系统计算出一个阈值(其值为对所选任务的性能值按指定计算周期统计出的平均值),再在此值的基础上加上所录入的阈值为最终阈值,支持两种上浮计算方法,包括(基准值+上浮值)或(基准值+上浮百分比)。

    • 普通警报和严重警报阈值:警报阈值不允许为空,严重警报阈值需要大于或等于普通警报阈值,同时满足时仅触发严重警报。

    • 计算周期:当选择了动态阈值选项时,此项可选,用于系统计算动态阈值时的周期,在警报有效期内该值将滚动计算;有四个选项;上一天,计算上一天该项性能指标的平均性能;上周当天,计算上周当天该项性能指标的平均性能;上周,计算上一周的该项性能指标平均性能;上月,计算上一月的该项性能指标平均性能。

  • 可用性阈值:可选项,当选择此项时该警报可进行可用性报警。解除上浮百分比。可用性严重警报阈值需要小于或等于普通警报阈值,同时满足时仅触发严重警报。

  • 排除部分错误:支持可用性计算时排除部分错误类型,如果按元素域名分组时不支持该选项。

  • 触发条件:当性能警报及可用性警报两个选项均选时,需要选择此项。包括两个选项,性能指标和可用性满足一项即触发警报、性能指标和可用性同时满足时才触发警报。

警报规则描述

  • 统计方式:计算取样数据的方式。包括平均值和分位值两种,分位值支持自定义。
  • 取样间隔:计算取样数据时的时间范围,注意与系统处理警报周期的区别,系统处理警报是每5分钟一次,而每次针对每一条警报要计算多长时间范围内的数据则依据此项的设置。该配置会影响警报的准确性和灵敏度。
    • 固定间隔:例如,系统在9点钟时进行了一次警报计算,如果此项设为了1小时,则在计算本条警报时将取8:00-9:00之间的监测数据。
    • 动态间隔:当前任务监测频率。
  • 警报持续时间:设定警报持续时长,达到该时长警报才会被触发。为了调高警报的准确性,会牺牲一些警报的灵敏度。
  • 触发最小样本:此项值的设置是为了防止取样数据点数太少而出现统计不准确的情况发生;在计算警报时每次取样的数据点数如果小于此项设置,则不会处理。假设为5,那么在采样周期内收集到的数据点少于5则不计算警报,只有高于5的情况下才进行警报计算。该配置会影响警报的准确性和灵敏度。如果在分组选项中选择了按城市分组,则会按每个城市的分组后的取样数据点数来进行判断,因此选择了按城市分组后,此项应考虑尽量小一些。
  • 触发最小错误样本:该配置只针对可用性触发警报时生效。
  • 最多警报次数:报警在连续发生时,需要发送警报通知的最大次数,系统对每一次连续发生的警报会计算累计发送的次数,当等于此处设置的值时不再发送警报,直到正常后再次发生报警时会重新开始计算发送次数并发送警报。
  • 警报取样分组:分组指的是按某种方式对取样数据进行分类,然后分别统计这些取样数据;如选无,则不进行分组;选按城市,则按城市进行分组,取样数据在计算时会按所选的城市分成若干个数据集分别进行处理,其他选项类推。
  • 运营商过滤:设定警报取样需要过滤的运营商,只有监测点是来自于所选运营商的监测数据才会参与警报计算。
  • 城市过滤:设定警报取样需要过滤的城市,只有监测点是来自于所选城市的监测数据才会参与警报计算。
  • 警报语言:选择发出警报时,警报信息所用的语言。支持中文和英文。

警报通知描述

  • 警报通知联系人组:选择发生警报时,警报信息发送给哪些联系人组。单击查看,可了解该组中有哪些成员。配置联系人和联系人组,可单击选择框右侧的新建通讯录,到用户中心配置通讯录及分组。

  • 接收短信模式:分为纯文字警报或包含警报链接的短信,警报链接支持跳转到警报详情页。默认选择包含警报链接。

  • 是否发送恢复通知:警报恢复后是否发送邮件、短信恢复通知。

管理性能警报

  • 性能警报规则支持通过监测任务类型、警报状态、警报名称和任务名称搜索。

  • 操作列,单击查看,可查看规则配置详情。

  • 操作列,单击复制,可创建一个与原有警报规则相同的规则,用户可以对配置项进行修改,形成一个新的性能警报规则,这样可以提高警报规则配置效率。

  • 操作列,单击编辑,可对警报规则进行修改。

  • 操作列,单击删除,可删除当前警报规则。

  • 操作列,单击禁用启用,可禁用或启用当前警报规则。

  • 勾选多个警报规则后,单击页面左上方的启用,可批量启用警报规则;单击禁用,可批量禁用警报规则;单击删除,可批量删除警报规则。

  • 单击性能指标阈值列和可用性阈值列后的图标,可调整性能警报规则的排列顺序。性能指标阈值是性能指标严重警报的阈值,可用性阈值是可用性严重警报的阈值。

错误警报

系统管理员可为监测任务设置发生错误时报警,可选择一个或多个错误作为警报触发条件。当监测任务发生这些错误时,触发警报并生成警报日志。

创建错误警报

新建错误警报规则,请按照以下步骤进行操作:

  1. 在上方菜单栏中单击警报,然后在左侧导航栏中选择警报配置,在页面上方单击错误警报页签,进入错误警报规则页面。

  2. 单击右上角的新建警报按钮,进入错误警报配置页面。

  3. 配置基本信息、警报条件、警报规则和警报通知。

  4. 单击确定按钮,完成警报规则配置。

新创建的错误警报规则将展示在错误警报规则列表中。

基本信息描述

  • 选择监测任务:选择需要报警的监测任务,可选择多个监测任务,但必须是相同类型。当选择了多个监测任务时,系统会为每个任务生成一个警报。

  • 警报名称:为该警报设置名称。

警报条件描述

  • 选择错误类型:选择需要警报的错误类型,可选择一个或多个。

  • 错误阈值:需要设置普通警报阈值和严重警报阈值。

    • 错误数量:发生错误时的错误数量,只有错误数量大于等于此项设置值时才触发警报。

    • 错误百分比:发生错误的数据占所有数据的百分比,只有大于等于此项设置值时才触发警报。

  • 解除上浮百分比:警报支持上浮解除百分比,可以有效减少任务性能在警报阈值附近反复波动造成频繁告警。例如:90%可用性阈值,上浮百分比为10%,那么触发警报是90%,解除警报阈值是:90%+(90%*10%)=99%。

警报规则描述

  • 取样间隔:计算取样数据时的时间范围,注意与系统处理警报周期的区别,系统处理警报是每5分钟一次,而每次针对每一条警报要计算多长时间范围内的数据则依据此项的设置。该配置会影响警报的准确性和灵敏度。

    • 固定间隔:例如,系统在9点钟时进行了一次警报计算,如果此项设为了1小时,则在计算本条警报时将取8:00-9:00之间的监测数据。

    • 动态间隔:动态间隔主要是根据任务的频率来进行设置倍率的动态调整,目前调整范围是1~10倍。

  • 最多警报次数:报警在连续发生时,需要发送警报通知的最大次数,系统对每一次连续发生的警报会计算累计发送的次数,当等于此处设置的值时不再发送警报,直到正常后再次发生报警时会重新开始计算发送次数并发送警报。

  • 运营商过滤:设定警报取样需要过滤的运营商,只有监测点是来自于所选运营商的监测数据才会参与警报计算。

  • 城市过滤:设定警报取样需要过滤的城市,只有监测点是来自于所选城市的监测数据才会参与警报计算。

  • 警报语言:选择发出警报时,警报信息所用的语言。支持中文和英文。

警报通知描述

  • 警报通知联系人组:选择发生警报时,警报信息发送给哪些联系人组。单击查看,可了解该组中有哪些成员。配置联系人和联系人组,可单击选择框右侧的新建通讯录,到用户中心配置通讯录及分组。

  • 接收短信模式:分为纯文字警报或包含警报链接的短信,警报链接支持跳转到警报详情页。默认选择包含警报链接。

  • 是否发送恢复通知:警报恢复后是否发送邮件、短信恢复通知。

管理错误警报

请参见管理性能警报。

智能警报

智能警报采用了基于时间序列预测的异常检测及智能报警算法。

  • 基于时间序列预测的异常检测算法

    基于数据模型的统计学方法是最广泛的异常检测技术,它的基本原则是:针对训练数据集(通常是正常样例)进行统计学的建模,如果某个数据样例不符合训练所得的随机模型,则被判别为异常样例。数据样例不符合随机模型是指样例不太可能由该模型所生成,一般通过统计检验的方式来确定,基于以下假定:正常的数据样例发生在统计学随机模型的高概率区域,而异常的数据样例发生在模型的低概率区域。也就是说,我们基于检验统计量可得到未知数据样例由已知模型生成的概率,如果概率小于某个预定的标准,则认为该样例是异常。

  • 基于机器学习的智能报警算法

    通过基于时间序列预测的异常检测算法,我们可以让报警系统自动地、比较准确地完成故障检测及报警的工作,从而大大地较少繁重的手工设定各个性能指标报警阈值及人工管理的任务,达到故障检测自动化和智能化的目的。

创建智能警报

新建智能警报规则,请按照以下步骤进行操作:

  1. 在上方菜单栏中单击警报,然后在左侧导航栏中选择警报配置,在页面上方单击智能警报页签,进入智能警报规则页面。

  2. 单击右上角的新建警报按钮,进入智能警报配置页面。

  3. 配置基本信息、警报条件、警报规则和警报通知。

  4. 单击确定按钮,完成警报规则配置。

新创建的智能警报规则将展示在智能警报规则列表中。

基本信息描述

  • 选择监测任务:选择需要报警的监测任务,可选择多个监测任务,但必须是相同类型。当选择了多个监测任务时,系统会为每个任务生成一个警报。

  • 警报名称:为该警报设置名称。

警报条件描述

  • 性能指标:选择不同类型的监测任务时供选的性能指标项各不相同。

警报规则描述

  • 取样间隔:计算取样数据时的时间范围,注意与系统处理警报周期的区别,系统处理警报是每5分钟一次,而每次针对每一条警报要计算多长时间范围内的数据则依据此项的设置。例如,系统在9点钟时进行了一次警报计算,如果此项设为了1小时,则在计算本条警报时将取8:00-9:00之间的监测数据。

  • 最多警报次数:报警在连续发生时,需要发送警报通知的最大次数,系统对每一次连续发生的警报会计算累计发送的次数,当等于此处设置的值时不再发送警报,直到正常后再次发生报警时会重新开始计算发送次数并发送警报。

  • 警报语言:选择发出警报时,警报信息所用的语言。支持中文和英文。

警报通知描述

  • 警报通知联系人组:选择发生警报时,警报信息发送给哪些联系人组。单击查看,可了解该组中有哪些成员。配置联系人和联系人组,可单击选择框右侧的新建通讯录,到用户中心配置通讯录及分组。

  • 接收短信模式:分为纯文字警报或包含警报链接的短信,警报链接支持跳转到警报详情页。默认选择包含警报链接。

  • 是否发送恢复通知:警报恢复后是否发送邮件、短信恢复通知。

管理智能警报

请参见管理性能警报。

警报日志

通过警报日志可查看到警报发生时的具体信息,包括性能警报日志、错误警报日志和智能警报日志。

查询警报日志的条件:

  • 警报类型:选择要查看的警报日志的警报类型,包括全部、性能警报、错误警报和智能警报。

  • 监测类型:监测任务的类型。可以过滤固网或移动网络不同类型任务的警报。

  • 警报状态:包括全部、警报中和警报解除。

  • 开始时间:指定时间内的警报信息。默认查看最近一天。

  • 快速检索:通过输入警报名称或任务名称查询警报日志。支持模糊搜索。

  • 上次警报状态:通过上次警报发生的级别来查询,可选择全部、普通警报和严重警报。

警报日志列表字段说明:

  • 警报名称:展示该警报配置的名称。

  • 警报类型:性能警报、错误警报或智能警报。

  • 任务名称:展示监测任务名称。

  • 监测类型:展示监测任务类型。

  • 开始时间:展示警报触发时间点。

  • 结束时间:展示警报解除时间点,空白表示该警报仍未结束。

  • 警报数量:展示已触发的警报数量。

  • 持续时间:展示从警报触发至警报解除消耗的时间。

  • 警报状态:展示当前警报状态。

单击页面右上角的添加到大屏按钮,可将警报日志列表添加到大屏组件中。

单击操作列的查看,可查看警报详情,包括警报概览、警报时间轴、性能散点图、监测点的访问记录。

  • 警报概览:包括警报名称、报警类型、任务名称、任务类型、警报状态、警报持续时间、分组方式。

  • 警报时间轴:表示警报触发的过程,从左到右按顺序显示,包括普通警报(橙色)、严重警报(红色)、警报解除(绿色),选中时间轴中某个节点后下方散点图数据随之刷新,展示该时间段内监测数据。

  • 警报详细数据:以散点数据展示当前警报周期内监测数据。

警报推送

Network产品和平台都支持警报推送。平台的推送格式较为固定,且不宜修改。Network产品自己的警报推送分为两种:HTTP推送和UDP推送。一般情况下是使用Network的HTTP推送。

HTTP警报推送模板

越来越多的客户开始使用统一的信息接入平台,来对接第三方服务厂商推送过来的信息,例如警报信息。Network产品实现了模板化的警报推送方式,可以将标准的警报字段按客户需求拼接成所需格式,来满足客户对警报信息的多样化需求。

使用流程

  1. 在Network控制台创建监测任务。

  2. 客户在平台上配置警报。

  3. 客户需要配置基调听云的服务器白名单。

    106.75.114.38、106.75.25.50、106.75.108.179
    
  1. 客户提供具体的服务推送地址(把警报信息推送到那里)。

  2. 客户提供告警推送的模板格式(或者是客户接入内容的文档)。

  3. 基调听云研发人员根据客户需求定制推送服务。

支持的字段

目前仅支持以下字段拼接模板,不支持额外字段的开发。

JSON参数 类型 说明
user_name string 账号名称。
task_name string 任务名称。
task_url string 任务地址。
alarm_id int 警报ID。
item_seq int 警报周期序列。
alarm_type int 警报类型。(0:性能警报,1:错误警报,3:智能告警)
alarm_name string 警报名称。
alarm_status string 警报状态。包括警报和正常两种状态。
alarm_status_detail string ("警报","严重警报","正常")
alarm_time string 警报取样时段。
point_total string 取样的监测点数。
perf string 设定的性能指标(性能警报和智能告警才有描述)。
avail string 可用性(性能警报和智能告警才有描述)。
pointError string 点数错误描述(错误警报才会有描述)。
errorPercent string 错误占比描述(错误警报才会有描述)。
triggerOn string 警报触发原因。</br> 性能警报:</br>性能指标及可用性均触发了警告;</br>可用性触发了警告;</br>当性能和可用性越过设定的警告阈值时触发警告;</br>警报解除。</br>错误警报:</br>错误监测点数超过了阈值;</br>错误监测百分比超过了阈值;</br>警报解除。
alarmPoints 散点数据集(集合)。
tmBase string 监测时间。
probeIp string 监测点IP。
city string 监测城市。
isp string 监测运营商。
performance string 性能数值(性能警报和智能告警才有值)。
compDesc string 性能指标名称。
compUnit string 性能单位。
destIp string 主机IP。
destCity string 主机城市。
destIsp string 主机运营商。
errorDesc string 错误描述。
domainUrl string 监测域名(仅仅在域名警报才会有数据)。

请求参数/返回参数/错误代码

内容描述 客户根据自己业务系统,自定义JSON数据结构,请求参数客户定义。
交互规则 HTTP 推送

拼接示例

所需要的字段,应当使用${}来标识。

{
 "rule_id":"${alarm_id}",
 "state":<#if status = 1||status = 2>"open"<#else>"close"</#if>,
"title":"${alarm_name}",
  "content":"警报名称:${alarm_name}告警数据取样时间:${alarm_time}${triggerOn}<#if >${perf}${avail}</#if><#if >${point_total}${pointError}${errorPercent}</#if>"
}

结果示例如下:

{
"rule_id": "19,790",
"state": "open",
"title": "任务_错误警报推送",
"content": "您在基调听云监测平台配置的监测任务:错误警报推送,由于错误监测点数超过了阈值..........."
}
© 2007-2023 北京基调网络股份有限公司 all right reserved,powered by Gitbook本文档更新于: 2022-08-23 11:07

results matching ""

    No results matching ""