频发设置
监控对象的一些小的波动往往会产生很多不必要的告警事件,频繁的报警形成了警报噪音,让客户很苦恼。频发事件检测功能可以针对持续时间短、严重程度未持续增加的事件进行抑制,仅在严重程度增加的时候告警,避免频繁报警。该功能在一周内自动检测出频繁发生事件的监控对象。如果同一监控对象发生的升级事件在一天或者一周内被多次检测到,并且没有恶化,告警事件会自动转换为频发事件。一旦它被归类为频发的事件,(监控对象+规则+指标)警报将不会发送通知。如果频发事件恶化了,系统会再次发送警报通知。
频发事件的定义
系统在24小时、7天中对一个告警对象所在告警规则中的指标产生事件的持续时长、严重程度进行审查,当审查结果满足以下任何一个条件时,触发的新事件即被定义为频发事件。审查规则如下:
过去24小时的事件
- 比新事件更严重的事件个数大于等于3。
- 比新事件更严重的,历史事件的持续时长之和大于等于24小时的50%。
过去7天的事件
- 比新事件更严重的事件个数大于等于7。
- 比新事件更严重的,历史事件的持续时长之和大于等于7*24小时的30%。
频发事件的解析逻辑
频发事件的解析逻辑如下:
如果24小时参考集的大小等于或大于3,则条件解析为false。否则,解析为true。
如果24小时参考集的持续时间等于或大于24小时的50%(即12小时,或720分钟),则条件解析为false。否则,解析为true。
如果7天参考集的大小等于或大于7,则条件解析为false。否则,解析为true。
如果7天参考集的持续时间等于或大于7天的30%(即50.4小时),则条件解析为false。否则,解析为true。
如果至少有一个条件被解析为false,则事件被归类为false,即判定为频发事件。否则,新事件被归类为true,并触发警报。
举例
下面以过去24 小时的事件为例进行说明。事件会分别按照持续时间和严重程度进行排序。
持续时间(从短到长)
严重程度(从低到高)
当新事件到达时,它会插入到持续时间和严重程度的排序集中。本例中新事件持续时间为28分钟,严重程度是95%。排序如下:
分别从持续时间和严重程度的排序集中,创建一个子集(由新事件右侧的事件组成)。然后创建一个参考集,由持续时间、严重程度两个子集中都显示的事件组成,即两个子集的交集。结果如下:
参考集的大小为参考集中的事件数量。本例中参考集的集合大小是4,因此条件解析为false。
参考集的持续时间为参考集中事件持续时间的总和。本例中参考集持续时长:30+35+45+60=170<720(24小时的50%),单位为分钟,因此条件解析为true。
上述事件会被判定为频发事件,不会触发警报。
7天参考集计算同上,历史事件取过去7天触发过的事件。