故障

将事件关联聚合在一起,最后形成的称之为故障。智能故障管理系统围绕着故障做全生命周期管理,包括故障产生、故障处理、故障关闭。

在左侧导航栏中选择故障,进入故障列表页面。

image-20200721181453125

  • 默认显示打开状态的故障,用户可以切换页签查看其他状态的故障。

    • 打开:故障持续中,需要进行处理。触发方式:故障产生后没有命中响应策略,并且没有解决,且没有被静默。

    • 已分配:故障已经有指定的负责人,但还未开始处理。触发方式:手动分配或命中响应策略,但通知失败。

    • 处理中:故障已经有指定的负责人,并已经知晓故障。触发方式:命中响应策略,并成功通知。

    • 解除:故障已经解除,但仍有可能重新打开。触发方式:产生解除事件,自动更新状态。或达到最大解除时间,自动生成解除事件。

    • 关闭:故障已经关闭,不会再有新事件加入。触发方式:手动关闭、或在最后一个告警解除后一定时间内(默认2小时)没有新的告警产生。

    • 静默:故障不会被通知。触发方式:手动静默或命中维护计划。

    • 全部:所有故障的合集。

  • 故障ID列:“合并”代表该故障是通过“故障合并操作”而形成的。“规则”代表该故障是命中收敛规则而收敛成的故障。“AI”代表是该故障是通过算法收敛的故障。
  • 故障描述列:带颜色的方形图标代表M个事件被压缩成N个警报。白色方形图标中内容代表故障优先级,具体级别含义请参见故障优先级
  • 单击页面左上角的导出按钮可以导出故障列表内容为Excel。如果需要选择部分内容导出,可以先选择具体的故障然后再导出,支持翻页选择。

故障搜索

在故障列表页面上方单击搜索框,将弹出搜索页面。分为三种搜索模式:基础筛选、K-V筛选和特征筛选。

基础筛选

基础筛选是根据故障进行筛选,用户可以按照来源故障ID故障优先级告警状态故障描述包含警报数量有无根因推荐合并的故障拆分的故障进行故障筛选。

search1

筛选结果示例如下:

search2

K-V筛选

K-V筛选是根据警报对故障进行筛选,选择来源K-V键值对进行筛选,并支持通过多个K-V键值对进行筛选。

search3

筛选结果展示故障信息以及符合筛选条件的警报。示例如下:

search4

特征筛选

特征筛选是根据故障进行筛选,可选择根据拓扑关系特征聚合根据AI增强规则聚合进行筛选。

search5

  • 根据拓扑关系特征聚合:故障包含拓扑关系,因此可以通过拓扑关系筛选。 拓扑关系条件筛选:在下拉菜单中选择拓扑关系进行精确搜索,默认按全部进行筛选。

    search6

  • 根据AI增强规则聚合:故障通过AI增强生成的情况下,可以通过AI增强规则筛选。

故障详情

上半部分展示对该故障的总体描述。包括影响指标、对象、关键词,故障处理状态步骤图和收敛说明。在右上角的优先级下拉菜单中,可以对故障进行手动定级。

下半部分包括决策参考警报拓扑关联的变更活动处理反馈页签。

  • 决策参考:展示根因推荐和相似故障推荐。具体介绍请参见决策参考。

  • 警报:按照时间轴展示警报alert和事件event。

    • 该时间轴可以拖动。左侧展示严重警告解除提醒状态的警报。支持根据警报的描述搜索警报。

    • 时间轴下方的圆点:不同颜色代表不同的告警事件状态。红色:严重告警,黄色:警告告警,绿色:告警解除。将鼠标悬浮到圆点上方,下方会展示该事件的详情。

    • 点击左侧区域的“向右箭头”,会以列表的形式展示警报信息。如果触发警报的是来自Tingyun Alert的指标,指标一列会显示蓝色字体。单击指标名称,可跳转到相应的基调听云其他产品页面,用户可继续查看详情。

      image-20200721182921095

  • 关联的变更:展示与此次故障可能相关的变更操作。具体介绍请参见关联的变更

  • 拓扑:点击拓扑页签可以查看故障中应用到的拓扑关系。

  • 活动:点击活动页签可以查看故障的详细活动记录。

    image-20200721182829865

  • 处理反馈:单击右上角的填写反馈,进入编辑页面。输入标题和正文,可添加附件(单文件最大100M),完成后单击右上角的保存可完成反馈。单击右上角的“…”,选择知识归档,该反馈将会被永久归档,不可再编辑。单击右上角的“…”,选择下载,可将反馈内容以Word或者PDF形式下载到本地。

AI可解释性

告警收敛主要是通过AI算法自动将相关的告警事件关联在一起的,系统可将AI算法关联的逻辑直观地展示出来,便于用户理解。

  1. 在左侧导航栏中选择故障,进入故障列表页面。

  2. 在故障列表中单击目标故障,进入故障详情页面。

  3. 在页面的上方单击收敛说明页签,下方展示故障概述及可解释性特征属性图。

ai

特征属性图

特征相关系数是指两组数据之间的正向相关程度,即相似度。特征相关系数范围为0.5~1,默认为0.7,可自行调整,特征(例如指标、主机)相似度大于等于该值的两个警报会有连线展示在特征属性图中。在特征相关系数满足的前提下,算法会提取出故障聚合的贡献度排名前4的属性。

每个属性图中展示该属性的贡献度占比。外圈的数字代表当前故障收敛的每一个警报,每段圆弧的长度是相同的。

特征属性图的展示形式分以下三种情况:

  • 警报数量小于30时,展示弧长图。

    • 弧长图中每个结点对应故障中的每个警报,结点越大代表警报在此故障中的总体相似度越大。

    • 弧长图中两两之间的连线有粗细之分,连线越粗代表警报与其他警报相似度越高。连线共有6种,分别为语义特征、共现特征、AI增强、水平拓扑、垂直拓扑和网络拓扑。

      • 语义特征:算法对某一属性值根据文本相似度提取的关键字来计算相似度。
      • 共现特征:算法对某一属性值历史上共同出现的次数来计算相似度,仅展示近一个月的共现次数。
      • AI 增强:可看到是通过什么规则将警报聚合在一起的。
      • 水平拓扑:说明警报之间存在服务和服务之间的调用关系。
      • 垂直拓扑:说明警报之间的依赖和部署关系。
      • 网络拓扑:说明警报之间的网络链路连接关系。
    • 每个特征属性图右上角均有放大图标,可放大展示。

      ai2

      img

    • 将鼠标悬浮在弧长图中结点或连接线上,或者选中时,可查看两个警报间具体的特征相关系数等信息。

  • 30<警报数量<50时,默认缩小时展示弧长图展,放大时展示扇形图。

    ai4

    ai5

  • 警报数量大于50时,展示扇形图。

    ai6

    • 扇形图中每一个扇形面积对应故障中的每一个警报。颜色深浅代表在某一属性下该警报的整体相似度得分。
    • 扇形图可以按照图例进行切换展示。单击图例,当前图例的内容将不再展示,再次单击,可恢复展示。图例共有6种,分别为语义特征、共现特征、AI增强、水平拓扑、垂直拓扑和网络拓扑。
      • 语义特征:算法对某一属性值根据文本相似度提取的关键字来计算相似度。
      • 共现特征:算法对某一属性值历史上共同出现的次数来计算相似度,仅展示近一个月的共现次数。
      • AI 增强:可看到是通过什么规则将警报聚合在一起的。
      • 水平拓扑:说明警报之间存在服务和服务之间的调用关系。
      • 垂直拓扑:说明警报之间的依赖和部署关系。
      • 网络拓扑:说明警报之间的网络链路连接关系。
    • 将鼠标悬浮在扇形图中扇形面积上,或者选中时,可查看两个警报间具体的特征相关系数等信息。

可解释性说明

查看某个警报收敛到故障的可解释性说明,请按照以下步骤进行操作。

  1. 在左侧导航栏中选择故障,进入故障列表页面。

  2. 单击目标故障,进入故障详情页面。

  3. 在页面下方的警报页签中,单击“向右箭头”,查看警报列表。

    ai7

  4. 在警报列表勾选某个警报(最多只可以选择2个),单击左上角可解释说明按钮,即可查看说明内容。

    ai8

根因推荐

用户可以通过北冥对故障的根因推荐迅速度定位问题所在。

  • 在警报列表的根因推荐列能够查看每一条告警是根因的概率。

  • 根据人工经验,如果用户能判断一条告警是否为根因,则可以在根因推荐字段下进行标注。img图标代表根因正确,x代表根因错误。

说明:算法会自动学习标注后的根因,用作后续的根因分析。

故障拆分

当用户认为故障收敛的不准确时,可以通过故障拆分将告警放入正确的故障中,并且算法将会学习到这个动作,在之后的收敛中避免收敛错误。

  1. 在左侧导航栏中选择故障,进入故障列表页面。

  2. 在故障列表中点击目标故障,进入故障详情页面。

  3. 警报页签中,点击“向右箭头”,查看警报列表。

  4. 选中多个警报条目,点击列表右上角的拆分按钮,弹出故障拆分窗口。image-20200721182921095image-20200721183300109

    拆分动作包括两个动作:

    • 拆分到新故障:把选中的alerts拆分到一个新的故障中,即新生产一个故障。

    • 拆分到已有的故障:

      • 支持按照故障ID进行搜索。搜索到目标故障ID后,选择后点击拆分,则会把这些警报合并到该故障中。
      • 合并后的故障详情中,没有提示。
  5. 点击确定,完成拆分。

决策参考

智能化运维是对大数据进行挖掘分析,然后运用AI算法给出决策支持,辅助用户快速完成决策。因此,当IT运维系统发生故障后,如果能快速帮助用户定位故障原因,并能结合历史数据找出过去相似的故障并查看故障解决方案,这样会大大缩短故障修复时间。

在故障详情页面中,系统会给出当前故障可能的根因,以及相似的故障信息。

  • 根因推荐列表中,系统会最多给出2个可能性最大的警报作为根因警报。用户可以对根因警报进行反馈,单击“√”,代表根因推荐正确。单击“×”代表根因推荐不正确。

  • 相似故障列表中,系统最多推荐出3个与此故障相似的历史故障。用户可以单击“故障ID”查看两者之间的相似之处,查找之前相似故障的修复方案,作为参考。对于部分故障,系统会给出修复建议,用户可以单击“完成”图标快速查看之前的修复方案。

reference

关联的变更

  • 在列表上方,用户可设置故障开始前的时间范围,结合变更搜索条件,来查找相应的变更事件记录。

  • 根因变更一列,会显示不是疑似匹配。系统会根据历史数据及用户反馈,给出不是根因或疑似根因的推荐。对于显示匹配的,需要用户手动选择进行明确反馈。用户通过反馈告诉AI,AI学习后下次会关联推荐的更准确。

reference

© 2007-2022 北京基调网络股份有限公司 all right reserved,powered by Gitbook本文档更新于: 2022-05-27 17:04

results matching ""

    No results matching ""